CN1048341C - 模糊汉字变换装置 - Google Patents
模糊汉字变换装置 Download PDFInfo
- Publication number
- CN1048341C CN1048341C CN93105336A CN93105336A CN1048341C CN 1048341 C CN1048341 C CN 1048341C CN 93105336 A CN93105336 A CN 93105336A CN 93105336 A CN93105336 A CN 93105336A CN 1048341 C CN1048341 C CN 1048341C
- Authority
- CN
- China
- Prior art keywords
- word
- phonemic notation
- sequence
- fuzzy
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种对于字音类似的汉字序列进行有效的模糊变换处理的中文文字处理机用模糊汉字变换装置。中文文字处理机中包括:对于含糊字音符号或其中字音符号可能为含糊字音符号的字音符号序列存储与这些相应字音符号序列的模糊辞书;指定含糊位置以及可能检出字数的模糊范围指定部;对于模糊范围指定部指定位置上相应的每个字音符号序列,从模糊辞书检出相应字音符号序列的模糊信息检出部;将模糊信息检出部检出的全部字音符号序列送到变换部,执行向与这些对应的汉字或字数在可能检出范围内的汉字序列变换的交换控制部;从靠变换控制部作用变换出的当中选择输入者所需的汉字序列的选择部。
Description
本发明涉及中文文字处理机,特别涉及处理输入含糊字音的汉字变换装置。
中文原则上一个汉字与一个字音对应。字音由声母、韵母以及声调构成,而韵母细分为介音和主韵母,因而最终是由声母+介音+主韵母+声调的组合构成的。另外对于声母、介音,原先稍大一些的汉和辞典中也记载着中国话的入门书,因而省略这些说明。又,在中文文字处理器中假如输入了表示这些字音的符号,一个汉字的读音就输入完毕了。这里,中文中的汉字(有“峠”等作为日本国字用而在中文不用的汉字,中文中与日文相同也有在文章中用汉字以外的文字和符号的情况,也有单词特别是固有名词的特殊情况、中文固有的简化字、假名汉字等,这里所称的“汉字”,严格来说不仅限于“日语中所称的汉字”。所谓的概念是以中文文章中的汉字为中心的文字、符号或文字序列、单词的,原则上都称为“汉字”。)读音符号由中国台湾所用的注音符号表示,主要如图6中所示,包含声母、介音、主韵母以及声调共计有四十二个。(另外,除此之外现在较常用的汉字读音符号有中国大陆的罗马拼音字母作为第二类注音符号)。本发明涉及一种由该注音符号(所说的“字音符号”的一种)表示全部读音的文字处理机。但中文发音由于国土辽阔、人口众多,而且生活环境和历史渊源大相径庭,因而常常有无法由汉字读音符号表达或不统一的情况。其原因在于不仅仅是单独使用的汉字种类多,说起来中国话本身也可大致分作北京话、广东话五种之多,还有这种原因,即不用说日本人就是马拉尔语族、阿尔泰语族人也难以听清L与R的音,或是日本语中有方言而且意义及其发音有较大差异。因而,例如卷舌声母“图7中所示的{外1}(由于电子信息处理系统,文字处理机输入都有限制,因而下面本说明书中所用的中文固有的外字、发音符号如“图7{外1}”、“图7{外2}”所记载的那样集中在图7中图示)由于发音类似,容易与不卷舌声母“图7{外2}”混淆,主韵母“图7{外3}”同样容易与“图7{外4}”混淆。因此必须进行模糊处理。以往汉字变换装置的模糊处理有台湾专利75105839中所记载的汉字变换装置。图5(a)是该装置的框图。图5(a)中,10是有指定表音文字以及辞书检索方式的辞书检索方式键的输入部,11是将可由输入部送来的表音文字序列变换为音节符号的音节符号变换部,12是将可由音节符号变换部11送来的音节符号按各变换单位适至下面说明的辞书检索部13,并由使用者选择由辞书检索部13送来的候补单词,而将判断为最终对应的候补单词送至输出部15的汉字变换部,13是根据可由输入部送来的辞书检索方式的指定而从下面说明的辞书14取出候补单词的辞书检索部,14是存储有各组用音节符号表示的中文单词读音和与该单词对应的汉字代码的辞书。
以下对上述构成的汉字变换装置内部处理中所用的音节符号加以说明。图5(b)中示出分别分配给各个声母、介音、主韵母、声调的位组合。这些位组合由2字节定义。
第1、第2字节其最初的位(bit0)都是0,结合韵母的位组合则由介音与主韵母的位组合的组合来表示。例如“图7{外5}”、“图7{外6}”、“图7{外7}”、“图7{外8}”等类似的同音韵成份的位组合间距离为1。即,忽略第1字节的bit5、bit7、等2字节的bit7就可将分别类似的声母、介音、主韵母视为相同。图5(a)中所示的是该以往例中的同音韵成份的位组合相距为1,并且容易混淆的24组音韵成份。输入者设定模糊变换的时候,在借助于检索方式键检索辞书时,忽略辞书中登记的单词读音各音节的第1字节的bit5、bit7、第2字节的bit7,检出相关模糊汉字系或相类模糊单词系。(但在程序编制上则不是忽略而是注意这些位)。例如,使用者想要输入“图7{外9}”时,若按下为忽略介音以及声调而设置的键时,就检出“图7{外10}”、“图7{外11}”等。
然而,上述已有技术的装置有以下问题。不过在冒然以中文为例具体说明该问题之前,先以容易理解的日文为例作概括的说明。日文中表示为“こぅ”假名的汉字有“考”、“公”、“皇”、“光”之多,表示为“こぅぁん”假名的单词也有“考案”、“公案”、“公安”等几个。还有称为“田”的汉字,是根据前后文字或汉字而有多种读音方式,例如“美田”发音为“てん”、“田”发音为“だ”、或是“田烟”发音为“た”等。还有相反情况,虽然种类少且使用频度也不太高,但如“ぢ”与“じ”那样,对于相同发音也有多个假名。
可是,这些毕竟还是音节文字的“假名”与表意文字的“汉字”的对应,而且在悠久的传统中被自然地给予对应,因而还容易处理。现在,用日文文字处理机例如用假名输入为“こぅ”时,在CRT上就顺序地或一起显示含有该音的汉字,通过选择输入者所需文字的办法顺利地处理。但是,要形成以实际话音状态作为基准的“音素文字”与“汉字”的对应关系就变得相当复杂。即;前述的“考”、“公”等由作为音素文字的字母通过英美式发音、拼读,因人而异而可能是时而为“KOU”,时而为“KOO”,而其他词、汉字也无法避免这种情况。例如“靴”,仅对该词发音时为“KUTSU”,而在“ぉぃ、靴を持って来ぃ。”等前后有语句时通常是发音为“KTSU”,“U音被省略。而且通常人是不会发觉的。至于如“云“与“蜘蛛”那样语调的不同,假使打听人们,大多数人对拼读指点(回答)都是犹豫的。而且该强调部分也随前后单词的不同而复杂地变化。
而且除此之外还有方言。为此,假如不用音节文字的“假名”,而是要以实际话音状态为基准使用作为音素文字的“字母”与语调,极正确地输入日文文章的话,即使在表示“东京”这类常用的地名时,也有‘TOOKYOO”、“TOUKYOU”、“TOKIO”之多,带来相当的困难。可是在中文中,就输入手段而言,由于不存在靠悠久传统自然给予对应的作为音节文字的“假名”,而且方言也有较大差异,而且所谓的语调(中文语调)起着重要的作用,因而不得不采用相应于前述发音符号与语调的注音符号,但除此之外还有所用的注音符号、汉字的种类都较多的情况,故文字处理机正确的汉字变换有很大困难。
以下,根据中文具体地说明。
第1问题点,由于仅仅是考虑图5(b)所示的单一含糊情况,假如是中文中字音多重近似情况、单一字音的话,则虽然不是含糊的,但因与其他字音的关系而变得含糊,而且这时因一对一关系而变为含糊时就无法处理未加限定的现象。例如,字音符号“图7{外12}”容易与“图7{外13}”混淆。但是“图7{外14}”与“图7{外15}”在已有例中不是相似音韵的,因而按已有的变换方式是无法进行模糊处理的。还有,例如字音符号“图7{外16}”容易与“图7{外17}”、“图7{外18}”、“图7{外19}”相混淆。但是按上述已有例中忽略对应位的方式,是无法同时进行模糊处理的。
第2问题点,由于根据音节符号的配置位置控制模糊变换方式,因而使用当中不方便。例如,特定使用者容易将字音符号“图7{外16}”与“图7{外19}”相混淆。已有的音节符号配置方式中没有设想到相离位置的字音有时变为不确定,有时出现不含糊字音的情况,而且使用者本人也无法通过设定其位置来应付。
由于上述2个问题点,故而可以说已有技术的模糊汉字变换装置其实用价值不见得高。
本发明正是鉴于以上问题,其目的在于提供一种可有效应付多重复杂的含糊情况的模糊汉字变换装置。
为达到上述目的,本发明第一方面的中文文字处理机具有输入字音符号的输入部;将所述输入部输入的字音符号或字音符号序列根据内置的辞书变换为具有该字音的汉字或汉字序列的变换部,作为模糊汉字变换装置,其特征在于包括:对于具有含糊字音符号或可能为含糊字音符号的字音符号的各字音符号序列,存储与这些相对应字音符号或字音符号序列的模糊辞书;对于所述变换部变换出的汉字或汉字序列,指定含糊位置以及可能检出字数的模糊范围指定部;对于所述模糊范围指定部所指定的含糊位置内的汉字或汉字序列相对应的各字音符号或字音符号序列,从所述模糊辞书检出与这些相对应的字音符号或字音符号序列的模糊信息检出部;在将所述模糊信息检出部检索出的全部相对应的字音符号或字音符号序列送到所述变换部的基础上,执行向与这些字音符号或字音符号序列相对应的汉字或所述模糊范围指定部所指定的可能检出范围内字数的汉字序列变换的变换控制部;按照所述变换控制部的作用而成为可从所述变换部变换出的汉字或汉字序列当中选择输入者所要的汉字或汉字序列的选择部。
本发明第二方面是第一方面所述的模糊汉字变换装置,其特征在于包括:替代所述模糊范围指定部,对于所述输入部输入的字音符号或字音符号序列指定含糊位置以及可能检出字数的字音符号用模糊范围指定部;替代所述模糊信息检出部,对于所述字音符号用模糊范围指定部指定的含糊位置内的各字音符号或字音符号序列,从所述模糊辞书检出与这些相对应的序音符号或字音符号组合的模糊信息检出部。
本发明第三方面是第一方面或第二方面所述的模糊汉字变换装置,其特征在于对于所述模糊范围指定部或字音符号用模糊范围指定部指定的字音符号或字音符号序列存在多个相对应的字音符号或字音符号序列,对于这类各字音符号或字音符号序列还存在多个有该音的汉字或汉字序列时,所述选择部具有让输入者第一阶段可选择相应的字音符号或字音符号序列,第二阶段可选择与第一阶段中所选择出的字音符号或字音符号序列相应的汉字或汉字序列的功能。
本发明第四方面是第一方面或第二方面或第三方面所述的模糊汉字变换装置,其特征在于所述模糊信息检出部至少具有以下两项功能的其中之一,即从所述模糊范围指定部字音符号用模糊范围指定部指定的含糊位置相应的汉字或汉字序列所对应的字音符号或字音符号序列,或指定的字音符号或字音符号序列中消除不含糊因素的功能,和存在多个含糊字音符号或含糊字音符号序列的时候将它们按规定的顺序组合而将指定的含糊位置所对应的字音符号序列全部检出的功能。
按照上述构成,对于本发明第一方面,输入者输入若干中文文字字音符号后,变换部将输入的字音符号或字音符号序列作为索引,根据内置的辞书变换为具有该字音的汉字或汉字序列,具体来说为中文的单词。此时,由于字音类似,因而结果是输入的字音有误,进而变换出的汉字、汉字序列或单词并非输入者所需要的时候,输入者由模糊范围指定部输入含糊位置与可检出的字数。模糊辞书是对于其字音符号为含糊字音符号或可能为含糊字音符号的各字音符号序列,存储与它们相应的全部字音符号或字音符号序列。模糊信息检出部就模糊范围指定部所输入的含糊位置内的汉字或汉字序列所对应的各字音符号或字音符号序列,而从模糊辞书将与它们对应的全部字音符号或字音符号序列检出。变换控制部将模糊信息检出部检出的对应字音符号或字音符号序列送至变换部,并执行向它们所对应的汉字或所述模糊范围指定部指定的可检出范围内字数的汉字序列的变换。因此,选择部让输入者从这些含糊汉字或汉字序列选择所需要的汉字或汉字序列。
本发明第二方面,字音符号用模糊范围指定部对于所述输入部输入的字音符号或字音符号序列指定含糊位置以及可检出字数的。模糊信息检出部对于由所述字音符号用模糊范围指定部指定的含糊位置内的各字音符号或字音符号序列,从所述模糊辞书检出与它们对应的字音符号或字音符号序列。
本发明第三方面,对于所述模糊范围指定部或字音符号用模糊范围指定部指定的字音符号或字音符号序列存在多个对应的字音符号或字音符号序列,而且对于这些字音符号或字音符号序列每个都存在有该字音的汉字或汉字字序列时,输入者第一阶段可选择对应的字音符号或字音符号序列,第二阶段选择与第一阶段选择出的字音符号或字音符号序列相对应的汉字或汉字序列。
本发明第四方面,模糊信息检出部至少是发挥以下之一功能,即在所述模糊范围指定部或字音符号用模糊范围指定部指定出的含糊位置上的汉字或汉字序列所对应的字音符号或字音符号序列、或者指定出的字音符号或字音符号序列当中,若有不含糊的成份存在时则消除它,或者是有多个对应的含糊字音符号或含糊字音符号序列存在时,将这些按规定顺序组合将对应于指定出的含糊位置的字音符号序列全部检出。
图1是本发明第一方面的模糊汉字变换装置一实施例的方框图。
图2是表示上述实施例处理过程的流程图。
图3是上述实施例中模糊辞书的构成图。
图4(a)是上述实施例中模糊辞书的部分构成图。图4(b)是上述实施例中的含糊字音符号的组合。图4(c)是上述实施例中辞书的部分构造图。
图5(a)是已有技术的模糊汉字变换装置的方框图。图5(b)是表示已有例中相似音韵成份其位组合的图。图5(c)是表示已有例中中图注音符号相似读音符号组合的图。
图6是依据注音符号的中文读音符号表。
图7是一组说明书中所涉及到中文的外字。
图8是概略地表示本发明第二方面涉及的模糊汉字变换装置中CRT上的一例显示。
图9是概略地表示本发明第三方面涉及的模糊汉字变换装置中CRT上的一例显示。
根据实施例说明本发明之前,首先概略说明组装本发明模糊汉字变换装置的中文文字处理机。中文文字处理机由键盘、CRT、辞书、印字装置、软盘、微型计算机等组成,中文文章作者(输入者)通过微型计算机的作用从辞书检索具有与键盘输入的注音符号(下面在实施例中称为更宽的概念“字音符号”)相应发音的汉字或汉字序列(是多个汉字的意思,包含固有名词,并非限定为中文单词),并将它显示在CRT上。这时,存在多个与输入的字音符号相应的汉字或汉字序列,而CRT上显示出的汉字不是输入者所需的时候,根据输入者另外的指示,在CRT上一次性或顺序地显示其他汉字等。让输入者通过键盘的数字指定或光标来选择。因此基本组成与日文文字处理机并未有多少不同。
以下以本发明第一方面为主、本发明第四方面为辅,说明这两发明的模糊汉字变换装置。
本发明的模糊汉字变换装组装到该中文文字处理机中成为一体。故在注意两者关系的同时说明具体的主要构成和功能。
图1是该实施例的方框图。该图中,11是输入者输入字音符号的输入部,以CRT、键盘等为主要构成。12是将上述输入部11输入的字音符号或字音符号序列(是多个字音符号的意思,而且也未必限于对应于特定的汉字等)变换为具有该发音的汉字或汉字序列的变换部,以辞书等为主要构成。这里辞书是对应于字音符号或字音符号序列存储有该发音的汉字或汉字序列的。13则是具有未明确字音符号或可能是这样的字音符号的各字音符号列中存储与此对应字音符号或字音符号序列的模糊辞书,图3中示出其存储的数据。14是对CRT上显示的汉字所组成的中文文章,由输入者指定此位置所形成的模糊变换范围与作为模糊变换结果应检出的字数,藉此输入任意的应模糊变换的字音符号以及可检出字数的模糊范围指定部,以CRT、键盘等为主要构成。另外,这里将作为模糊变换结果而应检出的字数变成可指定的,是因为就中文文章中的某一部分文字而言多数情况是输入者所要输入的汉字序列字数是输入者本人知道的,因而是考虑过模糊信息检出部检出的高速化和输入者简化选择部操作的。15是根据从模糊范围指定部11输入的汉字或汉字序列的字音符号从模糊辞书检出对应的应模糊变换的字音符号或有该字音符号的字音符号序列的模糊信息检出部,以微型计算机等为主要构成。另外模糊范围的指定是对于汉字和汉字序列进行的,由于输入者的过错,因而在视作可产生含糊不清的字音符号序列当中,特别是其前部与后部有确定的字存在的情况。因此这时相应确定的字音符号通过从模糊辞书检出对象排除出去而达到高速化。16是对应于模糊信息检出部15所检出的字音符号或字音符号序列,在模糊范围指定部所指定的可能检出字数的范围内检出发此发音的汉字或汉字序列之后,使之变换为该汉字或汉字序列的变换控制部。另外在这种检出时,超过模糊范围指定部14指定的数值的汉字序列被排除在外。17是基于变换控制部16的作用,使变换部12检索、变换出的汉字或汉字序列与相应的字音符号或字音符号序列相对应存储在内置的缓冲存储器中,再使之显示在CRT的规定位置上,而让输入者选择所需要的汉字或汉字序列的选择部,以缓冲存储器、CRT、键盘等为主要构成。而且,该模糊变换的结果是从CRT上所显示出的汉字或汉字序列当中选择输入者所要的。另外输入者选择之后,就会根据该选择部17来的通知消去缓冲存储器中的存储内容,而且选择结果作为CRT上显示的输入当中的中文文章的一部分追加显示,并且存储到高速半导体存储器以及软盘所组成的中文文字处理机中的中文文章存储部(未图示)。因此,就硬件而言,本发明第一方面的模糊范围指定部需要的键盘与CRT,选择部需要的同样的键盘与CRT,选择部需要的同样的键盘与CRT,模糊辞书需要的含有辞书的存储装置,还包括本发明第四方面在内,模糊信息检出部和变换控制部需要的微型计算机,分别是中文文字处理机共同具有的。而且输入者的键操作,即对于该共同具有的键盘以规定的顺序进行的键操作也是共同的。而且这些操作所涉及的硬件、软件不仅是中文文字处理机,也是最普通的日文文字处理机中所采用的技术。例如模糊辞书的检出和变换部的变换,与日文文字处理机从输入的假名检出相应的汉字是相同的,模糊辞书与变换部的两阶段变换与不是假名而由字母输入所输入的字母输入自动变换成假名输入之后检出汉字是相同的。因此,省略此说明。
以下说明模糊辞书的构成。中文中汉字具有一个或多个字音。可是,中文字音从“图7{外20}”至“图7{外21}”按字音符号顺序有一千三百多种。这时,中文读音符号类似的情况大体表示在图5(c)中。对中文一千三百多种字音按字音类似的情况进行模糊分类。即,将某字音相类似的全部字音的符号当作相同的模糊字音符号。而且依据与相应字音发生含糊的可能性给予其模糊顺序。图3中所示的就是按这种方式构成的部分内容。其中,相应模糊字音组中是按照含糊可能性的大小配置字音符号顺序的,最前面的字音符号其含糊可能性最大。模糊信息检出部15就是根据这种分类情况,在对应于输入的字音符号进行模糊变换时,按相对应的可能性大的顺序,将与此对应的字音符号或字音符号序列取出。这时由对应于模糊范围所指定的全部汉字的字音符号模糊组使模糊性对应的字音符号组合,再检索辞书进行模糊变换。
以下参照图2所示的流程图说明该模糊汉字变换装置的动作。
由中文文字处理机的使用者即输入者从键盘输入字音符号(S1)。接下来进入相应中文文字的字音符号的变换处理,通过输入字音符号的组合,检索辞书变换为相应的汉字或汉字序列(S2)。由输入者判断变换结果是否是输入者所需要的(S3)。若变换结果判断为正是输入者所需要的时候,就返回到原来的状态而进行下一个键输入(S1)。若判断为有模糊范围指定部的输入,就进入模糊信息检出部的处理。对应于模糊范围指定部指定的含糊位置(检索模糊辞书时检索相应于指定位置汉字的字音符号)设定模糊变换区间,由相应变换区间中的汉字或汉字序列对应的、有模糊性的字音符号,使用模糊辞书组合全部可能的有含糊情况的字音符号或字音符号序列之后,检出与此对应的字音符号或字音符号序列(S5)。接下来,将检出的字音符号或字音符号序列送到变换部。变换部通过变换控制部按输入的字音符号或字音符号序列检索辞书,在模糊范围指定部所输入的检出文字数范围内变换为与此对应的汉字或汉字序列(S6)。选择部将变换结果按优先级顺序存储到缓冲存储器,再就是优先级最高的,是将所变换的汉字或汉字序列中最优先的送到CRT(S7)。输入者判断该显示结果是否是自己所要的(S8),若不是所需要的,就顺序显示下一个相应汉字或汉字序列直到显示的是所需要的(S9)。若正确显示输入者所要的汉字或汉字序列的话,输入者就通过选择部选择它,藉此将该汉字或汉字序列输入到中文文章中,并从缓冲存储器消去模糊变换结果(S10)。
以下用具体例说明该模糊汉字变换装置的上述作用。例如,输入者想输入“中国人”,将卷舌音“图7{外22}”当作“图7{外23}”而输入“图7{外24}”这类混淆的读音时,就无法正确变换为“中国人”。参照图2,以字音符号组合“图7{外24}”的输入为例说明本发明的动作。输入“图7{外24}”后,经过输入部的(S1)步骤与变换部的(S2)步骤,变换为“宗国人”。这不是输入者所要的汉字(S3)。因此输入者通过由模糊范围指定部指定(S4),进入模糊变换处理。此外,由模糊范围指定部另外指定输入的字音符号模糊变换检出的是三个汉字。
如图4(a)所示,与这三个汉字的字音符号对应的模糊字音符号序列是,“图7{外23}”的相应模糊字音组是“图7{外25}”,“图7{外26}”没有对应的模糊字音,“图7{外27}”的相应模糊字音是“图7{外28}”。通过以上模糊字音符号的组合,相应模糊变换区间中全部可能的模糊字音符号序列就如图4(b)(S5)。
而且上述各模糊字音符号的组合分别依靠变换控制部的作用与有关检出字数的信息一起送到变换部。图4(c)中示出相应于上述模糊字音符号组合辞书的内容。由变换部通过检索辞书,检出送来的字音符号中全部的单词。之后将这些单词全部送到选择部,并按优先级顺序存储到该缓冲存储器内。而且在CRT上显示最优先的汉字序列(S7)。例如,从上述模糊字音符号组合(1)~(6)中可检索到最前面(1)的“中国人”。万一这不是自己所要的结果时(S8),输入者就继续按选择部用的键(S9)。因此从缓冲存储器取出下一个模糊字音组合所对应的“尊国人”加以显示。仍然不是所要的结果。这时还是按选择用键(S9),在检索到第(6)号模糊音符号组合结束之前检索下一个相应的汉字或单词。最后可得到“中国人”,并将缓冲的所有模糊变换结果消除(S10)。然后,进行下一汉字的字音符号输入。
以下说明本发明第四方面。
本发明第二方面与本发明第一方面相比,差异只是模糊范围的指定不是对于汉字或汉字序列进行的而是对于字音符号或字音符号序列进行的。因此,本发明涉及的模糊汉字变换装置的构成、作用基本上与第一方面的相同。因而只对不相同的构成、作用、操作内容、效果加以说明。
由字音符号、字音符号序列,有时候输入者容易判明哪个字音符号或字音符号序列的输入是不正确的。这种情况,同针对错误显示的汉字或汉字序列来指定应模糊变换范围的相比,针对输入的字音符号进行的,检出更为迅速。本发明正是基于这种考虑。图8概略示意的是本发明模糊汉字变换装置中,显示在CRT上的中文文章,有误的字音符号序列以及针对该有误字音符号序列示于“{”、“}”内的模糊位置指定,根据有误字音符号序列变换出的汉字序列,以及作为可检出字数指定的整数“1”。本实施例中,写作输入中的中文文章下一个输入的汉字序列是三个字,由字音符号序列的模糊范围位置指定以及可能检出的字数,判明其中后二个字“国人”输入是正确的,因而CRT上以前的中文显示是在相应位置上显示“国人”。另外为了指定输入字音符号序列的模糊范围,有必要在CRT上显示该字音符号序列。这不仅在中文文字处理机,而且在最普通的日文文字处理机中,也是将显示汉字而输入的假名文字较小地显示在CRT下部,更何况是正确输入字音符号所必需的,不可缺少的,而且是公知技术,因而省略该内容的说明。
以下,说明本发明第三方面。本发明为了方便这种情况,即对于一个有模糊性的字音符号或字音符号序列有多个相应的字音符号或字音符号序列,而且这些相应的字音符号或字音符号序列每个又有多个可检出的汉字或汉字序列的情况,是本发明第一方面与第二方面的组合。又,模糊汉字变换装置特别是其模糊辞书毕竟是以一般的中国人为对象的,多少也还是以说上海话、广东话之类的为对象作成的。可是有时候因不同的使用者而出现判断有自己固有的或自己使用的中国方言固有的模糊性倾向。这种情况下,与根据按模糊性的相近顺序检索所作成的辞书进行顺序检索相比,就输入者而言,进行检索人工参与辅助的更为迅速。因此是进行这类辅助的装置。因此它基本上与终端机上广泛采用的菜单选择没有不同。但技术上由于极其容易,故省略硬件、软件的说明,仅说明其操作。
图9概略地示出的是本发明的模糊汉字变换装置中CRT上所显示的中文文章,以及对于该文章中汉字序列的模糊范围的指定,还有错误的字音符号序列以及与此相应的模糊辞书内6种字音符号序列的显示。输入者对中文文章中显示的“宗国人”用“{”、“}”指定模糊位置,如CRT右下所示由检出字数指定模糊范围。与此对应显示了作为模糊辞书内检出结果(1)~(6)的模糊字音符号序列。输入者从这显示结果起第1阶段选择(6)。另外,在此之后连续的操作就是,从辞书一次检出此选择的结果,相当于CRT上(6)字音符号序列的由三个字组成的全部汉字序列,并且显示,以此显示的汉字序列当中选择输入者所要输入的汉序序列的第二阶段选择操作。
以上虽然是根据实施例所作的说明,但本发明不是由上述实施例来限定的。即可以在不改变其实质的范围内适当地变形来实施。例如:
①模糊辞书中的字音符号不只是台湾所采用的注音符号,其他第二类注音符号如类似罗马字的拼音符号,只要可表示中文文字的字音符号,其他符号都是可以的。
②通过与模糊字音符号对应的字音符号的组合检索模糊辞书再由输入者选择的时候,不管是交互对话形式、还是一次性显示全部相应的模糊字音符号或汉字再由使用者选择自己所需汉字的方式。还是其内容,都不重要。
③对于汉字或汉字序列的模糊位置指定是不论输入当中的中文文章、CRT下部等这种位置、形态的。
④模糊范围指定部指定的可能检出的字数不是特定的整数值而是若干个字以上、若干个字以下、可若干个字以上几个字以下也都是可以的。没有可能检出字数的指示,而优先对可能检出、特别是与模糊范围设定的汉字序列的字数相同的汉字序列进行检索也是可以的。
⑤如日文文字处理机具有学习能力也可以
⑥模糊辞书的排列顺序也可以根据中文文字处理机的销售地,作合适的最佳的变更。或相应于中国方言可以由输入者加以选择。这种情况下,内置北京话用、上海话用等多种辞书,而利用菜单选择中的光标指定辞书也是可以的。
综上所述,按照本发明的模糊汉字变换装置,中文文字处理器进行汉字字音符号的模糊处理的时候,由于考虑复杂的含糊情况故可以较有弹性地与复杂的含糊情况对应,其实用性提高。
Claims (2)
1.一种模糊汉字变换装置,用于中文文字处理机,该文字处理机包括输入字音符号的输入部,将该输入部输入的字音符号或字音符号序列依据内置的辞书变换为有该字音的汉字或汉字序列的变换部,其特征在于模糊汉字变换装置包括:
对于每个字音符号或其中字音符号可能为含糊字音符号的字音符号序列,存储与这些相对应字音符号或字音符号序列的模糊辞书;
对于所述变换部变换出的汉字或汉字序列,指定含糊位置以及可能检出字数的模糊范围指定部;
对于每个与所述模糊范围指定部指定的含糊位置内的汉字或汉字序列相应的字音符号或字音符号序列,从所述模糊辞书检出与这些相对应的字音符号或字音符号序列的模糊信息检出部;
将所述模糊信息检出部检出的全部相对应字音符号或字音符号序列送到前述变换部,执行向这些字音符号或字音符号序列所对应的汉字或其字数在所述模糊范围指定部指定的可能检出的范围内的汉字序列变换的变换控制部;
可以从借助于所述变换控制部的作用而由所述变换部变换出的汉字或汉字序列当中,选择输入者所要的汉字或汉字序列的选择部。
2.一种模糊汉字变换装置,用于中文文字处理机,该文字处理机包括输入字音符号的输入部,将该输入部输入的字音符号或字音符号序列依据内置的辞书变换为有该字音的汉字或汉字序列的变换部,其特征在于模糊汉字变换装置包括:
对于每个字音符号或其中字音符号可能为含糊字音符号的字音符号序列,存储与这些相对应字音符号或字音符号序列的模糊辞书;
对于所述输入部输入的字音符号或字音符号序列,指定含糊位置以及可能检出字数的字音符号用模糊范围指定部;
对于每个所述字音符号用模糊范围指定部指定的含糊位置内的字音符号或字音符号序列,从所述模糊辞书检出与这些相对应的字音符号或字音符号序列的模糊信息检出部;
将所述模糊信息检出部检出的全部相对应字音符号或字音符号序列送到前述变换部,执行向这些字音符号或字音符号序列所对应的汉字或其字数在所述模糊范围指定部指定的可能检出的范围内的汉字序列变换的变换控制部;
可以从借助于所述变换控制部的作用而由所述变换部变换出的汉字或汉字序列当中,选择输入者所要的汉字或汉字序列的选择部。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2785/93 | 1993-01-11 | ||
JP5002785A JPH06208560A (ja) | 1993-01-11 | 1993-01-11 | 曖昧漢字変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1089736A CN1089736A (zh) | 1994-07-20 |
CN1048341C true CN1048341C (zh) | 2000-01-12 |
Family
ID=11539008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN93105336A Expired - Fee Related CN1048341C (zh) | 1993-01-11 | 1993-04-30 | 模糊汉字变换装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPH06208560A (zh) |
CN (1) | CN1048341C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840326A (zh) * | 2019-01-31 | 2019-06-04 | 浪潮软件集团有限公司 | 一种汉字字义、字音、字形的相似度比对系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85100837A (zh) * | 1985-04-01 | 1986-07-30 | 王永民 | 优化五笔字型编码法及其键盘 |
CN86106670A (zh) * | 1985-10-18 | 1987-04-22 | 日本电气株式会社 | 中文输入装置 |
-
1993
- 1993-01-11 JP JP5002785A patent/JPH06208560A/ja active Pending
- 1993-04-30 CN CN93105336A patent/CN1048341C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85100837A (zh) * | 1985-04-01 | 1986-07-30 | 王永民 | 优化五笔字型编码法及其键盘 |
CN86106670A (zh) * | 1985-10-18 | 1987-04-22 | 日本电气株式会社 | 中文输入装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH06208560A (ja) | 1994-07-26 |
CN1089736A (zh) | 1994-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005202917A (ja) | 表音入力の曖昧さを除くためのシステムおよび方法 | |
CN1262473A (zh) | 小型数字键盘拼音汉字输入方法 | |
CN1048341C (zh) | 模糊汉字变换装置 | |
CN1645356A (zh) | 多维汉语学习系统 | |
CN1257444C (zh) | 计算机汉语全音输入法 | |
CN1091895C (zh) | 一种以汉语拼音为基础的计算机汉字输入方案 | |
CN1069420C (zh) | 文字式音形汉字输入方法 | |
CN1059746C (zh) | 计算机拼音汉字输入方法 | |
CN1049991C (zh) | 一种计算机汉字输入方法 | |
CN1050431C (zh) | 电脑速记易捷码汉字输入方法 | |
CN1928790A (zh) | 新拼音码 | |
CN1116336A (zh) | 替调式汉语拼音汉字、词输入编码法及键盘 | |
CN1928789A (zh) | 一种计算机汉字输入法 | |
CN1043490C (zh) | 叠词变换方法和汉字变换装置 | |
CN100456214C (zh) | 汉语文档快速录入处理技术及其键盘 | |
CN1614539A (zh) | 声韵输入法 | |
CN1138714A (zh) | 基于词组的汉字输入方法 | |
CN1202647A (zh) | 拼音汉字 | |
CN1612095A (zh) | 双拼输入法 | |
CN1388430A (zh) | 现代汉语音文输入法 | |
CN1148198A (zh) | 一种普及型汉字编码输入法 | |
CN1049418A (zh) | 统一码计算机汉字键盘输入方法 | |
CN1162781A (zh) | 汉语拼音加调双拼双打输入法 | |
CN1204797A (zh) | 一种计算机汉字编码的输入方法 | |
CN1242853A (zh) | 用于无多义性地输入和变换布莱叶盲字的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |