CN1227369A - 汉语输入变换处理装置和汉语输入变换处理方法 - Google Patents

汉语输入变换处理装置和汉语输入变换处理方法 Download PDF

Info

Publication number
CN1227369A
CN1227369A CN 99102310 CN99102310A CN1227369A CN 1227369 A CN1227369 A CN 1227369A CN 99102310 CN99102310 CN 99102310 CN 99102310 A CN99102310 A CN 99102310A CN 1227369 A CN1227369 A CN 1227369A
Authority
CN
China
Prior art keywords
word
chinese
input
dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 99102310
Other languages
English (en)
Other versions
CN1106619C (zh
Inventor
林哲洋
中里茂美
石冢靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1227369A publication Critical patent/CN1227369A/zh
Application granted granted Critical
Publication of CN1106619C publication Critical patent/CN1106619C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

汉语输入变换处理装置,备有对于各单词存储有拼音及相应汉字的单词辞典(24)以及存储有在汉语语言上有关联关系的单词组合信息的单词间关联信息存储部(27);由检索部(23)把对应输入拼音文字串中各词组的单词从辞典(24)作为变换候选词检索,从此变换候选词中把同单词间关联信息存储部(27)中的单词组合一致(有互连关系)的单词检出后作为优先候选词由输出部(29)输出,由此能优先获得反映汉语语言现象的变换结果。

Description

汉语输入变换处理装置 和汉语输入变换处理方法
本发明涉及制作汉语文件时所用的汉语字词处理器等的汉语输入变换处理装置,特别涉及到在对应于输入的读法的单词输出其同音的候选词时,通过反映邻接或先后(例如在两个、三个词节的情形)的单词相互间的邻接关系或反映称作为“离合词”的汉语特有的语言现象,而能输出更正确的变换候选词的汉语输入变换处理装置以及采用这种汉语输入变换处理装置的汉语输入变换处理方法。
迄今,在汉语字词处理器等的汉语输入变换处理装置中,具备有利用通常是对应于表示汉语的汉字及其读法的标音符号(下面称作拼音)的辞典,以拼音输入汉语的读法再将此拼音变换为汉字输出的功能。这种功能称作为拼音汉字变换功能(相当于日语字词处理器中的汉字变换功能)。
作为这类拼音汉字变换功能的先有技术,例如已知有日本特开平6-290182号公报和日本特平开7-141354号公报等之中所记载的。
日本特开平6-290182号公报中公开了,以4个音节(=4个文字)的读法为处理单位,检查其是否同汉语语言现象中所谓“重辞”的情形相一致,而在合适时便以重辞形式生成变换候选词。所谓重辞是指把两个字的单词“AB”以“ABAB”或“AABB”这样的形式作缓和语气的表示,或是使其起到暧昧的效果。例如使“研究”成为“研究研究”,使“上下”成为“上上下下”等。前者为书面的措辞,后者为口语的措辞。
日本特开平7-141354号公报中则公开了,根据两音节的候选词之间的意义近似度和使用频率来提高汉字变换的正确率。
这些先有技术是以固定的单词长度(四文字)以限定形式的语言措辞为基础,检索输入的读法,确定相应的变换候选词,或者采用变换候选词的所谓意义近似度的分组单词的有意义码,而把在有意义码上近似的变换候选词输出。这里所谓的意义近似度是指单词相互之间意义类似的程度,例如在把许多单词分成社会、自然、心情、学术等组时,对于同一组内的单词相互之间其接合程度便会加重。
采用上述的先有技术,可以较正确地候选对应于拼音读法的单词的同音词。但是,自然语言的措辞确实是多种多样,不能够唯一性地加以确定,汉语自然也不例外。在这种情形下,像上述那样固定单词长度,或者检查意义近似的单词相互间结合程度的方法,在处理多式多样的语言措辞形式时是有局限性的。
但是,汉语中一个汉字的发音必定成为一个音节。一个音节又进一步由称作“声母”的开头辅音(处于音节开头的辅音)和称作“韵母”的除去“声母”的那部分(有元音、双元音、鼻音化元音等)组成。此外还有表示音节抑扬的称作为“四声”的声调(类似于日语中的重音),一个音节便由声母、韵母和四声共三个要素组成。
声母例:b、p、m、f、d、t、n、l、zh、ch、sh、…
韵母例:、a、o、e、i、u、ai、en、ang、iong、…
上表中,与日语拉丁字的辅音、元音不同,其特征之一是拉丁字母组合的长度不是一定的。
此外,汉语中的单词大致都是从一个字到四个字组成的,具有四字以上的单词即为合成词或是名称等,这在常用单词中是少数(据北京师范大学现代化教育技术研究所的统计结果)。再有,在两字以上的单词中,同音词(特别是含四声时)的词汇少,与此相反,一个字组成的单词情形中,同音词就多,多数场合下不能唯一性地确定,这是汉语的特点。
例如作为读法输入的拼音文字串“Chi/yu”的情形(“/”表示用语或单词的分段),尽管用户期待的单词如图1A所示,但像图1B所表明的,对于每个单词却可以有众多个数的同音词作为变换候选词。
在上述情形下,当采用前述日本特开平7-141354号公报中的方法,根据意义的近似度,有可能判断图1C或图1D所示的变换候选词(下面有划线的词表示用户期待的词)是正确的,但结果并不能找到优先的候选词。再有,图1C或图1D所示的变换候选词在意义上虽然正确,但从语言上说,作为汉语则并非通常所用的。
这样,上述先有技术在筛选汉语的对应于拼音读法的同音词的候选词上是受到限制的,可知它是不可能适应这样膨大的语言现象的。只要是不能有相应的对策来适应这种不胜其多的丰富纷繁的语言现象,就会有用户难以把输入的拼音正确地变换为汉语单词的问题。
本发明正是鉴于上述实际情形提出的,目的在于提供这样的汉语输入变换处理装置和汉语输入变换处理方法,它们能在抽出对应于汉语读法拼音文字串的同音词的变换候选词时,适合汉语特有的语言现象而选出更正确的变换候选词。
根据本发明的观点之一,提供的汉语输入变换处理装置具有这样的特征,即它是一种由拼音输入汉语的读法,再把此输入的拼音变换为汉字的汉语输入变换处理装置,且包括:输入显示许多单词读法的拼音文字串的输入装置,对每个单词存储了拼音及与其相对应的汉字的标准辞典;根据此标准辞典,把对应于上述输入装置输入的拼音文字串的各词组的单词作为变换候选词检索的辞典检索装置;存储了在汉语语言上有相互关联关系的单词组合信息的扩充辞典;从由上述辞典检索装置检索出的变换候选词中检出同存储于上述扩充辞典中存储的单词组合相一致的单词组合的单词检测装置;以及把构成上述单词检测装置检出的单词组合的各单词作为优先候选词输出的输出装置。
根据上述结构,是把对应于输入拼音文字串中各词组的单词作为变换候选词抽出后,便从这些变换候选词中检出在汉语语言上存在相互关联关系(邻接的单词间或非邻接的单词间的关联关系)的单词组合,而把相应的单词作为为优先候选词输出。这样就能在抽出对应于汉语读法的拼音文字串的同音词中变换候选词时,对应于汉语特有的语言现象给用户提示更正确的变换候选词。
另外,根据本发明的另一观点,提供的汉语输入变换处理装置具有这样的特征,即它是一种由拼音输入汉语的读法,再把此输入的拼音变换为汉字的汉语输入变换处理装置,且包括:输入显示许多词读法的拼音文字串的输入装置;对每个单词存储了拼音及与其相对应的汉字的标准辞典;根据此标准辞典,把对应于上述输入装置输入的拼音文字串的各词组的单词作为变换候选词检索的辞典检索装置;存储有与汉语语言现象的变形词型有关的单词组合信息的扩充辞典;从由上述辞典检索装置检索出的变换候选词中检出同存储于上述扩充辞典中的单词组合相一致的单词组合的单词检测装置;以及把构成由上述单词检测装置检出的单词组合的各单词作为优先候选词输出的输出装置。
根据上述结构,当把对应于输入拼音文字串中各词组的单词作为变换候选词抽出后,便从这些变换候选词中检出例如存在有汉语的离合词关系的单词组合,而把相应的单词作为优先候选词输出。这样就能在抽出对应于汉语读法的拼音文字串的同音词的变换候选词时,对应于汉语特有的语言现象,给用户提示更正确的变换候选词。
本发明的其它目的与效果将在以下的描述中加以说明,其中一部分可以从此描述中认清,或是通过实施本发明而得以完全理解。这样,本发明的目的与效果,特别是可以通过以下所示的装置及其组合来弄清楚。
所附的图构成了本说明书的一部分,它们示明了本发明的最佳实施形式,同时前面的一般性描述和后述的最佳实施形式都示明于附图中,而这些附图也用来说明本发明的原理。
图1A~图1D用来具体说明由现有的汉语输入变换处理装置来获得变换候选词。
图2是示明依据本发明一实施形式的汉语输入变换处理装置的系统结构的框图。
图3是示明根据图2中系统结构所实现的汉语输入变换处理装置的功能结构的框图。
图4示明图3中汉语输入变换处理装置内的单词间关联信息存储部的结构。
图5示明图3中汉语输入变换处理装置内所设单词变形信息存储部的结构。
图6是示明作为本发明第一实施形式的变换处理操作的流程图。
图7用于具体说明为上述第一实施形式的变换处理操作而示明的对应于输入拼音文字串的变换候选词群。
图8用于说明对应于图7的变换候选词群的邻接单词间的关联信息检测处理。
图9说明通过图8的单词间关联信息检测处理得到的变换结果。
图10是示明作为本发明第二实施形式的变换处理操作的流程图。
图11用于具体说明为上述第二实施形式的变换处理操作而示明的对应于输入拼音文字串的变换候选词群。
图12用于说明对应于图11的变换候选词群的邻接单词间的关联信息检测处理。
图13说明通过图12的单词间关联信息检测处理得到的变换结果。
图14是示明作为本发明第三实施形式的变换处理操作的流程图。
图15用于具体说明为上述第二实施形式的变换处理操作而示明的对应于输入拼音文字串的变换候选词群。
图16用于说明对应于图15的变换候选词群的邻接单词间的关联信息检测处理。
图17说明通过图16的单词间关联信息检测处理得到的变换结果。
下面参照附图说明本发明的实施形式。
图2是示明依据本发明一实施形式的汉语输入变换处理装置的系统结构的框图。本实施形式中的汉语输入变换处理装置,例如是把记录的程序读入磁盘等记录媒体中,由根据此程序来控制其工作的计算机实现其作业。
如图2所示,本实施形式的汉语输入变换处理装置包括CPU11、存储器12、输入装置13、显示装置14、外存储装置15、打印装置16和通信装置17。
CPU11控制本装置的全部操作,通过起动存储于存储器12中的程序进行工作。此外,作为根据存储于存储器12中的程序能实现的功能,还有由应用程序进行的字处理等功能。
存储器12例如由ROM和RAM等组成,存储着本装置所用的各种程序和字型(包括汉语字型)等数据。在此存储器12中除有用于存储实现字处理应用程序等的程序数据的程序12a外,还设有输入缓冲区12b、候选缓冲区12c与文件缓冲区12d等。
输入缓冲区12b存储为制成文件而输入的中文汉字读法的拼音文字串。候选缓冲区12c存储通过拼音汉字变换得到的变换候选词。文件缓冲区12d存储由拼音汉字变换求得的中文汉字组成的文件数据。
输入装置13由键盘组成,进行相对于本装置的指令和数据等的输入,用来执行拼音文字串的输入以及执行对应于此输入的拼音文字串的拼音汉字变换指令(经“变换”键操作的指令)等。
显示装置14例如由CRT(阴极射线管)和LCD(液晶显示装置)等组成,进行通过输入装置13输入的拼音文字串和拼音汉字变换结果等的显示。
外存储装置15例如由HDD(硬盘驱动器)和CD-ROM(CD只读存储器)等组成,保存各种程序和文件等的数据。在此外存储装置15中除存储有用于实现字处理的应用程序外,还存储有拼音汉字变换处理所用的辞典等数据。
打印装置16用于进行文件的打印等,它可以设于本装置的内部,也可以设于本装置之外而加以连接。
通信装置17例如通过专用的LAN(局域网)或通信网络等同外部装置进行数据的发送/接收控制。
下面说明由图2所示系统的结构所实现的汉语输入变换处理装置的功能结构。
图3是示明由图2的系统结构实现的汉语输入变换处理装置的功能结构的框图。如图3所示,本实施形式中的汉语输入变换处理装置具有输入部21、控制部22、辞典检索部23、单词辞典24、单词同关联信息检测部25、单词变形信息检测部26、单词间关联信息存储部27、单词变形信息存储部28、输出部29。
输入部21对输入装置13输入的拼音文字串和变换指令等进行输入处理。控制部22进行系统整体的控制。控制部22中包括负责从输入拼音到变换为汉字的变换机器。
辞典检索部23根据输入的拼音文字串检索单词辞典24(标准辞典),从单词辞典24中抽出对应于输入拼音文字串的各词组的单词。由此辞典检索部23抽出的单词作为对应于输入拼音文字串的变换候选词,相对于各个词组,存储于存储器12的候选缓冲区12c中。
单词辞典24是用于拼音汉字变换的,对于各个单词存储有拼音和与其对应的汉字、词类等,拼音汉字变换处理中必要的信息。单词辞典24存储于作为标准辞典的外存储装置15中。
单词间关联信息检测部25相对于单词辞典24的检索结果的单词索引的变换候选词(同音词候选词群),根据存储于单词间关联信息存储部27(扩充辞典)中的单词间关联信息,检测相互间存在关联关系的单词组合。
单词变形信息检测部26相对于单词辞典24的检索结果的单词索引的变换候选词(同音词候选词群),根据存储于单词变形信息存储部28(扩充辞典)中的单词变形信息,检出与特定的变形词型(例如“离合词”)相符的单词组合。这里所谓的“离合词”是汉语中特有的措辞方法,即把某个单词(多为两个文字的动词)分为前半和后半而于其中间加入其他词汇(1-2个修饰词或宾语),以使单词的措辞具体化或起到对程度和状态等的修饰作用。
单词间关联信息存储部27存储有在汉语语言上具有相互关联关系的单词组合信息(参看图4)。单词变形信息存储部28存储例如“离合词”等有关汉语特有语言现象的变形词型的单词组合信息(参看图5)。此单词间关联信息存储部27和单词变形信息存储部28存储于作为扩充辞典的外部存储装置15中,在拼音汉字变换时同单词辞典24一起用作参考。
输出部29对输入的拼音文字串和与此输入的拼音文字串相对应的变换结果等,进行于显示装置14上显示的输出处理。
图4示明单词间关联信息存储部27的结构。
汉语中,存在着例如对于“去”(动词)这样的单词连接上“学校”(各词)这样的单词等在语言上存在相互关联关系的单词。用来存储这类单词间关联信息的乃是单词间关联信息存储部27。在此单词关联信息存储部27中预寄存有前方和后方的单词索引和词类。前方和后方的单词有时是邻接的单词,有时是非邻接的单词。这里虽说的是两个单词间的关联,但三个或更多的单词间的关联也与此相同。
此外,在图4的单词变形信息存储部27中,还可设有对于每个离合词型用来指定应加入到前方单词和后方单词同的词数的项目。
图5示明单词变形信息存储部28的结构。
汉语中存在着这样的特有措辞方法,即把某个单词分成前半和后半而在其中间加入别的辞汇(1-2个修饰词或宾语),使单词措辞具体化,或起到修饰程度和修饰状态等的作用,这样的单词一般称作“离合词”,一般多为两个文字的动词(日语中サ变名词那样的词汇)。用来存储这种离合词型式的是单词变形信息存储部28。在此单词变形信息存储部28中预寄存有用作离合词的原始单词及其离合词型。
图5中的离合措辞形式是用来便于理解离合词型的例子,实际上它并未存储于单词变形信息存储部28中。
下面说明本装置的操作。
图6是示明作为本发明的第一实施形式的变换处理操作的流程图。在此第一实施形式中,特征是采用图4中所示单词间关联信息存储部27,把邻接的单词相互间有关联关系的那种单词作为优先候选词而输出。
首先,通过输入部21把中文的汉字读法按拼音(字母的字串)输入。所输入的拼音文字串存储于图2所示的缓冲区12b中(步骤A11)。
在此,当按压变换键输出变换指令后,控制部22即把缓冲区12b中的输入拼音文字串送到辞典检索部23中。辞典检索部23从标准辞典的单词辞典24中检索对应于输入拼音文字串的各词组(一个单词部分的读法)的单词(索引),以其作为索引的变换候选词抽出(步骤A12)。此时抽出的变换候选词存储于图2所示的候选缓冲区12c中。这时,对于各单词存在同音词(有相同读法的不同汉字)的候选词情形,把它们的全体候选词也都存在于候选缓冲区12c中。
随后,控制部22把相同的输入拼音列输送给单词间关联信息检测部25。单词间关联信息检测部25参考扩充辞典的单词间关联信息存储部,27,从候选缓冲区12c中检出存在单词间关联关系的单词组合(步骤A13)。这时在单词间关联信息存储部27中,如图4所示加入有前方和后方的索引以及词类,在第一实施形式中,以变换候选词中邻接单词的组合为对象,检测候选缓冲区12c中有无存在关联关系的单词组合。
当此检测处理结果是候选缓冲区12c之中有相应的单词(变换候选词)时(步骤A14的“是”),单词间关联信息检测部25便抽出该变换候选词,通知控制部22(步骤A15)。
控制部22接收来自单词间关联信息存储部27的检出结果,根据此检出结果进行确定候选缓冲区12c内各变换候选词的输出位次等的变换处理(步骤A16)。此时,如果在各单词的同音词候选词中存在有相互关联关系的单词组合,则以该相应的单词为第一位。其他单词则依从单词辞典24中设定的优先位次,以在同音词候选词中其位次位最高的单词为第一位。
在决定了各变换候选词的输出位次后,控制部22便根据此输出位次把各变换候选词作为变换结果输送给输出部29(步骤19)。输出部29进行把输入的拼音文字串改换为第一位的变换候选词来显示,而把其它的变换候选显示于候选区上面等的处理。
下面以具体例子说明上述处理。
由输入部21把从键盘等输入的拼音文字串(拉丁字母)从控制部22输送给辞典检索部23。在此,由用户按下“变换”键,由辞典检索部23相对于输入的拼音文字串检索作为标准辞典的单词辞典24中存在的索引候选词,把全部这样的候选词作为变换候选词,存储于候选缓冲区12c中。
此处,控制部22将候选缓冲区12c中的变换候选词输送给单词间关联信息检测部25。在单词间关联信息检测部25中,参考图4所示的单词间关联信息,检测是否有相应的单词连接。单词间关联信息由前方和后方的索引以及词类组成,相对于索引的变换候选词在此关联信息中检测有无相符的,有相符的时,即提高其候选的优先位次输出给控制部22。
例如,把“tachiyu”这样的拼音文字串作为读法信息输入。
把上述文字串说成“ta/chi/yu”(“/”是表示将用语或单词作分段),对各个用语分段,把各自对应的单词从单词辞典24中作为变换候选词抽出,得到了图7所示的变换候选词群。
然后,单词间关联信息检测部25应用上述变换候选词群,按图8所示,在候选缓冲区12c中的变换候选词和单词间关联信息存储部27中的单词间(邻接)关联信息二者之间进行核对,在两者之间检测前方索引信息和后方索引信息两方一致的单词组合。若有一致的单词组合就把合适的单词抽出,输送给控制部22。
最后,把图9所示的变换结果通过输出部29提示给用户。这时,把有相互关联关系的单词作为第一位显示,其它则以单词辞典24中的第一位单词显示。图中下面有划线的词表示用户期待的单词,实际上该下划线并没有显示。
这样,在汉语语言上相互有关联关系的单词便作为优先候选词输出。由此可以通过拼音输入求得语言上正确的变换结果,而能高效地形成汉语文章。
但是,上例中是相对于邻接的单词来检查其关联关系的,但在实际的汉语文章中,相关连的措辞有不少是分离成两、三个词节的。例如“动词+宾语”的词型常有发展到“动词+~+宾语”的情形的。这里的“~”为助词、副词或数词组等。
下面把核查这种非邻接单词间的关联关系情形的处理作为第二实施形式说明。
图10是示明作为本发明的第二实施形式的变换处理作业的流程图。第二实施形式的特征是把在非邻接单词中有相互关联关系的单词作为优先候选词输出。
首先通过输入部21将中文汉字的读法按拼音(字母的文字串)输入。输入的拼音文字串存于图2所示的输入缓冲区12b中(步骤B11)。
此时按下变换键,输出变换指令后,控制部22即把存储于输入缓冲区12b中的输入拼音文字串输送给辞典检索部23。辞典检索部23检索与从作为标准辞典的单词辞典24中输入的拼音文字串各词节(一个单词部分的读法)相对应的单词(索引),以此作为索引的变换候选词抽出(步骤B12)。这时抽出的变换候选词存储于图2所示的候选缓冲区12c中。在此,对于各个单词有同音词(同一读法的不同汉字)的候选词时,所有这些候选词也都存储于候选缓冲区12c中。
随后,控制部22把同一输入的拼音文字串输送给单词间关联信息检测部25。单词间关联信息检测部25参考扩充辞典的单词间关联信息存储部27,从候选缓冲区12c中检测具有单词间关联关系的单词组合(步骤B13)。这时,在单词间关联信息存储部27中,如图4所示,加入有前方和后方的索引以及词类,在第二实施形式中,以变换候选词中非邻接的单词为对象,检测候选缓冲区12c中有无存在相互关联关系的单词组合。
当上述检查处理结果是候选缓冲区12c中有符合的单词(变换候选词)时(步骤B14的“是”),单词间关联信息检测部25便抽出此变换候选词通知控制部22(步骤B15)。
控制部22接收单词间关联信息存储部27的检出结果,进行决定候选缓冲区12c内各变换候选词输出位次等的变换处理(步骤B16)。此时,各单词的同音词候选词中要是有上述存在相互关联关系的单词组合时,即以此符合需要的单词为第一位。至于其它的单词则依从单词辞典24中所设定的优先位次,以在同音语候选词中其位次最高的单词为第一位。
在决定了各变换候选词的输出位次后,控制部22便依这一输出位次把各个变换候选词作为变换结果送至输出部29(步骤B19)。在输出部29,进行将输入的拼音文字串变换为第一位变换候选词来显示,把其它的变换候选词显示于候选区之上的等等处理。
下面用具体例说明上述的处理。
例如,假设把“tachileyitiaoyu”这一拼音文字串作为读法信息输入。
把上述拼音文字串按各个用语切分成“ta/chi/le/yitiao/yu”(“/”表示对用语或单词的分段),把它们分别对应的单词从单词辞典24作为变换候选词抽出,由此得到了图11所示的变换候选词群。
在此,单词间关联信息检测部25应用这一变换候选词群,如图12所示,在候选缓冲器12c中的变换候选词和单词间关联信息存储部27中的单词间(非邻接)关联信息二者之间进行核对,在两者之间检测前方索引信息和后方索引信息两方一致的单词组合。若有一致的单词组合就把合适的单词抽出输送给控制部22。
最后,把图13所示的变换结果通过输出部29提供给用户。这时,把有相互关联关系的单词作为第一位显示,其它则作为单词辞典24中的第一位单词显示。图中下面有划线的词表示用户期待的单词,实际上该下划线并没有显示。
这样,不限于相邻的单词之间,即使非邻接的单词之间,也能和上述第一实施形式相同地参考单词间关联信息,把符合条件的单词作为优先候选词输出,结果就能进一步提高拼音汉字变换时的变换率。
至于单词间分离到多少个词以内才能够处理好的问题,看来是分离的词数越多,产生和实际文章措辞(即用户所希望的变换结果)不同的变换候选的可能性也越高,导致降低拼音变换的效果。从而最好采取不把分离的词数设作固定值而是取可变值(即任选值)的形式。
汉语中存在着把一个单词分成前半和后半,在其中间加入别的词汇以起到使单词措辞具体化或对程度和状态等进行修饰作用的特有措辞方法。一般称此为“离合词”,如图5所例示。
下面把核查这种离合词型时的处理作为第三实施形式加以说明。
图14是示明作为本发明的第三实施形式的变换处理操作的流程图。此第三实施形式的特征是,采用图3所示单词变形信息存储部28,把具有汉语中离合词关系的单词作为优先候选词输出。
首先通过输入部21将中文汉字的读法按拼音(字母的文字串)输入。所输入的拼音文字串存储于图2所示的输入缓冲区12b中(步骤C11)。
此时按下变换键,输出变换指令后,控制部22即把存储于输入缓冲区12b中的输入拼音文字串输送给辞典检索部23。辞典检索部23检索从标准辞典的单词辞典24中输入的拼音文字串各词节(一个单词部分的读法)所对应的单词(索引),以此作为索引的变换候选词抽出(步骤C12)。这时抽出的变换候选词存储于图2所示的候选缓冲区12c中。
随后,控制部22将同一输入的拼音文字串输送给单词变形信息检测部26。单词变形信息检测部26参考扩充辞典单词变形信息存储部28,从候选缓冲区12c中检出具有汉语中离合词关系的单词组合(步骤C13)。此时,在单词变形信息存储部28中,加入有图5所示的原始的单词及其单词的离合词型,在第三实施形式中检测候选缓冲区12c中有无合乎离合词型的单词。
当此检测处理结果是候选缓冲区12c中有相应的单词(变换候选词)时(步骤C14的“是”),单词变形信息检测部26便抽出此变换候选词,通知控制部22(步骤C15)。
控制部22接收来自单词间关联信息存储部27的检出结果,根据此检出结果进行确定候选缓冲区12c内各变换候选词的输出位次等变换处理。这时,在各单词的同音词候选词中若是有符合上述离合词型的,即以此单词为第一位。其它的单词则按单词辞典24中所设定的优先位次,而在同音词候选词中以其位次最高的单词为第一位。
在确定了各变换候选词的输出位次后,控制部22即按此输出位次把各变换候选词作为变换结果输送给输出部29(步骤C19)。在输出部29进行把输入的拼音文字串改换为第一位的变换候选词加以显示,而把其它的变换候选词显示于候选区上等处理。
下面以具体例子说明上述的处理。
例如,假设把“Wobangtademang”这一拼音文字串作为读法信息输入。
把这一文字串说成“wo/bang/ta/de/mang/”(“/”表示用语或单词的分段),对各个用语分段,把各自对应的单词从单词辞典24中作为变换候选词抽出,得到了图15所示的变换候选词群。
此外,单词变形信息检测部26应用这样的变换候选词群,如图16所示,在候选缓冲区12c中的变换候选词和单词变形信息存储部28中的单词间关联信息(离合词型)两者之间进行核对,在两者之间检测先头文字(第一文字)和后方文字(第二文字)两方一致的单词组合。若有一致的单词组合就把此合适的单词作为优先候选词,输出给控制部22。
最后将图17所示的变换结果通过输出部29提示给用户。此时,以具有相互离合关系的单词作为第一位显示,其它则以单词辞典24中的第一位单词显示。图中下面有划线的词表示用户期待的单词,而下划线实际上未显示。
这样,能把称作离合词的汉语特有的语言现象加以反映,进行变换候选词的筛选,而把合适的单词作为优先候选词输出。从而能用拼音输入高效地形成汉语文章。
在以上各实施形式中,是在标准辞典的单词辞典之外,把另设的单词间关联信息存储部27和单词变形信息存储部28用作扩充辞典,进行拼音变换处理的配置,但也可把单词间关联信息和单词变形信息记录于单词辞典24之中,构成一部辞典,参考此辞典来进行上述的拼音变换处理。
也可以把上述各实施形式说明的变换处理合并成为一个,作为一连串的变换处理实行。在这种情形下,可根据输入的拼音文字串,分别检索单词辞典24、单词间关联信息存储部27以及单词变形信息存储部28,检出在相邻单词间或非相邻单词间存在相互关联关系的单词,同时检出相当于离合词这类特定的变形词型的单词,把这样的单词作为优先候选词输出。
另外,上述各实施形式中所述的作业,可以作为能由计算机执行的程序,写入磁盘(软盘、硬盘等)、光盘(CD-ROM,DVD等)、半导体存储器等的记录媒体中而适用于种种装置,也能通过通信手段传送而适用于种种装置。实现本装置的计算机例如可把记录的程序读入记录媒体中,通过此种程序控制操作,进行前述各种处理。
如上所述,根据本发明,采用存储汉语语言上有相互关联关系的单词信息的扩充辞典,就能进行对应于输入拼音文字串的同音词的变换候选词的筛选,从而能优先获得反映汉语语言现象的变换结果,高效地形成汉语文章。
再有,也不限于相邻的单词,即使在离开了几个词的单词之间也可以进行同音词的筛选,而能在更广的范围内求得正确的变换结果。
再有,由于通过采用存储了有关汉语语言现象中变形词型的单词信息的扩充辞典,进行了对应于输入拼音文字串的同音词的变换候选词的筛选,例如就能把对应于“离合词”等特定词型的单词作为变换结果优先地求得,而能进一步提高变换的成功率。
再有,本发明并不限于上述的实施形式,在它的原理范围内可以由种种变形来加以实现。
例如在前述实施形式中,是以拼音输入后按下变换键来开始变换候选词的显示进行说明的,但也可以取这样的结构,即在输入的同时让变换候选词显示于预定的位置。这样可以立即选择所希望的单词,而能更有效地实现汉语的输入变换处理。
再有,在上述第一与第二实施形式中就结合标准辞典的检索和具有单词间关联信息的扩充辞典的检索的情形进行了说明,但可以根据需要,对使用/不使用具有单词间关联信息的扩充辞典的检索功能进行转换。同样,在上述第三实施形式中,就结合标准辞典的检索和具有单词变形信息(离合词型)的扩充辞典的检索这种情形进行了说明,但也可以根据需要,对使用/不使用具有单词变形信息的扩充辞典的功能进行转换。
还有,也可以取这样的结构,通过结合前述第一、第二与第三实施形式,进行包括标准辞典检索、具有单词间关联信息的扩充辞典的检索以及具有单词变形信息(离合词型)的检索在内的全部处理。

Claims (7)

1.汉语输入变换处理装置,是一种由拼音输入汉语的读法,再把此输入的拼音变换为汉字的汉语输入变换处理装置,其特征在于,包括:输入显示许多单词读法的拼音文字串的输入装置(21);对每个单词存储了拼音及与其相对应的汉字的标准辞典(24);根据此标准辞典(24),把对应于上述输入装置(21)输入的拼音文字串的各词组的单词作为变换候选词检索的辞典检索装置(23);存储有在汉语语言上有相互关联关系的单词组合信息的扩充辞典(27);从由上述辞典检索装置(23)检索出的变换候选词中检出同存储于上述扩充辞典(27)中存储的单词组合相一致的单词检测装置(25);以及把构成由上述单词检测装置(25)检出的单词组合的各单词作为优先候选词输出的输出装置(29)。
2.权利要求1所述的汉语输入变换处理装置,其特征在于,所述单词检测装置(25)相对于拼音文字串中相邻的单词组合进行检测。
3.权利要求1所述的汉语输入变换处理装置,其特征在于,所述单词检测装置(25)相对于拼音文字串中非邻接的单词组合进行检测。
4.汉语输入变换处理装置,是一种由拼音输入汉语的读法,再把此输入的拼音变换为汉字的汉语输入变换处理装置,其特征在于,包括:输入显示许多单词读法的拼音文字串的输入装置(21);对每个单词存储了拼音及与其相对应的汉字的标准辞典(24);把对应于上述输入装置(21)输入的拼音文字串的各词组的单词从上述标准辞典(24)作为变换候选词检索的辞典检索装置(23);存储有关于汉语语言现象中变形词型的单词组合信息的扩充辞典(28);从由上述辞典检索装置(23)检索出的变换候选词中检出同存储于上述扩充辞典(28)中的单词组合相一致的单词组合的单词检测装置(26);以及把构成由上述单词检测装置(26)检出的单词组合的各单词作为优先候选词输出的输出装置(29)。
5.权利要求4所述的汉语输入变换处理装置,其特征在于,所述扩充辞典(28)存储具有汉语中离合词关系的单词组合。
6.汉语输入变换处理方法,是由拼音输入汉语读法,再把输入的拼音变换为汉字的汉语输入变换处理方法,其特征在于,配备有相对各个单词存储了拼音和与其对应的汉字的标准辞典以及存储了在汉语语言上有相互关联关系的单词组合信息的扩充辞典,此方法包括下述步骤:在输入显示许多单词读法的拼音文字串时(A11、B11),从上述标准辞典把对应于前述输入的拼音文字串的各词组中单词作为变换候选词检索(A12、B12);从上述检索出的变换候选词中检出同前述扩充辞典中存储的单词组合相一致的单词组合(A13、B13);把构成此检出的单词组合的各单词作为优先候选词输出(A14~A17、B14~B17)。
7.汉语输入变换处理方法,是由拼音输入汉语读法,再把输入的拼音变换为汉字的汉语输入变换处理方法,其特征在于,配备有相对各个单词存储了拼音和与其对应的汉字的标准辞典以及存储了关于汉语语言现象中变形词型的单词组合信息的扩充辞典,此方法包括下述步骤:在输入显示许多单词读法的拼音文字串时(C11),从上述标准辞典把对应于前述输入的拼音文字串的各词组中单词作为变换候选词检索(C12);从上述检索出的变换候选词中检出同前述扩充辞典中存储的单词组合相一致的单词组合(C13);把构成此检出的单词组合的各单词作为优先候选词输出(C14)。
CN 99102310 1998-02-23 1999-02-13 汉语输入变换处理装置和汉语输入变换处理方法 Expired - Fee Related CN1106619C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP040449/1998 1998-02-23
JP040449/98 1998-02-23
JP10040449A JPH11238051A (ja) 1998-02-23 1998-02-23 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
CN1227369A true CN1227369A (zh) 1999-09-01
CN1106619C CN1106619C (zh) 2003-04-23

Family

ID=12580961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 99102310 Expired - Fee Related CN1106619C (zh) 1998-02-23 1999-02-13 汉语输入变换处理装置和汉语输入变换处理方法

Country Status (2)

Country Link
JP (1) JPH11238051A (zh)
CN (1) CN1106619C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627289B (zh) * 2003-12-10 2010-04-28 株式会社东芝 用于分析汉语的装置和方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100476100B1 (ko) * 2001-11-28 2005-03-10 인벤텍 코오포레이션 실용적인 중국어 입력 방법
KR20030044138A (ko) * 2001-11-28 2003-06-09 인벤텍 코오포레이션 보조 라이팅 모델을 제공하는 중국어 입력 방법
KR20040036333A (ko) * 2002-10-24 2004-04-30 인벤텍 코오포레이션 음성인식 중국어 입력시스템 및 그 방법
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法
CN109917927B (zh) * 2017-12-13 2022-07-08 北京搜狗科技发展有限公司 一种候选项确定方法和装置
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
CN110162681B (zh) * 2018-10-08 2023-04-18 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627289B (zh) * 2003-12-10 2010-04-28 株式会社东芝 用于分析汉语的装置和方法

Also Published As

Publication number Publication date
JPH11238051A (ja) 1999-08-31
CN1106619C (zh) 2003-04-23

Similar Documents

Publication Publication Date Title
CN1135485C (zh) 利用计算机系统的日文文本字的识别
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1113305C (zh) 语言处理装置和方法
CN1259632C (zh) 纠正文本文档的文本输入的方法和系统
CN1232226A (zh) 句子处理装置及其方法
US20050027534A1 (en) Phonetic and stroke input methods of Chinese characters and phrases
CN1143769A (zh) 处理中文文本的系统和方法
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1993692A (zh) 字符显示系统
CN1928862A (zh) 基于数据挖掘获取词或词组单元译文信息的系统和方法
JP5688941B2 (ja) 声調を用いて中国語を検索する方法及びその方法を実行するシステム
CN101067766A (zh) 输入法中取消字符串的方法及文字输入系统
CN1106619C (zh) 汉语输入变换处理装置和汉语输入变换处理方法
CA2496872C (en) Phonetic and stroke input methods of chinese characters and phrases
CN1542648A (zh) 用于词分析的系统和方法
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP2000298667A (ja) 構文情報による漢字変換装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
CN1955979A (zh) 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序
CN1525388A (zh) 汉字处理设备和汉字处理方法
CN1144141C (zh) 汉语输入变换处理装置及汉语输入变换处理方法
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN1379342A (zh) 汉语输入变换处理装置以及汉语输入变换处理方法
CN102323921A (zh) 逐词比对句子的方法、系统、计算机程序产品及记录媒体

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030423

Termination date: 20100213