JP2832003B2 - 文字処理装置 - Google Patents

文字処理装置

Info

Publication number
JP2832003B2
JP2832003B2 JP63056544A JP5654488A JP2832003B2 JP 2832003 B2 JP2832003 B2 JP 2832003B2 JP 63056544 A JP63056544 A JP 63056544A JP 5654488 A JP5654488 A JP 5654488A JP 2832003 B2 JP2832003 B2 JP 2832003B2
Authority
JP
Japan
Prior art keywords
word
candidate
information
dictionary
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63056544A
Other languages
English (en)
Other versions
JPH01229366A (ja
Inventor
雄二 小林
和世 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP63056544A priority Critical patent/JP2832003B2/ja
Publication of JPH01229366A publication Critical patent/JPH01229366A/ja
Application granted granted Critical
Publication of JP2832003B2 publication Critical patent/JP2832003B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字列の変換を行う文字処理装置における
同音語多義判定方式に関するものである。
〔従来の技術〕
従来、文字列の変換を行なう文字処理装置として、例
えば日本語ワードプロセッサにおけるカナ漢字変換装置
が広く普及している。カナ漢字変換の結果、多数現われ
る同音語候補に対して、個々の単語の品詞の持つ文法的
特性などから同音語の多義解消が行なわれてきたが、そ
れだけでは対処できない場合が多かった。そこで、意味
的に共起関係がある単語と単語との組(すなわち用例)
を格納した用例辞書にある組み合わせを第一候補決定に
利用することで、同音語の多義解消が行なわれてきた。
〔発明が解決しようとしている問題点〕
しかしながら、従来の技術においては、用例辞書に格
納されている用例を1方向のみに適用していたため、あ
る用例に対して単語対が逆転されて出現する場合にも用
例を利用しようとするためには、単語対を逆転させた用
例を用例辞書中に格納しなければならなかった。すなわ
ち、同じ共起関係を持つ用例を2つ格納しなければなら
ないために、メモリ効率が悪いという問題があった。
例えば、「友情は厚い。」と「厚い友情。」と2つの
文における「厚い」を、用例によって第1候補に決定し
ようとした場合、『友情−厚い』と『厚い−友情』の2
つの用例を用例辞書中に格納しておかなければならなか
った。
[問題点を解決するための手段] 上記問題点を解決するために、本発明の文字処理装置
は、仮名文字列を入力する入力手段と、単語の読みと表
記とを対応付けて記憶した単語辞書と、共起する単語の
組を用例として、該用例の適用される語順の制限の有無
とともに記憶した用例辞書と、前記入力手段より入力さ
れた仮名文字列を読みとする文節群の各文節中の単語の
候補を前記単語辞書より検索する検索手段と、前記各文
節中の単語の候補につき、該候補を含む用例が前記用例
辞書に記憶されている場合に、当該用例において前記候
補と組をなす単語を、当該用例の適用される語順に制限
がなければ、前記候補を含む文節の前の文節及び後の文
節の単語の候補より抽出し、当該用例の適用される語順
に制限があれば、前記候補を含む文節より当該語順の制
限に従う方向にある文節の単語の候補より抽出する抽出
手段と、該抽出手段により、前記候補と組をなす単語が
抽出された場合には、当該候補を優先させて、前記各文
節の単語の第1候補の表記を出力する出力手段とを具え
る。
また、本発明の文字処理方法は、単語辞書に単語の読
みと表記とを対応付けて記憶するとともに、用例辞書
に、共起する単語の組を用例として、該用例の適用され
る語順の制限の有無とともに記憶しておき、仮名文字列
を入力し、入力された仮名文字列を読みとする文節群の
各文節中の単語の候補を、前記単語辞書より検索し、前
記各文節中の単語の候補につき、該候補を含む用例が前
記用例辞書に記憶されている場合に、当該用例において
前記候補と組をなす単語を、当該用例の適用される語順
に制限がなければ、前記候補を含む文節の前の文節及び
後の文節の単語の候補より抽出し、当該用例の適用され
る語順に制限があれば、前記候補を含む文節より当該語
順の制限に従う方向にある文節の単語の候補より抽出
し、前記候補と組をなす単語が抽出された場合には、当
該候補を優先させて、前記各文節の単語の第1候補の表
記を出力する。
[作用] 上記構成により、本願発明の文字処理装置及び方法で
は、入力された仮名文字列を読みとする文節群の各文節
中の単語の候補を単語辞書より検索し、前記各文節中の
単語の候補につき、該候補を含む用例が、共起する単語
の組を用例として、該用例の適用される語順の制限の有
無とともに記憶した用例辞書に記憶されている場合に、
当該用例において前記候補と組をなす単語を、当該用例
の適用される語順に制限がなければ、前記候補を含む文
節の前の文節及び後の文節の単語の候補より抽出し、当
該用例の適用される語順に制限があれば、前記候補を含
む文節より当該語順の制限に従う方向にある文節の単語
の候補より抽出して、前記候補と組をなす単語が検索さ
れた場合には、当該候補を優先させて、前記各文節の単
語の第1候補を表記を出力する。
〔実施例〕
以下、図面を参照して本発明を詳細に説明する。
第1図は本発明の全体構成の一例である。
図示の構成において、CPUは、マイクロプロセッサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。
アドレスバスABはマイクロプロセッサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセッサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。
次にROMは、読出し専用の固定メモリである。PAは、
後述するマイクロプロセッサCPUによる第6図〜第14図
に示す如き制御手順等を記憶させたプログラムエリアで
ある。
また、ROMは、1ワード16ビットの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。
TBUFは文書バッファであり、キーボードKBより入力さ
れた文書情報を蓄えるためのメモリである。
YBUFはキーボードKBより入力された読みを格納する入
力読みバッファ・メモリである。
DICはカナ漢字変換を行なうための単語辞書である。
DBPOOLはYBUFの読みを文節に解析・変換した情報を格
納する同音語候補格納メモリである。
YJPOOLはDBPOOLと連動して、同音語の候補に適用され
ている用例の情報を格納するメモリである。
LRNDATは個々の単語および用例の学習状態を格納した
学習データ格納メモリである。
FZTBLは付属語をDICに格納されている結合情報に対応
させるための付属語列変換テーブルである。
KBはキーボードであって、アルファベットキー、ひら
がなキー、カタカナキー等の文字記号入力キー、及び、
変換を指示する変換キーなどの各種のファンクションキ
ーを備えている。
図において、YOMIは読みを入力するためのキー、CON
は入力した読みを変換するための変換指示キー、NXTは
変換候補を変更して次候補に変換するための次候補変換
指示キー、SELは現在の同音語表示候補に確定し同時に
その候補表記を学習することを指示するための選択キー
である。
DISKは定型文書を記憶するためのメモリで作成された
文書の保管を行ない、保管された文書はキーボードの指
示により、必要な時呼び出される。
CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対する表示
装置CRT上の位置にカーソルを表示する。
DBUFは表示用バッファメモリで、TBUFに蓄えられた文
書情報等のパターンを蓄える。
CRTCはカーソルレジスタCR及びバッファDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。
また、CRTは陰極線管等を用いた表示装置であり、そ
の表示装置CRTにおけるドット構成のパターンおよびカ
ーソルの表示をCRTコントローラで制御する。さらに、C
Gはキャラクタジェネレータであって、表示装置CRTに表
示する文字、記号のパターンを記憶するものである。
かかる各構成要素からなる本発明文字処理装置におい
ては、キーボードKBからの各種の入力に応じて作動する
ものであって、キーボードKBからの入力が供給される
と、まず、インタラプト信号がマイクロプロセッサCPU
に送られ、そのマイクロプロセッサCPUがROM内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って、各種の制御が行なわれる。
第2図は、カナ漢字変換に用いる単語辞書DICの構成
を示した図である。
辞書は表記変換に用いる単語情報と表記変換の際の第
1候補を決定するための用例情報とで構成されている。
単語情報はその見出し単語固有の単語IDと、単語の読み
を格納する読み、単語の表記を格納する表記、単語の品
詞を格納する品詞、単語の意味属性を格納する意味から
構成されている。単語IDは先頭の単語を1とする連続番
号である。用例情報はその見出し単語の持つ用例情報の
個数、用例固有の用例ID、その用例が個別用例であるか
意味用例であるかの用例タイプを記述したタイプ、用例
タイプが個別用例であれば用例の相手の単語の単語IDを
格納し意味用例であれば用例の相手となる意味属性を格
納する用例、用例の相手の単語に付く付属語のうち用例
が成立する条件を満たす代表的な付属語を格納した結合
情報、用例を逆転させても使用可能であるかどうかの情
報を格納する逆転から構成される。用例を一つも持たな
い単語は、用例情報の個数に0が格納されている。用例
IDは単語IDと同じく先頭の用例を1とする連続番号であ
る。
図において例えば、『買う』という単語は300という
連続番号で区別され、読みが『かう』、表記が『買
う』、品詞が『動詞』であるという単語情報を持つ。そ
して『酒を買う』と『喧嘩を買う』という2つの個別単
語用例を持つ。また、『鮭』という単語は500という連
続番号で区別され、読みが『さけ』、表記が『鮭』、品
詞が『名詞』であり、意味属性が『動物』である単語で
ある。用例個数に0が格納されているので『鮭』を見出
し語とする用例は登録されていない。
第3図は、同音語プールDBPOOLおよび用例情報プール
YJPOOLの構成を示した図である。(a)は同音語プール
の全体構成である。同音語プールはカナ漢字変換処理に
よって作成された各同音語情報から構成される。(b)
は同音語情報の構成を示した図である。同音語情報は、
その同音語を他の同音語と区別するための連続番号であ
る同音語ID、その同音語情報の使用メモリ・サイズを表
わすデータ長、格納されている同音語の候補の個数を格
納する候補個数、同音語の候補の情報を格納する候補情
報、および、同音語の中に格納されている候補情報の中
で、後述する優先候補の個数を格納する優先個数から構
成されている。このような同音語の構成において、候補
情報の列の先頭の候補情報が変換結果として出力すべき
第1候補になるものとし、列の先頭から優先個数によっ
て示される個数の候補情報が、後述する優先候補になる
ものとする。(c)は候補情報の構成を示した図であ
る。候補情報は、候補の表記、その単語ID、文節末の活
用形を格納する文節未活用、および、後述の用例情報へ
のポインタを格納する用例情報ポインタから構成され
る。候補情報に用例が適用されずに用例情報が存在しな
い場合には、用例情報ポインタに無効値−1が格納され
る。(d)は用例情報プールYJPOOLの全体構成である。
用例情報プールは、同音語の各候補に適用される用例の
情報を格納する用例情報から構成される。(e)は用例
情報の構成を示した図である。用例情報は、用例の相手
となる同音語のIDを格納するペア同音語ID、適用されて
いる用例のIDを格納する用例ID、適用されている用例の
タイプ(個別用例または意味用例)を格納する用例タイ
プ、および、同じ候補情報に適用されている別の用例情
報へのポインタが格納されている用例情報ポインタから
構成される。このように、用例情報はリスト構造となっ
ている。次の用例情報が存在しない場合には、用例情報
ポインタには無効値−1が格納される。
以上説明したような同音語プールおよび用例情報プー
ルの構成において、ある同音語のある候補に用例が適用
されている場合、この候補情報に用例情報を格納すると
ともに、用例の相手となる同音語の候補に対する候補情
報にも、同じ用例の情報を格納した用例情報を格納する
ものとする。
第4図は、付属語列変換テーブルFZTBLの構成を示し
た図である。付属語列変換テーブルは文節を構成する付
属語列を単語辞書DICが持つ用例情報中の結合情報に対
応させるための対応変換表である。付属語読みはその付
属語列の読みを表わし、対応結合情報はその付属語列が
置換可能な辞書の用例情報中の結合情報を表わす。
例えば、付属語『こそ』は結合情報『が』または
『を』に、付属語列『さえもが』は結合情報『が』に、
それぞれ置換して結合判定することができる。
第5図は、学習データLRNDATの構成を示した図であ
る。(a)は学習データの全体構成である。学習データ
は単語学習データと用例学習データの2つから構成され
る。単語学習へのポインタは学習データ内の単語学習列
先頭へのインデックスを格納し、用例学習へのポインタ
は学習データ内の用例学習データ列先頭へのインデック
スを格納する。(b)は単語学習データ列の構成を示し
た図である。単語学習データ列は使用サイズと各単語学
習データから構成される。単語学習データ使用サイズは
単語学習データ列の使用サイズを格納する。単語学習デ
ータは各単語のIDに対応しており、学習されている単語
には1、学習されていない単語に対しては0が格納され
る。(c)は用例学習データ列の構成を示した図であ
る。用例学習データ列は使用サイズと各用例学習データ
から構成される。用例学習データ使用サイズは用例学習
データ列の使用サイズを格納する。用例学習データは各
用例IDに対応しており、抑制されている使用禁止用例に
は1、抑制されていない使用かのう用例に対しては0が
格納される。
上述の実施例の作動をフローに従って説明する。
第6図は本発明文字処理装置の動作を示すフローチャ
ートである。
S6−1においてキーボードよりキーが押下され、割り
込みが発生するのを待つ。キーが入力されるとS6−2に
おいてキー判別し、キーの種類に応じてS6−3、S6−
4、S6−5、S6−6、S6−7のいずれかのステップに分
岐する。
S6−3は読み入力キーYOMIが押下されたときの処理で
あり、押下された読みのコードを入力読みバッファ・メ
モリYBUFに蓄える。
S6−4は変換キーCONが押下されたときの処理であ
り、S6−3で入力されてYBUFに蓄えられている、カナ漢
字変換の対象となる文字列を漢字に変換し、出力バッフ
ァに出力する。漢字に変換する際に、単語辞書DIC中に
存在する用例情報を用いて、同音語の第1候補を決定す
る。
S6−5は次候補変換キーNXTが押下されたときの処理
であり、S6−4によって出力された出力バッファ中の同
音語の別の候補を表示する。
S6−6は選択キーSELが押下されたときの処理であ
り、画面に表示されている出力バッファ中の同音語を確
定し、確定された文字列を文書中に出力する。さらに、
選択された単語を学習する処理を行なう。
S6−7は、YOMI、CON、NXT、SEL以外のキー(例え
ば、カーソル移動キーなどの文書編集で用いるキーな
ど)が押下された場合の処理であり、同種の文字処理装
置において一般に行なわれている処理であり、公知であ
るので特に記述しない。
S6−8は上記の処理の結果、変更された部分を表示す
る表示処理である。文書中のデータ1文字を読んではパ
ターンに展開し、表示バッファに出力するという通常広
く行なわれている処理である。
第7図は、S6−4の処理を詳細化したフローチャート
である。
S7−1は、文節単位に分ち書きされて入力されたカナ
漢字変換の対象となる文字列を解析し、カナ漢字変換の
出力の候補を同音語プールに出力する処理である。分ち
書きされた単位に文字列を順々に取り出し、単語辞書を
検索して解析を行ない、文節として認定される候補のみ
を同音語プールに出力する処理であって、同種の文字処
理装置において一般に行なわれている処理であり、公知
であるので特に記述しない。
S7−2はS7−1において同音語プールに出力された解
析結果に対して、単語辞書中に格納されている用例のパ
ターンが存在するかどうかをチェックし、用例のパター
ンが存在すれば、その用例の対象となる同音語の候補を
優先候補としてピックアップする。
S7−3はS7−2でピックアップされた優先候補や、単
語学習されている候補の中から、カナ漢字変換の第1候
補を決定する。
S7−4は、出力バッファに格納されたカナ漢字変換の
出力を表示する処理であり、同種の文字処理装置におい
て一般に行なわれている処理であり、公知であるので特
に記述しない。
第8図はS7−2の処理を詳細化したフローチャートで
ある。
優先候補抽出の対象となる同音語を先頭から順次、取
り出してきて、対象同音語がなくなるまですべての同音
語に対して、以下の処理を行なう。
S8−1で同音語中の候補情報を取り出してくる。
S8−2ですべての候補情報について処理したかどうか
を判定し、すべて処理済であるならば優先候補抽出を終
了する。次の候補情報が取り出せたならば、S8−3で候
補情報に用例情報が存在するかどうかを判定する。用例
情報が存在するかどうかは、候補情報中の用例情報ポイ
ンタによって判定できる。すなわち、用例情報ポインタ
の値が“−1"であるならば用例情報は存在しない。そう
でなければ用例情報ポインタの示す領域に用例情報が存
在する。用例情報が存在しないならば優先候補抽出処理
を終了する。
用例情報が存在する場合、S8−4で逆方向用例情報の
抽出を行ない、S8−5で正方向用例情報の抽出を行な
う。
S8−5の処理を終了したならば、次の候補情報を処理
するためS8−1へループする。
第9図は、S8−4の処理を詳細化したフローチャート
である。
S9−1において、候補情報に格納されている単語IDに
よって、その単語に存在する用例の情報を、一つずつ辞
書の中から取ってくる。
S9−2において、S9−1で候補情報の単語に対して辞
書中に用例が存在するかどうか、辞書中の用例をすべて
取り終えたかどうかを判定する。用例が存在していれば
S9−3へ進み、用例が存在していないか、辞書中の用例
をすべて取り終えていれば逆方向用例抽出処理を終えて
リターンする。
S9−3において、取り出されてきた用例を逆転させて
適用させることが可能かどうかをチェックする。その情
報は辞書中に格納されている。逆転可能であればS9−4
へ進み、逆転できなければS9−1へ進む。
S9−4において、取り出された用例を逆転して適用し
た場合に、入力された読みに対して成立可能かどうかの
判定を行なう。成立可能であればS9−5へ進み、成立可
能でなければS9−1へ進む。
S9−5において、成立可能な用例の情報を用例情報に
格納する。すなわち、用例情報プールに用例の情報を用
例情報として格納し、対象となっている同音語の候補情
報に用例情報が存在しなければ、用例情報ポインタに新
たに作成された用例情報へのポインタを格納する。候補
情報に用例情報が存在すれば、用例情報のリストの末尾
に新たに作成された用例情報を付け加える。また、対象
となっている同音語の候補情報だけでなく、用例の相手
となる同音語の候補情報にも同じようにして用例情報を
格納する。
第10図は、S9−4の処理を詳細化したフローチャート
である。
S10−1において、対象となっている文節に後続する
文節が存在するかどうかチェックする。後続する文節が
存在すればS10−2へ進み、存在しなければS10−7へ進
む。
S10−2において、対象となっている文節の末尾の活
用形が連体形であるかどうかをチェックする。連体形で
あればS10−3へ進み、連体形でなければS10−7へ進
む。
S10−3において、後続する文節に対する同音語から
候補情報を一つずつ取ってくる。
S10−4において、S10−3で候補情報が取ってこれた
かどうかを判定する。候補情報が取ってこれればS10−
5へ進み、すべての候補情報を取り終えて、候補情報が
取ってこれなければS10−7へ進む。
S10−5において、S10−3で得た候補情報の単語が用
例の相手となりうるかどうかを判定する。すなわち、用
例のタイプが個別用例であれば、辞書中の用例情報の用
例の項目に格納されている単語IDとS10−3で得た候補
情報の単語IDが一致していれば、用例の相手となるもの
とし、一致しなければ用例の相手とならないものとす
る。用例のタイプが意味用例であれば、辞書中の用例辞
書の用例の項目に格納されている意味属性と、S10−3
で得た候補情報の単語IDから得られる意味属性とが一致
していれば、用例の相手となるものとし、一致しなけれ
ば用例の相手とならないものとする。用例の相手になる
と判定されればS10−6へ進み、用例の相手にならない
と判定されればS10−3へ進む。
S10−6において、用例が成立するというリターン・
コードを設定する。
S10−7において、用例が成立しないというリターン
・コードを設定する。
第11図は、S8−5の処理を詳細化したフローチャート
である。
S11−1において、候補情報に格納されている単語ID
によって、その単語に存在する用例の情報を、一つずつ
辞書の中から取ってくる。
S11−2において、S11−1で候補情報の単語に対して
辞書中に用例が存在するかどうか、辞書中の用例をすべ
て取り終えたかどうかを判定する。用例が存在していれ
ばS11−3へ進み、用例が存在していないか、辞書中の
用例をすべて取り終えていれば正方向用例抽出処理を終
えてリターンする。
S11−3において、取り出された用例を正方向に適用
した場合に、入力された読みに対して成立可能かどうか
の判定を行なう。成立可能であればS11−4へ進み、成
立可能でなければS11−1へ進む。
S11−4において、成立可能な用例の情報を用例情報
に格納する。すなわち、用例情報プールに用例の情報を
用例情報として格納し、対象となっている同音語の候補
情報に用例情報が存在しなければ、用例情報がポインタ
に新たに作成された用例情報へのポインタを格納する。
候補情報に用例情報が存在すれば、用例情報のリストの
末尾に新たに作成された用例情報が付け加える。また、
対象となっている同音語の候補情報だけでなく、用例の
相手となる同音語の候補情報にも同じようにして用例情
報を格納する。
第12図は、S11−3の処理を詳細化したフローチャー
トである。
S12−1において、対象となっている文節の前の文節
が存在するかどうかチェックする。前の文節が存在すれ
ばS12−2へ進み、存在しなければS12−8へ進む。
S12−2において、前の文節に対する同音語から候補
情報を一つずつ取ってくる。
S12−3において、S12−2で候補情報が取ってこれた
かどうかを判定する。候補情報が取ってこれればS12−
4へ進み、すべての候補情報を取り終えて、候補情報が
取ってこれなければS12−8へ進む。
S12−4において、S12−2で得た候補情報の単語が用
例の相手となりうるかどうかを判定する。すなわち、用
例のタイプが個別用例であれば、辞書中の用例情報の用
例の項目に格納されている単語IDとS12−2で得た候補
情報の単語IDが一致していれば、用例の相手となるもの
とし、一致しなければ用例の相手とならないものとす
る。用例のタイプが意味用例であれば、辞書中の用例情
報の用例の項目に格納されている意味属性と、S12−2
で得た候補情報の単語IDから得られる意味属性とが一致
していれば、用例の相手となるものとし、一致しなけれ
ば用例の相手とならないものとする。用例の相手になる
と判定されればS12−5へ進み、用例の相手にならない
と判定されればS12−2へ進む。
S12−5において、S12−2で得た候補情報の自立部以
外の残り読み(付属語列)を付属語列変換テーブルによ
って、結合情報に変換する。
S12−6において、前の文節の同音語の候補が、用例
の結合条件を満たしているかどうかを判定する。すなわ
ち、S12−5において、付属語列変換テーブルによって
結合情報に変換できなければ、結合条件を満たしていな
いものとする。また、S12−5で得た結合情報と、辞書
中の用例情報の結合情報との間に、一致する情報があれ
ば結合条件を満たしているものとし、一致する情報がな
ければ結合条件を満たしていないものとする。結合条件
を満たしていればS12−7へ進み、結合条件を満たして
いなければS12−2へ進む。
S10−7において、用例が成立するというリターン・
コードを設定する。
S12−8において、用例が成立しないというリターン
・コードを設定する。
第13図はS7−3の処理を詳細化したフローチャートで
ある。
第1候補決定を行なわなれけばならない同音語を先頭
から順次、取り出してきて、対象同音語がなくなるまで
すべての同音語に対して、以下の処理を行なう。
S13−1で同音語内の候補情報のうちから優先候補ピ
ックアップする。優先候補のピックアップは同音語が持
つ候補情報のうち、用例情報ポインタが“−1"でないも
のの個数を優先個数にセットし、優先個数にカウントさ
れた候補情報を順次先頭に並び換えていく。すべての候
補情報について、優先候補のピックアップが終了したな
らば、S13−2に進み,抑制された用例を優先候補から
除外する処理を行なう。候補情報の先頭から優先個数分
の候補情報について、以下の処理を行なうことにより、
抑制用例の優先除外を行なう。まず候補情報内の用例情
報ポインタをたどり、用例情報内の用例IDを取り出す。
取り出した用例IDの示す用例学習データが抑制状態にあ
るかどうかをチェックする。用例情報ポインタが終端に
達するまで、すなわちポインタ値が“−1"を示すまでの
用例IDについて抑制されているかどうかを調べた結果、
候補情報の用例情報ポインタが示すすべての用例情報が
抑制されていた場合のみ、その候補情報を優先候補から
除外する。すなわち、優先個数を1減らし、候補情報を
優先候補末尾の直後に並び換える。
S13−3でS13−2の結果、優先候補が残っているかど
うかを、優先個数が0か否かによって判定し、優先候補
が一つもない場合はS13−5へ、優先候補が1個以上残
っている場合はS13−4へそれぞれ分岐する。
S13−4で優先候補として残された候補情報のうち、
個別単語用例を持つ候補が存在するかどうかをチェック
する。個別単語用例の存在チェックは、候補情報の先頭
から優先個数分の候補情報について、以下の処理を行な
うことにより行なわれる。先ず、候補情報内の用例情報
ポインタをたどり、用例情報ポインタの示すすべての用
例情報について用例のタイプを調べ、一つでも個別単語
用例があれば“個別単語用例あり”と判定される。用例
情報ポインタが終端に達するまで、すなわちポインタ値
が“−1"を示すまで用例のタイプを調べてすべて意味属
性用例であれば“個別単語用例なし”と判定される。
判定の結果、個別単語用例ありならばS13−6へ、個
別単語用例なしならばS13−7へ分岐する。
S13−6でS13−5の個別単語用例検索の結果、すべて
意味属性用例である候補情報を優先候補から除外する。
すなわち、優先個数を1減らし、候補情報を優先候補末
尾の直後に並び換える。
上記処理の結果、優先候補が一つに絞られたかどうか
をS13−7で判定する。すなわち優先個数が1であるか
どうかを判定する。優先個数が1であるならばS13−9
へ進み、優先候補を第1候補として決定する。優先個数
が1でない場合は、まだ一つに絞られていないため、S1
3−8で単語学習による候補の絞り込みを行なう。
S13−8で優先候補の単語IDを取り出し、単語IDの示
す単語学習テーブルを調べ、単語学習されている候補が
存在したならば、S13−11で単語学習されている候補を
第1候補として決定する。単語学習されている候補が複
数個あったならば、先に格納されている候補情報を第1
候補とする。優先候補中のすべての候補に単語学習され
ているものがなかった場合は、S13−10で優先候補の先
頭に格納されている候補を第1候補として決定する。
S13−3で優先候補が一つも存在しないと判定された
場合は、S13−5で単語学習による第1候補決定の判定
を行なう。候補情報の単語IDを取り出し、単語IDの示す
単語学習データを調べ、単語学習されている候補が存在
したならば、S13−11で単語学習されている候補を第1
候補として決定する。単語学習されている候補が複数個
あったならば、先に格納されている候補情報が第1候補
とする。すべての候補情報に単語学習されているものが
なかった場合は、S13−12で先頭の候補情報を第1候補
として決定する。
第14図はS6−6の処理を詳細化したフローチャートで
ある。
S14−1において選択キーSELによって選択・確定され
た候補が格納されている同音語内に用例が存在するかど
うかを同音語中のすべての候補情報について、用例情報
ポインタを参照することにより判定する。すなわち、用
例情報ポインタの値が“−1"であるならば、用例なしと
判定される。すべての候補情報について用例が一つも存
在しなければ、S14−3へ、一つでも用例が存在すればS
14−2へそれぞれ分岐する。
S14−2で選択された単語によって成立する用例が用
例情報中に存在するかどうかを以下のように判定する。
まず、選択された単語の候補情報中における用例情報
ポインタをたどり、ペア同音語IDおよび用例IDを取り出
す。取り出したペア同音語IDの示す同音語内の先頭候補
情報の用例情報ポインタをたどり、ペア同音語IDが、選
択された単語の存在する同音語IDであるものがあるかど
うかを検索する。そのような用例情報が検索されなけれ
ば、用例は成立しないと判定される。ペア同音語IDが、
選択された単語の同音語IDと一致する用例情報が検索さ
れたならば、用例IDを取り出し、選択された単語の用例
情報中の用例IDと一致するかどうかをチェックする。用
例IDが一致すれば、成立用例が存在すると判定される。
一致しなければ用例は成立しないと判定される。用例が
成立すると判定されたならば、S14−6へ進み、用例が
成立しないと判定されたならば、ペア同音語の次の用例
情報について同様の判定を行なう。ペア同音語の用例情
報についてすべて用例が成立しなければ、選択された単
語の次の用例情報について、同様の判定処理を行なう。
選択された単語の用例情報がないならば、成立する用例
なしと判定され。S14−5へ分岐する。
S14−4は用例抑制解除の処理である。S14−2で成立
用例と判定された用例の用例IDを示す用例学習データを
使用可能状態にする。
S14−3はS14−1にて選択された単語に用例が存在し
なかった場合に、選択されなかった他の同音語の用例を
抑制するための用例存在判定を行なう。
そのために、選択された単語の存在する同音語中の選
択された候補情報以外のすべての用例情報に用例が存在
しているかどうかを判定し、用例が存在するならば、S1
4−5で用例IDの示す用例学習データの使用禁止状態に
する。
S14−6は単語学習処理を行なう。選択された表記の
単語IDの示す単語学習データを学習状態にし,同音語中
の選択されなかった候補情報の単語IDの示す単語学習デ
ータの学習状態を解除する処理を行なう。
S14−7で選択された表記の文書への確定処理を行な
う。確定処理は確定文字コードを文字バッファTBUFへ格
納するという同種の文字処理装置で通常行なわれている
処理であり、公知であるので詳述しない。
〔他の実施例〕
以上の説明において用いた辞書は単語情報と用例情報
とを同一見出し語の下に記述した単一の辞書構造である
が、単語情報と用例情報とを分離した各辞書テーブルと
しても同様に処理することができる。さらに用例のタイ
プ別に辞書を構成し、各辞書に辞書個別のIDを持たせ、
用例の存在する辞書IDによって用例の優先順位を持たせ
て処理を行なってもよい。
また、以上の説明では、隣接した文節間にのみ用例を
適用していたが、隣接していない文節間に用例を適用す
ることも、容易に実現できる。その際、文節間の構文解
析処理(係り受け解析処理)を施すことによって、用例
の誤った適用を避けることができる。
以上の説明においては、分ち書き入力された文節間に
用例を適用する場合を述べたが、べた書きに入力された
読み列に対しても、自動的に文節に分割する処理を付け
加えることによって、同じように用例を適用できる。ま
た、用例の存在を加味しながら文節に分割することも可
能である。
〔効果の説明〕
以上説明したように、本発明によれば、用例辞書に、
共起する単語の組を用例として、該用例の適用される語
順の制限の有無とともに記憶して記憶しておき、各文節
中の単語の候補につき、該候補を含む用例が前記用例辞
書に記憶されている場合に、当該用例において前記候補
と組をなす単語を、当該用例の適用される語順に制限が
なければ、前記候補を含む文節の前の文節及び語の文節
の単語の候補より抽出し、当該用例の適用される語順に
制限があれば、前記候補を含む文節より当該語順の制限
に従う方向にある文節の単語の候補より抽出して、前記
候補と組をなす単語が抽出された場合には、当該候補を
優先させて、前記各文節の単語の第1候補の表記を出力
するようにしている。
これにより、語順に制限なく共起する単語の組を、語
順毎に独立した用例とせずに1つの用例として用例辞書
に記憶するので、用例辞書の容量が節約できる。また、
適用される語順に制限のない用例を文中で使用される語
順によらずに適用するとともに、適用される語順に制限
がある用例を語順に従って適用して、用例に該当する候
補を優先させることができるので、変換の精度を高める
ことができるという効果がある。
【図面の簡単な説明】
第1図は本発明の全体構成のブロック図、 第2図は本発明の辞書構成の例を示す図、 第3図は本発明の同音語プールおよび用例情報プールの
構成を示す図、 第4図は本発明の付属語変換テーブルの構成を示す図、 第5図は本発明の学習データの構成を示す図、 第6図〜第14図は本発明文字処理装置の動作を示すフロ
ーチャートである。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】仮名文字列を入力する入力手段と、 単語の読みと表記とを対応付けて記憶した単語辞書と、 共起する単語の組を用例として、該用例の適用される語
    順の制限の有無とともに記憶した用例辞書と、 前記入力手段より入力された仮名文字列を読みとする文
    節群の各文節中の単語の候補を前記単語辞書より検索す
    る検索手段と、 前記各文節中の単語の候補につき、該候補を含む用例が
    前記用例辞書に記憶されている場合に、当該用例におい
    て前記候補と組をなす単語を、当該用例の適用される語
    順に制限がなければ、前記候補を含む文節の前の文節及
    び後の文節の単語の候補より抽出し、当該用例の適用さ
    れる語順に制限があれば、前記候補を含む文節より当該
    語順の制限に従う方向にある文節の単語の候補より抽出
    する抽出手段と、 該抽出手段により、前記候補と組をなす単語が抽出され
    た場合には、当該候補を優先させて、前記各文節の単語
    の第1候補の表記を出力する出力手段とを有することを
    特徴とする文字処理装置。
  2. 【請求項2】単語辞書に単語の読みと表記とを対応付け
    て記憶するとともに、用例辞書に、共起する単語の組を
    用例として、該用例の適用される語順の制限の有無とと
    もに記憶しておき、 仮名文字列を入力し、 入力された仮名文字列を読みとする文節群の各文節中の
    単語の候補を、前記単語辞書より検索し、 前記各文節中の単語の候補につき、該候補を含む用例が
    前記用例辞書に記憶されている場合に、当該用例におい
    て前記候補と組をなす単語を、当該用例の適用される語
    順に制限がなければ、前記候補を含む文節の前の文節及
    び後の文節の単語の候補より抽出し、当該用例の適用さ
    れる語順に制限があれば、前記候補を含む文節より当該
    語順の制限に従う方向にある文節の単語の候補より抽出
    し、 前記候補と組をなす単語が抽出された場合には、当該候
    補を優先させて、前記各文節の単語の第1候補の表記を
    出力することを特徴とする文字処理方法。
JP63056544A 1988-03-09 1988-03-09 文字処理装置 Expired - Fee Related JP2832003B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63056544A JP2832003B2 (ja) 1988-03-09 1988-03-09 文字処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63056544A JP2832003B2 (ja) 1988-03-09 1988-03-09 文字処理装置

Publications (2)

Publication Number Publication Date
JPH01229366A JPH01229366A (ja) 1989-09-13
JP2832003B2 true JP2832003B2 (ja) 1998-12-02

Family

ID=13030033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63056544A Expired - Fee Related JP2832003B2 (ja) 1988-03-09 1988-03-09 文字処理装置

Country Status (1)

Country Link
JP (1) JP2832003B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS592125A (ja) * 1982-06-29 1984-01-07 Comput Basic Mach Technol Res Assoc 仮名漢字変換方法
JPS60124774A (ja) * 1983-12-09 1985-07-03 Ricoh Co Ltd 同音語判別装置

Also Published As

Publication number Publication date
JPH01229366A (ja) 1989-09-13

Similar Documents

Publication Publication Date Title
US5349368A (en) Machine translation method and apparatus
EP0244871A2 (en) Machine translation system
JP2951956B2 (ja) 文字処理装置及びその方法
JP2832003B2 (ja) 文字処理装置
JP2756252B2 (ja) 文字処理装置
JPH0576067B2 (ja)
JP2756251B2 (ja) 文字処理装置
JPH01229369A (ja) 文字処理装置
JP2662392B2 (ja) 文字処理装置
JP3847812B2 (ja) 文字処理方法とその装置
JPH1115826A (ja) 文書解析装置及び方法
JP3727973B2 (ja) 文書処理方法とその装置
JP2856775B2 (ja) 文書作成装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPH04139579A (ja) 単語検索装置
JPH10187705A (ja) 文書処理方法及びその装置
JPS6389976A (ja) 言語解析装置
JPS62145463A (ja) 仮名漢字変換方式
JP2005189954A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPH0442350A (ja) 文字処理装置
JP2005189953A (ja) 文書特徴検出方法、文書特徴検出装置、制御プログラム及び記録媒体。
JPH07182334A (ja) 文字処理装置
JPH05174004A (ja) 文字処理方法及び装置
JPH01229365A (ja) 文字処理装置
JPH05174005A (ja) 文字処理方法及び装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees