JP4043176B2

JP4043176B2 - 自然言語処理装置

Info

Publication number: JP4043176B2
Application number: JP2000262484A
Authority: JP
Inventors: 裕美子吉村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-08-31
Filing date: 2000-08-31
Publication date: 2008-02-06
Anticipated expiration: 2020-08-31
Also published as: JP2002073602A

Description

【０００１】
【発明の属する技術分野】
この発明は、自然言語文を解析する自然言語処理装置に関する。
【０００２】
【従来の技術】
コンピュータ技術の発展に伴い、機械翻訳ソフトウェアを始めとする自然言語処理ソフトもより高い精度を求めた開発努力が行われている。たとえば、ソフトに組み込む語彙や知識の量を増やしたり、計算量の多い高度な意味処理を組み込むことも可能になった。しかし、自然言語の表現の多様性にはまだまだ追いつけず、すべてのユーザのすべての種類の入力文を、何の前処理、学習もなく満足できる解析結果、翻訳結果を得られるレベルにはまだ到達できていない。特に、ひとつの単語および単語の活用結果に複数の品詞候補が存在する場合の品詞の曖昧性の問題も対応が難しい事項の顕著な例である。
【０００３】
この品詞の曖昧性の問題に対して個々のユーザが対処できる手段のひとつとして、特定の語に対して処理時に優先したい品詞を学習辞書に登録させる方法がある。ただし、この学習は一般にすべての文の処理において優先して扱われるため、文によって正しい品詞が異なる場合にも一様に優先してしまい、文によっては誤った解析結果を導くという問題があった。
【０００４】
また、特定の文の解析だけに影響させるように、ユーザが局所的に品詞を指定することを可能にするという手段もとられている。しかし、これでは、ある文書内に似たような文が再出しても、同じ学習を再び行わなくてはいけない、という問題があった。別の文書での再出に無効なのは言うまでもない。
【０００５】
すなわち、従来の技術では、品詞の曖昧性の問題に対して、個々の文に応じた知識の細かい制御ができず、ユーザに学習の手間、あるいは、出力結果の後処理・後編集の手間をかけさせるのを回避できなかった。
【０００６】
【発明が解決しようとする課題】
本発明は上述の事情を考慮してなされたものであり、個々の文脈に合わせて学習内容を制御することにより、最大限ユーザの学習意図を生かし、結果としてユーザの手間を軽減できる自然言語処理装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明の自然言語処理装置は、入力文の所定の語句を見出し語として指定する見出し語指定手段と、前記見出し語の品詞を指定する品詞指定手段と、前記見出し語の前後あるいは片方に存在する入力文を構成する語句の範囲内の複数の語句と、これらの複数の語句に対する複数の品詞の並び方を抽出する文脈取得手段と、前記文脈取得手段により取得された前記複数の語句に対する品詞と品詞に準ずる語句を含めた品詞情報の複数の並び方から唯一の品詞情報の並び方に決定し、これを学習要件とする要件作成手段と、前記見出し語と、前記品詞指定手段により指定された品詞と、前記要件作成手段によって作成された学習要件を記憶するための学習辞書手段と、処理すべき他の文に、前記学習辞書手段により記憶された語句および学習要件が存在する場合には、前記処理すべき他の文に含まれる見出し語の品詞を前記品詞指定手段によって指定された品詞と判定する品詞判定手段と、前記品詞判定手段により判定された品詞の情報に基づいて、前記入力文に対して所定の自然言語処理を行う自然言語処理手段とを有することを特徴とする。
【０００８】
また、機械翻訳装置として、第１言語の文書を第２言語の文書へ変換するための知識情報を収容する辞書手段と、この辞書手段に収容される知識情報と前記学習辞書手段に記憶された学習内容を用いて、第１言語の文章を第２言語の文章へ変換するための翻訳手段とを備え、自然言語処理として翻訳処理を行うことを特徴とする。
【０００９】
また好ましくは、前記要件作成手段により作成された要件をユーザに提示する提示手段を有することを特徴とする。
【００１０】
また好ましくは、前記要件作成手段により作成された要件を前記提示手段によってユーザに提示することにより、ユーザによる要件の変更・指定を受け付ける入力手段を有することを特徴とする。
【００１１】
さらに好ましくは、学習辞書手段に記憶された学習辞書の内容の一覧をユーザに提示し、ユーザからの学習内容の変更・削除を受け付ける入力手段を有することを特徴とする。
【００１２】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。本実施形態は、英語の自然言語入力文を日本語の自然言語文に変換する英日機械翻訳システムに関する。
【００１３】
図１は、本発明の一実施形態としての機械翻訳システムの構成を示すブロック図である。入力部１０１は制御部１０２に接続され、制御部１０２は出力部１０６へ接続される。また、制御部１０２は、翻訳部１０３および学習制御部１０５と双方向に接続されている。さらに、翻訳部１０３、学習制御部１０５間は相互に接続され、共に辞書部１０４と双方向に接続されている。学習制御部１０５は文脈取得部１０５ａと要件作成部１０５ｂとを有している。辞書部１０４は、語彙部１０４ａ、形態素解析規則１０４ｂ、品詞判定規則１０４ｃ、構文解析規則１０４ｄ、変換規則１０４ｅ、生成規則１０４ｆ、学習辞書部１０４ｇからなる。
【００１４】
本実施形態の学習辞書部１０４ｇは、特定の語句に対する品詞情報に関するユーザの学習内容を収容する辞書である。
【００１５】
入力部１０１は、制御部１０２に対して、翻訳対象となる文の入力や各種コマンドの入力を行なうためのものである。通常、キーボード、マウスなどが用いられる。翻訳対象文の入力には、ＯＣＲ、フロッピーディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなども考えられる。
【００１６】
出力部１０６は、翻訳部１０３の出力である翻訳結果を出力したり、制御部１０２への各種命令に対する制御部１０２からの応答を表示するためのものである。各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フロッピーディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。
【００１７】
制御部１０２は、全体の動きを制御するためのものである。図２に制御部１０２におけるユーザとの対話的な処理の流れを示す。入力部１０１より原文の入力があると（ステップＳ２０１）、制御部１０２は出力部１０６に対して原文の表示を指示する（ステップＳ２０２）。
【００１８】
その後、翻訳指示命令が送られてくると（ステップＳ２０３）、制御部１０２は原文のデータを翻訳部１０３へ送り、翻訳処理開始の指示命令をする。翻訳部１０３は辞書部１０４の知識・規則を用いて、入力原文に対して、第２言語の文への翻訳処理を行う（ステップＳ２０４）。翻訳部１０３の処理の流れについては、後に別図を用いて説明を行う。翻訳処理が終了すると、翻訳結果は制御部１０２を通じて出力部１０６へ送られ、ユーザに提示される。
【００１９】
入力部１０１より制御部１０２へ品詞学習を起動する命令操作が入力されると（ステップＳ２０５）、学習制御部１０５に学習起動を指示し、ユーザの指示に従って学習辞書部１０４ｇの更新を実行させる（ステップＳ２０６）。学習制御部１０５における辞書更新処理の詳細についても、後に別図を用いて説明を行う。入力部１０１より全体の処理終了の指示が入力された場合には（ステップＳ２０７）、すべての処理を終了する。それ以外の入力に対しては（ステップＳ２０７）、入力に応じた処理を行う（ステップＳ２０９）。
【００２０】
図３は、本実施形態で用いる学習辞書部１０４ｇに記憶される学習内容の一例を示す図である。これは、原文「Ａｔｐｒｅｓｅｎｔｔｈｅａｇｅｎｔｓｒｅｆｕｓｅｔｏａｃｃｅｐｔｒｏｕｂｌｅｓ．」においてユーザが「ｐｒｅｓｅｎｔ」に「名詞」を指定した時の例である。学習辞書部１０４ｇに記憶される内容は、以下の４種類の情報のセットを一単位としている。
１．見出し語：ユーザの指定した特定の語句（学習対象）
２．学習品詞：学習させたい品詞
３．学習要件：学習をきかせたい文脈（見出し語周辺の語の並び具合）
４．学習事例：品詞指定を行ったときの原文
本実施形態では、学習要件は、学習対象の見出し語の前後に生起するそれぞれ２語までの情報を表している。これは、特定の語に対してユーザが品詞の指定を行ったときに、その語を含む原文の解析結果を使って、当該語の前後の語の解析結果を元に作成するものであり、また、学習内容を以降の翻訳処理に用いるか否かの判定時にも使用される。学習要件の作成・利用については、後に詳細な説明を行う。
【００２１】
図３において、「＄」が当該見出し語を示し、その前後２語の情報を「−」で区切って並べて記憶する。前後の語の情報として書かれるのは以下のとおりである。
【００２２】
φ：相当する単語がないことを示す。図３の例では、当該見出し語が原文において、文頭側から２番目の語であり、文頭側には直前の１単語しかないことを示している。
【００２３】
‘ｘｘ'：引用符「‘ '」で囲まれているのは、表層単語の文字列そのものを記憶していることを示す。図３の例では前置詞「ａｔ」を記憶している。
本実施形態では、前置詞は表層単語を記憶するものとして実現している。冠詞、名詞、固有名詞、形容詞、動詞、過去分詞、現在分詞、他：当該見出し語の前後の語の品詞情報を記憶している。
【００２４】
学習要件に含める文脈の幅を何語にするかという点は、本発明で限定するものではなく、趣旨を逸脱しない範囲で自由に設定できる。また、本実施形態では、一部の語の情報を表層文字列として記憶し、他の語は品詞情報に置き換えて記憶するよう構成しているが、この情報の抽象化の度合いについても同様に本発明の趣旨を逸脱しない範囲で自由に設定すればよい。名詞を単数と複数とで別に扱ったり、動詞を三人称単数現在形と原形、過去形を別に扱うことは非常に有効であるし、特定の動詞（たとえば、「ｂｅ」や「ｈａｖｅ」）のみ原形や表層文字列とする、などの個別化は有効であるが、そのように区別するか否かは自由に設定してよい。
【００２５】
次に、ユーザが原文中の特定の語に対して品詞の指定を行った際の、学習制御部１０５の処理について説明をする。原文として「Ａｔｐｒｅｓｅｎｔｔｈｅｒｅａｒｅｍｏｒｅｔｈａｎ３００ｇｏｌｆｃｏｕｒｓｅｓｉｎＦｒａｎｃｅ．」が表示部１０１に表示されている状態で、ユーザが「ｐｒｅｓｅｎｔ」にカーソルを置き、品詞指定コマンドで特定の品詞を指定すると（通常は画面上に用意されているボタンやプルダウンメニューを選択することによる。図４に品詞を指定するためのプルダウンメニューの一例を示す。）、その指定内容は原文中の当該単語の位置情報とともに制御部１０２に送られ、さらに学習制御部１０５へ送られる。
【００２６】
学習制御部１０５が品詞指定起動の信号を受け取ってからの処理の流れを図５に示す。学習制御部１０５は、当該見出し語の品詞指定の信号を受け取ると、当該見出し語の位置情報をキーとして、翻訳部１０３に当該語を含む原文の解析を指示する信号を送る（ステップＳ５０１）。それを受けて翻訳部１０３は辞書部１０４の語彙部１０４ａ、形態素解析規則１０４ｂ、品詞判定規則１０４ｃ、解析規則１０４ｄを使って原文の解析を行い（翻訳部１０３における全体の処理の流れは後に別図を使って説明する。）、当該語の前後の語句とその品詞情報（文脈情報）を抽出し、その結果を学習制御部１０５へ送る（ステップＳ５０２）。
【００２７】
この時点では、以下のように表層単語情報のほか品詞情報を始めとする形態素解析結果の情報がすべて送られてくる。ただし、本実施例では、当該語の前後２語を文脈の範囲としているので、ここではその範囲の情報のみが送られるよう構成している。また、品詞の並びに複数の解釈があるときは、翻訳部１０３の解析結果としてもっとも優先度の高いものが送られる。
【００２８】
Ａｔ ― ＄ ― ｔｈｅｒｅ ― ａｒｅ
前置詞副詞動詞（複数／２人称主語呼応形）
上記のような文脈情報を取得すると、続いて学習要件作成手段１０５ｂにより、実際に学習辞書部１０４ｇに記憶させる学習要件を作成する（ステップＳ５０３）。本実施形態では、具体的には、以下のような処理を行う。
「前置詞、動詞「ｂｅ」「ｈａｖｅ」 → 原形の文字列で代表化し、引用符（‘ '）でくくる
その他 → 大品詞カテゴリーで代表化させる
文脈語が２語に満たないときは、その数だけ「φ」を挿入する」
上記「大品詞カテゴリーで代表化」というのは、品詞の大区分を示す。たとえば、解析の詳細化のために、同じ冠詞でも「ｍｙ」「ｙｏｕｒ」などの所有格代名詞と定冠詞、不定冠詞を品詞情報の小区分としているケースがありえるが、これを小区分のレベルで分けずに、大区分のレベルに抽象化することを示す。この結果、本実施形態では、以下のような学習要件が作成される。
【００２９】
「要件 φ ― ‘ａｔ' ― ＄ ― 副詞 ― ‘ｂｅ'」
ここで作成された学習要件は、制御部１０２を通じて出力部１０６に送られユーザに提示される（ステップＳ５０４）。この際には、ユーザへの理解を助けるために、対応する原文中の文字列も同時に示し、かつ、ユーザが学習要件として学習させたい情報を容易に変更できるように、以下に示すような他の選択肢も示される。
要件 φ −− ‘ａｔ' −− ＄ −− 副詞 −− ‘ｂｅ'
−−−−−−−−−−−−−−−−−−−−−−−−−−
選択肢一覧 ‘ａｔ'前置詞副詞‘ｔｈｅｒｅ'‘ｂｅ'動詞
図６は、出力部１０６への学習要件の提示例である。個々の要件の右横の黒い三角をクリックすると他の選択肢が表示され、ユーザが望む候補を選ぶことができる。上段の図は、「ｔｈｅｒｅ」に対して「副詞」から「‘ｔｈｅｒｅ'」に変更する際の画面例である。下段は、選択結果が画面に反映されているところを示している。
【００３０】
この結果、以下のような変更された学習要件が出力部１０６、制御部１０２を経て、学習制御部１０５へ送られる（ステップＳ５０５）。
【００３１】
「要件 φ ― ‘ａｔ' ― ＄ ― ‘ｔｈｅｒｅ' ― ‘ｂｅ'」
学習要件を取得すると、見出し語、学習させたい品詞、学習要件をセットで学習辞書部１０４ｇに登録する（ステップＳ５０６）。これで、ユーザによる品詞指定から始まる学習辞書の更新処理の終了となる。
【００３２】
上記実施形態では、ユーザの変更操作を容易にするため、あらかじめ変更候補を選択肢として提供するよう構成したが、ユーザに希望する変更を自由入力させて柔軟度を高めるような構成も可能である。
【００３３】
続いて、学習辞書部１０４ｇ内の学習内容を含む辞書部１０４に含まれる各種知識を使って翻訳部１０３が翻訳処理を行う際の処理の流れについて説明する。図７は、原文が１文入力されてから、第２言語の文として出力されるまでの処理の流れを示すフローチャートである。
【００３４】
まず、翻訳部１０３に入力文が送られてくると、入力文に対して辞書部１０４中の語彙部１０４ａと形態素解析規則１０４ｂを用いて、形態素解析・辞書引き処理を行い、その品詞・活用の種類、訳語ほか、翻訳処理に必要な各種情報を求める（ステップＳ７０１）。この結果、入力文を構成する単語のすべての品詞、活用の候補がリストアップされる。たとえば「Ａｔｐｒｅｓｅｎｔｔｈｅｒｅａｒｅｓｏｍｅｌｉｍｉｔｓｏｎａｒｍｓｓａｌｅｓ．」が原文として入ってくると、図８に示すような形態素解析結果を出力する。すべての品詞・活用の種類の候補のつらなりがネットワーク状に表されている。
【００３５】
形態素解析結果が得られると、次は、品詞判定規則１０４ｃを用いて、入力文を構成する単語の品詞の並びとして確からしい系列を選択する（ステップＳ７０２）。品詞判定規則１０４ｃには、たとえば「名詞と動詞の両方の可能性がある語の後に冠詞が繋がっている場合には、動詞の可能性のほうが高い」というような優先度決めのための知識がたくさん記述されており、その知識と形態素解析結果を照らし合わせて、複数の可能性の中から最も優先度の高い系列を選ぶという処理が行われる。学習辞書部１０４ｇにユーザによる品詞の学習結果が収容されていればこの後でそれを踏まえた品詞系列の再判定を行う。この処理については、後に別図を用いて説明を行う。品詞判定処理の出力は、形態素解析処理の出力のようなネットワークではなく、以下のような単語・品詞の並びである。

続く構文解析課程では（ステップＳ７０３）、上記単語・品詞の並びを入力とし、解析規則１０４ｄを使って、入力文の構造を解析する。解析規則１０４ｄに記述される規則では入力された単語・品詞の並びを解析しきれない場合は（ステップＳ７０４）、処理失敗の信号を品詞列判定処理部へ戻す。ここで解析が失敗する原因としては、品詞判定処理の結果が誤っており、文法的に文を解釈することができない場合と、解析規則が不足しているために解析できない場合とがある。
【００３６】
解析失敗の信号を受け取った品詞判定処理部は、前出力の次に確からしい単語・品詞の並びを新たに出力し、構文解析処理へ送る。
（次の出力例）

以降、構文解析が成功するまで、このループが繰り返される。解析規則が不足していた場合や、非常に文が複雑で、単語・品詞の並びの候補が非常にたくさんある場合は、このループがかなりの回数にわたるため、実際の実施形態としては、ループの回数制限や時間制限を設けることも考えられる。この場合、一般には解析可能な部分に文の要素を分割して以降の訳文出力までの処理を行うのが通常の実施方法である。
【００３７】
構文解析が成功すると（制限内に成功しない場合も含む）、ステップＳ７０５へ進み、変換規則１０４ｅを用いて解析結果から第２言語の構造への変換を行う。その後、ステップＳ７０６に進み、生成規則１０４ｆを用いて第２言語の表層文の生成を行い、一通りの翻訳処理を終了する。
【００３８】
以上翻訳部１０３の処理の流れを説明するの用いた例文は非常に簡単なものであるが、実際には非常に構造的にも複雑で、ひとつの語が複数の品詞の候補を持ち、また、合成語も多数辞書に登録されている場合には、合成語としての解釈と、ばらばらの構成要素からなるという解釈が対立も起きてくる。（例：「ｐｕｓｈｂｕｔｔｏｎ」が辞書に登録されている場合、「Ｐｕｓｈｂｕｔｔｏｎｓ．」には「名詞の合成語（ｐｕｓｈｂｕｔｔｏｎ）」「動詞（ｐｕｓｈ）＋名詞（ｂｕｔｔｏｎ）」「名詞（ｐｕｓｈ）＋名詞（ｂｏｔｔｕｎ）」の３種類の候補ができる。）そうなると、単語・品詞の並びの候補数は組み合わせ的に莫大な数になり得るため、制限内に正しい結果を得られないケースが出るのを回避するのは難しい。
【００３９】
また、解析規則１０４ｄ内に記述される知識が不足しているケースも、入力文が多様化すればするほどたくさん起こってくる。この場合は、上記ループを回しても正しい解釈が得られることはなく、誤った解析結果のまま成功と判定されたり、最終的に失敗のまま変換処理へ送られる場合でも、最初の品詞判定処理（もっとも優先度が高いと判定された出力）の出力が誤っていれば、その単語・品詞の並びを使って以降の部分的な翻訳処理を行うのが一般的なので、不適切な訳文がユーザに提示されることが起きる。
【００４０】
このように、品詞判定の結果というのは非常に訳文の精度に影響度が強い。そこで、今までユーザには原文中の特定の文の特定の語に限定して、翻訳処理に認識させたい品詞を限定することまでは可能にしていたが、従来の方法では、あくまでも局所的に、指定した文だけの訳文が改善されるに過ぎなかった。本発明では、これを効率的に学習し、ユーザが複雑な指定をしなくても、最大限ユーザの品詞の指定を学習し、以降の処理に活かしていく、というものである。
【００４１】
続いて、翻訳部１０３の品詞判定処理で、学習辞書部１０４ｇ内の学習内容を参照して、どのように品詞判定結果を制御するかについて説明する。図９は品詞判定処理の流れを示すフローチャートである。
【００４２】
最初にステップＳ９０１にて、処理の開始のきっかけが、構文解析失敗によるものかどうかを判定し、ここで処理が枝分かれする。解析失敗によるものでない場合には、ステップＳ９０２へ進み、品詞判定規則１０４ｃを用いた通常の品詞判定処理を行う。その後、ステップ９０３からＳ９１０において、学習辞書部１０４ｇの学習内容を使った処理に入る。
【００４３】
その最初のステップＳ９０３では、原文中の着眼語（ｉ番目の語）を先頭の語とする。以降、ｉ番目の単語から文末の語までを順番に、学習辞書部１０４ｇの学習内容と照合していくことになる。文末の照合まで終わっていれば（ステップＳ９０４）、ステップＳ９１０へ進み、もっとも優先度の高い単語・品詞の並びの候補を品詞判定結果として出力し、すべての処理を終える。学習辞書部１０４ｇの学習内容に適合した単語・品詞の候補には高い優先度が付与されているので、この段階ではこの候補を含む単語・品詞の並びがもっとも優先度の高い品詞列として出力されることになる。
【００４４】
ｉ番目の語が文中に存在するならば、ステップＳ９０５へ進み、学習辞書部１０４ｇ内の見出し語との照合を行う。ｉ番目の語の見出し語が学習辞書部１０４ｇにない場合は、ステップＳ９０６で着眼単語を次の語にずらし、ステップＳ９０４以下の処理を行う。
【００４５】
ｉ番目の語の見出し語が学習辞書部１０４ｇにある場合は、ステップＳ９０７において、学習要件が、入力文の着目単語周辺の状況と適合するかどうかを判定する。適合しない場合は、ステップＳ９０８にて、同じ見出し語に別の学習項目があるかどうかをチェックする。別の項目があれば、ステップ９０７以降の処理を行う。それ以上、同じ見出し語の別項目がなければ、ステップＳ９０６へ進み、着眼単語をずらし、ステップＳ９０４以降の同様の処理を行う。
【００４６】
ステップＳ９０７で、学習要件が着目単語周辺の状況と適合すると判定された場合には、ステップＳ９０９へ進み、着目単語の品詞候補のうち、学習品詞と一致するものに高い優先度を付与する。その後は、ステップＳ９０６へ進み、着目単語をずらしてステップ９０４以降の同様の処理を行う。
【００４７】
一方、ステップＳ９０１で、解析失敗にもとづく品詞列の再判定であると判定された場合には、ステップＳ９１１へ進み、直前に出力した品詞列に次ぐ優先度を持つ品詞列を判定結果として出力し、処理を終える。学習辞書部１０４ｇの内容と適合した単語・品詞の候補には高い優先度が付与されているので、この段階で、次の候補を判定する際にも、当該単語以外の語の品詞候補が変化した品詞列が選ばれることになる。このようにして、次の品詞列候補を順次出力してく際にも、学習辞書部１０４ｇの内容は優先的に扱われることになり、ユーザの求める正しい訳文を導ける可能性が大幅に上昇する。
【００４８】
本発明によれば、ユーザは特定の文の特定の個所の単語に対して品詞の指定をするだけで、自動的に学習要件を作成し、以降の処理に利用するので、類似文が生起しても、再度品詞指定を行う必要が無く、効果的な学習が行える。また、上記実施形態で説明したように、自動作成した学習要件をユーザに提示することにより学習の内容をユーザに確認させれることもできるし、その時点でユーザ自らに学習要件の修正をさせれば、一層効果的な学習も可能となる。また、ユーザに確認・変更させた学習要件を検索パターンとして、その時点の原文書内の他の文、あるいは他の文書内の文で適合するものを検索してユーザに提示するような処理もつけて実現するという実施形態も有効であろう。
【００４９】
次に、本発明の一実施例で用いる学習辞書内容表示・更新機能について説明する。ユーザが、学習内容表示コマンドを起動すると（通常は画面上に用意されているボタンやプルダウンメニューを選択することによる。）、その命令は制御部１０２に送られ、さらに学習制御部１０５へ送られる（この時の制御部１０２の処理は図２における「その他の処理」に相当する）。図１０に、学習制御部１０５に学習内容表示命令が送られてからの処理の流れを示す。
【００５０】
学習内容表示命令を受け取ると、まず最初に学習辞書部１０４ｇの中身をユーザに提示するサブウィンドウなどに表示できる形式に置きかえ、制御部１０２を通じて出力部１０６にてユーザへ提示する（ステップＳ１００１）。本実施形態では、学習要件の中に含む要素について、学習内容をユーザが変更しやすいように、あらかじめ選択肢を作成し、容易にその中から選べる構成とした。選択肢の作成にあたっては、学習事例と学習要件を使って学習事例中の学習要件に対応する単語を抽出し、翻訳部１０３に辞書引き命令を送ってその辞書引き結果を得ることによって行う。このときの画面表示の一例を図１１に示す。これ以降は、ユーザの入力するコマンド、文字キーなどに応じた処理を入力部１０１、制御部１０２、出力部１０６を介して行う。
【００５１】
ここでユーザに提供しているコマンド、キー入力は、大きく以下の５分類である。それ以外の入力に対してはなにもせず、入力待ちのモードへ戻る（ステップＳ１０１０から情報へ伸びている矢印に相当）。それぞれの入力の種類の下に、それに対応する処理も示した。
【００５２】
「削除ボタン」…対応する学習項目部分をｉｎａｃｔｉｖｅにする（編集不能にする）。同時に「削除ボタン」もｉｎａｃｔｉｖｅにする。「復旧ボタン」をａｃｔｉｖｅにする。
【００５３】
「復旧コマンド」…削除済みの項目をａｃｔｉｖｅにする（編集可能状態に戻す）。同時に「復旧ボタン」もｉｎａｃｔｉｖｅにする。「削除ボタン」をａｃｔｉｖｅにする。起動直後はｉｎａｃｔｉｖｅになっている。
【００５４】
「文字キー、各種編集コマンド」…入力に応じた画面表示とする。
【００５５】
「更新ボタン」…現時点の画面の内容を学習辞書部１０４ｇとして記憶できる形式に置き換え、直前の学習辞書部１０４ｇの内容と置きかえる（学習辞書部１０４ｇの書き換え）。
【００５６】
「終了ボタン」…画面を閉じ、処理を終える。
【００５７】
このように、ユーザに随時学習内容を参照できる機能を提供することで、過去の学習の蓄積をいつでもユーザは確認することができ、かつ、事例を参照しながら後で自由に学習内容の変更をすることも可能となる。上記実施形態では、ユーザの変更操作を簡単にするため、あらかじめ選択肢を作成しておく構成としたが、ユーザに変更内容を直接自由入力させる構成も柔軟度が増し有効である。
【００５８】
なお、上記実施形態は英語の文から日本語の文に翻訳する機械翻訳システムとしての構成であるが、本発明は翻訳の言語対の種類を限定するものではないのはもちろんのこと、自然言語文の解析処理を含む自然言語処理を行うすべての装置・方法に適用可能である。
【００５９】
また、本願発明の実施例における処理をコンピュータで実行可能なプログラムで実現し、このプログラムをコンピュータで読み取り可能な記憶媒体として実現することも可能である。
【００６０】
なお、本願発明における記憶媒体としては、磁気ディスク、フロッピーディスク、ハードディスク、光ディスク（ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【００６１】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼動しているＯＳ（オペレーションシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
【００６２】
さらに、本願発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【００６３】
また、記憶媒体は１つに限らず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。
【００６４】
なお、本願発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【００６５】
また、本願発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本願発明の機能を実現することが可能な機器、装置を総称している。
【００６６】
【発明の効果】
以上説明したように、本発明を用いた自然言語処理装置によれば、ユーザは特定の文の特定の個所の単語に対して処理に採用させたい品詞を指定するだけで、その文に適した学習要件が自動的に作成され、ユーザが当該表現が生起するたびに品詞の指定をする必要がなくなり、作業量を軽減させることができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る機械翻訳システムの基本的な構成を示すブロック図。
【図２】同実施形態の制御部の処理の流れを示すフローチャート。
【図３】同実施形態の学習辞書部の記述内容の一例を示す図。
【図４】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【図５】同実施形態の翻訳部における一文ごとの処理の流れを示すフローチャート。
【図６】同実施形態の学習制部における学習処理の流れを示すフローチャート。
【図７】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【図８】同実施形態の翻訳部における辞書引き・形態素解析結果の一例を示す図。
【図９】同実施形態の翻訳部の品詞判定処理の流れを示すフローチャート。
【図１０】同実施形態の学習辞書内容表示・更新処理の流れを示すフローチャート。
【図１１】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【符号の説明】
１０１…入力部
１０２…制御部
１０３…翻訳部
１０４…辞書部
１０５…学習制御部
１０６…出力部

Claims

入力文の所定の語句を見出し語として指定する見出し語指定手段と、前記見出し語の品詞を指定する品詞指定手段と、前記見出し語の前後あるいは片方に存在する入力文を構成する語句の範囲内の複数の語句と、これらの複数の語句に対する複数の品詞の並び方を抽出する文脈取得手段と、前記文脈取得手段により取得された前記複数の語句に対する品詞と品詞に準ずる語句を含めた品詞情報の複数の並び方から唯一の品詞情報の並び方に決定し、これを学習要件とする要件作成手段と、前記見出し語と、前記品詞指定手段により指定された品詞と、前記要件作成手段によって作成された学習要件を記憶するための学習辞書手段と、処理すべき他の文に、前記学習辞書手段により記憶された語句および学習要件が存在する場合には、前記処理すべき他の文に含まれる見出し語の品詞を前記品詞指定手段によって指定された品詞と判定する品詞判定手段と、前記品詞判定手段により判定された品詞の情報に基づいて、前記入力文に対して所定の自然言語処理を行う自然言語処理手段とを有することを特徴とする自然言語処理装置。
第１言語の文書を第２言語の文書へ変換するための知識情報を収容する辞書手段と、この辞書手段に収容される知識情報と前記学習辞書手段に記憶された学習内容を用いて、第１言語の文章を第２言語の文章へ変換するための翻訳手段とを備え、自然言語処理として翻訳処理を行うことを特徴とする請求項１に記載の自然言語処理装置。
前記要件作成手段により作成された学習要件をユーザに提示する提示手段を有することを特徴とする請求項１に記載の自然言語処理装置。
前記要件作成手段により作成された学習要件を前記提示手段によってユーザに提示することにより、ユーザによる学習要件の変更・指定を受け付ける入力手段を有することを特徴とする請求項１に記載の自然言語処理装置。
学習辞書手段に記憶された学習辞書の内容の一覧をユーザに提示し、ユーザからの学習内容の変更・削除を受け付ける入力手段を有することを特徴とする請求項１に記載の自然言語処理装置。