JP4043176B2 - 自然言語処理装置 - Google Patents
自然言語処理装置 Download PDFInfo
- Publication number
- JP4043176B2 JP4043176B2 JP2000262484A JP2000262484A JP4043176B2 JP 4043176 B2 JP4043176 B2 JP 4043176B2 JP 2000262484 A JP2000262484 A JP 2000262484A JP 2000262484 A JP2000262484 A JP 2000262484A JP 4043176 B2 JP4043176 B2 JP 4043176B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- learning
- unit
- sentence
- requirement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
この発明は、自然言語文を解析する自然言語処理装置に関する。
【0002】
【従来の技術】
コンピュータ技術の発展に伴い、機械翻訳ソフトウェアを始めとする自然言語処理ソフトもより高い精度を求めた開発努力が行われている。たとえば、ソフトに組み込む語彙や知識の量を増やしたり、計算量の多い高度な意味処理を組み込むことも可能になった。しかし、自然言語の表現の多様性にはまだまだ追いつけず、すべてのユーザのすべての種類の入力文を、何の前処理、学習もなく満足できる解析結果、翻訳結果を得られるレベルにはまだ到達できていない。特に、ひとつの単語および単語の活用結果に複数の品詞候補が存在する場合の品詞の曖昧性の問題も対応が難しい事項の顕著な例である。
【0003】
この品詞の曖昧性の問題に対して個々のユーザが対処できる手段のひとつとして、特定の語に対して処理時に優先したい品詞を学習辞書に登録させる方法がある。ただし、この学習は一般にすべての文の処理において優先して扱われるため、文によって正しい品詞が異なる場合にも一様に優先してしまい、文によっては誤った解析結果を導くという問題があった。
【0004】
また、特定の文の解析だけに影響させるように、ユーザが局所的に品詞を指定することを可能にするという手段もとられている。しかし、これでは、ある文書内に似たような文が再出しても、同じ学習を再び行わなくてはいけない、という問題があった。別の文書での再出に無効なのは言うまでもない。
【0005】
すなわち、従来の技術では、品詞の曖昧性の問題に対して、個々の文に応じた知識の細かい制御ができず、ユーザに学習の手間、あるいは、出力結果の後処理・後編集の手間をかけさせるのを回避できなかった。
【0006】
【発明が解決しようとする課題】
本発明は上述の事情を考慮してなされたものであり、個々の文脈に合わせて学習内容を制御することにより、最大限ユーザの学習意図を生かし、結果としてユーザの手間を軽減できる自然言語処理装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の自然言語処理装置は、入力文の所定の語句を見出し語として指定する見出し語指定手段と、前記見出し語の品詞を指定する品詞指定手段と、前記見出し語の前後あるいは片方に存在する入力文を構成する語句の範囲内の複数の語句と、これらの複数の語句に対する複数の品詞の並び方を抽出する文脈取得手段と、前記文脈取得手段により取得された前記複数の語句に対する品詞と品詞に準ずる語句を含めた品詞情報の複数の並び方から唯一の品詞情報の並び方に決定し、これを学習要件とする要件作成手段と、前記見出し語と、前記品詞指定手段により指定された品詞と、前記要件作成手段によって作成された学習要件を記憶するための学習辞書手段と、処理すべき他の文に、前記学習辞書手段により記憶された語句および学習要件が存在する場合には、前記処理すべき他の文に含まれる見出し語の品詞を前記品詞指定手段によって指定された品詞と判定する品詞判定手段と、前記品詞判定手段により判定された品詞の情報に基づいて、前記入力文に対して所定の自然言語処理を行う自然言語処理手段とを有することを特徴とする。
【0008】
また、機械翻訳装置として、第1言語の文書を第2言語の文書へ変換するための知識情報を収容する辞書手段と、この辞書手段に収容される知識情報と前記学習辞書手段に記憶された学習内容を用いて、第1言語の文章を第2言語の文章へ変換するための翻訳手段とを備え、自然言語処理として翻訳処理を行うことを特徴とする。
【0009】
また好ましくは、前記要件作成手段により作成された要件をユーザに提示する提示手段を有することを特徴とする。
【0010】
また好ましくは、前記要件作成手段により作成された要件を前記提示手段によってユーザに提示することにより、ユーザによる要件の変更・指定を受け付ける入力手段を有することを特徴とする。
【0011】
さらに好ましくは、学習辞書手段に記憶された学習辞書の内容の一覧をユーザに提示し、ユーザからの学習内容の変更・削除を受け付ける入力手段を有することを特徴とする。
【0012】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。本実施形態は、英語の自然言語入力文を日本語の自然言語文に変換する英日機械翻訳システムに関する。
【0013】
図1は、本発明の一実施形態としての機械翻訳システムの構成を示すブロック図である。入力部101は制御部102に接続され、制御部102は出力部106へ接続される。また、制御部102は、翻訳部103および学習制御部105と双方向に接続されている。さらに、翻訳部103、学習制御部105間は相互に接続され、共に辞書部104と双方向に接続されている。学習制御部105は文脈取得部105aと要件作成部105bとを有している。辞書部104は、語彙部104a、形態素解析規則104b、品詞判定規則104c、構文解析規則104d、変換規則104e、生成規則104f、学習辞書部104gからなる。
【0014】
本実施形態の学習辞書部104gは、特定の語句に対する品詞情報に関するユーザの学習内容を収容する辞書である。
【0015】
入力部101は、制御部102に対して、翻訳対象となる文の入力や各種コマンドの入力を行なうためのものである。通常、キーボード、マウスなどが用いられる。翻訳対象文の入力には、OCR、フロッピーディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなども考えられる。
【0016】
出力部106は、翻訳部103の出力である翻訳結果を出力したり、制御部102への各種命令に対する制御部102からの応答を表示するためのものである。各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フロッピーディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。
【0017】
制御部102は、全体の動きを制御するためのものである。図2に制御部102におけるユーザとの対話的な処理の流れを示す。入力部101より原文の入力があると(ステップS201)、制御部102は出力部106に対して原文の表示を指示する(ステップS202)。
【0018】
その後、翻訳指示命令が送られてくると(ステップS203)、制御部102は原文のデータを翻訳部103へ送り、翻訳処理開始の指示命令をする。翻訳部103は辞書部104の知識・規則を用いて、入力原文に対して、第2言語の文への翻訳処理を行う(ステップS204)。翻訳部103の処理の流れについては、後に別図を用いて説明を行う。翻訳処理が終了すると、翻訳結果は制御部102を通じて出力部106へ送られ、ユーザに提示される。
【0019】
入力部101より制御部102へ品詞学習を起動する命令操作が入力されると(ステップS205)、学習制御部105に学習起動を指示し、ユーザの指示に従って学習辞書部104gの更新を実行させる(ステップS206)。学習制御部105における辞書更新処理の詳細についても、後に別図を用いて説明を行う。入力部101より全体の処理終了の指示が入力された場合には(ステップS207)、すべての処理を終了する。それ以外の入力に対しては(ステップS207)、入力に応じた処理を行う(ステップS209)。
【0020】
図3は、本実施形態で用いる学習辞書部104gに記憶される学習内容の一例を示す図である。これは、原文「At present the agentsrefuse to accept roubles. 」においてユーザが「present」に「名詞」を指定した時の例である。学習辞書部104gに記憶される内容は、以下の4種類の情報のセットを一単位としている。
1.見出し語:ユーザの指定した特定の語句(学習対象)
2.学習品詞:学習させたい品詞
3.学習要件:学習をきかせたい文脈(見出し語周辺の語の並び具合)
4.学習事例:品詞指定を行ったときの原文
本実施形態では、学習要件は、学習対象の見出し語の前後に生起するそれぞれ2語までの情報を表している。これは、特定の語に対してユーザが品詞の指定を行ったときに、その語を含む原文の解析結果を使って、当該語の前後の語の解析結果を元に作成するものであり、また、学習内容を以降の翻訳処理に用いるか否かの判定時にも使用される。学習要件の作成・利用については、後に詳細な説明を行う。
【0021】
図3において、「$」が当該見出し語を示し、その前後2語の情報を「−」で区切って並べて記憶する。前後の語の情報として書かれるのは以下のとおりである。
【0022】
φ:相当する単語がないことを示す。図3の例では、当該見出し語が原文において、文頭側から2番目の語であり、文頭側には直前の1単語しかないことを示している。
【0023】
‘xx':引用符「‘ '」で囲まれているのは、表層単語の文字列そのものを記憶していることを示す。図3の例では前置詞「at」を記憶している。
本実施形態では、前置詞は表層単語を記憶するものとして実現している。冠詞、名詞、固有名詞、形容詞、動詞、過去分詞、現在分詞、他:当該見出し語の前後の語の品詞情報を記憶している。
【0024】
学習要件に含める文脈の幅を何語にするかという点は、本発明で限定するものではなく、趣旨を逸脱しない範囲で自由に設定できる。また、本実施形態では、一部の語の情報を表層文字列として記憶し、他の語は品詞情報に置き換えて記憶するよう構成しているが、この情報の抽象化の度合いについても同様に本発明の趣旨を逸脱しない範囲で自由に設定すればよい。名詞を単数と複数とで別に扱ったり、動詞を三人称単数現在形と原形、過去形を別に扱うことは非常に有効であるし、特定の動詞(たとえば、「be」や「have」)のみ原形や表層文字列とする、などの個別化は有効であるが、そのように区別するか否かは自由に設定してよい。
【0025】
次に、ユーザが原文中の特定の語に対して品詞の指定を行った際の、学習制御部105の処理について説明をする。原文として「At present there are more than 300 golf courses in France.」が表示部101に表示されている状態で、ユーザが「present 」にカーソルを置き、品詞指定コマンドで特定の品詞を指定すると(通常は画面上に用意されているボタンやプルダウンメニューを選択することによる。図4に品詞を指定するためのプルダウンメニューの一例を示す。)、その指定内容は原文中の当該単語の位置情報とともに制御部102に送られ、さらに学習制御部105へ送られる。
【0026】
学習制御部105が品詞指定起動の信号を受け取ってからの処理の流れを図5に示す。学習制御部105は、当該見出し語の品詞指定の信号を受け取ると、当該見出し語の位置情報をキーとして、翻訳部103に当該語を含む原文の解析を指示する信号を送る(ステップS501)。それを受けて翻訳部103は辞書部104の語彙部104a、形態素解析規則104b、品詞判定規則104c、解析規則104dを使って原文の解析を行い(翻訳部103における全体の処理の流れは後に別図を使って説明する。)、当該語の前後の語句とその品詞情報(文脈情報)を抽出し、その結果を学習制御部105へ送る(ステップS502)。
【0027】
この時点では、以下のように表層単語情報のほか品詞情報を始めとする形態素解析結果の情報がすべて送られてくる。ただし、本実施例では、当該語の前後2語を文脈の範囲としているので、ここではその範囲の情報のみが送られるよう構成している。また、品詞の並びに複数の解釈があるときは、翻訳部103の解析結果としてもっとも優先度の高いものが送られる。
【0028】
At ― $ ― there ― are
前置詞 副詞 動詞 (複数/2人称主語呼応形)
上記のような文脈情報を取得すると、続いて学習要件作成手段105bにより、実際に学習辞書部104gに記憶させる学習要件を作成する(ステップS503)。本実施形態では、具体的には、以下のような処理を行う。
「前置詞、動詞「be」「have」 → 原形の文字列で代表化し、引用符(‘ ')でくくる
その他 → 大品詞カテゴリーで代表化させる
文脈語が2語に満たないときは、その数だけ「φ」を挿入する」
上記「大品詞カテゴリーで代表化」というのは、品詞の大区分を示す。たとえば、解析の詳細化のために、同じ冠詞でも「my」「your」などの所有格代名詞と定冠詞、不定冠詞を品詞情報の小区分としているケースがありえるが、これを小区分のレベルで分けずに、大区分のレベルに抽象化することを示す。この結果、本実施形態では、以下のような学習要件が作成される。
【0029】
「要件 φ ― ‘at' ― $ ― 副詞 ― ‘be'」
ここで作成された学習要件は、制御部102を通じて出力部106に送られユーザに提示される(ステップS504)。この際には、ユーザへの理解を助けるために、対応する原文中の文字列も同時に示し、かつ、ユーザが学習要件として学習させたい情報を容易に変更できるように、以下に示すような他の選択肢も示される。
要件 φ −− ‘at' −− $ −− 副詞 −− ‘be'
−−−−−−−−−−−−−−−−−−−−−−−−−−
選択肢一覧 ‘at'前置詞 副詞‘there'‘be'動詞
図6は、出力部106への学習要件の提示例である。個々の要件の右横の黒い三角をクリックすると他の選択肢が表示され、ユーザが望む候補を選ぶことができる。上段の図は、「there」に対して「副詞」から「‘there'」に変更する際の画面例である。下段は、選択結果が画面に反映されているところを示している。
【0030】
この結果、以下のような変更された学習要件が出力部106、制御部102を経て、学習制御部105へ送られる(ステップS505)。
【0031】
「要件 φ ― ‘at' ― $ ― ‘there' ― ‘be'」
学習要件を取得すると、見出し語、学習させたい品詞、学習要件をセットで学習辞書部104gに登録する(ステップS506)。これで、ユーザによる品詞指定から始まる学習辞書の更新処理の終了となる。
【0032】
上記実施形態では、ユーザの変更操作を容易にするため、あらかじめ変更候補を選択肢として提供するよう構成したが、ユーザに希望する変更を自由入力させて柔軟度を高めるような構成も可能である。
【0033】
続いて、学習辞書部104g内の学習内容を含む辞書部104に含まれる各種知識を使って翻訳部103が翻訳処理を行う際の処理の流れについて説明する。図7は、原文が1文入力されてから、第2言語の文として出力されるまでの処理の流れを示すフローチャートである。
【0034】
まず、翻訳部 103に入力文が送られてくると、入力文に対して辞書部104中の語彙部104aと形態素解析規則104bを用いて、形態素解析・辞書引き処理を行い、その品詞・活用の種類、訳語ほか、翻訳処理に必要な各種情報を求める(ステップS701)。この結果、入力文を構成する単語のすべての品詞、活用の候補がリストアップされる。たとえば「At present there are some limits on arms sales.」が原文として入ってくると、図8に示すような形態素解析結果を出力する。すべての品詞・活用の種類の候補のつらなりがネットワーク状に表されている。
【0035】
形態素解析結果が得られると、次は、品詞判定規則104cを用いて、入力文を構成する単語の品詞の並びとして確からしい系列を選択する(ステップS702)。品詞判定規則104cには、たとえば「名詞と動詞の両方の可能性がある語の後に冠詞が繋がっている場合には、動詞の可能性のほうが高い」というような優先度決めのための知識がたくさん記述されており、その知識と形態素解析結果を照らし合わせて、複数の可能性の中から最も優先度の高い系列を選ぶという処理が行われる。学習辞書部104gにユーザによる品詞の学習結果が収容されていればこの後でそれを踏まえた品詞系列の再判定を行う。この処理については、後に別図を用いて説明を行う。品詞判定処理の出力は、形態素解析処理の出力のようなネットワークではなく、以下のような単語・品詞の並びである。
続く構文解析課程では(ステップS703)、上記単語・品詞の並びを入力とし、解析規則104dを使って、入力文の構造を解析する。解析規則104dに記述される規則では入力された単語・品詞の並びを解析しきれない場合は(ステップS704)、処理失敗の信号を品詞列判定処理部へ戻す。ここで解析が失敗する原因としては、品詞判定処理の結果が誤っており、文法的に文を解釈することができない場合と、解析規則が不足しているために解析できない場合とがある。
【0036】
解析失敗の信号を受け取った品詞判定処理部は、前出力の次に確からしい単語・品詞の並びを新たに出力し、構文解析処理へ送る。
(次の出力例)
以降、構文解析が成功するまで、このループが繰り返される。解析規則が不足していた場合や、非常に文が複雑で、単語・品詞の並びの候補が非常にたくさんある場合は、このループがかなりの回数にわたるため、実際の実施形態としては、ループの回数制限や時間制限を設けることも考えられる。この場合、一般には解析可能な部分に文の要素を分割して以降の訳文出力までの処理を行うのが通常の実施方法である。
【0037】
構文解析が成功すると(制限内に成功しない場合も含む)、ステップS705へ進み、変換規則104eを用いて解析結果から第2言語の構造への変換を行う。その後、ステップS706に進み、生成規則104fを用いて第2言語の表層文の生成を行い、一通りの翻訳処理を終了する。
【0038】
以上翻訳部103の処理の流れを説明するの用いた例文は非常に簡単なものであるが、実際には非常に構造的にも複雑で、ひとつの語が複数の品詞の候補を持ち、また、合成語も多数辞書に登録されている場合には、合成語としての解釈と、ばらばらの構成要素からなるという解釈が対立も起きてくる。(例:「push button」が辞書に登録されている場合、「Push buttons.」には「名詞の合成語(push button)」「動詞(push)+名詞(button)」「名詞(push)+名詞(bottun)」の3種類の候補ができる。)そうなると、単語・品詞の並びの候補数は組み合わせ的に莫大な数になり得るため、制限内に正しい結果を得られないケースが出るのを回避するのは難しい。
【0039】
また、解析規則104d内に記述される知識が不足しているケースも、入力文が多様化すればするほどたくさん起こってくる。この場合は、上記ループを回しても正しい解釈が得られることはなく、誤った解析結果のまま成功と判定されたり、最終的に失敗のまま変換処理へ送られる場合でも、最初の品詞判定処理(もっとも優先度が高いと判定された出力)の出力が誤っていれば、その単語・品詞の並びを使って以降の部分的な翻訳処理を行うのが一般的なので、不適切な訳文がユーザに提示されることが起きる。
【0040】
このように、品詞判定の結果というのは非常に訳文の精度に影響度が強い。そこで、今までユーザには原文中の特定の文の特定の語に限定して、翻訳処理に認識させたい品詞を限定することまでは可能にしていたが、従来の方法では、あくまでも局所的に、指定した文だけの訳文が改善されるに過ぎなかった。本発明では、これを効率的に学習し、ユーザが複雑な指定をしなくても、最大限ユーザの品詞の指定を学習し、以降の処理に活かしていく、というものである。
【0041】
続いて、翻訳部103の品詞判定処理で、学習辞書部104g内の学習内容を参照して、どのように品詞判定結果を制御するかについて説明する。図9は品詞判定処理の流れを示すフローチャートである。
【0042】
最初にステップS901にて、処理の開始のきっかけが、構文解析失敗によるものかどうかを判定し、ここで処理が枝分かれする。解析失敗によるものでない場合には、ステップS902へ進み、品詞判定規則104cを用いた通常の品詞判定処理を行う。その後、ステップ903からS910において、学習辞書部104gの学習内容を使った処理に入る。
【0043】
その最初のステップS903では、原文中の着眼語(i番目の語)を先頭の語とする。以降、i番目の単語から文末の語までを順番に、学習辞書部104gの学習内容と照合していくことになる。文末の照合まで終わっていれば(ステップS904)、ステップS910へ進み、もっとも優先度の高い単語・品詞の並びの候補を品詞判定結果として出力し、すべての処理を終える。学習辞書部104gの学習内容に適合した単語・品詞の候補には高い優先度が付与されているので、この段階ではこの候補を含む単語・品詞の並びがもっとも優先度の高い品詞列として出力されることになる。
【0044】
i番目の語が文中に存在するならば、ステップS905へ進み、学習辞書部104g内の見出し語との照合を行う。i番目の語の見出し語が学習辞書部104gにない場合は、ステップS906で着眼単語を次の語にずらし、ステップS904以下の処理を行う。
【0045】
i番目の語の見出し語が学習辞書部104gにある場合は、ステップS907において、学習要件が、入力文の着目単語周辺の状況と適合するかどうかを判定する。適合しない場合は、ステップS908にて、同じ見出し語に別の学習項目があるかどうかをチェックする。別の項目があれば、ステップ907以降の処理を行う。それ以上、同じ見出し語の別項目がなければ、ステップS906へ進み、着眼単語をずらし、ステップS904以降の同様の処理を行う。
【0046】
ステップS907で、学習要件が着目単語周辺の状況と適合すると判定された場合には、ステップS909へ進み、着目単語の品詞候補のうち、学習品詞と一致するものに高い優先度を付与する。その後は、ステップS906へ進み、着目単語をずらしてステップ904以降の同様の処理を行う。
【0047】
一方、ステップS901で、解析失敗にもとづく品詞列の再判定であると判定された場合には、ステップS911へ進み、直前に出力した品詞列に次ぐ優先度を持つ品詞列を判定結果として出力し、処理を終える。学習辞書部104gの内容と適合した単語・品詞の候補には高い優先度が付与されているので、この段階で、次の候補を判定する際にも、当該単語以外の語の品詞候補が変化した品詞列が選ばれることになる。このようにして、次の品詞列候補を順次出力してく際にも、学習辞書部104gの内容は優先的に扱われることになり、ユーザの求める正しい訳文を導ける可能性が大幅に上昇する。
【0048】
本発明によれば、ユーザは特定の文の特定の個所の単語に対して品詞の指定をするだけで、自動的に学習要件を作成し、以降の処理に利用するので、類似文が生起しても、再度品詞指定を行う必要が無く、効果的な学習が行える。また、上記実施形態で説明したように、自動作成した学習要件をユーザに提示することにより学習の内容をユーザに確認させれることもできるし、その時点でユーザ自らに学習要件の修正をさせれば、一層効果的な学習も可能となる。また、ユーザに確認・変更させた学習要件を検索パターンとして、その時点の原文書内の他の文、あるいは他の文書内の文で適合するものを検索してユーザに提示するような処理もつけて実現するという実施形態も有効であろう。
【0049】
次に、本発明の一実施例で用いる学習辞書内容表示・更新機能について説明する。ユーザが、学習内容表示コマンドを起動すると(通常は画面上に用意されているボタンやプルダウンメニューを選択することによる。)、その命令は制御部102に送られ、さらに学習制御部105へ送られる(この時の制御部102の処理は図2における「その他の処理」に相当する)。図10に、学習制御部105に学習内容表示命令が送られてからの処理の流れを示す。
【0050】
学習内容表示命令を受け取ると、まず最初に学習辞書部104gの中身をユーザに提示するサブウィンドウなどに表示できる形式に置きかえ、制御部102を通じて出力部106にてユーザへ提示する(ステップS1001)。本実施形態では、学習要件の中に含む要素について、学習内容をユーザが変更しやすいように、あらかじめ選択肢を作成し、容易にその中から選べる構成とした。選択肢の作成にあたっては、学習事例と学習要件を使って学習事例中の学習要件に対応する単語を抽出し、翻訳部103に辞書引き命令を送ってその辞書引き結果を得ることによって行う。このときの画面表示の一例を図11に示す。これ以降は、ユーザの入力するコマンド、文字キーなどに応じた処理を入力部101、制御部102、出力部106を介して行う。
【0051】
ここでユーザに提供しているコマンド、キー入力は、大きく以下の5分類である。それ以外の入力に対してはなにもせず、入力待ちのモードへ戻る(ステップS1010から情報へ伸びている矢印に相当)。それぞれの入力の種類の下に、それに対応する処理も示した。
【0052】
「削除ボタン」…対応する学習項目部分をinactiveにする(編集不能にする)。同時に「削除ボタン」もinactiveにする。「復旧ボタン」をactiveにする。
【0053】
「復旧コマンド」…削除済みの項目をactiveにする(編集可能状態に戻す)。同時に「復旧ボタン」もinactiveにする。「削除ボタン」をactiveにする。起動直後はinactiveになっている。
【0054】
「文字キー、各種編集コマンド」…入力に応じた画面表示とする。
【0055】
「更新ボタン」…現時点の画面の内容を学習辞書部104gとして記憶できる形式に置き換え、直前の学習辞書部104gの内容と置きかえる(学習辞書部104gの書き換え)。
【0056】
「終了ボタン」…画面を閉じ、処理を終える。
【0057】
このように、ユーザに随時学習内容を参照できる機能を提供することで、過去の学習の蓄積をいつでもユーザは確認することができ、かつ、事例を参照しながら後で自由に学習内容の変更をすることも可能となる。上記実施形態では、ユーザの変更操作を簡単にするため、あらかじめ選択肢を作成しておく構成としたが、ユーザに変更内容を直接自由入力させる構成も柔軟度が増し有効である。
【0058】
なお、上記実施形態は英語の文から日本語の文に翻訳する機械翻訳システムとしての構成であるが、本発明は翻訳の言語対の種類を限定するものではないのはもちろんのこと、自然言語文の解析処理を含む自然言語処理を行うすべての装置・方法に適用可能である。
【0059】
また、本願発明の実施例における処理をコンピュータで実行可能なプログラムで実現し、このプログラムをコンピュータで読み取り可能な記憶媒体として実現することも可能である。
【0060】
なお、本願発明における記憶媒体としては、磁気ディスク、フロッピーディスク、ハードディスク、光ディスク(CD−ROM,CD−R,DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0061】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼動しているOS(オペレーションシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
【0062】
さらに、本願発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0063】
また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0064】
なお、本願発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0065】
また、本願発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本願発明の機能を実現することが可能な機器、装置を総称している。
【0066】
【発明の効果】
以上説明したように、本発明を用いた自然言語処理装置によれば、ユーザは特定の文の特定の個所の単語に対して処理に採用させたい品詞を指定するだけで、その文に適した学習要件が自動的に作成され、ユーザが当該表現が生起するたびに品詞の指定をする必要がなくなり、作業量を軽減させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る機械翻訳システムの基本的な構成を示すブロック図。
【図2】同実施形態の制御部の処理の流れを示すフローチャート。
【図3】同実施形態の学習辞書部の記述内容の一例を示す図。
【図4】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【図5】同実施形態の翻訳部における一文ごとの処理の流れを示すフローチャート。
【図6】同実施形態の学習制部における学習処理の流れを示すフローチャート。
【図7】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【図8】同実施形態の翻訳部における辞書引き・形態素解析結果の一例を示す図。
【図9】同実施形態の翻訳部の品詞判定処理の流れを示すフローチャート。
【図10】同実施形態の学習辞書内容表示・更新処理の流れを示すフローチャート。
【図11】同実施形態の翻訳部の出力部における画面表示の一例を示す図。
【符号の説明】
101…入力部
102…制御部
103…翻訳部
104…辞書部
105…学習制御部
106…出力部
Claims (5)
- 入力文の所定の語句を見出し語として指定する見出し語指定手段と、前記見出し語の品詞を指定する品詞指定手段と、前記見出し語の前後あるいは片方に存在する入力文を構成する語句の範囲内の複数の語句と、これらの複数の語句に対する複数の品詞の並び方を抽出する文脈取得手段と、前記文脈取得手段により取得された前記複数の語句に対する品詞と品詞に準ずる語句を含めた品詞情報の複数の並び方から唯一の品詞情報の並び方に決定し、これを学習要件とする要件作成手段と、前記見出し語と、前記品詞指定手段により指定された品詞と、前記要件作成手段によって作成された学習要件を記憶するための学習辞書手段と、処理すべき他の文に、前記学習辞書手段により記憶された語句および学習要件が存在する場合には、前記処理すべき他の文に含まれる見出し語の品詞を前記品詞指定手段によって指定された品詞と判定する品詞判定手段と、前記品詞判定手段により判定された品詞の情報に基づいて、前記入力文に対して所定の自然言語処理を行う自然言語処理手段とを有することを特徴とする自然言語処理装置。
- 第1言語の文書を第2言語の文書へ変換するための知識情報を収容する辞書手段と、この辞書手段に収容される知識情報と前記学習辞書手段に記憶された学習内容を用いて、第1言語の文章を第2言語の文章へ変換するための翻訳手段とを備え、自然言語処理として翻訳処理を行うことを特徴とする請求項1に記載の自然言語処理装置。
- 前記要件作成手段により作成された学習要件をユーザに提示する提示手段を有することを特徴とする請求項1に記載の自然言語処理装置。
- 前記要件作成手段により作成された学習要件を前記提示手段によってユーザに提示することにより、ユーザによる学習要件の変更・指定を受け付ける入力手段を有することを特徴とする請求項1に記載の自然言語処理装置。
- 学習辞書手段に記憶された学習辞書の内容の一覧をユーザに提示し、ユーザからの学習内容の変更・削除を受け付ける入力手段を有することを特徴とする請求項1に記載の自然言語処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000262484A JP4043176B2 (ja) | 2000-08-31 | 2000-08-31 | 自然言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000262484A JP4043176B2 (ja) | 2000-08-31 | 2000-08-31 | 自然言語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002073602A JP2002073602A (ja) | 2002-03-12 |
JP4043176B2 true JP4043176B2 (ja) | 2008-02-06 |
Family
ID=18750158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000262484A Expired - Fee Related JP4043176B2 (ja) | 2000-08-31 | 2000-08-31 | 自然言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4043176B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10067939B2 (en) | 2016-08-16 | 2018-09-04 | Samsung Electronics Co., Ltd. | Machine translation method and apparatus |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5342760B2 (ja) | 2007-09-03 | 2013-11-13 | 株式会社東芝 | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
-
2000
- 2000-08-31 JP JP2000262484A patent/JP4043176B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10067939B2 (en) | 2016-08-16 | 2018-09-04 | Samsung Electronics Co., Ltd. | Machine translation method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2002073602A (ja) | 2002-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0692765B1 (en) | Text preparing system using knowledge base and method therefor | |
Trujillo | Translation engines: techniques for machine translation | |
US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
US5721938A (en) | Method and device for parsing and analyzing natural language sentences and text | |
KR100650427B1 (ko) | 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴 | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US4502128A (en) | Translation between natural languages | |
EP0118187B1 (en) | Menu-based natural language understanding system | |
JPH05120324A (ja) | 言語処理方式 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
JP4043176B2 (ja) | 自然言語処理装置 | |
JP3657338B2 (ja) | 翻訳装置 | |
JP2997469B2 (ja) | 自然言語理解方法および情報検索装置 | |
JPH09190453A (ja) | データベース装置 | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
JP2974698B2 (ja) | 機械翻訳装置における単語間関係編集/学習装置 | |
JP3774431B2 (ja) | 辞書構築支援装置および辞書構築支援方法 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JP7418761B2 (ja) | 画像と文字との混在文章を生成する装置 | |
JP2000330984A (ja) | 文書処理装置及び方法 | |
JPH11345232A (ja) | 文章作成装置及び文章作成方法並びに文章作成プログラムを実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体 | |
JP2000222407A (ja) | 機械翻訳装置および機械翻訳方法 | |
JPH11282844A (ja) | 文書作成方法および情報処理装置および記録媒体 | |
JPH04167063A (ja) | 機械翻訳方法及び機械翻訳装置 | |
JP2003173338A (ja) | 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050316 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |