JP2002073602A - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JP2002073602A
JP2002073602A JP2000262484A JP2000262484A JP2002073602A JP 2002073602 A JP2002073602 A JP 2002073602A JP 2000262484 A JP2000262484 A JP 2000262484A JP 2000262484 A JP2000262484 A JP 2000262484A JP 2002073602 A JP2002073602 A JP 2002073602A
Authority
JP
Japan
Prior art keywords
learning
user
unit
speech
requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000262484A
Other languages
English (en)
Other versions
JP4043176B2 (ja
Inventor
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000262484A priority Critical patent/JP4043176B2/ja
Publication of JP2002073602A publication Critical patent/JP2002073602A/ja
Application granted granted Critical
Publication of JP4043176B2 publication Critical patent/JP4043176B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 生起個所ごとに品詞を指定する手間を省き、
出力の精度の向上、出力に対するユーザの理解度の向
上、後処理の手間の軽減を可能とする自然言語処理装置
を提供すること。 【解決手段】 ユーザが学習を指示した語句の入力文中
の前後両方あるいは片方の文脈である文字列から、ユー
ザが学習を指示した語句と共に学習辞書部104に保存
するための学習の要件を作成し、その要件が前後の文脈
に成立したときのみ学習内容を活かした解析処理を行う
よう構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、自然言語文を解
析する自然言語処理装置に関する。
【0002】
【従来の技術】コンピュータ技術の発展に伴い、機械翻
訳ソフトウェアを始めとする自然言語処理ソフトもより
高い精度を求めた開発努力が行われている。たとえば、
ソフトに組み込む語彙や知識の量を増やしたり、計算量
の多い高度な意味処理を組み込むことも可能になった。
しかし、自然言語の表現の多様性にはまだまだ追いつけ
ず、すべてのユーザのすべての種類の入力文を、何の前
処理、学習もなく満足できる解析結果、翻訳結果を得ら
れるレベルにはまだ到達できていない。特に、ひとつの
単語および単語の活用結果に複数の品詞候補が存在する
場合の品詞の曖昧性の問題も対応が難しい事項の顕著な
例である。
【0003】この品詞の曖昧性の問題に対して個々のユ
ーザが対処できる手段のひとつとして、特定の語に対し
て処理時に優先したい品詞を学習辞書に登録させる方法
がある。ただし、この学習は一般にすべての文の処理に
おいて優先して扱われるため、文によって正しい品詞が
異なる場合にも一様に優先してしまい、文によっては誤
った解析結果を導くという問題があった。
【0004】また、特定の文の解析だけに影響させるよ
うに、ユーザが局所的に品詞を指定することを可能にす
るという手段もとられている。しかし、これでは、ある
文書内に似たような文が再出しても、同じ学習を再び行
わなくてはいけない、という問題があった。別の文書で
の再出に無効なのは言うまでもない。
【0005】すなわち、従来の技術では、品詞の曖昧性
の問題に対して、個々の文に応じた知識の細かい制御が
できず、ユーザに学習の手間、あるいは、出力結果の後
処理・後編集の手間をかけさせるのを回避できなかっ
た。
【0006】
【発明が解決しようとする課題】本発明は上述の事情を
考慮してなされたものであり、個々の文脈に合わせて学
習内容を制御することにより、最大限ユーザの学習意図
を生かし、結果としてユーザの手間を軽減できる自然言
語処理装置を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明の自然言語処理装
置は、学習を指示された語句の前後あるいは片方の語句
とその語句の品詞情報を取得するための文脈取得手段
と、この文脈取得手段により取得された語句とその語句
の品詞情報から、学習を指示された語句の周辺の語句の
並び方である学習要件を作成するための要件作成手段
と、学習を指示された語句および前記要件作成手段によ
って作成された学習要件を記憶するための学習辞書手段
と、この学習辞書手段に記憶された語句および学習要件
が、処理すべき文中の語句に成立したとき所定の自然言
語処理を行うよう制御するための制御手段とを有するこ
とを特徴とする。
【0008】また、機械翻訳装置として、第1言語の文
書を第2言語の文書へ変換するための知識情報を収容す
る辞書手段と、この辞書手段に収容される知識情報と前
記学習辞書手段に記憶された学習内容を用いて、第1言
語の文章を第2言語の文章へ変換するための翻訳手段と
を備え、自然言語処理として翻訳処理を行うことを特徴
とする。
【0009】また好ましくは、前記要件作成手段により
作成された要件をユーザに提示する提示手段を有するこ
とを特徴とする。
【0010】また好ましくは、前記要件作成手段により
作成された要件を前記提示手段によってユーザに提示す
ることにより、ユーザによる要件の変更・指定を受け付
ける入力手段を有することを特徴とする。
【0011】さらに好ましくは、学習辞書手段に記憶さ
れた学習辞書の内容の一覧をユーザに提示し、ユーザか
らの学習内容の変更・削除を受け付ける入力手段を有す
ることを特徴とする。
【0012】
【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。本実施形態は、英語の自然言語
入力文を日本語の自然言語文に変換する英日機械翻訳シ
ステムに関する。
【0013】図1は、本発明の一実施形態としての機械
翻訳システムの構成を示すブロック図である。入力部1
01は制御部102に接続され、制御部102は出力部
106へ接続される。また、制御部102は、翻訳部1
03および学習制御部105と双方向に接続されてい
る。さらに、翻訳部103、学習制御部105間は相互
に接続され、共に辞書部104と双方向に接続されてい
る。学習制御部105は文脈取得部105aと要件作成
部105bとを有している。辞書部104は、語彙部1
04a、形態素解析規則104b、品詞判定規則104
c、構文解析規則104d、変換規則104e、生成規
則104f、学習辞書部104gからなる。
【0014】本実施形態の学習辞書部104gは、特定
の語句に対する品詞情報に関するユーザの学習内容を収
容する辞書である。
【0015】入力部101は、制御部102に対して、
翻訳対象となる文の入力や各種コマンドの入力を行なう
ためのものである。通常、キーボード、マウスなどが用
いられる。翻訳対象文の入力には、OCR、フロッピー
(登録商標)ディスク、磁気テープ、磁気ディスク、イ
ンターネットからの読み込み、あるいはマイクで発話文
を取りこんでディクテーション装置によって自然言語の
文字列に変換したものの読み込みなども考えられる。
【0016】出力部106は、翻訳部103の出力であ
る翻訳結果を出力したり、制御部102への各種命令に
対する制御部102からの応答を表示するためのもので
ある。各種ディスプレイなどの表示手段が通常である
が、翻訳結果の出力には、印刷機などの印字手段、ある
いは直接フロッピーディスク、磁気テープ、磁気ディス
クへ出力する手段や他のメディアへ送信する送信手段で
もよい。
【0017】制御部102は、全体の動きを制御するた
めのものである。図2に制御部102におけるユーザと
の対話的な処理の流れを示す。入力部101より原文の
入力があると(ステップS201)、制御部102は出
力部106に対して原文の表示を指示する(ステップS
202)。
【0018】その後、翻訳指示命令が送られてくると
(ステップS203)、制御部102は原文のデータを
翻訳部103へ送り、翻訳処理開始の指示命令をする。
翻訳部103は辞書部104の知識・規則を用いて、入
力原文に対して、第2言語の文への翻訳処理を行う(ス
テップS204)。翻訳部103の処理の流れについて
は、後に別図を用いて説明を行う。翻訳処理が終了する
と、翻訳結果は制御部102を通じて出力部106へ送
られ、ユーザに提示される。
【0019】入力部101より制御部102へ品詞学習
を起動する命令操作が入力されると(ステップS20
5)、学習制御部105に学習起動を指示し、ユーザの
指示に従って学習辞書部104gの更新を実行させる
(ステップS206)。学習制御部105における辞書
更新処理の詳細についても、後に別図を用いて説明を行
う。入力部101より全体の処理終了の指示が入力され
た場合には(ステップS207)、すべての処理を終了
する。それ以外の入力に対しては(ステップS20
7)、入力に応じた処理を行う(ステップS209)。
【0020】図3は、本実施形態で用いる学習辞書部1
04gに記憶される学習内容の一例を示す図である。こ
れは、原文「At present the agen
tsrefuse to accept rouble
s. 」においてユーザが「present」に「名
詞」を指定した時の例である。学習辞書部104gに記
憶される内容は、以下の4種類の情報のセットを一単位
としている。 1.見出し語:ユーザの指定した特定の語句(学習対
象) 2.学習品詞:学習させたい品詞 3.学習要件:学習をきかせたい文脈(見出し語周辺の
語の並び具合) 4.学習事例:品詞指定を行ったときの原文 本実施形態では、学習要件は、学習対象の見出し語の前
後に生起するそれぞれ2語までの情報を表している。こ
れは、特定の語に対してユーザが品詞の指定を行ったと
きに、その語を含む原文の解析結果を使って、当該語の
前後の語の解析結果を元に作成するものであり、また、
学習内容を以降の翻訳処理に用いるか否かの判定時にも
使用される。学習要件の作成・利用については、後に詳
細な説明を行う。
【0021】図3において、「$」が当該見出し語を示
し、その前後2語の情報を「−」で区切って並べて記憶
する。前後の語の情報として書かれるのは以下のとおり
である。
【0022】φ:相当する単語がないことを示す。図3
の例では、当該見出し語が原文において、文頭側から2
番目の語であり、文頭側には直前の1単語しかないこと
を示している。
【0023】‘xx':引用符「‘ '」で囲まれている
のは、表層単語の文字列そのものを記憶していることを
示す。図3の例では前置詞「at」を記憶している。本
実施形態では、前置詞は表層単語を記憶するものとして
実現している。冠詞、名詞、固有名詞、形容詞、動詞、
過去分詞、現在分詞、他:当該見出し語の前後の語の品
詞情報を記憶している。
【0024】学習要件に含める文脈の幅を何語にするか
という点は、本発明で限定するものではなく、趣旨を逸
脱しない範囲で自由に設定できる。また、本実施形態で
は、一部の語の情報を表層文字列として記憶し、他の語
は品詞情報に置き換えて記憶するよう構成しているが、
この情報の抽象化の度合いについても同様に本発明の趣
旨を逸脱しない範囲で自由に設定すればよい。名詞を単
数と複数とで別に扱ったり、動詞を三人称単数現在形と
原形、過去形を別に扱うことは非常に有効であるし、特
定の動詞(たとえば、「be」や「have」)のみ原
形や表層文字列とする、などの個別化は有効であるが、
そのように区別するか否かは自由に設定してよい。
【0025】次に、ユーザが原文中の特定の語に対して
品詞の指定を行った際の、学習制御部105の処理につ
いて説明をする。原文として「At present
there are more than 300 g
olf courses in France.」が表
示部101に表示されている状態で、ユーザが「pre
sent 」にカーソルを置き、品詞指定コマンドで特
定の品詞を指定すると(通常は画面上に用意されている
ボタンやプルダウンメニューを選択することによる。図
4に品詞を指定するためのプルダウンメニューの一例を
示す。)、その指定内容は原文中の当該単語の位置情報
とともに制御部102に送られ、さらに学習制御部10
5へ送られる。
【0026】学習制御部105が品詞指定起動の信号を
受け取ってからの処理の流れを図5に示す。学習制御部
105は、当該見出し語の品詞指定の信号を受け取る
と、当該見出し語の位置情報をキーとして、翻訳部10
3に当該語を含む原文の解析を指示する信号を送る(ス
テップS501)。それを受けて翻訳部103は辞書部
104の語彙部104a、形態素解析規則104b、品
詞判定規則104c、解析規則104dを使って原文の
解析を行い(翻訳部103における全体の処理の流れは
後に別図を使って説明する。)、当該語の前後の語句と
その品詞情報(文脈情報)を抽出し、その結果を学習制
御部105へ送る(ステップS502)。
【0027】この時点では、以下のように表層単語情報
のほか品詞情報を始めとする形態素解析結果の情報がす
べて送られてくる。ただし、本実施例では、当該語の前
後2語を文脈の範囲としているので、ここではその範囲
の情報のみが送られるよう構成している。また、品詞の
並びに複数の解釈があるときは、翻訳部103の解析結
果としてもっとも優先度の高いものが送られる。
【0028】 At ― $ ― there ― are 前置詞 副詞 動詞 (複数/2人称主語呼応形) 上記のような文脈情報を取得すると、続いて学習要件作
成手段105bにより、実際に学習辞書部104gに記
憶させる学習要件を作成する(ステップS503)。本
実施形態では、具体的には、以下のような処理を行う。 「前置詞、動詞「be」「have」 → 原形の文字
列で代表化し、引用符(‘ ')でくくる その他 → 大品詞カテゴリーで代表化させる 文脈語が2語に満たないときは、その数だけ「φ」を挿
入する」 上記「大品詞カテゴリーで代表化」というのは、品詞の
大区分を示す。たとえば、解析の詳細化のために、同じ
冠詞でも「my」「your」などの所有格代名詞と定
冠詞、不定冠詞を品詞情報の小区分としているケースが
ありえるが、これを小区分のレベルで分けずに、大区分
のレベルに抽象化することを示す。この結果、本実施形
態では、以下のような学習要件が作成される。
【0029】 「要件 φ ― ‘at' ― $ ― 副詞 ― ‘be'」 ここで作成された学習要件は、制御部102を通じて出
力部106に送られユーザに提示される(ステップS5
04)。この際には、ユーザへの理解を助けるために、
対応する原文中の文字列も同時に示し、かつ、ユーザが
学習要件として学習させたい情報を容易に変更できるよ
うに、以下に示すような他の選択肢も示される。 要件 φ −− ‘at' −− $ −− 副詞 −− ‘be' −−−−−−−−−−−−−−−−−−−−−−−−−− 選択肢一覧 ‘at'前置詞 副詞‘there'‘be'動詞 図6は、出力部106への学習要件の提示例である。個
々の要件の右横の黒い三角をクリックすると他の選択肢
が表示され、ユーザが望む候補を選ぶことができる。上
段の図は、「there」に対して「副詞」から「‘t
here'」に変更する際の画面例である。下段は、選
択結果が画面に反映されているところを示している。
【0030】この結果、以下のような変更された学習要
件が出力部106、制御部102を経て、学習制御部1
05へ送られる(ステップS505)。
【0031】「要件 φ ― ‘at' ― $ ―
‘there' ― ‘be'」 学習要件を取得すると、見出し語、学習させたい品詞、
学習要件をセットで学習辞書部104gに登録する(ス
テップS506)。これで、ユーザによる品詞指定から
始まる学習辞書の更新処理の終了となる。
【0032】上記実施形態では、ユーザの変更操作を容
易にするため、あらかじめ変更候補を選択肢として提供
するよう構成したが、ユーザに希望する変更を自由入力
させて柔軟度を高めるような構成も可能である。
【0033】続いて、学習辞書部104g内の学習内容
を含む辞書部104に含まれる各種知識を使って翻訳部
103が翻訳処理を行う際の処理の流れについて説明す
る。図7は、原文が1文入力されてから、第2言語の文
として出力されるまでの処理の流れを示すフローチャー
トである。
【0034】まず、翻訳部 103に入力文が送られて
くると、入力文に対して辞書部104中の語彙部104
aと形態素解析規則104bを用いて、形態素解析・辞
書引き処理を行い、その品詞・活用の種類、訳語ほか、
翻訳処理に必要な各種情報を求める(ステップS70
1)。この結果、入力文を構成する単語のすべての品
詞、活用の候補がリストアップされる。たとえば「At
present there are some l
imits on arms sales.」が原文と
して入ってくると、図8に示すような形態素解析結果を
出力する。すべての品詞・活用の種類の候補のつらなり
がネットワーク状に表されている。
【0035】形態素解析結果が得られると、次は、品詞
判定規則104cを用いて、入力文を構成する単語の品
詞の並びとして確からしい系列を選択する(ステップS
702)。品詞判定規則104cには、たとえば「名詞
と動詞の両方の可能性がある語の後に冠詞が繋がってい
る場合には、動詞の可能性のほうが高い」というような
優先度決めのための知識がたくさん記述されており、そ
の知識と形態素解析結果を照らし合わせて、複数の可能
性の中から最も優先度の高い系列を選ぶという処理が行
われる。学習辞書部104gにユーザによる品詞の学習
結果が収容されていればこの後でそれを踏まえた品詞系
列の再判定を行う。この処理については、後に別図を用
いて説明を行う。品詞判定処理の出力は、形態素解析処
理の出力のようなネットワークではなく、以下のような
単語・品詞の並びである。 「at −− present −− there −
− be −− some −− limit −−
on −− arm −− sale −− .前置詞
動詞 副詞 動詞 形容詞
名詞 前置詞名詞 名詞 文末記号」 続く構文解析課程では(ステップS703)、上記単語
・品詞の並びを入力とし、解析規則104dを使って、
入力文の構造を解析する。解析規則104dに記述され
る規則では入力された単語・品詞の並びを解析しきれな
い場合は(ステップS704)、処理失敗の信号を品詞
列判定処理部へ戻す。ここで解析が失敗する原因として
は、品詞判定処理の結果が誤っており、文法的に文を解
釈することができない場合と、解析規則が不足している
ために解析できない場合とがある。
【0036】解析失敗の信号を受け取った品詞判定処理
部は、前出力の次に確からしい単語・品詞の並びを新た
に出力し、構文解析処理へ送る。 (次の出力例) 「at −− present −− there −
− be −− some −− limit −−
on −− arm −− sale −− .前置詞
名詞 副詞 動詞 形容詞
名詞 前置詞名詞 名詞 文末記号」 以降、構文解析が成功するまで、このループが繰り返さ
れる。解析規則が不足していた場合や、非常に文が複雑
で、単語・品詞の並びの候補が非常にたくさんある場合
は、このループがかなりの回数にわたるため、実際の実
施形態としては、ループの回数制限や時間制限を設ける
ことも考えられる。この場合、一般には解析可能な部分
に文の要素を分割して以降の訳文出力までの処理を行う
のが通常の実施方法である。
【0037】構文解析が成功すると(制限内に成功しな
い場合も含む)、ステップS705へ進み、変換規則1
04eを用いて解析結果から第2言語の構造への変換を
行う。その後、ステップS706に進み、生成規則10
4fを用いて第2言語の表層文の生成を行い、一通りの
翻訳処理を終了する。
【0038】以上翻訳部103の処理の流れを説明する
の用いた例文は非常に簡単なものであるが、実際には非
常に構造的にも複雑で、ひとつの語が複数の品詞の候補
を持ち、また、合成語も多数辞書に登録されている場合
には、合成語としての解釈と、ばらばらの構成要素から
なるという解釈が対立も起きてくる。(例:「push
button」が辞書に登録されている場合、「Pu
sh buttons.」には「名詞の合成語(pus
h button)」「動詞(push)+名詞(bu
tton)」「名詞(push)+名詞(bottu
n)」の3種類の候補ができる。)そうなると、単語・
品詞の並びの候補数は組み合わせ的に莫大な数になり得
るため、制限内に正しい結果を得られないケースが出る
のを回避するのは難しい。
【0039】また、解析規則104d内に記述される知
識が不足しているケースも、入力文が多様化すればする
ほどたくさん起こってくる。この場合は、上記ループを
回しても正しい解釈が得られることはなく、誤った解析
結果のまま成功と判定されたり、最終的に失敗のまま変
換処理へ送られる場合でも、最初の品詞判定処理(もっ
とも優先度が高いと判定された出力)の出力が誤ってい
れば、その単語・品詞の並びを使って以降の部分的な翻
訳処理を行うのが一般的なので、不適切な訳文がユーザ
に提示されることが起きる。
【0040】このように、品詞判定の結果というのは非
常に訳文の精度に影響度が強い。そこで、今までユーザ
には原文中の特定の文の特定の語に限定して、翻訳処理
に認識させたい品詞を限定することまでは可能にしてい
たが、従来の方法では、あくまでも局所的に、指定した
文だけの訳文が改善されるに過ぎなかった。本発明で
は、これを効率的に学習し、ユーザが複雑な指定をしな
くても、最大限ユーザの品詞の指定を学習し、以降の処
理に活かしていく、というものである。
【0041】続いて、翻訳部103の品詞判定処理で、
学習辞書部104g内の学習内容を参照して、どのよう
に品詞判定結果を制御するかについて説明する。図9は
品詞判定処理の流れを示すフローチャートである。
【0042】最初にステップS901にて、処理の開始
のきっかけが、構文解析失敗によるものかどうかを判定
し、ここで処理が枝分かれする。解析失敗によるもので
ない場合には、ステップS902へ進み、品詞判定規則
104cを用いた通常の品詞判定処理を行う。その後、
ステップ903からS910において、学習辞書部10
4gの学習内容を使った処理に入る。
【0043】その最初のステップS903では、原文中
の着眼語(i番目の語)を先頭の語とする。以降、i番
目の単語から文末の語までを順番に、学習辞書部104
gの学習内容と照合していくことになる。文末の照合ま
で終わっていれば(ステップS904)、ステップS9
10へ進み、もっとも優先度の高い単語・品詞の並びの
候補を品詞判定結果として出力し、すべての処理を終え
る。学習辞書部104gの学習内容に適合した単語・品
詞の候補には高い優先度が付与されているので、この段
階ではこの候補を含む単語・品詞の並びがもっとも優先
度の高い品詞列として出力されることになる。
【0044】i番目の語が文中に存在するならば、ステ
ップS905へ進み、学習辞書部104g内の見出し語
との照合を行う。i番目の語の見出し語が学習辞書部1
04gにない場合は、ステップS906で着眼単語を次
の語にずらし、ステップS904以下の処理を行う。
【0045】i番目の語の見出し語が学習辞書部104
gにある場合は、ステップS907において、学習要件
が、入力文の着目単語周辺の状況と適合するかどうかを
判定する。適合しない場合は、ステップS908にて、
同じ見出し語に別の学習項目があるかどうかをチェック
する。別の項目があれば、ステップ907以降の処理を
行う。それ以上、同じ見出し語の別項目がなければ、ス
テップS906へ進み、着眼単語をずらし、ステップS
904以降の同様の処理を行う。
【0046】ステップS907で、学習要件が着目単語
周辺の状況と適合すると判定された場合には、ステップ
S909へ進み、着目単語の品詞候補のうち、学習品詞
と一致するものに高い優先度を付与する。その後は、ス
テップS906へ進み、着目単語をずらしてステップ9
04以降の同様の処理を行う。
【0047】一方、ステップS901で、解析失敗にも
とづく品詞列の再判定であると判定された場合には、ス
テップS911へ進み、直前に出力した品詞列に次ぐ優
先度を持つ品詞列を判定結果として出力し、処理を終え
る。学習辞書部104gの内容と適合した単語・品詞の
候補には高い優先度が付与されているので、この段階
で、次の候補を判定する際にも、当該単語以外の語の品
詞候補が変化した品詞列が選ばれることになる。このよ
うにして、次の品詞列候補を順次出力してく際にも、学
習辞書部104gの内容は優先的に扱われることにな
り、ユーザの求める正しい訳文を導ける可能性が大幅に
上昇する。
【0048】本発明によれば、ユーザは特定の文の特定
の個所の単語に対して品詞の指定をするだけで、自動的
に学習要件を作成し、以降の処理に利用するので、類似
文が生起しても、再度品詞指定を行う必要が無く、効果
的な学習が行える。また、上記実施形態で説明したよう
に、自動作成した学習要件をユーザに提示することによ
り学習の内容をユーザに確認させれることもできるし、
その時点でユーザ自らに学習要件の修正をさせれば、一
層効果的な学習も可能となる。また、ユーザに確認・変
更させた学習要件を検索パターンとして、その時点の原
文書内の他の文、あるいは他の文書内の文で適合するも
のを検索してユーザに提示するような処理もつけて実現
するという実施形態も有効であろう。
【0049】次に、本発明の一実施例で用いる学習辞書
内容表示・更新機能について説明する。ユーザが、学習
内容表示コマンドを起動すると(通常は画面上に用意さ
れているボタンやプルダウンメニューを選択することに
よる。)、その命令は制御部102に送られ、さらに学
習制御部105へ送られる(この時の制御部102の処
理は図2における「その他の処理」に相当する)。図1
0に、学習制御部105に学習内容表示命令が送られて
からの処理の流れを示す。
【0050】学習内容表示命令を受け取ると、まず最初
に学習辞書部104gの中身をユーザに提示するサブウ
ィンドウなどに表示できる形式に置きかえ、制御部10
2を通じて出力部106にてユーザへ提示する(ステッ
プS1001)。本実施形態では、学習要件の中に含む
要素について、学習内容をユーザが変更しやすいよう
に、あらかじめ選択肢を作成し、容易にその中から選べ
る構成とした。選択肢の作成にあたっては、学習事例と
学習要件を使って学習事例中の学習要件に対応する単語
を抽出し、翻訳部103に辞書引き命令を送ってその辞
書引き結果を得ることによって行う。このときの画面表
示の一例を図11に示す。これ以降は、ユーザの入力す
るコマンド、文字キーなどに応じた処理を入力部10
1、制御部102、出力部106を介して行う。
【0051】ここでユーザに提供しているコマンド、キ
ー入力は、大きく以下の5分類である。それ以外の入力
に対してはなにもせず、入力待ちのモードへ戻る(ステ
ップS1010から情報へ伸びている矢印に相当)。そ
れぞれの入力の種類の下に、それに対応する処理も示し
た。
【0052】「削除ボタン」…対応する学習項目部分を
inactiveにする(編集不能にする)。同時に
「削除ボタン」もinactiveにする。「復旧ボタ
ン」をactiveにする。
【0053】「復旧コマンド」…削除済みの項目をac
tiveにする(編集可能状態に戻す)。同時に「復旧
ボタン」もinactiveにする。「削除ボタン」を
activeにする。起動直後はinactiveにな
っている。
【0054】「文字キー、各種編集コマンド」…入力に
応じた画面表示とする。
【0055】「更新ボタン」…現時点の画面の内容を学
習辞書部104gとして記憶できる形式に置き換え、直
前の学習辞書部104gの内容と置きかえる(学習辞書
部104gの書き換え)。
【0056】「終了ボタン」…画面を閉じ、処理を終え
る。
【0057】このように、ユーザに随時学習内容を参照
できる機能を提供することで、過去の学習の蓄積をいつ
でもユーザは確認することができ、かつ、事例を参照し
ながら後で自由に学習内容の変更をすることも可能とな
る。上記実施形態では、ユーザの変更操作を簡単にする
ため、あらかじめ選択肢を作成しておく構成としたが、
ユーザに変更内容を直接自由入力させる構成も柔軟度が
増し有効である。
【0058】なお、上記実施形態は英語の文から日本語
の文に翻訳する機械翻訳システムとしての構成である
が、本発明は翻訳の言語対の種類を限定するものではな
いのはもちろんのこと、自然言語文の解析処理を含む自
然言語処理を行うすべての装置・方法に適用可能であ
る。
【0059】また、本願発明の実施例における処理をコ
ンピュータで実行可能なプログラムで実現し、このプロ
グラムをコンピュータで読み取り可能な記憶媒体として
実現することも可能である。
【0060】なお、本願発明における記憶媒体として
は、磁気ディスク、フロッピーディスク、ハードディス
ク、光ディスク(CD−ROM,CD−R,DVD
等)、光磁気ディスク(MO等)、半導体メモリ等、プ
ログラムを記憶でき、かつコンピュータが読み取り可能
な記憶媒体であれば、その記憶形式は何れの形態であっ
てもよい。
【0061】また、記憶媒体からコンピュータにインス
トールされたプログラムの指示に基づきコンピュータ上
で稼動しているOS(オペレーションシステム)や、デ
ータベース管理ソフト、ネットワーク等のMW(ミドル
ウェア)等が本実施形態を実現するための各処理の一部
を実行してもよい。
【0062】さらに、本願発明における記憶媒体は、コ
ンピュータと独立した媒体に限らず、LANやインター
ネット等により伝送されたプログラムをダウンロードし
て記憶または一時記憶した記憶媒体も含まれる。
【0063】また、記憶媒体は1つに限らず、複数の媒
体から本実施形態における処理が実行される場合も、本
発明における記憶媒体に含まれ、媒体の構成は何れの構
成であってもよい。
【0064】なお、本願発明におけるコンピュータは、
記憶媒体に記憶されたプログラムに基づき、本実施形態
における各処理を実行するものであって、パソコン等の
1つからなる装置、複数の装置がネットワーク接続され
たシステム等の何れの構成であってもよい。
【0065】また、本願発明におけるコンピュータと
は、パソコンに限らず、情報処理機器に含まれる演算処
理装置、マイコン等も含み、プログラムによって本願発
明の機能を実現することが可能な機器、装置を総称して
いる。
【0066】
【発明の効果】以上説明したように、本発明を用いた自
然言語処理装置によれば、ユーザは特定の文の特定の個
所の単語に対して処理に採用させたい品詞を指定するだ
けで、その文に適した学習要件が自動的に作成され、ユ
ーザが当該表現が生起するたびに品詞の指定をする必要
がなくなり、作業量を軽減させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る機械翻訳システムの
基本的な構成を示すブロック図。
【図2】同実施形態の制御部の処理の流れを示すフロー
チャート。
【図3】同実施形態の学習辞書部の記述内容の一例を示
す図。
【図4】同実施形態の翻訳部の出力部における画面表示
の一例を示す図。
【図5】同実施形態の翻訳部における一文ごとの処理の
流れを示すフローチャート。
【図6】同実施形態の学習制部における学習処理の流れ
を示すフローチャート。
【図7】同実施形態の翻訳部の出力部における画面表示
の一例を示す図。
【図8】同実施形態の翻訳部における辞書引き・形態素
解析結果の一例を示す図。
【図9】同実施形態の翻訳部の品詞判定処理の流れを示
すフローチャート。
【図10】同実施形態の学習辞書内容表示・更新処理の
流れを示すフローチャート。
【図11】同実施形態の翻訳部の出力部における画面表
示の一例を示す図。
【符号の説明】
101…入力部 102…制御部 103…翻訳部 104…辞書部 105…学習制御部 106…出力部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 学習を指示された語句の前後あるいは片
    方の語句とその語句の品詞情報を取得するための文脈取
    得手段と、この文脈取得手段により取得された語句とそ
    の語句の品詞情報から、学習を指示された語句の周辺の
    語句の並び方である学習要件を作成するための要件作成
    手段と、学習を指示された語句および前記要件作成手段
    によって作成された学習要件を記憶するための学習辞書
    手段と、この学習辞書手段に記憶された語句および学習
    要件が、処理すべき文中の語句に成立したとき所定の自
    然言語処理を行うよう制御するための制御手段とを有す
    ることを特徴とする自然言語処理装置。
  2. 【請求項2】 第1言語の文書を第2言語の文書へ変換
    するための知識情報を収容する辞書手段と、この辞書手
    段に収容される知識情報と前記学習辞書手段に記憶され
    た学習内容を用いて、第1言語の文章を第2言語の文章
    へ変換するための翻訳手段とを備え、自然言語処理とし
    て翻訳処理を行うことを特徴とする請求項1に記載の自
    然言語処理装置。
  3. 【請求項3】 前記要件作成手段により作成された要件
    をユーザに提示する提示手段を有することを特徴とする
    請求項1に記載の自然言語処理装置。
  4. 【請求項4】 前記要件作成手段により作成された要件
    を前記提示手段によってユーザに提示することにより、
    ユーザによる要件の変更・指定を受け付ける入力手段を
    有することを特徴とする請求項1に記載の自然言語処理
    装置。
  5. 【請求項5】 学習辞書手段に記憶された学習辞書の内
    容の一覧をユーザに提示し、ユーザからの学習内容の変
    更・削除を受け付ける入力手段を有することを特徴とす
    る請求項1に記載の自然言語処理装置。
JP2000262484A 2000-08-31 2000-08-31 自然言語処理装置 Expired - Fee Related JP4043176B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000262484A JP4043176B2 (ja) 2000-08-31 2000-08-31 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000262484A JP4043176B2 (ja) 2000-08-31 2000-08-31 自然言語処理装置

Publications (2)

Publication Number Publication Date
JP2002073602A true JP2002073602A (ja) 2002-03-12
JP4043176B2 JP4043176B2 (ja) 2008-02-06

Family

ID=18750158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000262484A Expired - Fee Related JP4043176B2 (ja) 2000-08-31 2000-08-31 自然言語処理装置

Country Status (1)

Country Link
JP (1) JP4043176B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135573B2 (en) 2007-09-03 2012-03-13 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for creating data for learning word translation

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589637B1 (ko) 2016-08-16 2023-10-16 삼성전자주식회사 기계 번역 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135573B2 (en) 2007-09-03 2012-03-13 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for creating data for learning word translation

Also Published As

Publication number Publication date
JP4043176B2 (ja) 2008-02-06

Similar Documents

Publication Publication Date Title
JP3531468B2 (ja) 文書処理装置及び方法
KR100650427B1 (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
US5721938A (en) Method and device for parsing and analyzing natural language sentences and text
EP0692765B1 (en) Text preparing system using knowledge base and method therefor
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JPH0411906B2 (ja)
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
EP0118187A1 (en) Menu-based natural language understanding system
JPH05120324A (ja) 言語処理方式
JPH04152466A (ja) 機械翻訳方法
JP4043176B2 (ja) 自然言語処理装置
JP3657338B2 (ja) 翻訳装置
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
KR950013129B1 (ko) 기계번역장치 및 방법
JPH07325826A (ja) 日本語処理システム
JP2974698B2 (ja) 機械翻訳装置における単語間関係編集/学習装置
JP2000330984A (ja) 文書処理装置及び方法
JPH11345232A (ja) 文章作成装置及び文章作成方法並びに文章作成プログラムを実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体
JPH0773185A (ja) 機械翻訳装置及び方法
JP3253311B2 (ja) 言語処理装置および言語処理方法
JP2000222407A (ja) 機械翻訳装置および機械翻訳方法
JPH1021242A (ja) 機械翻訳装置及び機械翻訳後編集方法
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JPH01114973A (ja) 文書作成・校正支援装置
JPH08235186A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050316

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees