JP3289894B2 - 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置 - Google Patents

翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置

Info

Publication number
JP3289894B2
JP3289894B2 JP33098890A JP33098890A JP3289894B2 JP 3289894 B2 JP3289894 B2 JP 3289894B2 JP 33098890 A JP33098890 A JP 33098890A JP 33098890 A JP33098890 A JP 33098890A JP 3289894 B2 JP3289894 B2 JP 3289894B2
Authority
JP
Japan
Prior art keywords
translation
generalized
knowledge
thesaurus
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33098890A
Other languages
English (en)
Other versions
JPH04205058A (ja
Inventor
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP33098890A priority Critical patent/JP3289894B2/ja
Publication of JPH04205058A publication Critical patent/JPH04205058A/ja
Application granted granted Critical
Publication of JP3289894B2 publication Critical patent/JP3289894B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は、事例に基づいた機械翻訳(Case−based Ma
chine Translation,以下CBMTと略す)の改良、CBMTに限
られない新規な翻訳知識ベース、及びそのような翻訳知
識を用いる翻訳処理に関する。
B.従来の技術 現在、様々な機械翻訳システムが製品化されており、
それらのほとんどは、人間の与えた翻訳規則に基づいた
機械翻訳(Rule−based Machine Translation,以下、RB
MTと略す)システムである。このようなシステムを作る
ためには、複雑な知識を収集せねばならないが、そのよ
うな知識の収集や規則あるいは辞書の整備は多大な人手
を要する。その結果、多くの人の作った規則相互の間の
影響を予測がしにくく、管理上の手間も膨大である。そ
れでいて、すべての例外的なケースを規則でカバーし尽
くすことはほとんど困難である。しかも、一般的なケー
スを想定して書いた規則がいつも的確であるという保証
はない。
そこで、規則に基づいたシステムの欠点を解消すべ
く、規則ではなく、実際の翻訳例(翻訳事例)に基づい
て翻訳を行うシステムが、M.Nagao著の論文“A framewo
rk of a mechanical translation between Japanese an
d English by analogy principle,"Artificial and Hum
an Intelligence,ed.A.Elithorn and R.Baenrtji,pp.17
3−180,North−Holland,1984を初めとする多くの文献に
て提唱されている。
第19図は、従来のCBMTシステムの構成を示す。図に示
されるように、従来のCBMTによる翻訳では、翻訳事例を
大量に蓄積する翻訳事例データベース及びシソーラスが
用意され、アクセスされる。簡単な例として、日英機械
翻訳における日本語の「に格」の訳し分けを考える。
今、“1月に”と“来る”という部分を含む日本文の
「に」格について、“in"という前置詞が選択された事
例Cが事例データベースに存在しているとする。そし
て、CBMTシステムに、“4月に”と“来る”という部分
を含む未知の日本文Qが入力されたとする。すると、シ
ステムは、入力中の「に格」を翻訳するために、翻訳事
例データベースの中からQに近い事例を探す。このと
き、シソーラスを使いながら、翻訳事例データベースの
全ての事例との間でQとの距離計算を行う。“1月”と
“4月”はシソーラスで同じ概念に分類されているの
で、システムは、入力Qに最も近い事例としてCを見つ
け、入力の中の「に格」を“in"に翻訳することにな
る。このように、CBMTは、未知の文を既知の類似した文
の翻訳結果と同様に訳すという、人間の翻訳過程をコン
ピュータでシミュレートする。規則を与えなくても、信
頼できる翻訳事例を収集できさえすれば、信頼性の高い
翻訳が可能であり、RBMTの限界を打破し得るものとし
て、注目されている。
しかしながら、従来のCBMTには次のような問題点があ
る。即ち、CBMTでは、翻訳事例データベースに蓄積する
事例には何の制限もつけない。例外的なケースでも扱え
るというCBMTの利点はこれによってもたらされる。だ
が、その結果、蓄積される事例は、膨大かつ冗長なもの
になってしまう。例えば、“4月”に的確に訳し分ける
ためには、“1月に”という事例が1つあれば十分であ
るにもかかわらず、“X月に”という事例が幾つも存在
するのが通例である。それにもかかわらず、1つの文を
翻訳する度にそのような翻訳事例データベースにアクセ
スし、広大な探索空間の中で最も似た事例を探す。しか
も、そのために、入力文中の語と事例中の語の間の意味
距離を逐次計算し、距離が最小の事例を求める(best m
atch)。その結果、多数の事例をチェックすることにな
る。したがって、検索効率が悪く、翻訳処理に多くの時
間を費やすことになる。
1つの解決策として、意味距離の計算を効率よくする
目的で、シソーラスの分類を細かくすることが考えられ
るけれども、特定の翻訳パターンに対処するためだけに
シソーラスに手を加えることは、シソーラスの汎用性を
損ねる。翻訳処理のために特殊化したシソーラスの管理
・維持は、翻訳処理システムの使用者の責任において行
われねばならないが、それは多大の労力を必要とする。
もちろん、翻訳のために膨大な翻訳事例データベース
を保持する必要があることから、翻訳装置のメモリ資源
が大きな制約を受ける問題点も見逃せない。
C.発明が解決しようとする課題 したがって、本発明は、CBMTの利点を持ちつつ、従来
のCBMTの検索効率の悪さを克服し、処理能率を高めた翻
訳方式を提供することを目的とする。
D.課題を解決するための手段 従来のCBMTの検索効率の悪さは、翻訳のために参照す
る翻訳事例を翻訳事例データベースに持ち、したがって
翻訳事例が語のレベルのままで保持され、未知の入力と
翻訳事例の比較が語と語の意味距離を測ることによって
行われることに起因する。
そこで、本発明は、翻訳パターンごとに、翻訳事例の
中に含まれる語と翻訳結果を抽出し、さらに該語を概念
に置き換えて一般化することによって、翻訳事例から、
一般度の高い、つまり多くの入力に対して適用されるこ
との期待される知識を獲得する。語の概念への変換は、
シソーラスを参照して行う。ただし、単純にシソーラス
を上に辿ることによって、翻訳事例中の語を上位の概念
に変換すればよいというわけにはいかない。即ち、多数
の事例が一般度の高い知識に集約されとともに、少数の
例外的な事例を反映したり知識が獲得されることが保証
されるような一般化でなければならない。そこで、翻訳
事例に含まれる語と該語の上位概念の階層関係を記述す
る部分シソーラスを生成し、さらに語毎に翻訳結果と該
翻訳結果を持った事例の頻度に関する情報を獲得する。
そして、この頻度情報に基づいて、部分シソーラス中の
概念毎に、翻訳結果の重要度を計算する。一般化の適否
は、この重要度を使って判断される。
翻訳処理の段階では、上記のようにして獲得された知
識とシソーラスを参照し、源言語で表わされた入力の中
に上記条件を充足する語が見つかったなら、そのような
語またはその上位概念を含む知識を求め、決定された知
識の翻訳結果にしたがって翻訳を実行する。
E.実施例 一般に、機械翻訳システムは、第1図に示すように、
源言語解析処理、変換処理、対象言語生成処理の3つの
過程から構成される。源言語解析処理では、源言語で表
現された入力(典型的には文の形をとる)から源言語の
依存構造を生成する。依存構造は、自立語間の係り受け
関係を木構造で表現したものである(第2図参照)。変
換処理では、源言語の依存構造を対象言語の依存構造に
変換する。対象言語生成処理では、対象言語の依存構造
から対象言語で表現された出力を生成する。本発明は、
このうちの変換処理過程における従来の困難さを解消
し、機械翻訳システムの効率を向上させる。源言語解析
処理と対象言語生成処理の部分は公知の技術を用いれば
よいので、説明を省略する。
機械翻訳システムにおける本発明の適用場面は、大き
く二つに分けられる。1つは、一般化処理で、これによ
って翻訳に必要な一般化翻訳知識を得る。もう1つは翻
訳処理であって、ここでは一般化処理で得られた知識を
解釈し適用する。まず、一般化処理について説明し、次
に翻訳処理について説明する。
1.一般化処理 一般化処理は、与えられた実例中に出現する“語”を
より抽出度の高い“概念”に置き換えることによって、
事例をより一般的に適用可能な知識に変換する処理であ
る。ここで、語とは、単語または複合語をいう。“概
念”は、与えられたシソーラスによってあらかじめ定義
されているものとする。
一般化処理で必要とされるデータおよびその流れを第
3図に示す。まず、一般化処理で用いられるデータにつ
いて説明する。
1.1.データ (1)シソーラス 語・概念の上位/下位関係を表した階層構造であり、
記憶装置に保持される。シソーラスの例(一部)を第4
図に示す。図中で”で括られたノードは語であること
を、*で括られたノードは概念であることを意味する。
例えば、*時*は、概念であり、“月曜”は、語そのも
のを指す。以後、語は”で、概念は*で括って表わす。
(2)翻訳事例データベース 翻訳対の蓄積されたものであり、記憶装置に保持され
る。翻訳対は、源言語で表現された入力の依存構造と対
象言語で表現された出力の依存構造の対である。依存構
造のノード間には対応関係が付けられている。翻訳対の
例を第5図に示す。
(3)翻訳パターン記述 翻訳を行うのに必要な、源言語から対象言語への変換
パターンを記述したものである。翻訳パターン記述は、
一般化処理を実行するときに適当な装置を使って入力し
てもよいけれども、予めファイルの形で作成しておい
て、記憶装置に保持しておき、必要に応じて読み出すこ
とが望ましい。翻訳パターン記述は、源言語パターン、
対象言語パターンおよびノード間リンクから構成される
(第6図参照)。源言語パターン、対象言語パターンに
おける「項」は、源言語の制約、および、そのノードに
含まれるべき単語に対する条件を含む。単語に対する条
件は、特定の語が指定されていてもかまわないし、特定
の語が直接指定されない項(不定項)も含まれていても
かまわない。以下、源言語の不定項をXiで表わし、対象
言語の不定項をYiで表わす(iは自然数)。そして、源
言語の不定項の値が決まれば、対象言語の不定項の値が
決定するという前提に基づいて、翻訳パターンの記述を
行う。本発明は、源言語における不定項の値として語の
みが許される翻訳パターンに適用される。そして、その
ような翻訳パターンに合致する事例中で、不定項のとる
値として許された源言語の語が一般化の対象となる。源
言語の不定項の値が決まった場合に、対象言語の不定項
がとる値のリスト(Y1,....Ym)を、翻訳パターンにお
ける結果値(value)または翻訳結果と呼ぶ。ここで、
翻訳結果とは、源言語の不定項が定まると決定される関
係にあるものでありさえすればよく、例としては、語や
句、時制や単数・複数等の属性、あるいは語と属性の組
み合わせといったものが挙げられる。結果値は、下記式
1のように源言語の不定項の関数で表される。
(Y1,.....,Ym)=F(X1,...,Xn) 式1 以下では不定項を単に項と呼び、源言語の不定項の数
を翻訳パターンの項数と呼ぶ。式1は、項数nの翻訳パ
ターン記述を表す。
実際の翻訳パターン記述の例として、第6図に、「に
格の訳し分け」の例を示す。この例は、日本語で表現さ
れた入力(典型的には日本語文)において名詞X1が「に
格」で動詞X2を修飾していて、X1の翻訳結果が英語動詞
の必須格でないという条件の下で、日本語の名詞X1と動
詞X2によって英語の名詞がとる前置詞Y1が決まることを
意味している。ここで、前置詞には、1語で構成される
狭義の前置詞のほかに、複数の語で構成される広義の前
置詞(“in front of",等)も含む。対象言語での不定
項Y1には、そのような前置詞がくる。以後の説明は、こ
の第6図のように指示された「に格の訳し分け」の例を
用いて行なう。
(4)翻訳パターン事例 翻訳パターン事例は、翻訳事例データベースから翻訳
パターン記述で指示された条件を充足する源言語の語を
含む翻訳事例を検索し、源言語の不定項のとる値(語)
及び翻訳結果を抽出することによって、獲得される。し
たがって、これは事例から引き出しただけの、一般化の
程度の最も低い知識である。条件に合致した1の事例か
ら1以上の翻訳パターン事例が獲得される。獲得された
翻訳パターン事例は記憶装置に蓄えられ、狭義の一般化
処理(後述)の対象となる。翻訳パターン事例は、一般
化処理でのみ必要とされ、翻訳処理には活用されないの
で、一般化処理が終了したなら、消去してよい。
「に格」の例では、日本語文で名詞が「に格」で、動
詞を修飾し、かつ、英語に翻訳された名詞の格が必須で
ない翻訳対を検索し、その翻訳対の日本語の名詞X1,動
詞X2,前置詞Y1の値を抽出する。1例として、「に格」
に関して獲得された10個の翻訳パターン事例を第1表に
示す。
第1表 X1 X2 Value “3月” “こわす” (“in") “4月” “議論する” (“in") “5月” “採決する” (“in") “6月” “冷える” (“in") “月曜” “洗う” (“on") “火曜” “決まる” (“on") “週末” “上る” (“on") “東” “移る” (“to") “東京” “移動する” (“to") “7月” “移動する” (“in") (5)翻訳規則 本明細書で言う翻訳規則とは、翻訳パターン記述で指
定された条件を充足する源言語の不定項の値と対象言語
の結果値の対応関係を、翻訳事例データベースに蓄積さ
れた事例とは独立に定めたものであり、典型的には人手
で記述される。ただし、事例から抽出される翻訳パター
ン事例と違い、源言語の不定項のとる値として概念を許
す。したがって、抽象的なレベルでの記述が可能であ
る。以下の例は、「*場所*に*精神・行為*」(例え
ば、東京に遊ぶ)というパターンに対しては前置詞“i
n"が取られることを意味する。
X1 X2 Value *場所* *精神・行為* (“in") 翻訳規則も、翻訳パターン記述と同様、予め記憶装置
に蓄えておくことが望ましい。
(6)一般化翻訳知識 一般化翻訳知識は、翻訳パターンごとに事例を一般化
することによって得られ、源言語の不定項のとる値、対
象言語の結果値およびその重要度から構成される。ただ
し、源言語の項数が1の場合には、重要度の計算は不要
である。重要度は、翻訳処理において、入力に対して適
用可能な一般化知識が複数見つかったときに、もっとも
妥当する(重要な)知識を選択するために使われる。重
要度は0から1までの値をとり、値が高い一般化知識ほ
ど重要度は高い。下の例は、X1として*具体概念*、X2
として*抽象的関係*、結果値として(“to")をとっ
た場合、その知識の重要度は0.037であことを示す。
X1 X2 Value 重要度 *具体概念* *抽象的関係* (“to") 0.037 一般化翻訳知識は、記憶装置に蓄えられて、翻訳処理
の際にアクセスされる。
1.2.処理の概要 一般化翻訳知識を獲得する広義の一般化処理の概要を
第7図に示す。広義の一般化処理は、翻訳パターン記述
毎に、コンピュータを使って行われ、翻訳パターン記述
の記憶装置と翻訳事例データベースにアクセスして翻訳
パターン事例を獲得する段階と、翻訳パターン事例を記
憶する装置とシソーラスを記憶する装置にアクセスし、
一般化翻訳知識を獲得する狭義の一般化処理の段階とか
らなる。翻訳規則が与えられるなら、それも狭義の一般
化処理の対象となる。翻訳パターン記述によっては、狭
義の一般化処理の結果、翻訳パターン・シソーラスが生
成される。生成された一般化翻訳知識及び翻訳パターン
・シソーラスは記憶装置に蓄積され、翻訳処理で活用さ
れる。
(1)翻訳パターン事例(i)抽出 まず最初に、事例データベースにアクセスして、翻訳
パターン記述(i)(iは0<i<=Nなる整数;Nは翻
訳パターン記述の総数)で指定された条件に合致する翻
訳事例を検索し、源言語の不定項にくる値と翻訳結果を
抽出することにより、翻訳パターン事例を獲得する。翻
訳パターン記述(i)について獲得された翻訳パターン
事例の集合を、翻訳パターン事例(i)とする。以後の
処理の説明は、翻訳パターン事例(i)が第1表の10個
の翻訳パターン事例から構成される場合に関して行な
う。
なお、以下で、翻訳パターン記述(i)に対応して様
々なデータの集合が生成されるけれども、それらには翻
訳パターン事例(i)のように、番号iを付し、翻訳パ
ターン記述(i)との対応関係が簡単にわかるようにし
ておく。
(2)部分シソーラス(i,k)の生成 事例データベースから翻訳パターン記述(i)にした
がって抽出された翻訳パターン事例(i)の源言語の不
定項別に、その項のとる値として出現する語を含む項別
の部分シソーラス(i,k)(0<k<=M(i);M
(i)は翻訳パターン記述(i)の源言語の項数)を生
成し、一旦記憶装置に蓄積する。これは、不定項ごと
に、シソーラスを記憶する装置にアクセスして、上記シ
ソーラスから、出現する語およびその上位概念を含む一
部分を切出すことにより行なわれる。そして、項別部分
シソーラス(i,k)中の対応する語ノード中に、その語
と結果値の対及びその対の頻度を設定する。なお、部分
シソーラスは狭義の一般化処理の間だけ必要とされるデ
ータなので、処理が終れば消去してよい。
例えば、第1表の翻訳パターン事例の源言語の第1項
に対しては、第8図に示す部分シソーラスが生成され、
同第2項に対しては、第9図に示す部分シソーラスが生
成される。図では簡略化して示してあるけれども、第8
図の*時*のノードの下には、“月曜”など8個の語ノ
ードがぶらさがっている。実施例では、第9図の“移動
する”のように、同じ語であっても異なる結果値をとる
事例がある場合には、結果値ごとにノードが作られる。
(3)部分シソーラス(i,k)の概念リーフノードの重
要度の計算 ここで、一般化翻訳知識の重要度を計算するためのい
くつかの補助的な重要度を定義する。なお、翻訳パター
ン記述(i)で抽出された翻訳パターン事例の総数をL
(i)とする。
a.リンクの重要度 項別部分シソーラス中のリンクの重要度は、ノード間
にはられたリンクの重みを表すファクターであり、その
リンクに直接繋がっている子ノードを頂点とする部分木
が含む事例の、全翻訳パターン事例に対する生起確率で
ある。つまり、そのような部分木が含む事例の総数をS
とすると、リンクの重要度はS/L(i)で表される。第
8図の例では、月曜と*時*を結ぶリンクの重要度は、
1/10となる。
b.ノードの重要度 項別部分シソーラス中のノードの重要度は、そのノー
ドを頂点とする部分木に含まれる結果値の部分木中での
生起確率の2乗の総和の平方根で表される。この値は、
0から1の間の値を取り、部分木中での結果値の揺れを
表す。部分木中ですべての結果値が同じ場合ノードの重
要度は1になる。第8図の*時*ノードの重要度は、次
のようにして求まる。
root(sqr(3/8)+sqr(5/8))=0.729 sqr(x):=x*x; root(x):=xの平方根 c.結果値の重要度(翻訳結果の重要度) 項別部分シソーラスの特定のノードの特定の結果値の
重要度は、その特定のノードにリンクされている子ノー
ドが持つその特定の結果値の重要度に、a.リンクの重要
度を掛けたものを、すべての子ノードについて足しあわ
せたものに、さらにb.ノードの重要度を掛けたものとし
て定義される。第8図の*時*ノードにおける結果値
(“in")の重要度は、 (1/10)×5(*時*ノードの重要度)=0.365 結果値(“on")の重要度は、 (1/10)×3×(*時*ノードの重要度)=0.219 となる。なお、語ノードにおける特定の結果値の重要度
はその特定の結果値の頻度であると定義される。
さて、まず最初に、項別部分シソーラス(i,k)中の
すべてのリンクの重要度、すべてのノードの重要度およ
び概念リーフノードにおける結果値の重要度を計算す
る。概念リーフノードとは、シソーラス中の概念ノード
であり、かつ、その子ノードが語そのものであるものを
指す。
第1項の部分シソーラスに関して、ここまでの重要度
の計算結果を第10図に示す。
(4)概念リーフノードの細分化 次に、概念リーフノードにおいて、重要度が最大でな
い結果値に着目し、その結果値の重要度が所定の閾値よ
りも大きく、かつ、細分化を行うことで事例の数が減少
するならば、その概念リーフノードの細分化を行う。細
分化は、着目した結果値を持つ語ノードを子ノードに持
つ新たなノードを、その概念リーフノードと語ノードと
の間に生成することによって行なわれる。閾値を定め、
それとの比較を行なうのは、不必要な細分化を防ぎ、重
要な、しかし未分類の概念だけを抽出するためである。
第10図の例で、結果値の重要度の閾値をかりに0.2と
すると、*時*ノードにおいて2番目に重要度の大きい
結果値(“on")の重要度は0.219であり、かつ、結果値
(“on")をとる語ノードは複数存在するので、細分化
の対象となる。
生成するノードにはユニークな名前を与える。そし
て、生成されたノードと細分化されたノードについて重
要度の再計算を行う。第10図の例で新しく生成するノー
ドの名前を*X*とすると、*X*ノードの重要度は1
となり、*X*ノードにおける結果値“on"の重要度は
0.3となる。細分化された*時*ノードでも、重要度の
再計算を行う。新しく生成された概念ノードからの重要
度の伝搬(後述する)は、この時点では行わない。
また、ここでなされた細分化に対応して、翻訳パター
ン(i)に関する翻訳パターン・シソーラス(i)が生
成される。翻訳パターン・シソーラスには、細分化され
た概念リーフノードと新しく生成された概念ノードの親
子関係が記述される(第1図参照)。
概念リーフノードが細分化されるのは、多くの場合、
特定の翻訳パターンに個別的に有効な、つまり似た事例
を探すときに探索空間を狭めることのできる分類が存在
するからである。そして、そのような分類をシソーラス
に直接記述することを避けるために、翻訳パターン・シ
ソーラスを生成し、シソーラスとは別にして記憶装置に
記憶しておく。その結果、翻訳のためにのみ意義のある
分類情報が翻訳パターン・シソーラスに集中され、シソ
ーラスには変更が加えられないから、シソーラスの汎用
性を維持することができる。もし翻訳のためにのみ意義
のある分類情報を直接シソーラスに記述してしまうと、
そのシソーラスは翻訳処理のために特殊化したものとな
り、したがって以後のシソーラスの維持・管理は、翻訳
処理システムの使用者の責任になってしまうのに対し、
本実施例では、翻訳処理システムの使用者がシソーラス
の維持・管理に労力を費やす必要はない。もっとも、そ
のような労力を厭わないならば、シソーラスを更新して
もよいのであり、本発明の一般化処理及び翻訳処理は、
そのような特殊化されたシソーラスを使う場合にも適用
可能である。
ただ、概念リーフノードが細分化される原因として、
シソーラス自体が不備であることも考えられる。概念の
細分化情報をシソーラスの維持・管理者にフィード・バ
ックすれば、それはシソーラス自体に新たな分類を追加
するための参考情報となる。例えば、幾つかの翻訳パタ
ーンに共通して同じ語を含む新たな概念ノードが生成さ
れるならば、シソーラスにおける概念の分類が不徹底で
ある可能性が高いので、そのような場合にはシソーラス
の更新を検討することが望ましい。例において、*X*
ノードに繋がる“月曜”などの語を1つの概念にまとめ
ることが、「に格」の訳し分け以外の目的にも重要だと
判断されるなら、*週日*という概念をシソーラスに設
けることができる。
(5)結果値の重要度の伝搬 一般化処理の次のステップでは、結果値の重要度を伝
搬させことによって、概念リーフノード以外のノードに
おける結果値の重要度を計算する。伝搬の源側のノード
における結果値の重要度にリンクの重要度をかけ、さら
に伝搬の対象側のノードの重要度をかけて求めた値が伝
搬される。結果値の重要度の伝搬は、まず概念リーフノ
ードから始めてボトムアップ式に行なう。第10図の例で
見ると、*時*における(“in")の重要度は、 0.365*0.8*0.657=0.192 として上位ノード(*抽象概念*)に伝搬する。
このようにして、下位ノードから上位ノードへの上向
きの伝搬をすべて終えたなら、今度は上位ノードから下
位ノードへの下向きの伝搬を行なうべきかどうかの判断
に移る。上位ノードから下位ノードへの下向きの伝搬
は、下位ノードが概念ノードであり、かつ伝搬される値
が下位ノードの結果値の重要度の最大値以上である場合
にのみ起こる。
下向きの伝搬は、偶々存在した例外的な事例が上位ノ
ードにまで影響する、つまり一般化されることを防ぐた
めに行う。第12図の例に即して説明する。*x*で
(a)という結果値を取る事例が1000、*y*で(b)
という結果値を取る事例が1あったとする。もしボトム
アップの伝搬のみを許すのであれば、*yy*において
は、結果値(b)の影響のみしか受けない。しかし、*
yy*において(b)の結果値を取ることははたして一般
的なのであろうか、それとも例外的なのであろうか。そ
の判断は全体を見通して行なわなければならない。そし
て、*yy*において(b)の結果値を取ることが例外的
であると判断されるならば、結果値(a)の影響を*yy
*に及ぼす、即ち下向きの伝搬を行なうのが望ましい。
下向きの伝搬を行なうか否かの判断及びそれに続く下向
きの伝搬は、そのような目的で行なう処理である。
例えば、第10図の*具体概念*ノードにおいて、下か
ら伝搬してくる(“to")の重要度は0.01である。これ
に対し、上位ノードから伝搬する値は(“in")0.0107
で、(“to")0.01より大きいので下位ノードへの伝搬
が生じる。その結果、*具体概念*ノードの結果値とし
て、(“in")0.0107と(“to")0.01の両方が記録され
る。
以上の方法に従って、すべてのノードのすべての結果
値の重要度が計算される。その結果を、第1項の部分シ
ソーラスについて第13図に、第2項の部分シソーラスに
ついて第14図に、それぞれ示す。
(6)項別一般化知識(i,k)の抽出 以上のようにして計算された重要度に基づいて、まず
源言語の項別に、その項が事例中でとった値(語)をよ
り抽象度の高い概念に変換する。このような項別の一般
化は、その項の部分シソーラス(i,k)において、もっ
とも下のレベル(語)からはじめて、ボトムアップ式
に、下位ノードから上位ノードへ上向きに一般化を繰り
返すことにより行う。もし下位ノードで最大の重要度を
持つ結果値がその上位ノードで最大の重要度を持つ結果
値と同じであるならば、その下位ノードは一般化され
る。
例として、第13図の*X*の下位ノード(“月曜”等
の語ノード)の一般化を考えてみる。*X*の下位ノー
ドはすべて結果値(“on")をとり(結果値(“on")が
最大の重要度を持つ)、かつ*X*ノードで最大の重要
度を持つ結果値もまた(“on")であるので、*X*の
下位ノードはすべて*X*に一般化される。しかし、さ
らに上位のノード*時*においては、最大の重要度を持
つのは(“in")であるので、*X*の下位ノードは*
X*までしか一般化されない。一方、第13図の例で、*
時*ノードの直接の子ノード(“4月”等の語ノード)
に関しては、(“in")がそれら子ノードでも*時*ノ
ードも最大の重要度を持つので、*時*よりもさらに上
位のノードにまで一般化される可能性を持つ。実際、結
果値(“in")は、その上位概念*抽象概念*および*
*でも最大の重要度を持つので、結局*時*ノードの直
接の子ノードは**にまで一般化される。
このような項別の一般化によって、最終的に第1項の
一般化知識として以下の第2表に示すものが得られる。
第2表 X1 Value X1′ “3月” (“in") ** “4月” (“in") ** “5月” (“in") ** “6月” (“in") ** “月曜” (“on") *X* “火曜” (“on") *X* “週末” (“on") *X* “東” (“to") *方向* “東京” (“to") *場所* “7月” (“in") ** この知識によれば、X1の値が月曜で結果値が(“o
n")の時、X1は*X*に一般化されることがわかる。
同様に第2項の一般化知識として以下の第3表に示す
ものが得られる。
第3表 X2 Value X2′ “こわす” (“in") *破壊* “議論する” (“in") *言動* “冷える” (“in") ** “洗う” (“on") *行為* “上る” (“on") *上下* “移る” (“to") *抽象的関係* “移動する” (“to") *抽象的関係* なお、“採決する”、“決まる”、及び結果値“in"
をとる“移動する”に関する一般化知識は求まらないこ
とに注意されたい。
(7)一般化翻訳知識(i)の抽出 (7.1)項別一般化知識(i,k)による翻訳パターン事例
(i)の一般化 ここでは、最初に得た翻訳パターン事例(i)を、
(6)で得られた項別一般化知識(i,k)に基づいて一
般化する。第1表の X1 X2 Value “3月” “こわす” (“in") を例にとると、項別一般化知識(第2表及び第3表)か
ら、“3月”は**に、“こわす”は*破壊*に、それ
ぞれ一般化されることがわかるから、その通りに一般化
して、次のような一般化事例が得られる。
X1 X2 Value ** *破壊* (“in") 実施例では、同一の一般化事例が複数個得られた場合
は、重複を避けてそのうちの1つのみを採用する。第1
表の事例からは、第4表のような一般化事例が得られ
る。
第4表 X1 X2 Value ** *破壊* *(“in")* ** *言動* (“in") ** *採決する* (“in") ** ** (“in") *X* *行為* (“on") *X* *決まる* (“on") *X* *上下* (“on") *場所* *抽象的関係* (“to") *方向* *抽象的関係* (“to") ** *移動する* (“in") (7.2)項間一般化 源言語の項の数が1つのときは、(7.1)により得ら
れた一般化事例がそのまま一般化知識になる。これに対
し、源言語の項の数が複数のときは、他の項を考慮しな
い項別一般化知識では語が抽象度の低い概念にまでしか
一般化できず、したがって(7.1)により得られた一般
化事例の一般化の程度が低かったとしても、他の項を考
慮する項間一般化によれば、一般化事例中の抽象度の低
い語または概念をより抽象度の高い概念に置き換えた、
より一般性の高い知識を得ることができる。そこで、項
が複数のときは、得られた一般化事例の各々に対し、第
1項から順に第K項(K=1,2,...)最大一般化を行な
うことにより、一般化翻訳知識を得る。
ここで、第K項最大一般化とは、第K項以外の項があ
っても、ひとまず他の項は固定しておいたままで、第K
項を最大限に一般化し、しかる後、他の項の一般化を行
なうことを言う。具体的には、(7.1)により得られた
一般化事例を第1次一般化事例として、第K項一般化を
しようとする第n次一般化事例の第K項の語または概念
を上位の概念で置換した第(n+1)次一般化事例を一
時的に作り、その候補に関する結果値の重要度を、部分
シソーラス中の第(n+1)次一般化事例に含まれる語
または概念に対応するノードにおける当該結果値の重要
度を足し合わせることによって計算する。そのようにし
て計算した第(n+1)次一般化事例の重要度最大の結
果値が第n次一般化事例の重要度最大の結果値と一致す
るならば、第n次一般化事例を第(n+1)次一般化事
例に一般化する。つまり、第(n+1)次一般化事例を
残し、第n次一般化事例を棄却する。このような処理を
一般化が不可能になるまで繰り返して、第K項を最大限
に一般化する。次に、第K項を最大限一般化されたまま
に固定し、それまで固定されていたその他の項を、第K
項の場合と同じ手順を繰り返して可能な限り一般化す
る。
第4表の一般化事例のうち、「*場所* *抽象的関
係*(“to")」を例にとって説明する。まず、第1項
最大一般化を行なう。*場所*をその上位概念である*
具体概念*で置き換えてみる。そのようにして作られた
「*具体概念* *抽象的関係*」なる第2次一般化事
例がとりうるある結果値の重要度は、第13図の*具体概
念*ノードと第14図の*抽象的関係*ノードのそれぞれ
における当該結果値の重要度の和として定義される。し
たがって、第2次一般化事例のとりうる結果値の重要度
は、 (“to")に関し、0.01 +0.027=0.037 (“in")に関し、0.0107+0.020=0.0307 (“on")に関し、0 +0.006=0.006 となる。第2次一般化事例も第1次一般化事例と同じく
(“to")の重要度がもっとも大きいので、一般化され
る。さらに*具体概念*をその上位概念**に置き換え
た第3次一般化事例を考えると、そこでの結果値の重要
度は、 (“to") 0.004+0.027=0.031 (“in") 0.107+0.020=0.127 (“on") 0.019+0.006=0.025 となる。第3次一般化事例において(“to")の重要度
は最大ではないので、第1項に関して第3次一般化事例
以上に一般化することはできない。
次に、他の項、つまり第2項を、「*具体概念* *
抽象的関係*」を第1次一般化事例として、一般化す
る。*抽象的関係*の上位概念は**であるので、第2
次一般化事例は「*具体概念* **」であり、そこに
おいてとりうる結果値の重要度は、 (“to") 0.01 +0.008=0.0108 (“in") 0.0107+0.011=0.0217 (“on") 0 +0.006=0.006 となる。第2次一般化事例において(“to")の重要度
は最大ではないので、第2項に関し第2次一般化事例以
上に一般化することはできない。ここで、第1項最大一
般化が終了する。結局、一般化事例「*場所* *抽象
的関係*(“to")」の第1次最大一般化の結果、「*
具体概念* *抽象的関係*(“to")」が得られ、そ
の重要度は0.037となる。
次に、同じ一般化事例に関し、第2次最大一般化を行
なう。第2項の*抽象的関係*をその上位概念**で置
き換えた第2次一般化事例のとりうる結果値の重要度
は、 (“to") 0.1+0.008=0.108 (“in") 0 +0.011=0.011 (“on") 0 +0.006=0.006 となり、(“to")が最大値をとるので、一般化され
る。さらに一般化を行おうとすると、第2項にはこれ以
上上位概念が存在しないので、第2項は最大限に一般化
されたことになる。次に、「*場所* **(“t
o")」を第1次一般化事例として、第1項を一般化す
る。*場所*をその上位概念**に置換した第2次一般
化事例の結果値の重要度は、 (“to") 0.004+0.008=0.012 (“in") 0.107+0.011=0.118 (“on") 0.019+0.006=0.025 となり、(“to")は最大値をとらないので、第1項の
一般化も終了する。最終的に得られる第2項最大一般化
事例は、 *場所* **(“to")0.108 となる。
このようにして、1つの一般化事例「*場所* *抽
象的関係*(“to")」の項間一般化の結果、以下の2
つの一般化翻訳知識が求まる。
*具体概念* *抽象的関係*(“to")0.037 *場所* ** (“to")0.108 項数が3の場合には、1つの一般化事例に関し、第1
項最大一般化を行なう場合に、第1項、第2項、第3項
の順に一般化を行なうやり方と、第1項、第3項、第2
項の順に一般化を行なうやり方とが考えられる。本実施
例では、どちらのやり方も実行する。したがって、第1
項最大一般化だけで、のべ2つの一般化翻訳知識が求ま
る。結局、項数が3の場合に、1つの一般化事例に関し
項間一般化、即ち第1項から第3項までの最大一般化を
行なうと、一般化知識は、のべ3*2=6個求まる。一
般に、翻訳パターン記述の源言語の項数がM(M>1)
ならば、項間一般化によって得られる一般化翻訳知識
は、延べM*(M−1)個である。ただし、実施例で
は、重複する一般化翻訳知識は、そのうちの1つだけを
採用し、残りは棄却する。
以上の手順により、第4表のすべての項別一般化事例
(i)(翻訳パターン記述(i)に関する項別一般化事
例の集合)から下記第5表にあげる一般化翻訳知識
(i)(翻訳パターン記述(i)に関する項別一般化翻
訳知識の集合)が求められる。
第5表 ** ** (“in") 0.118 *X* ** (“on") 0.306 *具体概念* *抽象的関係* (“to") 0.037 *場所* ** (“to") 0.108 *方向* ** (“to") 0.108 このように、翻訳パターン事例(第1表)から、項別
一般化知識(第2、3表)、一般化事例(第4表)を派
生させながら、一般化翻訳知識(第5表)を獲得した。
このうち、翻訳処理に用いられるのは一般化翻訳知識だ
けであり、その他は一般化処理が終了すれば棄却してよ
い。
本発明では、たとえどんなに例外的な翻訳パターン事
例であっても一般化を検討する。その結果、例外的な翻
訳パターン事例の一般化がどんなに低いレベルで終って
も(極端な場合、全く一般化に成功しなかったとして
も)、その翻訳パターン事例に由来する知識は、一般化
翻訳知識(i)の中に必ず存在する。したがって、例外
的なケースを扱えるというCBMTの長所は維持される。
(7.3)翻訳規則(i)の追加 最後に、翻訳規則(i)(翻訳パターン記述(i)に
関する翻訳規則の集合)を一般化翻訳知識(i)に加え
る。実施例では、一般化翻訳知識(i)のなかにすでに
翻訳規則と不定項の値及びおよび結果値が全く同一の一
般化翻訳知識があれば、その翻訳規則は追加せず、翻訳
規則と結果値のみ違う一般化翻訳知識が存在すれば、そ
の一般化知識を翻訳規則で置き換えることにする。翻訳
規則の結果値の重要度は、その規則に含まれる語または
概念に対応する部分シソーラス中のノードでの対応する
結果値の重要度の総和である。したがって、先に例とし
てあげた「*場所* に *精神・行為*“in"」の
重要度は、第13図の*場所*ノードと第14図の*精神・
行為*ノードにおける“in"の重要度の和(0+0.017=
0.017)となる。
*場所* *精神・行為*(“in") 0.017 このようにして最終的に得られた一般化翻訳知識
(i)を下記第6表に示す。
第6表 ** ** (“in") 0.118 *X* ** (“on") 0.306 *具体概念* *抽象的関係* (“to") 0.037 *場所* ** (“to") 0.108 *方向* ** (“to") 0.108 *場所* *精神・行為* (“in") 0.017 このように、本発明では、翻訳事例からボトムアップ
式に収集した知識とトップダウン式に与えた規則(知
識)とを同等に取り扱うことができる。しかも、そのよ
うに与えられた規則に対して、実際の事例の頻度を反映
した重要度が付与される。したがって、一般性の乏しい
規則を追加しても、その規則には低い重要度しか与えら
れず、翻訳処理において用いられる頻度の少ないことが
保証される。以下で、一般化翻訳知識というときには、
追加された翻訳規則も含むものとする。
2.翻訳処理 翻訳処理におけるデータの参照関係を示す第15図及び
処理の概要を示す第16図を参照しながら、コンピュータ
を使って行う本発明による翻訳処理を説明する。
まず、翻訳処理装置の概要に触れておく。第15図に示
すように、翻訳処理を行うために、予め記憶装置に記憶
しておかなければならないデータは、翻訳パターン記述
(i)、一般化翻訳知識(i)、翻訳パターン・シソー
ラス(i)、及びシソーラスである。したがって、従来
のCBMTシステムと比較して、膨大かつ冗長な翻訳事例デ
ータベースを記憶装置に保持・参照する必要がなく、そ
のかわりに上記広義の一般化処理によって獲得されたコ
ンパクトな一般化翻訳知識(i)と翻訳パターン・シス
テム(i)を保持・参照すればよいのであるから、翻訳
処理に要する時間及び記憶しておくデータ量が大幅に減
少する。
なお、翻訳パターン記述(i)に対応する一般化翻訳
知識(i)は必ず存在するけれども、翻訳パターン・シ
ステム(i)は必ずしも存在するわけではないことに注
意されたい。なぜなら、どの翻訳パターン記述(i)に
ついても概念リーフノードの細分化が必ず起こるとは限
らないからである。以下、翻訳処理の個々のステップを
説明る。
2.1プランナーによる翻訳パターンの決定 OCRで読み取られたり、文書ファイルから抽出され
た、源言語で表わされた入力(典型的には文)に翻訳す
べき部分があると判断され、入力の依存構造が源言語処
理装置(図示せず)から翻訳処理装置に渡されたなら、
まずプランナーによって、その入力に対してどの翻訳パ
ターン記述が適用されるか、そして適用可能な翻訳パタ
ーンが複数あるなら、どの翻訳パターン記述からどのよ
うな順序で適用されるべきかが決定される。プランナー
を使う理由は、特殊な入力に対して、予め適用可能な翻
訳パターンを限定したり、適用する順序を決めると、翻
訳の効率が向上することが考えられるからである。した
がって、そのような特別の配慮を全く行わないのなら、
プランナーはなくてもよく、その場合には、すべての入
力に対してすべての翻訳パターンが一定の順序にしたが
って適用されることになる。
2.3再短距離一般化翻訳知識の検索 適用する翻訳パターン記述が決まると、入力が指定さ
れた条件を充足する語を含むか否かを判断するため、つ
まり入力依存構造中に翻訳パターン記述(i)中の源言
語パターンに合う部分の有無を調べるために、入力依存
構造が走査される。もし見つからなければ、次の翻訳パ
ターン記述を適用する。
翻訳パターン記述で指定された条件に一致する構造が
入力依存構造中に見つかった場合は、一般化翻訳知識
(i)の中から、その翻訳パターン記述に関する最短距
離一般化翻訳知識を求める。
翻訳パターン記述(i)の項数をMとすると、M=1
の場合は単純で、不定項にあてはまる入力中の語自身ま
たはその上位概念であって、一般化翻訳知識に不定項の
値として含まれているものを、シソーラスおよび翻訳パ
ターンシソーラスを用いてボトムアップ式に探したとき
に、最初に見つかったそのような語または概念(つま
り、最短距離の語または概念)を含む一般化翻訳知識
が、最短距離一般化翻訳知識である。第17図で説明する
と、語1を含む一般化翻訳知識はないけれども、概念X1
を含む一般化翻訳知識が存在するとき、そのX1を含む知
識が最短距離一般化翻訳知識となる。
Mが2以上の場合は、第K項(K=1、...M)につい
て一般化翻訳知識(i)の中から第K項最短距離翻訳知
識を求め、そのようにして求まった一般化翻訳知識の中
で最も重要度の大きなものを最短距離一般化翻訳知識と
して選択する。M=2の場合、第1項最短距離知識は、
第1項に関し最短距離の語または概念を含む一般化翻訳
知識である。そのような一般化翻訳知識が複数ある時
は、その中で第2項目にくる語または概念が最短距離で
あるものが第1項最短距離知識である。同様に、第2項
最短距離知識は、第2項に関し最短距離の語または概念
を含む一般化翻訳知識である。そのような一般化翻訳知
識が複数ある時は、その中で第1項にくる語または概念
が最短距離であるものが第2項最短距離知識である。第
1項最短距離と第2項最短距離が求まると、それらの重
要度を比較し、重要度の大きい方が最短距離一般化翻訳
知識として選ばれる。
第18図において、第1項の最短距離知識がX11,X22を
含む一般化翻訳知識であり、第2項の最短距離知識がX1
2,X21を含む一般化翻訳知識であるとする。この場合、X
11,X22を含む一般化翻訳知識とX12,X21を含む一般化翻
訳知識のうち、重要度の高いものが最短距離一般化翻訳
知識として選択される。
項数Mが3の場合には、第1項最短距離知識を求める
には、第1項、第2項、第3項の順に最短距離の語また
は概念を求めるやり方と、第1項、第3項、第2項の順
に最短距離の語または概念を求めるやり方とが考えられ
る。本実施例では、どちらのやり方も実行する。したが
って、第1項最短距離知識だけで、のべ2つの一般化翻
訳知識が求まる。結局、項数が3の場合に、第1項から
第3項までの最短距離知識を求めると、一般化知識は、
のべ3*2=6個求まる。一般に、翻訳パターン記述の
源言語の項数がM(M>1)ならば、第1項から第M項
までの最短距離知識として、延べM*(M−1)個の一
般化翻訳知識が求まる。その中で、最も重要度の高いも
のが、最短距離一般化翻訳知識として選択される。
2.4 翻訳パターン記述(i)の適用 最短距離一般化翻訳知識が求まったなら、入力に応答
して与えるべき翻訳結果がその一般化翻訳知識の結果値
(value)に決定される。そこで、翻訳パターン記述中
に記述された変換を行い、対象言語の不定項に対し、結
果値の値を与えることによって、対象言語の依存構造に
変換する。
すべての適用可能な翻訳パターン記述の適用が終る
と、必要なら後処理を行い、しかる後、出力依存構造が
対象言語生成処理装置(図示せず)に渡される。対象言
語生成処理装置は、受け取った依存構造から対象言語で
表現された出力(典型的には文)を生成する。生成され
た出力は、ディスプレイに表示されたり、ディスク・フ
ァイルに記憶されたりする。
3.翻訳例 翻訳処理の例として、第6表の一般化翻訳知識を用い
て、「月曜に」「降る」という部分を含む入力文の翻訳
を説明する。“降る”の上位概念は、下から順に、*天
候*、*自然*、**とする。
まず、第1項“月曜”に関する最短距離一般化翻訳知
識を求める。まず“月曜”をX1に持つ一般化翻訳知識が
あるかどうかを探す。見つからないので次に“月曜”の
上位概念を求める。語の上位概念を求めるには、まずそ
の翻訳パターン記述と同じ番号iを持つ翻訳パターン・
シソーラスが存在するかを調べ、存在するならば、それ
はその翻訳パターンに対応して生成されたものであるか
ら、まず、シソーラスより先にその翻訳パターン・シソ
ーラス(第11図)を検索する。それによって、“月曜”
の上位概念として*X*が求まる。*X*を第1項に持
つ一般化翻訳知識を探すと、 *X* ** (“on") 0.306 のみが見つかる。故にこれが第1項最短距離一般化翻訳
知識となる。
第2項“降る”に関する最短距離一般化翻訳知識も
「*X* **(“on")0.306」となり、「に」は“o
n"に翻訳される。
したがって、第6図の不定項Y1の位置に値“on"をと
る出力依存構造データが生成される。
まとめると、第15図の翻訳システムでは、従来のCBMT
と異なり、 (1)入力に適用さるべき事例を探す目的で、事例デー
タベースをアクセスし、膨大な数の事例との間で入力と
の類非を検討する必要がない。入力に適用すべきものは
事例データベースの事例から獲得した一般化翻訳事例で
あるから、探索空間は少ない。かつメモリ資源の節約に
もなる。
(2)さらに、入力に適用すべき最短距離一般化知識を
探索する際に、類似度の計算をする必要がない。最短距
離一般化翻訳知識の選択は、一般化知識に含まれる概念
または語とシソーラス中の概念または語が完全に一致す
るか否かを判断する(Exact Match)だけでよい。しか
も、翻訳パターンによっては、翻訳パターン・シソーラ
スが作られており、探索空間を狭めている。そのうえ、
最短距離一般化知識の候補が複数見つかっても一般化翻
訳知識に与えられた重要度を比較するだけでよいから、
最短距離一般化知識の選択の計算量は、従来行なってい
た類似度計算の場合よりも少なくて済む。
(3)その上、例外的なケースを扱える等の、CBMTがRB
MTに対して持つ利点は損われない。
F.発明の効果 以上説明したように、本発明によれば、翻訳事例から
得た知識を一般化し、翻訳処理ではかかる一般化された
知識を使い、かつ入力に近い知識を探すのに多量の計算
を必要としないから、従来のCBMTの利点を持ち、かつ処
理能率の高い機械翻訳の実行が可能となる。
【図面の簡単な説明】
第1図は、機械翻訳システムの基本構成の説明図であ
る。第2図は、変換処理における入力と出力の例を示す
図である。第3図は、一般化処理におけるデータの流れ
を示す図である。第4図は、シソーラスの例(一部)を
示す図である。第5図は、翻訳事例データベースに蓄積
される翻訳対の例を示す図である。第6図は、項数2の
翻訳パターン記述の例を示す図である。第7図は、一般
化処理を示す流れ図である。第8図は、第1項に関する
部分シソーラスを示す図である。第9図は、第2項に関
する部分シソーラスを示す図である。第10図は、第1項
に関する部分シソーラスについて、結果値の重要度の計
算を概念リーフノードにだけ行った結果を示す図であ
る。第11図は、翻訳パターン・シソーラスの例を示す図
である。第12図は、下位ノードへの重要度の伝搬を説明
するための図であ。第13図は、第1項に関するすべての
結果値の重要度の計算結果を示す図である。第14図は、
第2項に関するすべての結果値の重要度の計算結果を示
す図である。第15図は、翻訳処理におけるデータの参照
関係を示す図である。第16図は、翻訳処理を示す流れ図
である。第17図は、項数1の場合の最短距離知識の求め
方を説明するための図である。第18図は、項数2の場合
の最短距離知識の求め方を説明するための図である。第
19図は、従来のCBMTシステムによる翻訳処理の概要を示
す図である。

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】記憶装置に源言語から対象言語への翻訳事
    例を蓄積する翻訳事例データベースと、記憶装置に蓄積
    されていて源言語の語と概念の階層関係を記述している
    シソーラスとを用い、翻訳事例データベースとシソーラ
    スとにアクセスして源言語から対象言語への翻訳のため
    の翻訳知識を獲得する方法であって、 (a)源言語に不定な項のある翻訳パターン記述をもと
    に、翻訳事例データベースにアクセスして翻訳パターン
    記述を満足する翻訳事例を検索し、翻訳事例から上記項
    のとる語及び翻訳結果を抽出して、翻訳パターン事例を
    獲得するステップと、 (b)獲得された翻訳パターン事例をもとに、シソーラ
    スにアクセスして上記項別にシソーラスから上記項のと
    る語と概念との階層関係を表わす部分シソーラスを生成
    し、さらに、上記項のとる語毎に翻訳結果と該翻訳結果
    をもった翻訳パターン事例の頻度とを得るステップと、 (c)得られた頻度をもとに、部分シソーラス中の概念
    毎に翻訳結果の重要度を計算するステップと、 (d)上記項のとる語を上位の概念に変換するための項
    別一般化知識を、計算された重要度に従って部分シソー
    ラスから抽出するステップと、 (e)抽出された項別一般化知識にもとづいて、上記項
    のとる語を上位の概念に変換して、上記獲得された翻訳
    パターン事例を一般化するステップと、 (f)一般化された翻訳パターン事例を一般化翻訳知識
    とするステップと、 (g)獲得された一般化翻訳知識を記憶装置に蓄積する
    ステップとを、 コンピュータにより実行する翻訳知識獲得方法。
  2. 【請求項2】上記ステップ(f)において、上記項の数
    が1つのときは、一般化された翻訳パターン事例をその
    まま一般化翻訳知識とし、上記項の数が複数のときは、
    項間一般化して一般化翻訳知識とし、一般化翻訳知識を
    獲得する、請求項1記載の方法。
  3. 【請求項3】請求項1又は請求項2記載の翻訳知識獲得
    方法によって獲得されて記憶装置に蓄積されている一般
    化翻訳知識及びシソーラスを参照して、源言語から対象
    言語への翻訳を実行する方法であって、 源言語で表わされた入力の中に所定の条件を充足する語
    が見つかったなら、その語またはその上位概念を含む一
    般化翻訳知識を上記記憶装置に蓄積されている一般化翻
    訳知識からシソーラスを参照して求めるステップと、 求めた一般化翻訳知識の翻訳結果にしたがって上記入力
    の翻訳を実行するステップとを、 コンピュータにより実行する翻訳処理方法。
  4. 【請求項4】源言語から対象言語への翻訳事例を蓄積す
    る翻訳事例データベースを有し、源言語の語と概念の階
    層関係を記述しているシソーラスを有し、これら翻訳事
    例データベースとシソーラスとにアクセスして源言語か
    ら対象言語への翻訳のための翻訳知識を獲得する装置で
    あって、 源言語に不定な項のある翻訳パターン記述をもとに、翻
    訳事例データベースにアクセスして翻訳パターン記述を
    満足する翻訳事例を検索し、翻訳事例から上記項のとる
    語及び翻訳結果を抽出して、翻訳パターン事例を獲得す
    る手段と、 獲得された翻訳パターン事例をもとに、シソーラスにア
    クセスして上記項別にシソーラスから上記項のとる語と
    概念との階層関係を表わす部分シソーラスを生成し、さ
    らに、上記項のとる語毎に翻訳結果と該翻訳結果をもっ
    た翻訳パターン事例の頻度とを得る手段と、 得られた頻度をもとに、部分シソーラス中の概念毎に翻
    訳結果の重要度を計算する手段と、 上記項のとる語を上位の概念に変換するための項別一般
    化知識を、計算された重要度に従って部分シソーラスか
    ら抽出する手段と、 抽出された項別一般化知識にもとづいて、上記項のとる
    語を上位の概念に変換して、上記獲得された翻訳パター
    ン事例を一般化する手段と、 一般化された翻訳パターン事例を一般化翻訳知識とする
    手段と、 獲得された一般化翻訳知識を記憶装置に蓄積する手段と
    を、有する 翻訳知識獲得装置。
  5. 【請求項5】上記獲得された翻訳パターン事例を一般化
    する手段が、上記項の数が1つのときは、一般化された
    翻訳パターン事例をそのまま一般化翻訳知識とし、上記
    項の数が複数のときは、項間一般化して一般化翻訳知識
    とし、一般化翻訳知識を獲得する、請求項4記載の翻訳
    知識獲得装置。
  6. 【請求項6】請求項4又は請求項5記載の翻訳知識獲得
    装置によって獲得されて記憶装置に蓄積されている一般
    化翻訳知識及びシソーラスを参照して、源言語から対象
    言語への翻訳を実行する翻訳処理装置であって、 源言語で表わされた入力の中に所定の条件を充足する語
    が見つかったなら、その語またはその上位概念を含む一
    般化翻訳知識を上記記憶装置に蓄積されている一般化翻
    訳知識からシソーラスを参照して求める手段と、 求めた一般化翻訳知識の翻訳結果にしたがって上記入力
    の翻訳を実行する手段とを、有する 翻訳処理装置。
JP33098890A 1990-11-30 1990-11-30 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置 Expired - Fee Related JP3289894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33098890A JP3289894B2 (ja) 1990-11-30 1990-11-30 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33098890A JP3289894B2 (ja) 1990-11-30 1990-11-30 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH04205058A JPH04205058A (ja) 1992-07-27
JP3289894B2 true JP3289894B2 (ja) 2002-06-10

Family

ID=18238583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33098890A Expired - Fee Related JP3289894B2 (ja) 1990-11-30 1990-11-30 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置

Country Status (1)

Country Link
JP (1) JP3289894B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5116580B2 (ja) * 2008-06-25 2013-01-09 日本電信電話株式会社 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Also Published As

Publication number Publication date
JPH04205058A (ja) 1992-07-27

Similar Documents

Publication Publication Date Title
CN109255031B (zh) 基于知识图谱的数据处理方法
US5267156A (en) Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
RU2591175C1 (ru) Способ и система для глобальной идентификации в коллекции документов
US11281864B2 (en) Dependency graph based natural language processing
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US10747958B2 (en) Dependency graph based natural language processing
Parvez et al. Analysis of different web data extraction techniques
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
Fu et al. Catsql: Towards real world natural language to sql applications
KR101229401B1 (ko) 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
Kalo et al. Knowlybert-hybrid query answering over language models and knowledge graphs
JP2021060800A (ja) データ抽出方法、及びデータ抽出装置
Antopol’skii et al. The development of a semantic network of keywords based on definitive relationships
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
Revanth et al. Nl2sql: Natural language to sql query translator
JP3289894B2 (ja) 翻訳知識獲得方法及び装置並びに翻訳処理方法及び装置
El Abdouli et al. Mining tweets of Moroccan users using the framework Hadoop, NLP, K-means and basemap
Kan et al. Grid structure attention for natural language interface to bash commands
CN114661616A (zh) 目标代码的生成方法及装置
CN113779200A (zh) 目标行业词库的生成方法、处理器及装置
Helin et al. High-Speed Retrieval Method for Unstructured Big Data Platform Based on K-Ary Search Tree Algorithm
CN113987145B (zh) 一种精准推理用户属性实体的方法、系统、设备和存储介质

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees