JPH06332935A - 単語の数値列表現辞書、その作成方法およびそれを使用した装置 - Google Patents
単語の数値列表現辞書、その作成方法およびそれを使用した装置Info
- Publication number
- JPH06332935A JPH06332935A JP5115923A JP11592393A JPH06332935A JP H06332935 A JPH06332935 A JP H06332935A JP 5115923 A JP5115923 A JP 5115923A JP 11592393 A JP11592393 A JP 11592393A JP H06332935 A JPH06332935 A JP H06332935A
- Authority
- JP
- Japan
- Prior art keywords
- word
- meaning
- words
- dictionary
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 ニューラル計算を自然語処理の諸問題、特に
構文・意味的な曖昧性の解消に幅広く使えるようにする
ため、自然語の単語の意味を適切に反映した数値列表現
を機械的な手段で得ること。 【構成】 辞書1から、どの語の定義にどの語が使われ
ているかを示す語義文参照ネットワーク2を作成し、そ
の上に基準となる単語群を定め、ある単語からそれら基
準単語までの各距離を測り、その数値の列を作ることに
よってその単語の数値列表現3を得る。
構文・意味的な曖昧性の解消に幅広く使えるようにする
ため、自然語の単語の意味を適切に反映した数値列表現
を機械的な手段で得ること。 【構成】 辞書1から、どの語の定義にどの語が使われ
ているかを示す語義文参照ネットワーク2を作成し、そ
の上に基準となる単語群を定め、ある単語からそれら基
準単語までの各距離を測り、その数値の列を作ることに
よってその単語の数値列表現3を得る。
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然語の機械処理に用い
るための辞書およびその作成方法とそれを使用した装置
に関する。
るための辞書およびその作成方法とそれを使用した装置
に関する。
【0002】
【従来の技術】単語の意味を数値列で表現する方法とし
ては意味素性分解といわれる手法がよく用いられる。こ
れは、いくつかの意味素性を座標軸に取り、人間の内省
やアンケート調査に基づいて、各単語の座標を求めるも
のである。このようにして得られた数値列表現を用い
て、自然語の曖昧性解消などに効果のあることが報告さ
れている(たとえば、McClelland, J. L. and Kawamoto,
A. H. (1986).“Mechanisms of Sentence Processing:
Assigning Roles to Constituents ofSentences" in
J. L. McClelland, D.E.Rumelhart et al. (eds.) “Pa
rallel Distributed Processing" Vol.2, pp.272-325,
The MIT Press, Cambridge, MA.あるいはWaltz, D. L.
and Pollack, J. B. (1985). “Massively ParallelPar
sing: A strongly Interactive Model of Natural Lang
uage Interpretation" in Cognitive Science 9, pp.51
-74.)。
ては意味素性分解といわれる手法がよく用いられる。こ
れは、いくつかの意味素性を座標軸に取り、人間の内省
やアンケート調査に基づいて、各単語の座標を求めるも
のである。このようにして得られた数値列表現を用い
て、自然語の曖昧性解消などに効果のあることが報告さ
れている(たとえば、McClelland, J. L. and Kawamoto,
A. H. (1986).“Mechanisms of Sentence Processing:
Assigning Roles to Constituents ofSentences" in
J. L. McClelland, D.E.Rumelhart et al. (eds.) “Pa
rallel Distributed Processing" Vol.2, pp.272-325,
The MIT Press, Cambridge, MA.あるいはWaltz, D. L.
and Pollack, J. B. (1985). “Massively ParallelPar
sing: A strongly Interactive Model of Natural Lang
uage Interpretation" in Cognitive Science 9, pp.51
-74.)。
【0003】しかしこのような方法は自動化ができず、
実用的な規模の数値列辞書を作ることができないという
欠点がある。
実用的な規模の数値列辞書を作ることができないという
欠点がある。
【0004】自動化の可能な数値列表現を得る試みとし
ては、単語間の共起確率を用いる方法がある(たとえ
ば、Wilks, Y., Fass, D., Guo, C., MacDonald, J., P
late,T and Slator,B. (1990).“Providing Machine Tr
actable Dictionary Tools"in Machine Translation 5,
pp.99-154.)。ここで共起確率とは、2つの単語が接近
して使用される相対確率(2つの単語の個別の使用頻度
に対する相対確率)であり、本方法と同様、ある単語か
ら、一定の単語群までの各共起確率を並べて数値列表現
を得るものである。しかし自然語の大部分の単語は使用
頻度が低い単語であり、それらの共起確率を得るために
は巨大な言語データが必要となるという欠点がある。
ては、単語間の共起確率を用いる方法がある(たとえ
ば、Wilks, Y., Fass, D., Guo, C., MacDonald, J., P
late,T and Slator,B. (1990).“Providing Machine Tr
actable Dictionary Tools"in Machine Translation 5,
pp.99-154.)。ここで共起確率とは、2つの単語が接近
して使用される相対確率(2つの単語の個別の使用頻度
に対する相対確率)であり、本方法と同様、ある単語か
ら、一定の単語群までの各共起確率を並べて数値列表現
を得るものである。しかし自然語の大部分の単語は使用
頻度が低い単語であり、それらの共起確率を得るために
は巨大な言語データが必要となるという欠点がある。
【0005】
【発明が解決しようとする課題】本発明は、単語の意味
の数値列表現辞書を適度な量の言語データから機械的に
作成する方法及びこの方法によって作製された辞書を提
供しようとするものである。
の数値列表現辞書を適度な量の言語データから機械的に
作成する方法及びこの方法によって作製された辞書を提
供しようとするものである。
【0006】
【課題を解決するための手段】通常の辞書から、語義文
の参照ネットワーク、すなわちある単語の語義の説明に
これこれの単語が用いられるという関係を示すグラフ構
造を作り、さらにその参照ネットワーク上で基準となる
単語群を定め、ある単語からそれら基準単語までの各距
離を測り、その数値の列を作ることによって意味の数値
列表現を得る。
の参照ネットワーク、すなわちある単語の語義の説明に
これこれの単語が用いられるという関係を示すグラフ構
造を作り、さらにその参照ネットワーク上で基準となる
単語群を定め、ある単語からそれら基準単語までの各距
離を測り、その数値の列を作ることによって意味の数値
列表現を得る。
【0007】またこのような数値列表現には単語に関す
る種々の意味素性が数値列パターンとして表現されるの
で、ニューラルネットによるパターン認識などを利用し
てその読み取りを行う。
る種々の意味素性が数値列パターンとして表現されるの
で、ニューラルネットによるパターン認識などを利用し
てその読み取りを行う。
【0008】
【作用】本発明による単語の数値列表現辞書の作成方法
により、通常の辞書から、機械的な方法により、単語の
意味を適切に反映した数値列表現の辞書を作成すること
ができる。
により、通常の辞書から、機械的な方法により、単語の
意味を適切に反映した数値列表現の辞書を作成すること
ができる。
【0009】
【実施例】自然語で与えれる見出し単語と自然語で与え
られる単語の語義の説明とを持つ通常の辞書から単語の
数値列表現辞書を得る過程を示したのが図1である。1
は辞書の一部を示す図で、自然語で与えられる見出し単
語と自然語で与えられる単語の語義の説明(語義文)と
よりなる。2はこれらの見出し単語の語義文がなす語義
文参照ネットワ−クの一部を示す図、3は前記ネットワ
ークから得られる各単語の数値列表現を集めた数値列表
現辞書である。すなわち、語義文参照ネットワーク2は
辞書にエントリーされた見出し単語および語義文で使用
された単語をノードとするネットワークであり、単語X
から単語Yへのリンクは単語Yが単語Xの語義の説明
(定義)に使用されていることを意味する。
られる単語の語義の説明とを持つ通常の辞書から単語の
数値列表現辞書を得る過程を示したのが図1である。1
は辞書の一部を示す図で、自然語で与えられる見出し単
語と自然語で与えられる単語の語義の説明(語義文)と
よりなる。2はこれらの見出し単語の語義文がなす語義
文参照ネットワ−クの一部を示す図、3は前記ネットワ
ークから得られる各単語の数値列表現を集めた数値列表
現辞書である。すなわち、語義文参照ネットワーク2は
辞書にエントリーされた見出し単語および語義文で使用
された単語をノードとするネットワークであり、単語X
から単語Yへのリンクは単語Yが単語Xの語義の説明
(定義)に使用されていることを意味する。
【0010】単語の数値列表現はこの語義文参照ネット
ワーク上に基準となるいくつかの単語(図1の語義文参
照ネットワ−ク2でO1、O2などの印を付けた単語、図
の例の場合3個)を定め、数値化しようとする単語から
これらの基準単語までのネットワーク上の距離を測定
し、それらを並べることによって得られる。
ワーク上に基準となるいくつかの単語(図1の語義文参
照ネットワ−ク2でO1、O2などの印を付けた単語、図
の例の場合3個)を定め、数値化しようとする単語から
これらの基準単語までのネットワーク上の距離を測定
し、それらを並べることによって得られる。
【0011】図1の数値列表現辞書3はこの方法により
3つの単語(dictionary、language、grammar)の数値列
表現を作り、まとめたものである。ネットワーク上の距
離測定にはいろいろな方法(後述)があるが、ここでは
簡単のためネットワーク上での距離は各リンクが長さ1
を持つとして、最短距離を用いて測定した。例えばdict
ionaryから第1の基準単語(rule(O1))までの距離は
3、以下O2(book)、O3(human)までがそれぞれ1、3
で、dictionaryの数値列表現(3,1,3)が得られ
る。
3つの単語(dictionary、language、grammar)の数値列
表現を作り、まとめたものである。ネットワーク上の距
離測定にはいろいろな方法(後述)があるが、ここでは
簡単のためネットワーク上での距離は各リンクが長さ1
を持つとして、最短距離を用いて測定した。例えばdict
ionaryから第1の基準単語(rule(O1))までの距離は
3、以下O2(book)、O3(human)までがそれぞれ1、3
で、dictionaryの数値列表現(3,1,3)が得られ
る。
【0012】実際の規模の辞書を扱う場合には基準単語
の数は1000個程度使用するのが適当である。基準単
語の設定は基本的には自由であるが、中位の頻度の単語
から選ぶのが良く、例えば辞書の語義文で使用される頻
度順に単語を並べ、頻度51位から1050位までを基
準単語として用いるのが一例である。
の数は1000個程度使用するのが適当である。基準単
語の設定は基本的には自由であるが、中位の頻度の単語
から選ぶのが良く、例えば辞書の語義文で使用される頻
度順に単語を並べ、頻度51位から1050位までを基
準単語として用いるのが一例である。
【0013】単語間距離の測定については色々な定義が
ありうる。上記の例のように各リンクの長さを1として
最短パスの長さとするのもその一つである。しかしそれ
では単語の使用頻度が反映されないので、余り良い定義
ではない。すなわち使用頻度の高い単語を仲介とするパ
スは意味的な連関が希薄(例えば、不定冠詞“a”はあ
らゆる名詞と一緒に使用される可能性が有るからパスの
数は非常に多くなる)だから、距離としては長く測られ
るべきである。そこで単語間のリンクの長さとしては、
両端の単語の頻度を考慮した方が良い。
ありうる。上記の例のように各リンクの長さを1として
最短パスの長さとするのもその一つである。しかしそれ
では単語の使用頻度が反映されないので、余り良い定義
ではない。すなわち使用頻度の高い単語を仲介とするパ
スは意味的な連関が希薄(例えば、不定冠詞“a”はあ
らゆる名詞と一緒に使用される可能性が有るからパスの
数は非常に多くなる)だから、距離としては長く測られ
るべきである。そこで単語間のリンクの長さとしては、
両端の単語の頻度を考慮した方が良い。
【0014】図2は単語の使用頻度を考慮したリンクの
長さの定義の一例を説明する図である。図2において2
1は2単語間のリンクを一般化して示した図、22はそ
のリンクの長さの定義式である。定義式22において、
W1とW2は両端の単語、N1とN2はそれぞれ単語W1、
W2を端点とするリンクの数、nは単語W1とW2を直接
結ぶリンクの数を表す(単語W1の定義文に単語W2がp
回現れ、単語W2の定義文に単語W1がq回現れるとすれ
ばn=p+qである)。定義式22は両端の単語の頻度
の逆数を掛けてlog(底は1より大きい数字なら何で
も良いが、以下では2とする。)を取り、それに負号を
付けたものである。単語の頻度が高くなると、logの
中が小さくなり、logを取ると負の大きな数になる、
従って、リンクの長さが長く計算されることになり、単
語の使用頻度を反映した長さの定義となっている。なお
logの中の分子にnの2乗があるので、両単語を結ぶ
リンクの数が多ければリンクの長さが短く測られる。
長さの定義の一例を説明する図である。図2において2
1は2単語間のリンクを一般化して示した図、22はそ
のリンクの長さの定義式である。定義式22において、
W1とW2は両端の単語、N1とN2はそれぞれ単語W1、
W2を端点とするリンクの数、nは単語W1とW2を直接
結ぶリンクの数を表す(単語W1の定義文に単語W2がp
回現れ、単語W2の定義文に単語W1がq回現れるとすれ
ばn=p+qである)。定義式22は両端の単語の頻度
の逆数を掛けてlog(底は1より大きい数字なら何で
も良いが、以下では2とする。)を取り、それに負号を
付けたものである。単語の頻度が高くなると、logの
中が小さくなり、logを取ると負の大きな数になる、
従って、リンクの長さが長く計算されることになり、単
語の使用頻度を反映した長さの定義となっている。なお
logの中の分子にnの2乗があるので、両単語を結ぶ
リンクの数が多ければリンクの長さが短く測られる。
【0015】この定義を用いると図1の例で各単語の数
値表現は次のようになる。
値表現は次のようになる。
【0016】例えば、dictionary-word間のリンクの長
さは-log(1/(3・3))=3.17(底は2)、同様にword-grammar
間は-log(1/(3・3))=3.17、grammar-rule間は-log(1/(3・
1))=1.58となり、dictionary-rule間のパスの長さは3.1
7+3.17+1.58=7.92となる。この距離計算方法によれば数
値列表現辞書3は次の表1のようになる。
さは-log(1/(3・3))=3.17(底は2)、同様にword-grammar
間は-log(1/(3・3))=3.17、grammar-rule間は-log(1/(3・
1))=1.58となり、dictionary-rule間のパスの長さは3.1
7+3.17+1.58=7.92となる。この距離計算方法によれば数
値列表現辞書3は次の表1のようになる。
【0017】
【表1】
【0018】図3は機械翻訳装置の一例を示すブロック
図である。この実施例は単語の数値列表現辞書3と多義
性を解消するためのニューラルネットワーク群4を用い
て自然語の多義性を解消する機構を備えた点に特徴を有
する。本実施例において、インターフェースのための文
字列入力手段7、翻訳のための辞書1、英文解析ルーチ
ン61、日本文生成ルーチン62、翻訳ワークエリア6
3及び対訳辞書64よりなる翻訳基本ツール6、計算機
処理装置(CPU)9、原文表示エリア81及び翻訳結
果表示エリア82よりなる表示手段8よりなる部分は通
常の機械翻訳装置として一般に知られているものと本質
的に同じである。これらの具体的な動作は後で説明す
る。本実施例は、この他に、語義文参照ネットワーク
2、単語の数値列表現辞書3、多義性を解消するための
ニューラルネット群4およびニューラルネット群をトレ
ーニングするために使用するニューラルネットトレーニ
ング例文データ5を備える。
図である。この実施例は単語の数値列表現辞書3と多義
性を解消するためのニューラルネットワーク群4を用い
て自然語の多義性を解消する機構を備えた点に特徴を有
する。本実施例において、インターフェースのための文
字列入力手段7、翻訳のための辞書1、英文解析ルーチ
ン61、日本文生成ルーチン62、翻訳ワークエリア6
3及び対訳辞書64よりなる翻訳基本ツール6、計算機
処理装置(CPU)9、原文表示エリア81及び翻訳結
果表示エリア82よりなる表示手段8よりなる部分は通
常の機械翻訳装置として一般に知られているものと本質
的に同じである。これらの具体的な動作は後で説明す
る。本実施例は、この他に、語義文参照ネットワーク
2、単語の数値列表現辞書3、多義性を解消するための
ニューラルネット群4およびニューラルネット群をトレ
ーニングするために使用するニューラルネットトレーニ
ング例文データ5を備える。
【0019】本発明の実施例の機械翻訳装置では、文字
列入力手段を介して導入された英文が、英文解析ルーチ
ン61によって解析され、日本文生成ルーチン62によ
って日本文に変換される過程において、多義性を解消す
るためのニューラルネット群4によってより明解な日本
文に変換される。
列入力手段を介して導入された英文が、英文解析ルーチ
ン61によって解析され、日本文生成ルーチン62によ
って日本文に変換される過程において、多義性を解消す
るためのニューラルネット群4によってより明解な日本
文に変換される。
【0020】多義性を解消するためのニューラルネット
群4をトレーニングするために使用するニューラルネッ
トトレーニング例文データ5によってトレーニングする
方法の一例を図4に、またそうしてトレーニングされた
ニューラルネット群4と数値列表現辞書3を用いて多義
性を解消する方法の例を図5に示した。
群4をトレーニングするために使用するニューラルネッ
トトレーニング例文データ5によってトレーニングする
方法の一例を図4に、またそうしてトレーニングされた
ニューラルネット群4と数値列表現辞書3を用いて多義
性を解消する方法の例を図5に示した。
【0021】初めに図4により、トレーニングの一例と
して、ニューラルネット群4の内、前置詞onの多義性
を解消するためのニューラルネット41を数値列表現辞
書3とトレーニング用例文データ51とによりトレーニ
ングする方法を示す。なお、ここでは、数値列表現辞書
3は基準単語の数として1000個を使用した例であ
る。従って、数値列は全て1000個の数値が並んだも
のとなる。もしある基準単語までの距離を表す数値が計
算不能の場合、すなわち参照ネットワーク上でその基準
単語までの連結したパスが存在しない場合には、その部
分には他の距離を表す数値よりも適当に大きい数字をい
れておくということで良い。またトレーニング用例文デ
ータの例文は辞書に表れている単語の用法例を利用する
のが一つの簡便な方法である。
して、ニューラルネット群4の内、前置詞onの多義性
を解消するためのニューラルネット41を数値列表現辞
書3とトレーニング用例文データ51とによりトレーニ
ングする方法を示す。なお、ここでは、数値列表現辞書
3は基準単語の数として1000個を使用した例であ
る。従って、数値列は全て1000個の数値が並んだも
のとなる。もしある基準単語までの距離を表す数値が計
算不能の場合、すなわち参照ネットワーク上でその基準
単語までの連結したパスが存在しない場合には、その部
分には他の距離を表す数値よりも適当に大きい数字をい
れておくということで良い。またトレーニング用例文デ
ータの例文は辞書に表れている単語の用法例を利用する
のが一つの簡便な方法である。
【0022】ニューラルネット41の各出力ノード1
a、1b、2a、2bはonの異なる意味(ただし「動
詞V 名詞句X on 名詞句Y」という文型におけ
る)に対応しする。出力ノード(1a)は「Yの上の
X」という位置関係、(1b)は“a book on histor
y”の場合のように「Yに関するX」という意味、(2
a)は“put a book on a shelf”のように「動作(put)
が対象(shelf)を目掛けて行われる」ことを表し、(2
b)は“read a book on a chair”のように「動作(rea
d)が対象(chair)の上で行われる」、という意味に対応
する。1aと1bの意味では前置詞句on−名詞句Yは
直前の名詞句Xを修飾(これをNP←PPと表記する)
し、2aと2bではその前の動詞Vを修飾(これをVP
←PPと表記する)する(構文的には動詞Vと名詞句X
で構成される動詞句VPを修飾する)。各出力ノードに
はこれらの構文情報と訳語情報が格納されている。例え
ばノード1aに対応する構文情報411はon−前置詞
句が直前の名詞句を修飾すること、また訳語情報412
はこの場合のonの訳語が「の上の」であることを示し
ている。
a、1b、2a、2bはonの異なる意味(ただし「動
詞V 名詞句X on 名詞句Y」という文型におけ
る)に対応しする。出力ノード(1a)は「Yの上の
X」という位置関係、(1b)は“a book on histor
y”の場合のように「Yに関するX」という意味、(2
a)は“put a book on a shelf”のように「動作(put)
が対象(shelf)を目掛けて行われる」ことを表し、(2
b)は“read a book on a chair”のように「動作(rea
d)が対象(chair)の上で行われる」、という意味に対応
する。1aと1bの意味では前置詞句on−名詞句Yは
直前の名詞句Xを修飾(これをNP←PPと表記する)
し、2aと2bではその前の動詞Vを修飾(これをVP
←PPと表記する)する(構文的には動詞Vと名詞句X
で構成される動詞句VPを修飾する)。各出力ノードに
はこれらの構文情報と訳語情報が格納されている。例え
ばノード1aに対応する構文情報411はon−前置詞
句が直前の名詞句を修飾すること、また訳語情報412
はこの場合のonの訳語が「の上の」であることを示し
ている。
【0023】トレーニング用データ51は上記のV(動
詞)、X(onの前の名詞句)、Y(onの後の名詞
句)に各種の動詞や名詞が来たときにどの出力ノードが
もっともらしいかを示すデータである。初めの例は“pu
t a book on a shelf”でこの場合に一番自然な解釈は
「棚の上に本を置く」だから出力ノードの(2a)に活
性度1が与えられ、他の活性度はそれに比べてかなり小
さくなっている。このデータを用いてニューラルネット
41をトレーニングするには、動詞putの数値列表現を
数値列表現辞書3から引き出し、その値p1、p2、p3、--
-、p1000をニューラルネットの入力層のv1、v2、v3、--
-、v1kに入力する。また動詞の次に来る名詞bookの数値
列表現b1、b2、b3、---、b1000を入力層のx1、x2、x3、
---、x1kに入力し、onの目的語の名詞shelfの数値列表
現s1、s2、s3、---、s1000をy1、y2、y3、---、y1kに入
力する。
詞)、X(onの前の名詞句)、Y(onの後の名詞
句)に各種の動詞や名詞が来たときにどの出力ノードが
もっともらしいかを示すデータである。初めの例は“pu
t a book on a shelf”でこの場合に一番自然な解釈は
「棚の上に本を置く」だから出力ノードの(2a)に活
性度1が与えられ、他の活性度はそれに比べてかなり小
さくなっている。このデータを用いてニューラルネット
41をトレーニングするには、動詞putの数値列表現を
数値列表現辞書3から引き出し、その値p1、p2、p3、--
-、p1000をニューラルネットの入力層のv1、v2、v3、--
-、v1kに入力する。また動詞の次に来る名詞bookの数値
列表現b1、b2、b3、---、b1000を入力層のx1、x2、x3、
---、x1kに入力し、onの目的語の名詞shelfの数値列表
現s1、s2、s3、---、s1000をy1、y2、y3、---、y1kに入
力する。
【0024】ネットワ−クの各リンクの結合強度のチュ
ーニングは通常のバックプロパゲーションを利用し、出
力がトレーニングデータ(1a=0.1,1b=0.1,2a=1.0,2b=0.
1)になるようにする。以下のトレーニングデータに対し
ても同様の操作を行う。このようにして一般の「動詞−
名詞句−on−名詞句」という並びの入力に対して、ニ
ューラルネット41の出力ノードのうちonの意味とし
て一番尤もらしいノードが一番強く活性化するようにな
る。
ーニングは通常のバックプロパゲーションを利用し、出
力がトレーニングデータ(1a=0.1,1b=0.1,2a=1.0,2b=0.
1)になるようにする。以下のトレーニングデータに対し
ても同様の操作を行う。このようにして一般の「動詞−
名詞句−on−名詞句」という並びの入力に対して、ニ
ューラルネット41の出力ノードのうちonの意味とし
て一番尤もらしいノードが一番強く活性化するようにな
る。
【0025】次にこのようにしてトレーニングされたニ
ューラルネット群4を用いて多義性を解消する方法を図
5により示す。文字列入力手段7から入力された原文
(英文)は翻訳ワークエリア63の原文エリア632に
格納される。同時に原文表示エリア81に表示される。
図5は原文として“I take a book on the chair”が入
力された場合である。初めに英文解析ルーチン61が起
動され、品詞の付与や名詞句の核(代名詞や、冠詞+普
通名詞など)の句構造が句構造構築エリア633に生成
される。また対訳辞書64から各単語の日本語訳語が訳
語エリア631に格納される。ただしonの訳語欄は空
欄のままである。この段階で一旦解析が中断され、on
の多義性解消作業に入る。
ューラルネット群4を用いて多義性を解消する方法を図
5により示す。文字列入力手段7から入力された原文
(英文)は翻訳ワークエリア63の原文エリア632に
格納される。同時に原文表示エリア81に表示される。
図5は原文として“I take a book on the chair”が入
力された場合である。初めに英文解析ルーチン61が起
動され、品詞の付与や名詞句の核(代名詞や、冠詞+普
通名詞など)の句構造が句構造構築エリア633に生成
される。また対訳辞書64から各単語の日本語訳語が訳
語エリア631に格納される。ただしonの訳語欄は空
欄のままである。この段階で一旦解析が中断され、on
の多義性解消作業に入る。
【0026】動詞take、onの前の名詞句の中心名詞book
およびonの後の名詞句の中心名詞chairの数値列表現が
数値列表現辞書3から引かれ、それぞれニューラルネッ
ト41の入力層のv−欄、x−欄、y−欄に入力され
る。その結果として一番尤もらしいonの意味に対応す
る(1a)のノードが尤も強く活性化するので、それに
従って、onの訳語「の上の」(図4の412)が訳語
エリアのonに対応する位置6311に加えられ、構文
情報411に従って、(prep(6333)とNP
(6334)から作られる前置詞句6335が直前の名
詞句6332を修飾して大きな名詞句6336が構成さ
れる。以下動詞句VP(6337)と文S(6338)
が構成され英文解析を終える。
およびonの後の名詞句の中心名詞chairの数値列表現が
数値列表現辞書3から引かれ、それぞれニューラルネッ
ト41の入力層のv−欄、x−欄、y−欄に入力され
る。その結果として一番尤もらしいonの意味に対応す
る(1a)のノードが尤も強く活性化するので、それに
従って、onの訳語「の上の」(図4の412)が訳語
エリアのonに対応する位置6311に加えられ、構文
情報411に従って、(prep(6333)とNP
(6334)から作られる前置詞句6335が直前の名
詞句6332を修飾して大きな名詞句6336が構成さ
れる。以下動詞句VP(6337)と文S(6338)
が構成され英文解析を終える。
【0027】次に日本文生成ルーチン62が起動され、
句構造構築エリア633の内容と訳語エリア631の内
容から翻訳日本語文「私はその椅子の上の本を取る」が
生成され、表示手段8の翻訳結果表示エリア82に出力
され表示される。
句構造構築エリア633の内容と訳語エリア631の内
容から翻訳日本語文「私はその椅子の上の本を取る」が
生成され、表示手段8の翻訳結果表示エリア82に出力
され表示される。
【0028】同じ例文で2番目に尤もらしい(2番目に
強く活性化する)のは出力ノード(2b)に対応する意
味である。この場合には訳語としては「の上で」が選択
され、on−前置詞句が動詞句を修飾するという文法情
報(図4のノード2b参照)から、初めにverb63
31とNP6332から動詞句VPが構成され、それと
PP6335から大きなVPが構成され、文頭のNPと
そのVPから文Sが構成されるという文構造が得られ
る。この場合には翻訳結果は「私はその椅子の上で本を
取る」となる。
強く活性化する)のは出力ノード(2b)に対応する意
味である。この場合には訳語としては「の上で」が選択
され、on−前置詞句が動詞句を修飾するという文法情
報(図4のノード2b参照)から、初めにverb63
31とNP6332から動詞句VPが構成され、それと
PP6335から大きなVPが構成され、文頭のNPと
そのVPから文Sが構成されるという文構造が得られ
る。この場合には翻訳結果は「私はその椅子の上で本を
取る」となる。
【0029】以上の実施例ではニューラルネットを用い
て単語の数値列表現辞書を利用する方法を示したが、単
語の数値列表現を用いて多義性を解消する他の方法を示
す。
て単語の数値列表現辞書を利用する方法を示したが、単
語の数値列表現を用いて多義性を解消する他の方法を示
す。
【0030】一例として英語の形容詞を日本語に訳す場
合の訳語選択について示す。
合の訳語選択について示す。
【0031】一般に形容詞はそれが修飾する名詞の性格
に応じて訳し分けが必要である。例えばoldという形容
詞はmanやdog、catなど生き物を修飾する場合には「年
老いた」であり、それ以外の場合、例えばhouseやschoo
l、tableなどを修飾する場合には「古い」という訳が適
切である。単語の数値列表現を用いると、これら少数例
を与えただけで一般の名詞に対してoldの適訳を推定す
ることができる。
に応じて訳し分けが必要である。例えばoldという形容
詞はmanやdog、catなど生き物を修飾する場合には「年
老いた」であり、それ以外の場合、例えばhouseやschoo
l、tableなどを修飾する場合には「古い」という訳が適
切である。単語の数値列表現を用いると、これら少数例
を与えただけで一般の名詞に対してoldの適訳を推定す
ることができる。
【0032】先ずこれら2つの名詞群の特徴を表わす数
値列表現を、各名詞の数値列表現の平均を取ることによ
って得る。今単語wの数値列表現をV(w)と書くことに
すると、第1のグループの特徴を表わす数値列V1は V1=(V(man)+V(dog)+V(cat))/3 である。同様に第2のグループの特徴を表わす数値列V
2は V2=(V(house)+V(school)+V(table))/3 である。一般に「old <名詞>」という表現に対してol
dがどちらの訳語を取るかはその<名詞>の数値列表現
とこれら2つの特徴数値列V1、V2のどちらが近いか
によって判定する。近さの判定は例えば数値列の内積を
取り、その値の大小で判定することができる。例えば
「old car」という場合、carの数値列表現V(car)はV
2との内積:V(car)・V2の方がV1との内積:V(ca
r)・V1より大きくなることが予想され、従ってこの場
合のoldの適訳として「古い」が選択される。
値列表現を、各名詞の数値列表現の平均を取ることによ
って得る。今単語wの数値列表現をV(w)と書くことに
すると、第1のグループの特徴を表わす数値列V1は V1=(V(man)+V(dog)+V(cat))/3 である。同様に第2のグループの特徴を表わす数値列V
2は V2=(V(house)+V(school)+V(table))/3 である。一般に「old <名詞>」という表現に対してol
dがどちらの訳語を取るかはその<名詞>の数値列表現
とこれら2つの特徴数値列V1、V2のどちらが近いか
によって判定する。近さの判定は例えば数値列の内積を
取り、その値の大小で判定することができる。例えば
「old car」という場合、carの数値列表現V(car)はV
2との内積:V(car)・V2の方がV1との内積:V(ca
r)・V1より大きくなることが予想され、従ってこの場
合のoldの適訳として「古い」が選択される。
【0033】
【発明の効果】本方法により自然語の単語の意味を適切
に反映した数値列表現を適度な量の言語データから機械
的に得ることが出来るようになり、ニューラル計算を自
然語解析の諸問題、特に構文・意味的な多義性の解消に
幅広く使うことができるようになる。
に反映した数値列表現を適度な量の言語データから機械
的に得ることが出来るようになり、ニューラル計算を自
然語解析の諸問題、特に構文・意味的な多義性の解消に
幅広く使うことができるようになる。
【図1】通常の辞書から単語の数値列表現辞書を得る過
程を示す図。
程を示す図。
【図2】単語の使用頻度を考慮したリンクの長さの定義
の一例を説明する図。
の一例を説明する図。
【図3】単語の数値列表現辞書を用いて多義性を解消す
る機構を備えた機械翻訳装置を示す図。
る機構を備えた機械翻訳装置を示す図。
【図4】単語の数値列表現辞書を用いてのニューラルネ
ットのトレーニングの例を示す図。
ットのトレーニングの例を示す図。
【図5】単語の数値列表現辞書とニューラルネットを用
いての多義性の解消の例を示す図。
いての多義性の解消の例を示す図。
1:辞書、2:語義文参照ネットワーク、21:単語間
リンクの一般図、22:単語間リンクの長さの定義、
3:単語の数値列表現辞書、4:多義性を解消するため
のニューラルネット群、41:前置詞 on の多義性を解
消するためのニューラルネット、5:ニューラルネット
・トレーニング用例文データ、51:ニューラルネット
41のトレーニング用例文データ、6:翻訳基本ツー
ル、61:英文解析ルーチン、62:日本文生成ルーチ
ン、63:翻訳ワークエリア、631:訳語エリア、6
32:原文エリア、633:句構造構築エリア、64:
対訳辞書、7:文字列入力手段、8:表示手段、81:
原文表示エリア、82:翻訳結果表示エリア、9:CP
U。
リンクの一般図、22:単語間リンクの長さの定義、
3:単語の数値列表現辞書、4:多義性を解消するため
のニューラルネット群、41:前置詞 on の多義性を解
消するためのニューラルネット、5:ニューラルネット
・トレーニング用例文データ、51:ニューラルネット
41のトレーニング用例文データ、6:翻訳基本ツー
ル、61:英文解析ルーチン、62:日本文生成ルーチ
ン、63:翻訳ワークエリア、631:訳語エリア、6
32:原文エリア、633:句構造構築エリア、64:
対訳辞書、7:文字列入力手段、8:表示手段、81:
原文表示エリア、82:翻訳結果表示エリア、9:CP
U。
Claims (7)
- 【請求項1】単語の意味を、単語の語義の説明で構成さ
れる単語間の参照ネットワークにおける特定の単語群か
らの距離に対応する数値列で表現した辞書。 - 【請求項2】自然語で与えれる見出し単語と自然語で与
えられる単語の語義の説明とを持つ通常の辞書から、あ
る単語の語義の説明にこれこれの単語が用いられるとい
う関係を示すグラフ構造である参照ネットワークを作
り、さらにその参照ネットワーク上で基準となる単語群
を定め、ある単語からそれら基準単語までのネットワー
ク上での各距離を測り、それらの数値の列を作ることに
よって単語の意味の数値列表現を得ることを特徴とする
数値列表現辞書作成方法。 - 【請求項3】前記距離が、単語の使用頻度を基礎に計算
されるものであることを特徴とする請求項2記載の数値
列表現辞書作成方法。 - 【請求項4】多義な単語の複数の意味に対応する出力ノ
ード群と、文中においてその多義性を解消するのに必要
な前後の単語の数値列表現を入力するための入力層を持
ち、それら前後の単語の数値列表現が入力されると文中
におけるその単語の意味の尤度に応じた強さで各出力ノ
ードが活性化することを特徴とするニューラルネット。 - 【請求項5】インターフェースのための文字列入力手段
と、翻訳のための辞書と、英文解析ルーチン、日本文生
成ルーチン、翻訳ワークエリア及び対訳辞書よりなる翻
訳基本ツールと、計算機処理装置(CPU)と、原文表
示エリア及び翻訳結果表示エリアよりなる表示手段と、
語義文参照ネットワークと、単語の数値列表現辞書と、
多義性を解消するための手段とを備え、文字列入力手段
を介して入力された翻訳対象文が翻訳基本ツールで翻訳
される際、多義性を解消するための手段により入力文の
多義性を解消することを特徴とする機械翻訳装置。 - 【請求項6】入力文の多義性を解消するための手段が多
義な単語の複数の意味に対応する出力ノード群と、文中
においてその多義性を解消するのに必要な前後の単語の
数値列表現を入力するための入力層を持ち、それら前後
の単語の数値列表現が入力されると文中におけるその単
語の意味の尤度に応じた強さで各出力ノードが活性化す
るニューラルネットワーク群であり、ニューラルネット
群をトレーニングするために使用するニューラルネット
トレーニング例文データが備えられることを特徴とする
請求項5記載の機械翻訳装置。 - 【請求項7】入力文の多義性を解消するための手段が、
多義な単語が各々の意味でその単語が使われるときに組
み合わせて使用されやすい少数の代表的な単語グループ
の数値列表現の平均と入力文においてその単語と組み合
わせて使用される単語の数値列表現との内積を比較する
ことによって、単語の意味を決定するものであることを
特徴とする請求項5記載の機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5115923A JPH06332935A (ja) | 1993-05-18 | 1993-05-18 | 単語の数値列表現辞書、その作成方法およびそれを使用した装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5115923A JPH06332935A (ja) | 1993-05-18 | 1993-05-18 | 単語の数値列表現辞書、その作成方法およびそれを使用した装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06332935A true JPH06332935A (ja) | 1994-12-02 |
Family
ID=14674551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5115923A Pending JPH06332935A (ja) | 1993-05-18 | 1993-05-18 | 単語の数値列表現辞書、その作成方法およびそれを使用した装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06332935A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
US8977538B2 (en) | 2010-09-13 | 2015-03-10 | Richard Salisbury | Constructing and analyzing a word graph |
-
1993
- 1993-05-18 JP JP5115923A patent/JPH06332935A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
US8977538B2 (en) | 2010-09-13 | 2015-03-10 | Richard Salisbury | Constructing and analyzing a word graph |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6278967B1 (en) | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis | |
US5528491A (en) | Apparatus and method for automated natural language translation | |
US5895446A (en) | Pattern-based translation method and system | |
Wilks | An intelligent analyzer and understander of English | |
Hawkins | Why are categories adjacent? | |
US6760695B1 (en) | Automated natural language processing | |
US5960384A (en) | Method and device for parsing natural language sentences and other sequential symbolic expressions | |
EP0805403A2 (en) | Translating apparatus and translating method | |
KR100530154B1 (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JPS62163173A (ja) | 機械翻訳方法 | |
KR20040111715A (ko) | 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법 | |
JPH0383167A (ja) | 自然言語処理方法 | |
JPH06251057A (ja) | 機械翻訳方法及び機械翻訳装置 | |
Harper et al. | Extensions to constraint dependency parsing for spoken language processing | |
JP2004513458A (ja) | ユーザが変更可能な翻訳のウエイト | |
Lev et al. | Solving logic puzzles: From robust processing to precise semantics | |
JPH08292955A (ja) | 言語処理方法及びそれを適用するデータ処理装置 | |
JP2609173B2 (ja) | 用例主導型機械翻訳方法 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
JP2003016061A (ja) | 自動自然言語翻訳 | |
Nguyen et al. | Ensuring annotation consistency and accuracy for Vietnamese treebank | |
JPH06332935A (ja) | 単語の数値列表現辞書、その作成方法およびそれを使用した装置 | |
Habash et al. | Hybrid natural language generation from lexical conceptual structures | |
Langkilde-Geary | A foundation for general-purpose natural language generation: sentence realization using probabilistic models of language | |
KR100333681B1 (ko) | 용언 중심 문틀을 이용한 자동 번역 장치 및 그 방법 |