JPH0345423B2 - - Google Patents

Info

Publication number
JPH0345423B2
JPH0345423B2 JP63176906A JP17690688A JPH0345423B2 JP H0345423 B2 JPH0345423 B2 JP H0345423B2 JP 63176906 A JP63176906 A JP 63176906A JP 17690688 A JP17690688 A JP 17690688A JP H0345423 B2 JPH0345423 B2 JP H0345423B2
Authority
JP
Japan
Prior art keywords
speech
sentence
syntactic
word
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63176906A
Other languages
English (en)
Other versions
JPS6438874A (en
Inventor
Yoshihiko Nitsuta
Atsushi Okajima
Fumyuki Yamano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63176906A priority Critical patent/JPS6438874A/ja
Publication of JPS6438874A publication Critical patent/JPS6438874A/ja
Publication of JPH0345423B2 publication Critical patent/JPH0345423B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
本発明は、例えば英語で表わされた文章を日本
語の文章に自動的に翻訳する方法等への適用に有
用な自然言語処理に係り、特に自然言語で記述さ
れたテキスト文の構文解析方法に関する。 本発明の方法は、自然言語間の翻訳のみなら
ず、自然言語入力に伴う各種の自然言語処理に適
用することができる。以下の説明では便宜上、入
力言語が英語、出力言語が日本語の自動翻訳の場
合について述べるが、本発明はこれに限定される
ものではない。 従来技術とその問題点 一つの自然言語で表わされた文章を他の自然言
語で表わされた文章に自動的に翻訳する方法とし
て、従来、電気通信学会雑誌第46巻、第11号の第
1730頁〜第1739頁に記載されている方法が知られ
ている。 この従来方法を簡単に説明する。まず英文テキ
ストが入力されると、辞書検索を行い、単語の並
びからなる文章を品詞列に変換する。しかしなが
ら多くの場合、品詞が一義的に定まらないことが
ある。例えば“study”という単語は動詞をとる
場合と名詞をとる場合がある。このような場合に
まず一義的に品詞が確定できる単語を選び、確定
した品詞の単語を基準にして、その後前の関係よ
り他の単語の品詞を決定する。最後まで品詞が定
まらない単語についてはとり得る品詞の候補を登
録しておき、とりあえず一つの品詞を仮に決定す
る。次に句及び節に相当する品詞列パターンを予
め登録しておき、このパターンと一致する品詞列
を探す。一致するものがあればその句又は節は1
個の品詞記号により置き換えられる。 例えば第1A図に示すように…a pulse of
known rate of riseという文があつた場合、a
pulse、known rateがそれぞれ名詞句(NP)
として判定される。さらに、or+riseが形容詞句
(AP)、known rate+of+riseが名詞句、of+
known rate+of+riseが形容詞句というように
置き換えられる。こうして一つの文が簡単な品詞
列にパターン変換される。この変換された品詞列
のパターンが予め登録された文を表わす標準の品
詞列パターンと比較される。両パターンが一致す
る場合には翻訳可能と判断され、予め定められた
規則に従つて単語の語順変換が行われる。 変換された品詞列パターンが登録された標準パ
ターンと一致しない場合には、単語の品詞を決め
方が不適切と判断し、不確定の単語の品詞を登録
された別の品詞に置き換え、上記と同じ処理が繰
り返して行われる。すなわち、単語が多品詞をも
つ場合に、一つの品詞を決定するために一種のフ
イードバツク・ループが用いられる。 最後に語順変換された単語列に訳語が付与され
英文を翻訳した和文が出力される。 しかしながら、上記のような従来の自動翻訳方
法には下記のような種々の問題点がある。 第1の問題点は多品詞語の決定が極めて複雑に
なり、翻訳の成功率が低くなりがちということで
ある。前述のように従来方法では一つの単語が多
品詞をもつ場合には、一つの品詞を仮にあてはめ
て、パターン辞書による構文解析を行い、うまく
いかなかつた場合には、又もとに戻つて別の品詞
をあてはめてみるという処理を繰り返す。しかし
ながら、多数の品詞をもつ単語は現実に数多くあ
り、しかも文章が複雑になると、一つの文につい
ての可能な品詞列の種類は莫大な数に達する。こ
れらの品詞列について何回も同じ処理をくり返す
ことは、翻訳速度の低下を招くことはもちろんの
こと、間違つた品詞を暫定的に定めた場合でも、
単語の品詞列がたまたま辞書に登録されたパター
ンと一致し、間違つた翻訳処理が行われてしまう
こともある。 従つて文章が複雑になる程、これを正しく翻訳
できる率、つまり成効率が低下する。 第2の問題点は、仮に単語の品詞が正しく決定
されたとしても、句、節を切り出して1つの品詞
に置き換える処理を行う際、文頭又は文末から順
番に句を切出しており、句、節の係り先、修飾の
対象となる単語の関係、つまり依存・修飾関係を
分析せずに行つているために間違つた翻訳をしや
すいということである。例えば第1B図に示すよ
うな…take a bus in a cityという文があつ
た場合、第1A図と同様に構文分析を行うと、
“a bus in a city”が1つの名詞句と認識さ
れ、この結果、訳語は“街の中のバスに乗る”と
なつてしまう。これは“in a city”がtakeに
かかる副詞句であるにもかかわらず、文末から順
番に句を切出していくと形容詞句として認識され
“a bus”を修飾すると判定されたために生じ
た誤訳である。このように文頭又は文末から順に
句を切出していく方法をとると句品詞が一義的に
定まらない場合がある。また文章が階層的構造を
もつ場合が生ずる。文章が階層的構造をもつ場
合、つまり、修飾をする相手先が複雑に入り組ん
だ文章の場合にはこれを正確に翻訳することがで
きなくなる。 第3の問題点は、従来方法では翻訳すべき文型
の増補を行うためには処理装置のプログラム全体
を手直しする必要があり、従つて一旦システムが
できあがつてしまうと文型の増補が極めて困難に
なることである。すなわち、従来方法において
は、多品詞をもつ単語の品詞を決定するために、
フイードバツクループを用いており、このループ
の中にパターン辞書による構文分析の処理が含ま
れている。従つてパターン辞書の登録パターンを
追加したり修正する場合には、フイードバツクル
ープ全体の動作に矛循を生じないように処理アル
ゴリズムを手直ししなければならない。通常、自
動翻訳における成効率は上記の構文分析用の登録
パターンをいかに構築するかに依存するところで
大であり、従つて試行錯誤的にこの登録パターン
の増加、変更を要するが、その都度処理アルゴリ
ズム全体の手直しをするのは実際上大きな負担に
なる。 発明の目的 本発明の目的は上述のような従来技術の問題点
を解決する新規な、自然言語処理における構文解
析方法を提供することにある。 具体的に言うと、自然言語で記述されたテキス
ト文が重文、複文のような複雑な構造を持つ場合
や複雑な修飾関係を持つ場合にも、正確且つ容易
に構文解析できる方法を提供することが、本発明
の主たる目的である。 発明の概要 上述の目的を達成するために、本発明方法では
第2図に示す処理過程を経て自然言語間の翻訳が
行われる。 まず英文テキストを読み込み、入力データバツ
フアメモリにセツトする(テキスト入力処理)。
次に辞書を検索してテキスト中の変化形をもつ単
語、例えば時制変化、複数形変化、比較級変化な
どをしている単語を原形に変換する処理を行う
(辞書検索)。更にテキスト中のすべての単語及び
連語(イデオム等)に列を、それらに対応する品
詞列に変換する(品詞認識)。次に品詞列の形に
変換された文を、複数個の名詞の連なり、助動詞
+動詞、冠詞+名詞、前置詞+名詞、形容詞+名
詞等の言語的意味をもつ最小単位、つまり句要素
に分割する(句構造認識)。そして上記の各句要
素に対して、改めて名詞句、形容詞句、副詞句、
動詞句、前置詞句などの句品詞を与える。この
後、後述の辞書再検索が行われる。次に句品詞列
を、主語、中心動詞、直接目的語、補語、動詞修
飾語等の構文的役割子列に変換する。更に構文的
役割子列の中から文パターン、節パターン、及び
意味的に閉じた主語、述語関係を有する構文単位
(準節パターン)を見出す(英文型パターン認
識)。 更に、前置詞句、副詞句等の句要素の係り先、
つまりどの名詞句あるいは動詞句を修飾している
かの依存関係を決定する(依存・修飾関係認識)。 次に上記のようにして認識された英文型パター
ンを、そのパターン毎に予め定められた変換規則
を参照して、日本語の骨格パターンに変換する
(文型変換)。最後に予め用意された単語、連語の
辞書を検索することにより出力言語である日本語
の文を生成する(和文生成)。 本発明方法の特徴の第1は、単語及び連語の列
を品詞列に変換する品詞列認識の処理が、句構造
認識などの構文分析の前段階において完了し、従
来方法のようなフイードバツクループをもたない
ことである。換言すれば品詞列認識の処理ステツ
プではすべての単語・連語の品詞をこの段階で確
定してしまい、句構造認識等の処理結果をみて、
再び品詞認識に処理が戻るようなフイードバツク
ループを有しない。従つて各処理ステツプにおけ
る処理結果が他の処理ステツプに影響を与えない
ため句構造等の認識のための登録パターンの増補
が極めて容易になる。 特徴の第2は、多品詞をもつ単語の品詞を決定
するのに、後述のような品詞認識用パターンを予
め定め、これを参照しながら決定するように構成
されている点である。この品詞認識用パターンを
用いることによつて、各単語の品詞の確定が迅速
正確に行われ、結果的に翻訳の成功率が向上する
ことになる。 本発明方法の第3の特徴は、品詞列パターンか
ら句、節を切り出して構文分析を行う際、従来の
英文法の句、節とは異なる句要素の概念を導入し
たことである。更に句要素の単位で切出し、新た
に句品詞列を形成した後、これを構文的役割子列
に変換することも特徴の1つである。このように
句要素、構文的役割子の考え方を導入することに
よつて、複雑な文章も正確に翻訳することが可能
となる。 第4の特徴は、句、節などがどの語を修飾する
のかを認識する修飾・依存関係認識の処理ステツ
プを含んでいることである。この処理を行うこと
によつて第1B図のように修飾の相手先が入り組
んでいる文章も正確に翻訳することが可能にな
る。 本発明の上記特徴及びこの他の特徴は、以下説
明する実施例を参照することによつて、いつそう
明確になろう。 実施例 第3図は本発明方法の全体構成を示す。同図か
ら明らかなように本発明方法は、入力装置10
0、翻訳処理装置200、辞書用メモリ300、
作業用メモリ400及び出力装置500より構成
される。 入力装置100は英文テキストを入力するため
のもので、通常、キーボードが用いられる。もち
ろん、この他の方法により英文テキストを入力す
ることも可能である。例えば磁気テープ、磁気デ
イスク等に予め英文テキストを記録しておき、公
知の磁気記憶制御回路を通して処理装置200に
入力してもよい。また、フアクシミリ等の通信機
器を通して送られてくる英文テキストを、公知の
通信回線制御回路を通して処理装置200に入力
することもできる。 辞書用メモリ300は単語、連語(2以上の単
語よりなるイデオム等の語)等の辞書や、翻訳処
理のために用いられる規則を定義したテーブルを
予め格納しておくためのものである。具体的にい
うと、このメモリ300には、単語辞書301、
連語辞書302、品詞認識用パターン303、句
要素切出用パターン304、文型認識用パターン
305、依存・修飾関係認識用パターン306、
文型変換用パターン307、和文生成用パターン
308が格納されている。 単語辞書301のメモリエリアの内部構造を第
4A図及び第4B図に示す。1番地からN番地の
それぞれのブロツクには単語情報レコードが記憶
されている。単語情報レコードは単語の見出し語
と、その単語の属性を示す単語情報とを含む。単
語情報としては、その単語をもとにしてつくられ
る連語(イデオム等も含む)の個数、連語の先頭
番地、その単語がとり得る品詞の個数、品詞名、
品詞の細分類、各品詞における単語の属性、その
単語が多義の意味をもつ場合にはその個数、それ
ぞれの訳語、各訳語の語尾活用、各訳語の付属機
能語等が含まれる。 第4B図には“STUDY”という英語に相当す
る単語情報が例示されている。この単語をもとに
してつくられる連語としてはMAKE A
STUDY OF、UNDER STUDY、CASE
STUDY、など(6)個登録されている。それらの連
語のうち先頭に登録されている連語の番地が
(76)である(第5B図参照)。またSTUDYは動
詞(V)と名詞(N)の両方をとり得るので多品
詞個数(2)、品詞名1として(V)、品詞名2とし
て(N)が登録される。なお品詞の細分類の欄に
は、例えば動詞の場合、自動詞と他動詞の区別、
また自動詞でもその後に補語をとる自動詞(例え
ばget、look、make等)とその他に前置詞をと
る自動詞(例えばsend、advertise等)との区別
等、品詞に関する更に細かい情報が書き込まれ
る。 更にSTUDYが動詞として用いられる場合、そ
の意味が“勉強する”と解釈される場合と、“研
究する”と解釈される場合とがあるので、多義語
個数の欄には(2)、訳語1の欄には“勉強する”、
訳語2の欄には“研究する”と登録される。また
訳語1及び2共に“勉強”及び“研究”の後の
“する”が、状況に応じてサ行変格活用して用い
られるので、語尾活用1及び2の欄にその旨登録
される。更に付属機能語(て、に、を、は)とし
ては、“STUDY”が目的語(OBJ)をとる場合
には(目的語OBJ)の後に“を”が入るので、
その情報が訳語1及び2に対応する付属機能語1
及び2の欄に登録される。 第4B図では図示していないが第2品詞名
(N)についても上述と同様の情報が登録される。 連語辞書302(第3図)のメモリエリアの内
部構造を第5A図及び第5B図及び第5C図に示
す。 連語情報レコードは、連語の見出し語と、その
連語の属性等を示す連語情報を含む。連語情報に
は、その連語のとり得る品詞の個数、その品詞
名、品詞細分類、その品詞における連語の属性、
連語が多義に解釈される場合その個数、各訳語、
各訳語における語尾活用、付属機能語等が含まれ
る。 第5B図には“MAKE A STUDY OF”と
いう固定連語に関する連語情報が例示されてい
る。 この連語は“研究をする”という動詞句を形成
するので、品詞の個数は(1)、品詞名は(V)と登
録される。 更に、この連語の多義性の個数の欄には(1)、訳
語1の欄には“研究をする”が登録される。語尾
活用1の欄には訳語1の“研究をする”の“す
る”がサ行変格活用して用いられる旨の情報が登
録される。付属機能語1の欄には、上記連語が目
的語(OBJ)をとる場合に“(OBJ)の研究をす
る”の訳語となり、“の”の付属機能語が必要に
なる旨の情報が登録される。 第5C図は可変連語辞書の内部構成を示すもの
で、その詳細については後述する。 第6A図は辞書メモリ300の中の品詞認識用
パターンエリア303に格納されるパターンの一
例を示す。この品詞認識用パターンは単語又は連
語の並びからなる文を、それぞれの単語又は連語
の品詞の並びへと変形する場合に用いられる。単
語又は連語が複数の品詞を文法的にとり得る場
合、品詞の並びの前後関係から、最もふさわしい
一つの品詞を最終的に選び出す。この場合、予
め、文法的にとり得ない品詞列のパターン、つま
り禁制品詞列パターンを登録しておき、このパタ
ーンを用いて多数の品詞から一つの品詞を選択す
る。第6A図には7個の禁制品詞列パターン及び
禁制解除条件が示されているに過ぎないが、実際
にはこのパターンが数十個以上用意される。また
入力される文の特性を考慮してパターンの変更、
増加、簡略化などを行つてもよい。 第6A図において禁制品詞列パターンの*は、
品詞を判定すべき単語の位置を表わす。又、F1
F2は*のそれぞれ1つ前、2つ前の単語の品詞
を表わし、B1,B2は*のそれぞれ1つ後、2つ
後の単語の品詞を表わす。 項番1の*位置の「−V」の記号は、「動詞
(V)以外の品詞」という意味である。従つて項
番1の品詞列パターンは、「toの後に動詞(V)
の可能性のある単語が並んだ場合、動詞(V)と
して判定し、他の品詞の可能性はなしとしてよ
い」という意味である。 禁制解除条件は禁制品詞列パターンの禁制が解
除されること、換言すれば品詞列パターンの品詞
の並びが許容されることを示す。例えば、項番2
は“形容詞(ADJ)+動詞(V)”という品詞の
並びは通常は禁止されるが、F2として冠詞
(ART)や、be動詞(BE)がきた場合にはその
ような品詞の並びも許容されることを示してい
る。換言すれば“冠詞(ART)ではなく、かつ
be動詞(BE)でないもの+形容詞(ADJ)+*”
という品詞の並びがあるとき、*の位置が動詞
(V)の可能性はないと判断して良いという意味
である。 項番3は、“F1(動詞(V))+*”という品詞
の並びが出てきた場合、F1が−ingのついた動詞
(ING)のとき、*がbe動詞(BE)のとき、或
いはF1がhelpという単語であるときを除いて、*
の位置は動詞をとり得ないと判断して良いことを
表現している。 項番4は“代名詞複数(PRNM)+*”という
品詞の並びが出てきたとき*の位置は(動詞+
s)の形はとり得ないと判断して良いことを示
す。同様に項番5は“名詞複数(NM)+*”とい
う品詞の並びが出てきたとき、*の位置は(動詞
+s)の形はとり得ないと判断して良いことを意
味する。更に項番6は、“場所の固有名詞(N1
+*”という品詞の並びがあつたとき、*の位置
は動詞現在(VP)の形はとり得ないと判断して
良いことを示している。 この他のパターンについては説明を省略するが
要するに上記のような禁制品詞列パターンがテー
ブルとして前記メモリエリア303(第3図)に
格納されているのである。 第7図は辞書メモリ300の中の句要素切出用
パターンエリア304に格納されるパターン例を
示す。この句要素切出用パターンは、単語及び連
語に付与された品詞の並びからなる品詞列から句
要素を切出し、この句要素に新たに品詞を付与す
ることにより句要素品詞列を生成する際に用いら
れる。ここで句要素とは第7図に示す品詞の並び
をもつ単語の並びを称し、通常の英文法で定義さ
れる句の概念とは異なる。なお第7図は句要素の
一部を示したに過ぎず、実際には多数用意され
る。 第7図において“−−−”なる記号は、それを
はさむ品詞が1個以上有限個出現したとき、その
全体を切り出すことを意味する。項番1は“副詞
(ADV)1個”または“副詞(ADV)+…+副詞
(ADV)”という品詞列があつた場合、この列全
体を句要素として切り出し、新たに句要素品詞と
して副詞が付与されることを示している。項番2
は、“前置詞(PREP)+名詞(N)”あるいは
“前置詞(PREP)+名詞(N)+…+名詞(N)”
という品詞列には前置詞的(PRENAL)の句要
素品詞が付与されることを示す。項番3は“助動
詞(AUX)+動詞(V)”または、“助動詞
(AUX)+…+助動詞(AUX)+動詞(V)”とい
う品詞列があつた場合、この列全体を句要素とし
て切り出し、新たに句要素品詞として動詞(V)
が付与されることを示す。項番4、5、6につい
ても同様である。 辞書メモリ300の文型認識用パターンメモリ
エリア305には、4つのテーブルが格納されて
いる。すなわち動詞パターンテーブル、接続詞パ
ターンテーブル、節パターンテーブル、文パター
ンテーブルである。 第8A図は動詞パターンテーブルの一例を示
し、動詞のタイプ番号を手がかりとして動詞をも
つノードの前後のノードの構文的役割子を決定す
るために用いられる。ここでノードとは、後述す
るように、品詞列や各句要素列の各要素を表す概
念的な単位であり、品詞やカテゴリー、構文的役
割子等の各種情報を含む。動詞のタイプ番号は単
語辞書および連語辞書を検索することにより得ら
れる。動詞のタイプ番号と動詞の例、動詞が前後
の名詞相当句を支配するパターンを表1(A)に示
す。
【表】
【表】 第8B図は接続詞パターンテーブルの一例を示
し、接続詞を有するノードの前後のノードの構文
的役割子列パターンから接続詞のノードの構文的
役割子を決定するために用いられる。 第8C図は節パターンテーブルの一例を示し、
接続詞、句読点等で区切られるノード列の構文的
役割子パターンから節パターンを決定するために
用いられる。 第8D図は文パターンテーブルの一例を示し、
節パターンの並びから文パターン(骨格パター
ン)を決定するために用いられる。 それぞれのパターンテーブルの詳細については
後述する。特に第8C図中、第8D図中に出現す
る記号については、後で第20B図等を用いて述
べる。辞書メモリ300には、この他に形容詞、
副詞の単語、句等がどこにかかるかを決定するた
めの依存・修飾関係認識用パターン306、文型
の変換用に用いられるパターン307、和文生成
の際に用いられるパターン308をそれぞれ格納
するエリアを有する。各パターンについては後で
詳述する。 以上述べたように、辞書メモリ300には、単
語、連語辞書の他、各種の規則パターンが予め格
納されるが、このメモリ300への情報の書き込
み及び読出しは、書込み読出し制御回路201に
よつて行われる。 一方、作業用メモリ400は、第2図に示した
各処理の過程で必要になるテーブルを格納するた
めのもので、読出した単語、連語情報を一時的に
格納するバツフアテーブルエリア401、入力テ
キストストリームテーブルを格納するエリア40
2、ワードストリームテーブルを格納するエリア
403、ノードストリームテーブルを格納するエ
リア404、句要素列を格納するエリア405、
英文型ノード列を格納するエリア406、和文型
ノード列を格納するエリア407、出力テキスト
を格納するエリア408を含んでいる。尚各テー
ブルの詳細については後述する。 上記作業用メモリ400の情報の書込み読出し
は、翻訳処理装置200からの指令に基づき、書
込み読出し制御回路202を介して行われる。 翻訳処理装置200は、後で詳しく述べるよう
に第2図に示した処理を行うためのプログラムを
格納しており、辞書メモリ300の情報を適宜用
い、メモリ400をワーキングエリアとして用い
て、入力の英文テキストを和文に翻訳して出力す
る。 出力装置500としては和文出力をプリント又
は表示するためのプリンタ又はデイスプレイ装置
等が用いられる。 なお、前述の辞書メモリ300として例えばデ
イスクメモリ、作業用メモリ400としてコアメ
モリが用いられる。もちろん本発明方式ではこれ
らのメモリの種類は特定のものに限定されない。
又これらのメモリを処理装置と別に設けてもよい
し、処理装置の中に設けても差支えない。 以下本発明方式による処理手順について詳細に
説明する。 (1) テキスト入力処理 テキスト入力処理というのは、入力装置10
0(第3図)より入力した英文テキストを、作
業用メモリ内の入力テキストストリームエリア
402に順次セツトする処理をいう。英文テキ
ストの一例を第9図に示す。キーボード等の入
力装置100により英文を入力すると、アルフ
アベツトに対応するコード信号に変換された
後、上記入力テキストストリームエリア402
に格納される。 (2) 辞書検索 テキスト入力処理が完了すると、次に、いわ
ゆる辞書引きの作業が行われる。辞書引きとは
入力テキストストリームエリア402に格納さ
れた、入力テキストの単語の出現の順に、単語
辞書301を検索し、該当する単語の単語情報
を作業用メモリ400の単語、連語用バツフア
メモリエリア401に順次格納する処理をい
う。例えば第9図のテキストの場合、第10図
に示すようにまずHEを見出し語とする単語情
報がメモリエリア401のWB(1)番地に格納さ
れる。次にWROTEは不規則変化動詞である
ので予め単語辞書301に登録されており、そ
の単語情報には“WRITE”へのポインタ
(WRITEへの先頭番地)と不規則変化情報
(wroteはwriteの過去形)が格納されている。
従つてWROTEの単語を辞書引きすると
WRITEを見出し語とする単語情報が読出さ
れ、この単語情報に不規則変化情報を付加した
後メモリエリア401のWB(2)番地に格納され
る。以後、順にENGLISH、VERY…の辞書引
きが行われる。 このように単語辞書の内容と同じ情報を一
旦、単語・連語用バツフアメモリエリア401
にとり込むのは、作業用メモリ400として通
常、高速アクセス可能なメモリ、例えばコアメ
モリが用いられるので、後の品詞認識、依存修
飾関係認識、和文生成などの処理過程における
辞書検索が高速に行えるためである。従つて、
上記の単語・連語バツフアメモリ401を使用
せずに各処理過程において直接単語辞書30
1、連語辞書302を検索することもできる。 上述のいわゆる辞書引きの段階で、単語の語
尾変化処理及び連語の検出処理が行われる。以
下それらの処理の内容を詳しく説明する。 語尾変化処理とは、語尾が活用変化している
単語、例えば時制変化、複数形変化、比較級変
化などをしている単語を、その原形に変換し、
単語辞書301、連語辞書302を検索した
後、検索した内容に語尾変化情報を付加した上
で単語・連語バツフアメモリエリア401にセ
ツトする処理をいう。この処理を行うことによ
り後の品詞認識処理における単語辞書あるいは
連語辞書の検索を、単語の原形の見出し語を参
照して行うことが可能になる。従つて辞書に
は、このように語尾変化した単語情報を予め登
録しておく必要がなくなり、辞書メモリ容量の
低減に効果がある。 説明の便宜上、以下“STUDIES”という複
数名詞変化形あるいは三人称単数動詞変化形の
単語を例にとつて、原形への変換手順を述べ
る。他の変化形単語の原形変換処理も同様の考
え方で処理できる。 処理対象となる単語は単語を構成する一文字
ずつにl1,l2、l3…なる符号が与えられる。た
とえば“STUDIES”に対しては、第11D図
のような末尾のSにl1が、次にEにはl2が、さ
らに次のIにはl3というように付与される。 まずステツプ1002において辞書検索が行わ
れ、辞書にあれば処理は終了し(1003)、なけ
ればステツプ1004に進む。ステツプ1004、
1005、1006、1007、1008はそれぞれ語尾変化が
生じているかどうかを判定するための処理であ
る。この例の場合はステツプ1008で判定結果が
YESとなり、ステツプ1010に進む。ここで
STUDIESの末尾のSが解除され、STUDIEと
なり、符号の付け換えが行われる。ステツプ
1016で再び辞書検索が行われる。単純な複数形
の場合はこの段階で辞書に登録されていること
が多い(例えばlikes)。本例の場合は更にステ
ツプ1017に進み末尾がEかどうか判定され、こ
の結果YESとなるので、更にステツプ1018に
進む。更にステツプ1022に至りl2l1の文字、つ
まりIEが削除されSTUDになる。更にステツ
プ1023においてYが付加されSTUDYという原
形に変換された後、ステツプ1024で再び辞書引
きが行われる。ここでも、もし辞書になければ
未登録語と判断される(1025)。 以上述べたような処理を経て、STUDYの単
語が辞書にあると、その単語情報が読み出さ
れ、単語情報に語尾変化情報(複数名詞変化形
並びに三人称単数動詞変化形)を付加したもの
が前述の単語・連語バツフアメモリエリア40
1に書き込まれる。 以上のように、辞書検索の段階で、単語の語
尾が時制、複数形などにより変化している場合
に、原形に戻した後に辞書引きを行つているの
で、辞書には単語の原形のみを用意すればよ
く、辞書に用意する単語の数を著しく低減する
ことができる。 次に単語の並びからなる英文テキストの中の
連語を検出する処理について第12図を参照し
て説明する。連語とは、2以上の単語の結合に
より意味のある語を形成するもので、イデオム
もこれに含まれる。 ここでは一例として“MAKE A STUDY
OF”なる連語が検出され、単語・連語バツフ
アメモリエリア401に格納される手順につい
て説明する。まずステツプ1040で単語の切出し
が行われ、ステツプ1041で前述の語尾変化処理
が行われる。次にステツプ1042で単語辞書検索
がなされる。“MAKE”及び“A”については
前述と同様に単語辞書301の該当見出し語を
検索して、その単語情報を単語・連語バツフア
メモリエリア401に順次格納していく。ステ
ツプ1043では、単語が辞書に登録されていない
未知単語かどうか判定する。登録されていない
場合にはステツプ1047で固有名詞として判断す
る。次に“A”の次の“STUDY”を見出し語
として単語辞書301を検索すると、第4B図
に示すように、“STUDY”を含む連語が6個
存在することが判る(ステツプ1044)。そこで
直ちに対応連語部の先頭番地(76)から連語の
見出し語の検索が開始される(ステツプ1048)。
第5B図に示すように、“STUDY”を含む連
語としては、“MAKE A STUDY OF”
“UNDER STUDY”等が存在することが検知
される。このうち入力テキスト中のものと一致
するのは“MAKE A STUDY OF”である
ことが判る(ステツプ1049)。なお、合致する
連語が存在しないと判断された場合には、
“STUDY”を単なる単語とみて、前述と同様
に“STUDY”の単語情報をバツフアメモリエ
リア401に格納することになる(ステツプ
1045)。また入力テキストが2以上の連語と一
致することが検知された場合には、最も長い連
語と一致したものを採用する。例えば
“MAKE A STUDY”と“MAKE A
STUDY OF”の両者と一致した場合には後者
が採用される。 さて、現在の例では入力テキストと
“MAKE A STUDY OF”が一致した訳で
あるが、この場合にはまず単語、連語バツフア
エリア401内にすでに格納されている
“MAKE”及び“A”の単語情報に対して無効
マークの付与あるいは単語情報の消去が行われ
る(ステツプ1050)。この後“MAKE A
STUDY OF”に対応する連語情報が単語・連
語バツフアエリア401に格納される(ステツ
プ1045)。 上記のような処理により、最終的には入力英
文テキスト中に出現する単語及び連語は、すべ
てその出現順にバツフアエリア401に格納さ
れることになる。 なお、上記の例では簡単化のため、未知単語
はすべて固有名詞として認識する場合を述べた
が、より正確な品詞を決定することもできる。
この未知単語の正確な品詞の判定は、前述した
「禁制テーブル検索による品詞認識処理」を再
度実行することにより、全く同様に実行でき
る。 また、上記したように、連語辞書は単語辞書
とは別に用意され、単語辞書における各単語の
情報として、その単語を元にして形成される連
語の有無と、連語辞書へのポインタの情報が含
まれているので、単語を切出しながら同様に連
語も切出すことができる。 (3) 品詞認識処理 品詞認識処理とは単語・連語用バツフア40
1に格納された各単語及び連語に1つずつ品詞
を付与する処理を称し、第13図に示すフロー
チヤートにしたがつて処理が行われる。 まずステツプ1060において、単語・連語用バ
ツフアメモリ401内をWB(1)、WB(2)、WB
(3)、…の如く順次走査しながら、単語及び連語
の品詞名、品詞細分類、属性情報を読み出し、
ワードストリームテーブルエリア403に順次
格納していく。品詞名とその記号の一部を表1
(B)に示す。
【表】
【表】 第14A図及び第14B図はワードストリー
ムテーブルの内部構成を示す。同図から判るよ
うに各単語・連語はそれぞれワードレコードを
含む。 各ワードレコードは第14B図に示すような
情報を含んでいる。一例として単語
“WRITE”についてのワードレコードを説明
する。単語/連語の区別指示子には単語である
旨の情報(単)が書き込まれる。語の識別番号
は入力テキストストリームテーブル402(第
9図参照)においてその語が何番目に出現する
かを表わすので、この場合は(2)が書き込まれ
る。更に語長の欄は、単語又は連語を構成する
文字数を表わし、“WRITE”の場合は(5)が書
き込まれる。先頭文字の文字番号の欄は入力テ
キストストリームテーブル402(第9図)に
おいて、“WRITE”の頭文字“W”の位置す
る番地(4)が書き込まれる。更に多品詞の個数の
欄には動詞(V)と名詞(N)の2つであるの
で(2)が書き込まれる。この他、品詞の細分類、
多義性の個数、各品詞に対応する先頭訳語部
(第4B図参照)へのポインタがそれぞれの欄
に書き込まれる。 第13図に戻り、ステツプ1061においては、
WS(m)の番地の単語が多品詞かどうか判定
する。周知のように各単語及び連語は多品詞を
もつことが多く、従つて、この場合には一つの
最も適切な品詞を選ぶ処理を行わなければなら
ない(以下この処理を多品詞解消処理と称す
る)。この多品詞解消処理を実行するために本
発明方式では辞書メモリ300に格納された品
詞認識用パターン表(第6A図参照)が用いら
れる。単語又は連語が多品詞をもつ場合、ステ
ツプ1062において、品詞名の1つがテスト用バ
ツフアメモリ(作業用メモリの一部が用いられ
るがここでは図示しない)にセツトされる。ス
テツプ1063においてはテスト用バツフアメモリ
にセツトされた品詞列と、第6A図に示した禁
制品詞列パターンとが順次比較され、一致する
パターンを探す。第9図に示す入力テキストの
“ENGLISH”の多品詞解消処理を行う場合を
例にとつて説明する。“ENGLISH”は名詞
(N)及び形容詞(ADJ)の2つの品詞を有す
る。まず“ENGLISH”の前後の2ずつの単
語、つまり“HE”、“WROTE”と“VERY”、
“SLOWLY”の品詞、代名詞(PRN)、動詞
(V7)と副詞(ADV)、副詞(ADV)をそれぞ
れテスト用バツフアにセツトする。この状態を
第6B図に示す。ここで動詞(V7)の添字(7)
は、動詞の品詞細分類を示し、目的語をとる他
動詞であることを表示している。テスト用バツ
フア(第6B図)の*の位置に形容詞(ADJ)
をセツトした後、第6A図に示した禁制品詞列
パターンと比較される。この結果、第6B図の
品詞列パターンは第6A図の項番7のパターン
と合致し、(−、V7、ADJ、−、−)なるパター
ンは禁制されることが検知される。従つて
“ENGLISH”の単語が、この文章においては
形容詞をとり得ないことが認識される。次にテ
スト用バツフア(第6B図)の*の位置に名詞
(N)をセツトして再び禁制品詞列パターンと
比較される。この場合にはいずれの禁制品詞列
パターンとも合致しないことが最終的に検知さ
れ、“ENGLISH”の品詞は名詞であると決定
される。 再び第13図に戻り、ステツプ1064におい
て、更に第6A図に示した禁制解除条件1、2
を満足しているかどうか判定される。 こうして禁制品詞列パターンに合致し、且つ
解除条件も満足しない場合には適切な品詞の候
補から消去される(ステツプ1065)。品詞の候
補が残つている場合はステツプ1062に戻り同様
の処理が繰り返される。この処理によつて最後
に1個だけの品詞が残つたかどうかを判定し
(ステツプ1067)、YESの場合には残つた品詞
をWS(m)番地の単語又は連語の品詞と決定
する(ステツプ1069)。 2個以上の品詞が最終的に残つた場合にはス
テツプ1070に進み、ここで第15図のような優
先度表による品詞決定が行われる。2つの品
詞、例えば形容詞(ADJ)と名詞(N)とが
残つてしまつた場合、ADJを見出し語とする
第3行と、Nを見出しとする第2列とを査続す
ることによりADJ>Nなる関係、つまりADJ
の方がNよりも優先度が高いということになり
結局ADJが採用されることになる。 以上、多品詞解消処理の一例について述べた
がこの処理の効率、成効率を高めるために下記
のような処理をすることもできる。 (1) テスト用バツフアメモリに候補となる品詞
をセツトする際、出現頻度の高い順にセツト
することにより処理効率を上げることができ
る。 (2) 第15図に示した優先度表は、2個以上の
品詞が最終的に残つた場合に使用するものと
して説明したが、品詞の候補が最終的に全部
消去されてしまつた場合にも、もとの品詞候
補全体に対して第15図の表を用い、最も高
い優先度の品詞を採用することができる。 以上述べたように、単語及び連語の認識に禁
制品詞列パターンを用い、更に必要に応じて優
先度テーブルを用いているので、品詞認識処理
を迅速且つ正確に実行できる。 (4) 句構造認識 句構造認識とは、英文入力テキストの各単語
及び連語に唯一の品詞を与えることによつてつ
くられた品詞列から句要素に相当する部分を切
り出す処理、および、それらに新たに句要素品
詞を付与することにより、“品詞付けされた句
要素列(句要素品詞列)”を生成する処理をい
う。ここで句要素とは前述のように、英文法の
句の概念とは異なり、言語的意味をもつ最小単
位の単語、又は/及び連語の組み合せよりなる
ものである。例えば名詞+名詞、助動詞+動
詞、冠詞+名詞、形容詞+名詞、前置詞+名詞
等は句要素を形成する。 つまり、従来の英文法では、“句”という概
念は、かなりゆるやかな定義機能しか持つてお
らず、与えられた英文テキストに対して、どの
部分が“句”かについて一意に定めることがで
きない。 例えば本発明でいう“中心動詞となつている
句要素”と、“その目的語となつている句要素”
は、従来の英文法ではそれぞれ独立でも“句”
であるが、同時にまたそれらを連結したものも
“句”である。英文例をあげると、“助動詞+動
詞+冠詞+形容詞+名詞”(will have a
beautiful girl)は、英文法の“句(動詞句)”
とみなされるが、本発明でいう“句要素”では
ない。“助動詞+動詞”(will have)と“冠詞
+形容詞+名詞(a beautiful girl)とが
“句要素である。 さらに多くの句を連結させた句、互いに重複
した部分をもつ異なる句なども、従来の英文法
では定義され得る。 これに対し本発明では、中心動詞と、その目
的語とは、あくまでも別個の“句要素”であ
る。本発明でいう“句要素”は一般に、与えら
れた英文テキストに対して、一意に、ただ一
つ、互いに重複することなく定まるものであ
り、これらの組み合せを、文型認識ならびに文
型変換の基礎データとしている。 このことにより、句構造認識の処理を簡単か
つ明確にすることができる。 第16図は句構造認識の処理の流れを示す。
まずステツプ1080において、ワードストリーム
メモリエリア403の各単語及び連語のワード
レコードが、ノードストリームメモリエリア4
04にセツトされる。第17図はセツトされた
状態を模式図として示したもので*1の行に示
したNS(1)、NS(2)…NS(20)はノード番号であ
る。又*2の行には対応する単語が格納されて
いるが、実際にはワードストリームテーブル
(第14A図、第14B図参照)へのポインタ
の情報が格納される。*3の行にはノードのカ
テゴリー、つまり単語(W)、句要素(P)、節
(C)、準節(Q)、文(S)の区別を表わす情
報が格納される。*4の行には品詞情報及び品
詞細分情報が格納される。 以後、このノードストリームメモリエリア4
04にセツトされた情報をもとにして句要素が
切出されていく。ステツプ1081において、ノー
ドの最末尾の番号に+1した番号をkにセツト
する。すなわち、この処理により入力英文テキ
ストは、ピリオドやコンマも含めて(k−1)
個の単語及び連語から構成されたことになる。
次にステツプ1082において、ノード番号NS(1)、
NS(2)、…NS(k−1)を句要素列テーブルエ
リア405にセツトする。ステツプ1083におい
て、句要素列テーブルにセツトされたノード番
号のうち、n以上の番号から(k−1)に至る
までの番号をC1,C2、C3…Ck-oとする。ただ
し、nは繰返しが行われる直前にn=1に初期
化されている。さらにノードNS(C1)、NS
(C2)、…の品詞列パターンに関して、第7図
に示した句要素として切出すべき品詞パターン
と合致するものが存在するかどうか判定する。
例えばn=1の場合はHEから始まる文の品詞
列、PRN、V、N…と登録パターンとが比較
され、n=2の場合はWRITEから始まる文の
品詞列V、N、ADV、…と登録パターンとが
比較される。品詞列が第7図に示す品詞パター
ンの2個以上と合致した場合には、より長い品
詞パターンと一致するものを句要素として切出
す。第17図に示した英文テキストの場合には
n=4のとき、つまりVERYから始まる文の
品詞列がADV、ADV、COM、…となり、第
7図の登録パターンの項番1と一致するので
“VERY SLOWLY”が句要素として認識され
る。同様にして、“TO STUDY”、“TO
READ AND WRITE”、“IN ENGLISH”、
“AT SCHOOL”もそれぞれ句要素として認
識される。 さて、ステツプ1084においては、登録した句
要素の品詞列パターンと一致したノードの並び
NS(C1)、NS(C2)…をまとめて新たなノード
NS(k)をつくりこれを句要素列テーブルにセツ
トする。 新しく生成されたノードNS(k)を親ノードと
称する。また元のノードNS(C1)、NS(C2)…
を子ノードと称する。第17図のテキストの例
ではNS(4)とNS(5)とをまとめて新たなノード
NS(21)をつくる。このノードの句要素の品詞
は第7図のテーブルより副詞(ADV)が付与
される。新たに形成された親ノードには新たな
ノード番号が付与されると同時に、子ノードの
番号も登録される。つまりノードNS(21)のメ
モリエリアに格納される情報は、このノード
NS(21)がノードNS(4)とNS(5)からつくられた
ものであること、このノードが句要素であるこ
と(P)、句要素の品詞は副詞(ADV)である
こと等である。 一方、ステツプ1083において、NOと判定さ
れた場合はステツプ1086に進み、NS(C1)そ
のものを句要素とみなす。つまり、この場合に
は新しいノードの生成はしない。 次にステツプ1085においては、新しく生成さ
れた親ノードを子ノードに置換して句要素列テ
ーブルを修正する処理が行われる。かくして、
当初句要素列テーブルには1、2、3、4、…
19、20の順にノードの番号が並んでいたもの
が、新して句要素の生成により1、2、3、
21、6、7、8、9、22、24、25、26、20の番
号順に並びかえられる。(第17図参照) なお、英文テキストが、例えば“Do you
know…”のような場合には“Do”と“know”
が句要素を形成する。従つて必ずしも連続した
位置にある複数の単語によつて句要素が形成さ
れるとは限らない。 以上のように、従来の英文法における句とは
異なる概念である「句要素」を定義し、入力英
文テキストを「句要素」の単位で切出し、句要
素品詞列を形成した後、骨格パターンを作つて
いるので、骨格パターンの形成に至る処理及び
和文生成の処理が容易になる。従来の英文法に
おける句の概念では、名詞句を含む名詞句、名
詞句を含む動詞句などがあり、句の切出しが困
難である。 (5) 連語辞書再検索 句構造認識の処理が終了した後に、もう一度
連語辞書検索の処理が行われる。連語辞書再検
索を行う理由は次の通りである。 英文中に出現する連語、つまり単語の連なり
により単語と同様の意味や作用をなすものには
2つのタイプがある。1つは“MAKE USE
OF”の如く、固定された単語列よりなる連語
であり、他の1つは、“TAKE〜INTO
CONSIDERATION”のように、ある一定の
性質をもつ単語や句や節を上記〜の部分に取り
込んでから初めて完成された連語を形成するも
のである。説明の便宜上、前者を固定型連語、
後者を可変型連語と称する。上記〜の部分には
名詞句あるいは名詞節がとりこまれる。第5C
図に示すように連語辞書には名詞を表わす品詞
記号“N”を用いて“TAKE !N INTO
CONSIDERATION”と記述される。ここで
“!”の印は通常の単語のつづりと区別するた
めの符号である。 前述のように、固定型連語の検索処理は、辞
書検索の段階ですでに済んでいるが、可変型連
語の処理を行うためには、句構造認識が終了し
た後に再び連語辞書を検索する必要がある。 第18図は連語辞書再検索の処理手順を示
す。まずステツプ1090において、入力テキスト
の英文の単語数kを作業メモリ400の適当な
エリアにセツトする。次にステツプ1091におい
て、ノードNS(i)(第17図参照)にある単語
を見出し語とする可変型連語が存在するかどう
か判定される。ただし、iは繰り返しが行われ
る直前にi=1に初期化されている。もし存在
しない場合は、ステツプ1096、1097に進み、全
部の単語数について終了するまで同じ判定が繰
り返される。 入力テキストの英文が例えば“THE
TEACHER TAKES HIS GOOD
ATTITUDE INTO CONSIDERATION”の
場合、“TAKE”を見出し語とする連語辞書検
索で連語が存在することが認識される
(TAKE OUT、TAKE IN、TAKE !N
INTO CONSIDERATION等の連語があ
る。)。次にステツプ1092において、ノードNS
(i)の前後に存在する句要素をつなげると、可変
型連語辞書にあるパターンと一致するかどうか
判定する。上記の例の場合、“HIS GOOD
ATTITUDE”は句構造認識で名詞句(N)と
認識されているので、連語辞書パターンの
“TAKE !N INTO CONSIDERATION”
と一致する(第5C図参照)。入力英文テキス
トが複数個の可変型連語パターンと一致する場
合には、最も長い可変型連語パターンを採用す
る(ステツプ1093)。更にステツプ1094では、
可変型連語辞書の連語と一致する入力テキスト
の部分を新しいノード(親ノード)とすると共
に、新しく生成された親ノードを子ノードと置
換して句要素列テーブルを修正する。つまり、
可変型連語パターンと対応する子ノード群を句
要素列テーブルから除去し、代りに新しい親ノ
ードを代入する。新しいノードの生成があつた
場合には、そのノードを形成している最後の単
語、すなわち上記の例では
“CONSIDERATION”の次の句要素から再び
連語辞書検索が行われる(ステツプ1095、
1096、1097)。 以上説明した連語辞書再検索の処理により、
最終的な句要素列テーブルが作られる。 以上述べたように、連語辞書として固定連語
辞書の他に可変連語辞書を有し、句要素切出し
の後に可変連語辞書の検索を行つているので、
あらゆる連語の検出が少ない辞書容量で可能に
なる。すなわち上記の例の場合、句要素の概念
を導入しなければ、!Nに相当するすべての品
詞列パターンを辞書に用意しておく必要があ
り、辞書容量は莫大になる。また品詞列パター
ンを用意してなければ、正確な翻訳ができない
ことになる。 以上までの一連の処理で品詞認識の処理が完
了するので、品詞認識用の規則の変更・増補
を、以降の文型パターン認識の処理等に使用す
る文型パターンの変更・増補と独立に設計する
ことができる。 (6) 英文型パターン認識 英文型パターン認識とは、ノードNS(i)を複
数個ずつまとめ、予め定められた英文のパター
ンに分類する処理をいう。この英文型パターン
認識は、各ノードに構文的役割子を付与する段
階と、この構文的役割子の配列から文、節、準
節を見い出す段階とに分けて考えることができ
る。ここで構文的役割子とは、句要素テーブル
内の各ノードが、文章の内部でどのような役割
をもつているのか、つまり主語(SUBJ)、中
心動詞(GOV)、目的語(OBJ)等のどれかに
相当するのかを表わすものである。 次に英文型パターン認識の処理の流れを第1
9図及び第20A図を用いて説明する。 前述の句構造認識処理の結果、句要素列テー
ブルメモリエリア405には第20図の*11、
*12、*13、*14、*15の各行のように情報が
格納されている。*11の行エリアにはノード番
号の情報が格納される。*12の行エリアには各
ノードに対応する単語又は連語が格納される
が、実際にはノードストリームテーブルへのポ
インタの情報が格納される。*13の行エリアに
はノードのカテゴリー、つまり、単語(W)、
句要素(P)、節(C)、準節(Q)、文(S)
の区別を表わす情報が格納されている。*14の
行エリアには、単語・連語の品詞、あるいは準
節、節、文のタイプ番号が格納されている。*
15の行エリアには英文型パターン認識の処理の
過程で得られる構文的役割子の情報が格納され
る。 第19図のステツプ1100においては、句要素
テーブル405内の各ノードの品詞を順次調
べ、動詞族(動詞及びTO+動詞など)の品詞
をもつものが検出される。第20A図に示した
例ではノードNS(2)、NS(9)、NS(22)、NS(24)
が動詞族である。次にステツプ1101では、検出
された動詞族ノードの動詞の細分情報(すなわ
ち動詞のタイプ)を見出し語(エントリー)と
して動詞パターンテーブルを検索することによ
つて、動詞族ノード及びその前後のノードの構
文的役割子を決定する。 動詞パターンテーブルの一例は第8A図に示
されている。項番1は見出し語の動詞がbe動
詞のタイプ(V1)であり、かつ、その前後に、
「名詞(N)または代名詞(PRN)」と「名詞
(N)または代名詞(PRN)」がある場合、よ
り詳しく換言すればノード列NS(i)、NS(j)、
NS(k)の品詞が順に名詞(N)または代名詞
(PRN)、動詞(V1)、名詞(N)または代名
詞(PRN)の場合、ノードNS(i)には主語
(SUBJ)、NS(j)には中心動詞(GOV)、NS(k)
には補語(COMP)の構文的役割子がそれぞ
れ付与されることを示している。また項番3に
は見出し語が自動詞のタイプ(V3)であり、
かつ、その前に名詞(N)または代名詞
(PRN)のノードがある場合、より詳しく換言
すれば、ノードNS(i)、NS(j)の品詞が順に「名
詞または代名詞」、「動詞」である場合には、ノ
ードNS(i)に主語(SIBJ)、NS(j)に中心動詞
(GOV)の構文的役割子を付与すべきことを示
している。又項番4は、ノードNS(i)、NS(j)の
品詞が共に不定詞の形をとる動詞の場合には、
NS(i)に不定詞形の中心動詞(TOGOV)、NS
(j)に不定詞形の目的語(TO OBJ)の構文的
役割子が付与されることを示している。 さて、第20A図に示した英文テキストの例
では、ノードNS(1)、NS(2)、NS(3)の品詞がそ
れぞれ代名詞(PRN)、動詞(V7)、名詞
(N)であるため、第8A図の項番6の品詞列
と一致することが検出される。従つてNS(1)に
主語(SUBJ)、NS(2)に中心動詞(GOV)、
NS(3)に目的語(OBJ)の構文的役割子が付与
されメモリエリア*15に格納される。更にノー
ドNS(22)、NS(24)の品詞列は項番4のパタ
ーンに一致し、ノードNS(22)にTOGOV、
NS(24)にTOOBJの構文的役割子が付与され
る。同様にしてノードNS(8)、NS(9)にも構文的
役割子が付与される。なお、第8A図はごく一
部の動詞パターンを示したに過ぎず、実際には
多数のパターンが用意される。 このようにして、第19図のステツプ1101の
処理の結果、動詞の前後のノードNS(1)、NS
(2)、NS(3)、NS(8)、NS(9)、NS(22)、NS(24)
の構文的役割子が決定し、その他のノードは未
決定のままである。ステツプ1102において、す
べての動詞族ノードについて動詞パターン表の
検索が行われたかどうか判定し、YESの場合
にはステツプ1103に進む。このステツプ1103で
は句要素テーブル405内の残りのノードの品
詞を順次調べ、接続詞(CNJ)の品詞をもつ
ものを検出する。更にステツプ1104において、
検出された接続詞族ノードについて接続詞パタ
ーンテーブルを検索することにより、接続詞族
ノードの構文的役割子を決定する。 接続詞パターンテーブルの一例を第8B図に
示す。同図の項番1は、接続詞(CNJ)の単
語綴りが“BUT”であり、この前後の構文的
役割子列パターンが、句読点(DEL)、BUT、
主語(SUBJ)、中心動詞(GOV)であつた場
合、単語BUTには等位接続詞を表わす構文的
役割子BUT(単語と同綴りの記号)を付与すべ
きことを示している。項番2は、接続詞の単語
綴りが“IF”であり、この単語の前後の構文
的役割子列パターンが、主語(SUBJ)、タイ
プ8の中心動詞(GOV)、IF、主語(SUBJ)
と配列されている場合は、上記単語“IF”に
名詞節を導くIFを表わす構文的役割子NIFが付
与されることを示す。同様にして項番3、4、
5、6には副詞節を導くIFを表わす構文的役
割子ADIF及び名詞節を導くTHATを表わす構
文的役割子NTHATが付与される規則が示さ
れている。 さて第20A図の英文テキストの場合、ノー
ドNS(7)の単語の前後には、接続詞テーブル
(第8B図)の項番1のパターンと一致する構
文的役割子列パターンが存在する。従つて上述
のステツプ1104の処理を実行することによつて
ノードNS(7)には、構文的役割子BUTが付与さ
れる。なお、ノードNS(6)と、NS(20)につい
てはそれぞれ品詞(COMとPRD)をみて、自
動的に句読点を表わす構文的役割子(DEL)
が付与される。 接続詞をもつすべてのノードについて接続詞
テーブルの検索が終了したかどうかを判定し、
(ステツプ1105)その結果、終了した場合には
ステツプ1106に進む。このステツプ1106では、
今迄の処理で構文的役割子が付与されなかつた
ノード、つまり副詞(ADV)及び前置詞的
(PRENAL)の句品詞を有するノードに、構文
的役割子が未だ定まらないことを表わす未確定
修飾子(PENDM)が付与される。第20A図
に示す英文テキストの例では、ノードNS(21)、
NS(25)、NS(26)にそれぞれ未確定修飾子
(PENDM)が付与される。 次にステツプ1107において、接続詞族ノー
ド、(たとえばAND、BUT、OR、ADIF、
HTHAT等の構文的役割子をもつノード)に
より区切られた構文的役割子列パターンの中
に、節パターン及び準節パターンがあるかどう
か検索し、存在する場合には節及び準節パター
ンテーブル(以下単に節パターンテーブルとい
う)を参照し、その節又は準節に「ノードカテ
ゴリー」、「節又は準節の構文的役割子」及び
「節又は準節のタイプ」を付与する。 節パターンテーブルの一例を第8C図に示
す。同図の項番1は、接続詞又は句読点により
区来られた構文的役割子列パターンの前に位置
する接続詞(以下先行技術接続詞という)の構
文的役割子が「AND、OR、BUT又は接続詞
が無い(φ)」ときで、且つ上記構文的役割子
列パターンが「主語(SUBJ)+中心動詞
(GOV)」の場合には、このパターンをまとめ
て新たな親ノードを形成し、この親ノードのカ
テゴリーとして「文(S)」、親ノードの構文的
役割子として文章が完成したことを表わす
「SENT」、文のタイプとしては中心動詞
(GOV)のタイプ番号(#)たとえば
「TYP1」を付与すべきことを示している。節、
文のタイプは、その節や文を支配している動詞
(中心動詞(GOV))のタイプと同じく定めら
れる。動詞のタイプ番号と例とについては表1
(A)に示した。 同様に項番2は、親ノードのカテゴリーが
「文(S)」、構文的役割子は文が完成したこと
を表わす「SENT」、そして文のタイプとして
は、中心動詞(GOV)のタイプ番号(#)、た
とえば「TYP2」なる場合の、子ノードの構文
的役割子列を表わす。 項番4は、接続詞又は句読点までの構文的役
割子列のパターンが「TO不定詞型の中心動詞
(TOGOV)」+「TO不定詞型の目的語
(TOOBJ)」の場合であつて、そのパターンに
先行するノードの構文的役割子が「中心動詞
(GOV)」又は「ING型の中心動詞
(INGGOV)」の場合、そのパターンをまとめ
て親ノードとし、その親ノードのカテゴリーを
「準節(Q)」、構文的役割子を「目的語
(OBJ)」、準節のタイプとしては中心動詞
(TOGOV)のタイプ番号(#)、たとえば
「TYP6」を付与すべきことを示している。 項番6は、区切られたノード列の構文的役割
子列のパターンが「主語(SUBJ)+中心動詞
(GOV)+補語(COMP)」であつて、そのパタ
ーンに先行するノードの構文的役割子が
「ADIF(副詞節を導くIF)」である場合、この
パターンをまとめて親ノードを形成し、その親
ノードにカテゴリーとして「節(C)」、構文的役
割子として「CADV(clausual adverb)」、節
のタイプとしては中心動詞(GOV)のタイプ
番号(#)、たとえば「TYP2」を付与すべき
ことを示している。 再び第19図の説明に戻り、ステツプ1107で
行われる処理を具体的に述べる。第20A図に
示す英文テキストの場合、ノードNS(1)、NS
(2)、NS(3)の構文的役割子列のパターンは、第
8C図の項番3のパターンと一致する。従つて
これらのノードNS(1)、NS(2)、NS(3)をまとめ
て新しい親ノードNS(27)が形成され、*11の
エリアに格納される。又*13のエリアにはカテ
ゴリーが文であることを示す情報が格納され、
*14のエリアには文のタイプTYP7が、*15の
エリアには親ノードは文が完成していることを
表わす構文的役割子SENTが格納される。 同様にノードNS(22)、NS(24)の構文的役
割子のパターンは第8C図の項番4のパターン
と一致し、新たに親ノードNS(28)が作られ
る。この親ノードNS(28)には、カテゴリーと
して準節、準節のタイプはTYP6、構文的役割
子は目的語(OBJ)が付与される。 さらに、ノードNS(8)、NS(9)、NS(28)の構
文的役割子列のパターンが第8Cの項番3のパ
ターンと一致することが検出され上述と同様
に、新たな親ノードNS(29)がつくられ検索の
結果得られた情報がその親ノードNS(29)の各
エリアに格納される。 このようにしてステツプ1107では、構文的役
割子列から文、節又は準節が検出され、節パタ
ーンに新たなノード番号を付与する。ここでは
詳しく説明しないが、新しい親ノードが生成さ
れた場合は前に説明した手順と同様にして、句
要素列テーブル405の子ノードを消去し、そ
の代りに新しく生成された親ノードを置き換え
る処理が行われる。この場合親ノードには子ノ
ードへのポインタの情報が格納される。従つて
ステツプ1107の終了した時点において句要素列
テーブル405におけるノードの配列は、順に
NS(27)、NS(21)、NS(6)、NS(7)、NS(29)、
NS(25)、NS(26)、NS(20)となる。 次にステツプ1108に進み、節ノードが副詞節
(CADV)あるいは形容詞節(CADJ)となる
ときにはこれらに未確定修飾子(PENDM)を
付与する処理が実行される。第20A図に示す
英文テキストの場合には副詞節及び形容詞節は
ないので新たに未確定修飾詞を付与されるノー
ドはない。 ステツプ1109では、接続詞等で区切られるす
べての構文的役割子列パターンについて検索が
行われたか否か判定され、その結果YESの場
合には、最後の処理ステツプ1110に進む。ここ
では、ステツプ1107の処理の結果得られた節パ
ターンが、予め定められた骨格パターンと一致
するかどうか判定し、一致した場合には新しい
ノードが生成される。この判定には第8D図に
示す骨格パターンテーブルが用いられる。同図
の記号と第20A図のメモリエリアに格納され
る情報との対応関係は第20B図に示されてい
る。 すなわち、第20B図は、1つのノードに対
応して1つ定まる。第20B図は第20A図中
の1列分(*11〜*15を1つずつ縦に並べたも
の)の省略化表記法である。 第20B図中の*14には、単語、句要素の品
詞、または、節、準節、文のタイプ番号が格納
される。 第20B図中の*15には構文的役割子が格納
される。 第20B図中の右肩の添字*13にはノードの
カテゴリー(W、P、Q、C、S)が格納され
る。 第20B図中の*16の分岐表現は、本ノード
に属する子ノードへのポインタを表現してい
る。これは第20A図中の*12の部分に格納さ
れている情報に対応している。 第20B図中の*17の波線表現は、副詞句・
節や形容詞句・節の依存・修飾関係を表現す
る。すなわち波線型矢印の尾部にあるノード
が、矢印の頭部にあるノードを修飾することを
表現する。 第8D図の項番1は、「カテゴリーが節(C)と
なつているノード」の前後がφの場合(ノード
が無い場合)、つまり未確定修飾子を付与した
ノードを除き、節パターンが1個しかないとき
は、そのカテゴリー(*13)を文(S)に変換
すると共に、テーブルの*15のエリアには文が
完成していることを示す構文的役割子
(SENT)を格納すべきことを示している。 項番2は、カテゴリーが文(S)となつてい
るノードの次に構文的役割子が句読点(DEL)
となつているノード、その次にAND、BUT、
OR等の構文的役割子としてもつノード、その
次にカテゴリーが文(S)となつているノー
ド、その次に句読点(DEL)を構文的役割子
としてもつノードのようなノードのパターンが
検出されたときには、これらをまとめて新しい
ノードを生成し、その新しいノードのカテゴリ
ー(*13)には文(S)、*14のエリアには重
文であることを示す情報(COMPD)、*15の
エリアには文章として完成していることを表わ
す構文的役割子SENTを格納すべきことを示し
ている。 さて、第20A図に示す英文テキストの場
合、未確定修飾子のノードを除くノード列NS
(27)、NS(6)、NS(7)、NS(29)、NS(20)のパ
ターンは第8D図の項番2のパターンと一致す
ることが検出される。従つてこれらのノード列
をまとめて新しいノードNS(30)を生成し、そ
の各エリア*13、*14、*15に新しい情報が書
き込まれる。 かくして、第20A図に示す英文テキスト
は、未確定修飾子を付与したノードを除くすべ
てのノードが単一のノードNS(30)にまとめら
れたことになる。このノードNS(30)は1つの
英文型骨格パターンと呼ばれる。 以上のように、構文的役割子の概念を導入
し、句要素品詞列を構文的役割子列に変換した
後に、節、準節を検出し、更に節、準節から文
の骨格パターンを形成しているので、複雑な英
文に対しても容易且つ正確に、種々のパターン
設定、変更が可能である。又、骨格パターン
は、形容詞、副詞のように相手を修飾する構文
的役割子、すなわち未確定修飾子をもつものを
除いた句要素により構成されるので、骨格パタ
ーンの種類があまり多くならない。 (7) 依存・修飾関係認識 依存・修飾関係認識とは、前述の英文型パタ
ーン認識の段階で、構文的役割子として未確定
修飾子(PENDM)を付与されたノードが、ど
のノードの単語、句、節等を修飾しているのか
を認識、決定する処理をいう。 第21図は依存・修飾関係認識の処理手順を
示す。ステツプ1120では、ノードNS(i)が、構
文的役割子として未確定修飾子(PENDM)を
持つものかどうか判定される。この判定の結
果、YESであればステツプ1121に進み、依
存・修飾関係の認識処理が実行される。一方、
NOの場合には、ステツプ1122に進み、すべて
のノードについてステツプ1120の処理が修了し
たかどうか判定される。もちろん、これが完了
していない場合にはステツプ1120にもどり、同
様の処理が繰り返される。 第20A図に示したテキストを例にとつて説
明すると、この英文の場合、ノードNS(21)、
NS(25)、NS(26)が、ステツプ1120の処理の
結果、修飾先未決定と判定される。これらのノ
ードの修飾先は、辞書メモリ300(第3図参
照)に格納された依存・修飾関係認識用テーブ
ルを参照して決定される。
【表】 表2は依存・修飾関係認識用テーブルの一実
施例を示す。同表の項番1は、ノードNS(i)に
関する条件として、カテゴリーが単語(W)、
句要素(P)、準節(Q)、節(C)のいずれかであ
つて、その品詞が副詞(ADV)で且つ、その
ノードが文頭にあるか或いはそのノードの前に
句読点(COM)がある場合には、そのノード
の構文的役割子として副詞的修飾子
(ADVAL)を付与し、番号の最も若いノード
で構文的役割子がSENTなるノードを修飾すべ
きことを意味している。項番2、3、4、5に
ついてもそれぞれ表に記載されたように、ノー
ドNS(i)に関する条件と、そのノードNS(i)が修
飾をする相手先のノード番号及びNS(i)に付与
される構文的役割子との関係が予め定められて
いる。 第20A図に示した英文テキストのノード
NS(25)について考えると、このノードの品詞
は前置詞(PRENAL)であり、且つそのノー
ドの直前に名詞(N)のノードがないから表2
の項番4の規則が適用される。従つて、修飾先
のノードは、品詞が動詞族で且つノード番号が
25より小さい範囲で一番大きいものであるか
ら、結局、ノードNS(24)ということになる。
そして上記ノードNS(25)の構文的役割子は
ADVALとなる。 同様にノードNS(26)についても表2の項番
4の規則が適用され、修飾先のノードはNS
(22)、構文的役割子はADVALとなる。 ノードNS(21)について適用される規則は、
表2では省略されている同様の考え方に従つ
て、ノードNS(2)を修飾することが最終的に決
定される。第20A図において□α〓□βの表示
は、αのノードがβのノードを修飾しているこ
とを示している。 以上の依存・修飾関係の処理により、ノード
間の関係がすべて定まり、ノード列から遊離し
たノードは無くなる。この依存・修飾関係の処
理は、複雑な修飾関係を持つ文章の正確な翻訳
を可能とする。 (8) 文型変換 文型変換とは、ノードの配列の順番を英文型
パターンから和文型パターンに変換することを
いう。 第22図は上記文型変換の処理の流れを示
す。まずステツプ1130において句要素列テーブ
ルに最終的に残つているノード、つまりカテゴ
リーがS、構文的役割子がSENTなるノードを
検出し、そのノード番号をkとする。第20A
図に示した英文テキストの場合にはノードNS
(30)が最終的に生成された単一のノードであ
り、従つてこのノードがNS(k)と表わされる。 次にステツプ1131において、ノードNS(k)の
子ノード列の並びを読み出し、そのノード番号
列を句要素列テーブルにセツトする。第20A
図の英文テキストの場合、ノードNS(30)の子
ノード列は、NS(27)、NS(6)、NS(7)、NS
(29)、NS(20)であるからそれらのノード番号
27、6、7、29、20がこの順番に句要素列テー
ブルにセツトされる。ここでは句要素列テーブ
ルに並べられる番号の個数をm個と仮定する。 更にステツプ1132において、ノードNS(k)の
子ノード列を作業用メモリ400内の英文型ノ
ード列バツフアエリア406にセツトする。 ステツプ1133においては、辞書メモリ300
内の文型変換用パターンテーブル307を検索
し、上記のバツフアエリア406にセツトされ
た子ノード列の構文的役割子の並びと一致する
英文型パターンをみつける。上記文型パターン
テーブルの一例は表3に示されており、その内
容については後述する。
【表】

Claims (1)

  1. 【特許請求の範囲】 1 動詞を含む品詞列に対応して、前記品詞列の
    各品詞に対応する単語及び/又は連語の、文型を
    定める構文的な役割を表わす構文的役割子の並び
    からなる構文的役割子列を格納した第1のテーブ
    ルと、接続詞に対応して、前記接続詞を含む、文
    型を定める構文的な役割を表わす構文的役割子の
    並びからなる構文的役割子列と前記接続詞に付与
    すべき構文的役割子とを格納した第2のテーブル
    と、文型を定める構文的な役割を表わす構文的役
    割子の並びからなる構文的役割子列と文型との対
    応関係を格納した文型テーブルとを予め設け、自
    然言語で記述されたテキスト文の各単語及び/又
    は連語に品詞を付与する手段と、前記品詞を付与
    する手段により品詞が付与された前記テキスト文
    の少なくとも一部に対応した品詞列が、前記第1
    のテーブルに格納されている前記動詞を含む品詞
    列に一致する場合に、前記一致した品詞列に対応
    して前記第1のテーブルに格納されている構文的
    役割子列を前記テキスト文の少なくとも一部に対
    応した品詞列に付与する第1の手段と、前記テキ
    スト文が接続詞を含む場合に、前記テキスト文に
    含まれる接続詞を含む前記付与された構文的役割
    子列が、前記第2のテーブルに格納されている構
    文的役割子列に一致するとき、該一致した構文的
    役割子列に対応して前記第2のテーブルに格納さ
    れている前記接続詞に付与すべき構文的役割子を
    前記テキスト文に含まれる接続詞に付与する第2
    の手段と、前記第1および第2の手段の少なくと
    も前者により付与された、前記テキスト文に対応
    した構文的役割子列が前記文型テーブルに格納さ
    れている前記構文的役割子列に一致するとき、該
    一致した前記構文的役割子列に対応して前記文型
    テーブルに格納されている文型が前記テキスト文
    であると認識する手段とを具備することを特徴と
    する自然言語の構文解析方式。 2 特許請求の範囲第1項記載の自然言語の構文
    解析方式において、前記第1の手段は、前記テキ
    スト文に含まれる動詞を検出する手段と、前記検
    出した動詞を含む、前記テキスト文の少なくとも
    一部に対応する品詞列を切り出す手段を含み、前
    記切り出す手段により切り出された品詞列が、前
    記第1のテーブルに格納されている前記動詞を含
    む品詞列に一致する場合に、前記一致した品詞列
    に対応して前記第1のテーブルに格納されている
    構文的役割子列を前記テキスト文の少なくとも一
    部に対応した品詞列に付与することを特徴とする
    自然言語の構文解析方式。 3 特許請求の範囲第2項記載の自然言語の構文
    解析方式において、前記第2の手段は、前記品詞
    列を切り出す手段は、前記テキスト文に含まれる
    接続詞および句読点を検出する手段と、前記検出
    した接続詞または句読点を含まずに、前記テキス
    ト文の少なくとも一部に対応する品詞列を切り出
    すことを特徴とする自然言語の構文解析方式。 4 特許請求の範囲第1項記載の自然言語の構文
    解析方式において、前記第2の手段は、前記テキ
    スト文に含まれる接続詞を検出する手段と、前記
    検出した接続詞を含む、前記テキスト文の少なく
    とも一部に対応する構文的役割子列を切り出す手
    段を含み、前記切り出す手段により切り出された
    構文的役割子列が、前記第2のテーブルに格納さ
    れている前記接続詞を含む構文的役割子列に一致
    する場合に、前記一致した構文的役割子列に対応
    して前記第2のテーブルに格納されている、前記
    接続詞に付与すべき構文的役割子を前記テキスト
    文に含まれる接続詞に付与することを特徴とする
    自然言語の構文解析方式。
JP63176906A 1988-07-18 1988-07-18 Analyzing method for construction of natural language Granted JPS6438874A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63176906A JPS6438874A (en) 1988-07-18 1988-07-18 Analyzing method for construction of natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63176906A JPS6438874A (en) 1988-07-18 1988-07-18 Analyzing method for construction of natural language

Publications (2)

Publication Number Publication Date
JPS6438874A JPS6438874A (en) 1989-02-09
JPH0345423B2 true JPH0345423B2 (ja) 1991-07-11

Family

ID=16021824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63176906A Granted JPS6438874A (en) 1988-07-18 1988-07-18 Analyzing method for construction of natural language

Country Status (1)

Country Link
JP (1) JPS6438874A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3344995B2 (ja) * 2000-09-22 2002-11-18 東芝アイティー・ソリューション株式会社 錠剤表面検査装置

Also Published As

Publication number Publication date
JPS6438874A (en) 1989-02-09

Similar Documents

Publication Publication Date Title
JPH0351020B2 (ja)
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US5640575A (en) Method and apparatus of translation based on patterns
US5895446A (en) Pattern-based translation method and system
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
Thet et al. Word segmentation for the Myanmar language
KR20040086775A (ko) 단어 분석 시스템 및 방법
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JPH0345423B2 (ja)
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR100404320B1 (ko) 문장 자동 색인 방법
JPH0345424B2 (ja)
JPH0352101B2 (ja)
JPH0345422B2 (ja)
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0561902A (ja) 機械翻訳システム
Sarveswaran Morphology and Syntax of the Tamil Language
Hobbs A metalanguage for expressing grammatical restrictions in nodal spans parsing of natural-language.
JP3508312B2 (ja) キーワード抽出装置
Prakapenka et al. Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars
Dash Morphological processing of words in bangla corpus
JP2608384B2 (ja) 機械翻訳装置及びその方法
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
Ciddi Processing of Turkic Languages