JPH0797372B2

JPH0797372B2 - 言語解析装置

Info

Publication number: JPH0797372B2
Application number: JP61245196A
Authority: JP
Inventors: 壽彦横川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-10-17
Filing date: 1986-10-17
Publication date: 1995-10-18
Anticipated expiration: 2010-10-18
Also published as: JPS63100574A

Description

【発明の詳細な説明】技術分野本発明は言語解析装置、とくに、たとえば自動翻訳装置
に有用な自然言語を解析する言語解析装置に関する。

従来技術たとえば英語などの外国語の文からそれに対応する日本
語の文を作成する場合、入力された英文の形態素を解析
し、その構文を解析し、その文構造を変換し、そののち
日本語の訳文を生成する。

たとえば英語文の形態素を解析する際、一般に大文字で
始まる語の連続は全体で１個の固有名詞として解析され
る。しかし、大文字で開始する語が連続しても、常に全
体を１個の固有名詞とみるのが適当とは限らない。実
は、それらは複数の固有名詞がたまたま続いて出現した
にすぎないものであることもある。そのような場合、従
来の方式では全体を単一の固有名詞と見誤る危険性があ
った。だからといって、大文字で始まる語は常に１個の
固有名詞として解析するのでは、後の構文解析などの効
率が低下してしまう。

たとえば、英文“in the Central Park John Willson h
ad a…”では、固有名詞“Central Park"と同“John Wi
llson"に分離して形態素を認識しなければ、この文脈で
は適切な解析が行なわれない。同様に、英文“…in Bos
ton Mr.Baker was…”では、固有名詞“Boston"と同“M
r.Baker"に分離して認識する必要がある。しかし従来の
方式では、これらの固有名詞連を全体として単一の固有
名詞として誤って認識してしまう。

目的本発明は従来技術のこのような欠点を解消し、固有名詞
を含む表現について適切な形態素解析を行なうことので
きる言語解析装置を提供することを目的とする。

構成本発明は上記の目的を達成させるため、辞書引き単位ご
とに辞書データが格納された辞書手段と、入力された文
を辞書引き単位に分け、辞書引き単位について辞書手段
を参照して形態素解析を行なう解析手段とを有する言語
解析装置において、辞書手段は、固有名詞を意味する辞
書引き単位について、複数の固有名詞が連続した固有名
詞連において許容される位置を規定する識別情報を辞書
データとして含み、解析手段は、入力された文に含まれ
るそれぞれの辞書引き単位について辞書手段を参照し、
索出された辞書データに識別情報が含まれるときは、こ
の識別情報の規定する位置に従ってその識別情報が索出
された辞書引き単位を当該辞書引き単位に隣接する他の
固有名詞を意味する辞書引き単位と組み合わせて単一の
解析単位とする言語解析装置を特徴としたものである。
以下、本発明の一実施例に基づいて具体的に説明する。

第２図を参照すると、本発明による言語解析装置を英日
自動翻訳装置に適用した実施例の全体構成が示されてい
る。なお本発明は、英語を日本語に翻訳する英日自動翻
訳装置のみならず、ある言語を他の言語に翻訳する際お
もに、入力される言語の文を解析する如何なる言語の解
析装置にも効果的に適用されることは、言うまでもな
い。

同実施例は入力部10を有し、日本語に翻訳すべき英文テ
キスト12がこれにより入力される。入力部10はたとえ
ば、英数字キーなどの文字キーや機能キーなどを有する
キーボード、紙に記録された英文テキストを読み取る光
学的文字読取装置（OCR），および（または）磁気ディ
スクなどの記憶媒体に記録された英文テキストを読み込
むファイル記憶装置などを含んでよい。

入力部10により入力さた英文テキストは、前編集部14に
読み込まれ、翻訳の前処理が行なわれる。ここでは、主
として文の認定と未知語の処理を行なう。これは形態素
解析の一部として機能する。

前編集された英文データは、前編集で得られた情報とと
もに形態素解析部16に転送される。形態素解析部16で
は、単語辞書18を索引して文に分割し、英文の形態素を
解析し、未知語の処理、固有名詞、時の表現、数の表現
などの各種のまとめあげを行ない、付加疑問、同格の認
定などの文全体の処理を行なう。その形態素解析ルール
は解析ルールファイル36に格納されている。

形態素解析された英文データは、形態素解析で得られた
辞書情報とともに構文解析Ｉ部20に転送される。構文解
析Ｉ部20は、文法ルールを英文データに適用して文につ
いて表層構造の解析を行ない、すべての構文的可能性を
見つけ出す機能部である。

構文解析Ｉ部20で構文解析さた英文データは、その解析
情報とともに構文解析II部22に送られる。ここでは構文
解析Ｉによる表層的な構文解析結果から、構造記述を適
用して解を選択する。これによって英語文の確からしい
解析木を作成し、その構造を作る。これらの構文解析ル
ールはやはり、解析ルールファイル36に格納されてい
る。

構文解析された英文データは、解析木のデータとして構
造変換部24に転送される。構造変換部24では、英語文の
中間的構造である構文木から対応する日本語文の構文木
を作成し、日本語文を訳出しやすい日本語基底構造に変
換する。

こうして構造変換された日本語の基底構造を示す構文木
データは訳文生成部26に送出され、後者にて訳文の生成
が行なわれる。これは、日本語の構文木の木構造から日
本語の文を生成する機能部である。

訳文生成された日本語文データ、すなわち訳文データ
は、後編集部30に送られる。後編集部30では、翻訳処理
に利用した情報を使用し、辞書18を索引して訳文データ
を修正し、より自然な日本語文を完成する。この日本語
文データは出力部32に転送され、翻訳された日本語文34
として出力部32から出力される。出力部32は、たとえば
プリンタ、ディスプレイ、および（または）磁気ディス
クなどのファイル記憶装置を含む。

これらの一連の翻訳処理の流れは、本装置全体の制御を
統括する制御部38によって制御される。

単語辞書18には、本実施例では英語および日本語の単語
についての辞書データが格納され、語彙だけでなく、係
り関係すなわち共起関係や、意味、単複、品詞などの様
々な情報が記述されている。また解析ルールファイル36
には、形態素解析および構文解析のルールデータが格納
されている。

制御部38には、操作表示部40が接続されている。操作表
示部40は、操作者から本装置に様々な指示を与える、た
とえば翻訳指示キー、カーソルキーなどの操作キーや、
入力英語文テキスト、翻訳結果の日本語文、辞書情報な
どの中間データ、操作者に対する様々な指示などを可視
表示するディスプレイやインジケータを有する。なお、
それらの操作表示機能の多くは、入力部10にキーボード
を備えている場合はそのキーボードに、また出力部32に
ディスプレイを備えている場合はそのディスプレイに含
まれるように構成してよい。

第１図を参照すると、形態素解析部16の固有名詞の処理
に関する詳細な構成が例示されている。形態素解析部16
は、当然他の解析機能部も有するが、ここでは本発明の
理解に直接関連のある部分について示してある。形態素
解析は、入力文字列の先頭から順に検索キーの文字列に
従って辞書探索を指示し、これに従って辞書検索部104
から得た辞書情報を後述の固有名詞の位置情報に従った
処理などを実行することによって行なわれる。

形態素解析部16は、前処理部14から入力される入力文字
列データを受けて入力処理するための入力処理部100を
有する。入力処理部100には、たとえばASCIIなどのコー
ドデータの形で英文文字列データが入力され、その文字
列データを一時蓄積する入力文字列バッファが備えられ
ている。

入力処理部100に一時蓄積された入力文字列データを単
語などの辞書引き単位に切り出す単位切出し部102に送
られる。単位切出し部102は、後に辞書検索部104にて辞
書18を検索する際、その検索キー文字列を構成する辞書
引き単位を識別する機能部である。辞書引き単位の切出
し処理で使用される辞書引きデリミタは、英文字、数
字、アポストロフィ、ハイフンおよびピリオド以外の文
字、ならびに空白文字に続くアポストロフィの位置に置
かれる。これは、デリミットテーブル108に格納され、
単位切出し部102で辞書引き単位の切出しの際参照され
る。

参照辞書18は、とくに切出し単位を検索するための情報
が格納さている。たとえば第３図にそのエントリ情報の
例を示すように、各辞書引き単位、たとえば単語のエン
トリについて品詞などの文法情報が含まれる。品詞情報
には、名詞については、それが一般名詞であるか固有名
詞であるかの別も含まれる。固有名詞については、それ
が文における位置を制限される態様を示す識別表示、す
なわち固有名詞の位置情報が格納さている。これについ
ては後に詳述する。その他の情報としては、たとえば名
詞の可算、不可算の別、自動詞、他動詞の別、訳語など
が登録されている。

固有名詞の位置情報は、本実施例ではパターン「０」〜
「３」の４種類ある。パターン「０」は、たとえば“Ci
ty"や人名“Walter"などのように、位置の限定がない固
有名詞を示す。パターン「１」は、たとえば“Mr"など
のように、単一の固有名詞、または複数の固有名詞の連
続すなわち固有名詞連として１つにまとまった固有名詞
の先頭に位置する固有名詞であることを示す。パターン
「２」は、たとえば“Station"や“Bay"などのように，
単一の固有名詞または固有名詞連として１つにまとまっ
た固有名詞の末尾に位置する固有名詞であり、後述のパ
ターン「３」以外のものであることを示す。パターン
「３」は、たとえば“the Sumida River"における“Riv
er"などのように、パターン「２」と同様であるが固有
名詞連として１つにまとまった固有名詞の先頭に定冠詞
“the"を伴う固有名詞であることを示す。

辞書検索部104は、単位切出し部102から入力される検索
キー文字列に基づき、単位辞書18を検索して辞書情報を
取り出し、これを辞書情報保存テーブル124,位置情報処
理部110および直前文末判定部112に転送する機能部であ
る。

辞書18から索出された固有名詞の位置情報に従ってパタ
ーン「０」〜「３」に基づく処理は、固有名詞処理部11
4,116および118により行なわれる。固有名詞処理部114
はパターン１による固有名詞の処理、固有名詞処理部11
6はパターン２と３による固有名詞の処理、また固有名
詞処理部118固有名詞処理部114はパターン０による固有
名詞の処理をそれぞれ行なう。

本実施例では、単一の固有名詞としてまとめあげた固有
名詞連の一部を構成し固有名詞としてまとまったときの
位置に制約のある語をキーとして、固有名詞のまとめあ
げを行なっている。これにより、複数の固有名詞が連続
した場合でも、常に単純にそれらを単一の固有名詞連と
して誤ってまとめあげることはなく、文脈に適って適切
なまとめあげが行なわれる。そのための処理が固有名詞
処理部114,116および118にて行なわれる。

参照辞書18にはある程度の固有名詞が登録されている。
そのような辞書登録された固有名詞は、位置情報処理部
110と、固有名詞処理部114,116および118とで解析処理
される。これらで辞書登録固有名詞処理部を構成してい
る。また、辞書18に登録されていない固有名詞は、直前
文末判定部112はパターン０の固有名詞処理部118にて解
析処理される。これらによって、辞書未登録固有名詞の
処理部が構成されている。

固有名詞の処理は次の２段階にて行なわれる。まず、入
力文字列における固有名詞を認定する。これは、辞書18
に登録されている語の場合は、その形態素起動情報に固
有名詞が表示されていることによる。また辞書18に登録
されていない語の場合は、先頭の１文字が英字の大文字
であることによる。たとえば、“John"や“U.S."などで
ある。

次に固有名詞連は、まとめあげを行なって全体を単一の
固有名詞とする。辞書情報から固有名詞であると認定さ
れると、次の辞書引き単位をみてこれも固有名詞である
ときは、全体をまとめて１つの固有名詞に合成する。た
とえば“M.Weder"は全体で１つの固有名詞として解析さ
れる。この解析結果は、局所解析における固有名詞を含
んだ慣用表現のまとめげ候補となる。

次に必要な局所解析を行なう。これは、局所解析ルール
に基づいて各解析単位の形態素起動情報から起動される
連続した解析単位を１つの解析単位にまとめあげる。た
とえば、称号による氏名のまとめあげを行なう。たとえ
ば“Mr.Brown"は「Brown氏」にまとめられる。また、地
名の一部になる語もまとめあげられる。たとえば“Lake
Biwa"は「琵琶湖」にまとめあげる。同様に団体名の一
部になる語もまとめられる。たとえば“Yale Universit
y"は「Yale大学」として解析される。

たとえば固有名詞“Mr…”や“Lake…”の場合は、それ
らの語の直前に必ず文脈上の区切りがある。したがって
たとえば英文“With Tom Mr.Brown went to…”では、
“Tom"と“Mr."の間で文脈上の一応の区切りがある。し
たがって“Tom Mr.Brown"を単一の固有名詞としてまと
めあげると、後の解析を誤ってしまう。たとえば固有名
詞“University"はその直後に必ず区切りが存在する。
たとえば英文“At Yale University Tom is…”では、
“University"と“Tom"の間で切れていると認識され
る。本実施例では、このような固有名詞の連続において
それぞれの固有名詞が位置上の制約を受ける位置につい
ての情報を辞書18に前述の位置情報、すなわちパターン
「０」〜「３」として保持している。これらの位置情報
を用いたまとめあげ処理が処理部110,112,114,116,118
にて行なわれる。これらの処理を完了した入力文字列の
辞書情報は、検索済み辞書情報バッファすなわち辞書情
報保存テーブル124に格納される。

形態素解析された結果は、辞書情報保存テーブル124か
ら構文解析Ｉ部20へ転送される。

固有名詞位置情報による処理は、第４図に示すようなシ
ーケンスにて行なう。入力処理部100に入力文字列デー
タを受けて入力処理を行なう（200）。そこで単位切出
し部102は、辞書18を索引するために入力文字列を辞書
引き単位に切り出す（201）。辞書検索部104は、これに
従って辞書18を検索し（203），辞書エントリがあれば
（204），その品詞を調べる（205）。品詞が固有名詞で
ないと、本例の固有名詞の処理は行なわず、その辞書情
報を辞書情報保存テーブル124に蓄積する（206）。固有
名詞であると、位置情報処理部110,および固有名詞処理
部114,116,118にて辞書登録固有名詞の処理207を行な
う。これらの処理を入力文字列データの示す文の最終位
置まで行なうと（202），それらの形態素解析結果を構
文解析Ｉ部20へ出力する（210）。

辞書引きの結果、ステップ204にてエントリが存在しな
いと、その要素が大文字で始まるものであれば（21
2），辞書未登録の固有名詞であると認定し、直前判定
部112および固有名詞処理部118にて辞書未登録固有名詞
の処理213を行なう。最初の文字が大文字でないと、こ
れは辞書18に登録されていない語であるから、未登録語
としてこれを辞書情報保存テーブル124に保存する（21
4）。これを最終位置まで実行する（202）。

辞書登録固有名詞の処理207は、第５図に示すような処
理フローで処理部110,114,116,118にて行なわれる。ま
ず、得られた辞書情報に含まれる位置情報を参照し（22
0），それがパターン「０」を示していればパターン０
の固有名詞処理221を、パターン「１」を示していれば
パターン１の固有名詞処理222を、パターン「２」また
は「３」を示していればパターン2,3の固有名詞処理223
をそれぞれ実行する。

パターン０の固有名詞処理221は処理部114にて実行され
る。この情報は、位置の限定を有さない固有名詞に適用
される。まず、問題とする辞書引き単位の直前が未登録
固有名詞であると（230），全体を固有名詞位置情報pos
が「１」である固有名詞としてまとめあげ、辞書情報保
存テーブル124に格納する（233）。また、直前が位置情
報posが「１」の固有名詞であるときも（231）同様であ
る。

直前が位置情報「０」の固有名詞であると（232），全
体を位置情報「０」の固有名詞としてまとめあげ、辞書
情報保存テーブル124に格納する（235）。また、直前が
位置情報「０」の固有名詞でないと、全体を位置情報
「０」の固有名詞として単独で辞書情報保存テーブル12
4に格納する（234）。

パターン１の固有名詞処理222は次のようにして行な
う。この処理は、たとえば“Mr."などのように、単一の
固有名詞、または複数の固有名詞の連続として１つにま
とまった固有名詞の先頭に位置する固有名詞に適用され
る。まず、問題とする辞書引き単位の直前が未登録固有
名詞であると（240），この語を未登録に変える（24
1）。未登録固有名詞でなければ、位置情報posが「１」
の固有名詞として単独で辞書情報保存テーブル124に格
納する（242）。

第８図を参照して、パターン2,3の固有名詞処理223を説
明する。この処理は、たとえば“Station"や“Riverな
どのように、単一の固有名詞、または複数の固有名詞の
連続として１つにまとまった固有名詞の末尾に位置する
固有名詞に適用される。まず、問題とする辞書引き単位
の直前が未登録固有名詞であると（250），直前の語と
ともに全体を自己のもつ固有名詞位置情報pos-selfを固
有名詞位置情報posとする固有名詞としてまとめあげ、
辞書情報保存テーブル124に格納する（255）。また、直
前が位置情報「１」の固有名詞であるときも（251）同
様である。

直前が位置情報「０」の固有名詞でないと（252），そ
れ単独で自己のもつ固有名詞位置情報pos-selfを固有名
詞位置情報とする固有名詞としてまとめあげ、辞書情報
保存テーブル124に格納する（257）。

ステップ252にて、直前が位置情報「０」の固有名詞で
あると、自己のもつ固有名詞位置情報pos-selfをチェッ
クし（253），それがパターン「２」であれば処理255を
行なう。自己のもつ固有名詞位置情報pos-selfがパター
ン「３」であれば、さらに１辞書引き単位前の要素が
“the"であるか否かをチェックする。これが定冠詞“th
e"でなければ処理255を行なう。これが“the"である
と、“the"から自分自身までの要素を固有名詞位置情報
が「３」の固有名詞としてまとめあげ、辞書情報保存テ
ーブル124に格納する（256）。

大文字で開始する語で一応辞書検索203を行なった結
果、参照辞書18からエントリが得られず一応未登録語と
認められた語については、ステップ204および212を経て
処理213へ移行し、直前文末判定部112にて同処理213が
実行される。まず、問題とする辞書引き単位の直前が文
末候補でなければ、前述したパターン０の固有名詞処理
221を処理部118に実行させる。

直前が文末の候補となり得るものは、次の４つの場合で
ある。第１に単独のピリオド“."がある場合である。次
に、直前のエントリがピリオドを最後に有するもので、
固有名詞の位置情報が「１」でないものである。これに
は、たとえば略語“U.S.A."などが該当する。さらに、
コロン“:"セミコロン“;"ピリオドとアポストロフィの
連続“.'"およびピリオドと引用符の連続“.'"などの場
合がある。最後に、入力文字列バッファの先頭の場合で
ある。

これら４通りのいずれかであると、直前の文末候補を文
末と認定し（261），その語の大文字を小文字に変換し
てから辞書検索を行なう（262）。検索の結果、辞書エ
ントリが得られると（263），辞書保存テーブル264にこ
れを記録する（264）。そうでない場合は、未登録固有
名詞としてその先頭文字が大文字のまま辞書保存テーブ
ル264にこれを記録する（265）。

例をあげて説明する。たとえば、入力文字列“Along th
e Sumida River Paul and Mr.Gold Smith went…”につ
いて辞書引きを行なうと、まず第10A図に示すような辞
書エントリ情報が辞書情報保存テーブル124に書き込ま
れる。たとえば、“the"については、この文における開
始位置が「７」であり、終了が「９」であり、品詞は冠
詞である。この入力文字列の先頭の語“Along"は一応の
辞書引き203でエントリが得られず、未登録と判断され
る。しかし、入力バッファの先頭という直前が文末候補
である条件に該当するので（260），先頭の大文字“A"
を小文字に変換し、“along"にて辞書検索262を行な
う。

こうしてポインタをインクリメントし、“Sumida"の処
理に移行する。これはこの例では辞書18に登録されてい
ない。その直前は文末候補でないので、パターン０の固
有名詞処理221に移行する。第10A図に示すように、その
品詞は固有名詞、固有名詞位置情報は「０」が索出され
る。

次の辞書引き単位“River"は固有名詞位置情報が「３」
の固有名詞である。その直前は位置情報が「０」の固有
名詞であり、さらにその前は“the"である。そこでステ
ップ250〜254を経て“the Sumida River"を単一の固有
名詞としてまとめあげ、固有名詞位置情報「３」として
辞書情報保存テーブル124に格納する（第10B図）。

次の辞書引き単位“Paul"は、固有名詞位置情報が
「０」の未登録固有名詞であり、処理213が実行され
る。その直前の語は固有名詞ではあるがその位置情報が
「３」であるので、これとともにまとめあげる処理はな
されない。そのまま辞書情報がテーブル124に蓄積され
る（第10C図）。これに続く接続詞“and"には通常の処
理が適用される。

次の語“Mr."は位置情報「１」の固有名詞であり、その
まま辞書情報保存テーブル124に蓄積される（第10D
図）。仮りにその直前が固有名詞“Paul"であったとし
ても、“Mr."の直前に語の切れ目が存在するので、その
まま辞書情報保存テーブル124に保存してよい。

さらに、語“Gold"は辞書未登録の固有名詞であり、処
理213がこれに実行される。その直前の語“Mr."が位置
情報「１」であるので、両者をまとめ、全体を位置情報
が「１」の固有名詞とする（第10E図）。次の語“Smit
h"についても同様である（第10F図）。その後の“went"
は、動詞の過去形であり、以下通常の解析が行なわれ
る。

このように本実施例では、単一の固有名詞としてまとめ
あげた固有名詞連の一部を構成し固有名詞としてまとま
ったときの位置に制約のある語をキーとして固有名詞の
まとめあげを行なっている。これにより、複数の固有名
詞が連続した場合でも、単純にそれらをひとまとまりの
固有名詞連として誤ってまとめあげることはなく、文脈
に適って適切なまとめあげが行なわれる。前述の例で
は、“the Sumida River"がその語の“Paul"と分離して
ひとまとまりの固有名詞として解析された。また、“M
r.Gold Smith"もひとまとまりの固有名詞として解析さ
れた。

効果本発明によれば、形態素解析の際、単一の固有名詞とし
てまとめあげた固有名詞連の一部を構成し固有名詞とし
てまとまったときの位置に制約のある語をキーとして固
有名詞のまとめあげを行なっている。これにより、複数
の固有名詞が連続した場合でも、文脈に応じた適切なま
とめあげが行なわれる。したがって、固有名詞を含む表
現について適切な形態素解析を行なうことができる。

【図面の簡単な説明】

第１図は、第２図に示す実施例の形態素解析部の詳細な
構成例を示す機能ブロック図、第２図は本発明による言語解析装置を英日自動翻訳装置
に適用した実施例の全体構成を示す機能ブロック図、第３図は、第１図に示す実施例における辞書ファイルの
構成例を示す説明図、第４図は同実施例における固有名詞についての形態素解
析処理を示すフロー図、第５図は形態素解析処理における辞書登録固有名詞のま
とめあげ処理の例を示すフロー図、第６図、第７図および第８図は、固有名詞の解析処理に
おける固有名詞位置情報に応じた処理の例を示すフロー
図、第９図は形態素解析処理における辞書未登録固有名詞の
まとめあげ処理の例を示すフロー図、第10A図ないし第10F図は、入力文字列の例について辞書
引きした辞書情報保存テーブルの内容を処理の段階に応
じて示す説明図である。主要部分の符号の説明 16……形態素解析部 18……辞書 104……辞書検索部 110……位置情報処理部 112……直前文末判定部 114……固有名詞処理部 124……辞書情報保存テーブル

Claims

【特許請求の範囲】

【請求項１】辞書引き単位ごとに辞書データが格納され
た辞書手段と、入力された文を辞書引き単位に分け、該辞書引き単位に
ついて該辞書手段を参照して形態素解析を行なう解析手
段とを有する言語解析装置において、前記辞書手段は、固有名詞を意味する辞書引き単位につ
いて、複数の固有名詞が連続した固有名詞連において許
容される位置を規定する識別情報を前記辞書データとし
て含み、前記解析手段は、入力された文に含まれるそれぞれの辞
書引き単位について前記辞書手段を参照し、索出された
辞書データに前記識別情報が含まれるときは、該識別情
報の規定する位置に従って該識別情報が索出された辞書
引き単位を該辞書引き単位に隣接する他の固有名詞を意
味する辞書引き単位と組み合わせて単一の解析単位とす
ることを特徴とする言語解析装置。