JPH09198386A

JPH09198386A - 日本語処理システム

Info

Publication number: JPH09198386A
Application number: JP8007960A
Authority: JP
Inventors: Takesuke Hiraoka; 丈介平岡
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1996-01-22
Filing date: 1996-01-22
Publication date: 1997-07-31

Abstract

(57)【要約】【課題】構文解析で生成される構文木に意味関係の評
価点を与え、評価点の高い構文木を残す構文・意味解析
では曖昧性の削減が不十分で無駄な処理が残る。【解決手段】入力される日本語を形態素解析し（Ｓ
１）、この解析結果から局所的な単語データを用いた意
味解析を行って意味関係と減点値の結果を得ておき（Ｓ
６）、形態素解析結果からの構文解析による構文木生成
処理（Ｓ２）において減点値を参照してその評価点を参
照（Ｓ４）した意味解析処理を行い（Ｓ３）、評価点が
設定されるしきい値より低くなる構文木を削除し（Ｓ
２）、評価点の高い構文木を選択することを特徴とする
（Ｓ５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語を入力とし
その構文構造や意味内容を解析することによって何らか
の仕事を実行する日本語処理システムの解析アルゴリズ
ムの中で、単語同士の係り受けの妥当性を判断する意味
解析処理方式に関する。

【０００２】

【従来の技術】一般に、日本語解析は、まず解析対象と
なる文章を形態素単位（語構成の最小単位）に区切り、
それぞれの形態素がもつ性質を明らかにする形態素解析
を行う。この後、自然言語の統語規則から解析する構文
解析、続いて曖昧性や漠然性を取り除く意味解析、文脈
解析を行う。

【０００３】構文解析には、形態素解析された文を文法
を用いて正しい文であるか否かを判定し、正しい文のと
きはその構文解析結果として木構造（解析木）を得る。
この木構造を作成する構文解析アルゴリズムには、文か
ら単語へ向かう探索を行うトップダウン型と、単語から
文へ向かうボトムアップ型がある。

【０００４】また、構文解析のある段階で次に作り出す
部分木構造に複数の可能性があるときにそれらの各構造
を同時並列的に作る横型（パラレル型）と、１つだけを
選んで探索する縦型（シリアル型）がある。

【０００５】一般に、構文解析処理では、文法的な適合
性のみに着目しているため、構文的な曖昧性が発生し、
多くの解析木が生成されてしまう。この中から、正しい
解析木を選択するために、意味解析処理を行う。

【０００６】意味解析処理では、単語の文法カテゴリ
（品詞に相当）だけでなく、その意味的な情報を利用す
るものであり、意味的に不適当な係受けをチェックし、
誤った構文木を削除するという方法がとられている。

【０００７】しかしながら、自然言語文を対象としたと
き、このような二者択一的な処理だけでは正しい構文木
を１つだけ選択することは困難であるため、評価点方式
が用いられている。

【０００８】この方法は、構文木に評価点を与え、構文
的または意味的なチェックに掛かる構文木の評価点を減
点していき、最終的に残った構文木の中から評価点の高
いものを選択する方法である。

【０００９】しかし、評価点の低い構文木も解析すると
探索空間が広くなり過ぎ、解析効率が落ちるため、構文
木の意味的な適合性の判定にしきい値を設け、このしき
い値よりも低くなった構文木を削除する方法が採られ
る。

【００１０】図３には、構文解析アルゴリズムに評価点
を加味した処理を示し、形態素解析（Ｓ１）に次いで構
文木の生成処理（Ｓ２）を行う過程において、単語と単
語の係受けが発生した時点で評価点計算処理（Ｓ３）を
含む意味解析処理（Ｓ４）を実行し、これら処理を１つ
の文の全ての単語を読み込むまで繰り返し、評価点の最
も大きい構文木を選択する（Ｓ５）。

【００１１】ここで、意味解析処理（Ｓ４）は、当該単
語の係受けが意味的に適合性があるか否かを判定し、こ
の判定で適合性があると判断されればそのままにして構
文木を成長させていき、意味的に不適当な係受けである
と判断された場合には意味チェックの類別に応じて評価
点を減点し、この構文木の評価点がしきい値よりも低く
なるときには当該構文木を削除し、構文木が多大になる
のを抑制する。しきい値は、形態素解析された結果の単
語数を調べて計算しておく。

【００１２】

【発明が解決しようとする課題】従来の評価点を用いた
意味解析処理は構文木生成の過程において、単語と単語
の係受けが発生した時点で実行される。係受けの意味的
な適合性をチェックし、その妥当性の程度に応じて評価
点を減点し、構文木の成長を続けていく。評価点があら
かじめ設定されたしきい値より低くなると、その時点で
その構文木を削除する。

【００１３】この処理の特徴は、係受けの当事者となる
当該単語のみに着目し、その前後の単語の意味情報につ
いては参照しないということである。また当該構文木以
外に、どのような構文木が生成されているかという情報
は一切参照しない。つまり、局所的な処理を行っている
と言える。

【００１４】このように意味解析は構文解析の進行に伴
う形で行われ、かつ局所的に実行されるという特徴があ
るため、次のような二つの欠点を持つ。

【００１５】一つは全く同一の処理を構文木の数だけ行
う場合が生じ、構文木が増えるに従って無駄な処理に大
きな負担を掛けることになる。

【００１６】二つ目は複数の係り受け候補同士の比較が
出来ないため曖昧性の削減が不十分になることである。

【００１７】例えば「…したＡのＢが問題である」とい
う様な文例があるとき、（１）「（（…したＡ）のＢ）が問題である」（２）「（…した（ＡのＢ））が問題である」という二通りの係り受けができる。そしてここでは次の
三通りの連体修飾の意味解析が行われる。

【００１８】（３）「…した」＋「Ａ」（１）の場合（４）「…した」＋「Ｂ」（２）の場合（５）「Ａ」＋「Ｂ」（１），（２）に共通ここで、もし「…」の部分でｎ通りの構文曖昧性がある
とすれば、それぞれの意味解析が独立にｎ回ずつ行われ
ることになる。つまり（１）で２ｎ回、（２）で２ｎ
回、全体で４ｎ回である。次に（３）と（４）の解析で
どちらも妥当な解釈があった場合、人間には「…したＡ
のＢ」という全体を見ることによってどちらかが正解か
判断できるが、現状の処理では（１），（２）のどちら
が正解であるかということは機械には判定できない。

【００１９】本発明の目的は、構文・意味解析の処理効
率を向上させた日本語処理システムを提供することにあ
る。

【００２０】

【課題を解決するための手段】本発明は、入力される日
本語を形態素解析し、この解析結果から局所的な単語デ
ータを用いた意味解析を行って意味関係と減点値の結果
を得ておき、前記形態素解析結果からの構文解析により
生成される構文木について前記減点値を参照してその評
価点を用いた意味解析処理を行い、評価点が設定される
しきい値より低くなる構文木を削除し、評価点の高い構
文木を選択することを特徴とする。

【００２１】

【発明の実施の形態】図１は、本発明の実施形態を示す
処理手順である。本実施形態では、従来方式の欠点を改
善するために、前処理として局所的な意味解析処理を実
行する（Ｓ６）。つまり構文解析処理を実行する前に部
分的に意味解析処理を実行しその結果を保存しておく。
当然、引き数として構文解析処理に渡してもよい。

【００２２】そして、構文解析処理の段階で構文木が生
成されていくとき、随時その結果を参照して構文木の評
価点に反映させる。

【００２３】前記の例文であれば（３），（４），
（５）の意味解析を一回ずつ行い、全部で３回の処理で
済ませることができる。また（３），（４）のように複
数の係り先候補があるときはこの時点で出来るだけそれ
らの間の比較処理を行って順位付けをし、評価点の減点
値を相対的な値として設定しておく。以下、連用又は連
体修飾別に具体的に説明する。

【００２４】（１）名詞による連体修飾入力単語列を「…，Ｎ₀，の，…，Ｎ₁，…，Ｎ₂，…，
Ｎ_m，…」とする。Ｎ₀およびＮ_i（ｉ＝１，２，…，
ｍ）は名詞である。「の」は連体修飾を表現する助詞
「の」である。このような並びがあったときＮ₀の修飾
先はＮ₁，…，Ｎ_mのｍ個の名詞のどれかである。そこで
ｍ個の局所的な意味解析処理「Ｎ₀のＮ₁」〜「Ｎ₀の
Ｎ_m」を行いそれぞれの評価を行う。

【００２５】解析の結果として意味関係を表すデータＳ
Ｒ（ＳｅｍａｍｔｉｃＲｅｌａｔｉｏｎ）と解釈の妥
当性に応じて順位付けられた順番が得られる。そのため
には意味解釈は各々の解釈処理の間で順序関係が与えら
れているものとする。この順位に応じて評価点の減点値
Ｐｉが与えられる。例えば最も妥当性が高いものは減点
値を０、最も妥当性の低いものは減点値を１０とする。
その中間の係り受けのペアは中間の値を持つとする。こ
のようにして［Ｎ₀，Ｎ₁］−＞ＳＲ₁／Ｐ₁ ［Ｎ₀，Ｎ_m］−＞ＳＲ_m／Ｐ_m という係り受けとその意味関係、減点値のデータが得ら
れる。

【００２６】構文解析を実行し連体修飾の構文木「…
（（…，Ｎ₀），の，（…，Ｎ_i））…」が生成される時
点で先ほど保存したデータ「Ｎ₀，Ｎ_i」−＞ＳＲ_i／Ｐ_i
を参照してＰ_iを得るので、その構文木の評価点をＰ_i点
だけ減点する。

【００２７】意味解釈は例えば、専門的領域知識、名詞
の意味素性、シソーラスコードといった情報を用意して
おき、修飾名詞と被修飾名詞にどのような情報の組み合
わせの語が来るかによって行われる。順位付けは一般に
意味関係の種別によって与える方法が考えられる。

【００２８】（２）形容詞による連体修飾入力単語列を「…，Ａ，…，Ｎ₁，…，Ｎ₂，…，Ｎ_m，
…」とする。Ｎ_i（ｉ＝１，２，…，ｍ）は名詞を表
す。Ａは連体形で現れた形容詞である。この場合も構文
の曖昧性が組み合わせ的に発生する。連体修飾「Ａ」＋
「Ｎ_i」の意味解析を実行させて妥当なものとそうでな
いもの、あるいは妥当姓の順位付けを行う。そのために
はどのような形容詞によってどのようなシソーラスコー
ドの名詞が連体修飾を受け易いかという知識情報を記述
しておく。

【００２９】つまり［形容詞，シソーラスコード］のペ
アデータを用意しておき、出現した形容詞Ａに対応する
シソーラスコードと出現した名詞Ｎ_iのシソーラスコー
ドとのマッチングを行い、その一致度でＮ₁〜Ｎ_mの名詞
に順位付けすることができる。その順位にしたがって減
点値Ｐ_iを設定し次のようなデータを作成・保存し、前
記の例と同様の処理をする。

【００３０】［Ａ，Ｎ_i］−＞Ｓｅｍ_i／Ｐ_i （Ｓｅｍ_i
は意味関係を表す記号）（３）格要素による連用修飾入力単語列を「…，ＮＣ_i，…，Ｖ_k，…，ＮＣ_m，…，
Ｖ_n，…」とする。ＮＣ_iは名詞と格助詞が連続して現れ
たものを表す（ｉ＝１，２，…，ｍ）。Ｖ_kは動詞を表
す（ｋ＝１，２，…ｎ）。ＮＣとＶが現れる数や順序は
一般にあらゆる組み合わせがありうる。上記の例は全体
でＮＣがｍ個、Ｖがｎ個出現している例である。

【００３１】構文曖昧性は任意個のＮＣが一つのＶに係
る場合の組み合わせの数だけ発生し、意味解析処理（一
般には動詞の結合価と名詞の意味素性のマッチングを予
定している）もそれらの係り受けのパターンに対して行
わなければならない。従ってこのときは次のようなアル
ゴリズムで処理を行う。

【００３２】１．単語列の最後から順にＶが出現するま
で見ていきＶ_nを見つける。

【００３３】２．着目動詞Ｖｎが現れるとＶ_nの結合価
データを参照し、Ｖ_nより前方の単語列データで最初に
現れるＮＣを着目格要素として処理Ａ（以下に詳述）を
実行する。

【００３４】３．着目しているＶ_k（一回目はｋ＝ｎ）
から前方へ次にＶ_k-1が現れるまで見ていく。

【００３５】４．Ｖ_k-1が見つかったら処理２へ行く。
Ｖ_k-1が見つからなかったら終了する。結合価でータＣ
ａｓｅＶａｌｕｅは次のような構造をしている。

【００３６】ＣａｓｅＶａｌｕｅ＝Ｖｅｒｂ（［Ｃ
₁₁（Ｓ₁₁），…，Ｃ_1n1（Ｓ_1n1）］，［Ｃ₂₁（Ｓ₂₁），
…，Ｃ_2n2（Ｓ_2n2）］，…，Ｃ_ab（Ｓ_ab），…［Ｃ
_m1（Ｓ_m1），…，Ｃ_mnm（Ｓ_mnm）］）Ｖｅｒｂは動詞の表記、Ｃは格助詞（の表記）、Ｓは意
味素性のリストである。各行が結合価の一つのパターン
を表す。ｍはこの動詞が持つ結合価パターンの数に相当
し、ｎ_aはａ行目のパターンに含まれる格助詞の個数に
あたる。つまりＣ_ab（Ｓ_ab）はａ行目のパターンのｂ番
目にある格助詞と意味素性である。

【００３７】次に，前記の処理Ａについて説明する。処
理Ａは着目しているＮＣ_iから左側に次にＶが現れるま
での間の全てのＮＣ_iを対象とした処理であり、Ｃａｓ
ｅＶａｌｕｅに対するＮＣの結合価チェックを累積的に
行う。

【００３８】今、着目している動詞をＶｋとし着目して
いる時点で動詞が持っている結合価データをＣａｓｅＶ
ａｌｕｅｋとする。ＮＣ_iに対して次のような結合価の
マッチング処理を実行する。各結合価パターン（Ｃａｓ
ｅＶａｌｕｅの行）のうち、チェックＯＫのもの（ＮＣ
_iの名詞の意味素性と格助詞がＣ_ab（Ｓ_ab）に一致す
る）が含まれる行を残し、チェックＯＫを含まない行は
削除する。

【００３９】また、チェックＯＫの場合もマッチングし
たＣ_ab（Ｓ_ab）は除いて新しいＣａｓｅＶａｌｕｅｋデ
ータに書き換える。この時点で全ての行が削除されたと
きは、結合価チェック失敗として次のようなデータの組
を保存する。

【００４０】［Ｖ_k，［ＮＣ_i］］−＞ｆａｉｌこの処理を次のＶｋ_-1が現れるまで繰り返す。例えば、
ＮＣ_i-1でチェックＯＫが残ったがＮＣ_i-2でチェックＯ
Ｋの結合価パターンが残らなかった場合は次のようなデ
ータの組を保存する。

【００４１】［Ｖｋ，［ＮＣｉ，ＮＣｉ_-1］］−＞［Ｃ
ａｓｅｉ／Ｐｉ，Ｃａｓｅｉ_-1／Ｐｉ_-1］［Ｖｋ，［ＮＣｉ，ＮＣｉ_-1，ＮＣｉ_-2］］−＞ｆａｉ
ｌここで、Ｃａｓｅｉは何らかの方式によって決定した格
要素ＮＣ_iの格の意味関係を表す記号である。Ｐ_iは評価
点の減点値である。

【００４２】Ｖ_k-1が現れるとその時点で残っている結
合価パターンをＣａｓｅＶａｌｕｅｋ_k-1として保存
し、Ｖ_k-1とＶ_k-2の間にあるＮＣ_i’について処理Ｂ
（以下に記述）を進める。処理Ｂが終了すると処理Ａも
終了させる。

【００４３】次に処理Ｂについて説明する。まず着目す
るＮＣ_i’を対象にした処理Ａを行う。全てのＮＣ_i’の
処理が終わると最初のＮＣ_i’を飛ばして残りのＮＣ_i’
を対象にして処理Ａを行う。これは最初のＮＣ_i’の係
り先がＶ_k-1であってＶ_kでない場合を考慮するためであ
る。以下対象となるＮＣ_i’がなくなるまで処理Ａを繰
り返して処理Ｂを終了する。

【００４４】例えば、文例「…，ＮＣ₁，…，ＮＣ₂，
…，Ｖ₁，…，ＮＣ₃，…，ＮＣ₄，…，ＮＣ₅，…，
Ｖ₂，…，ＮＣ₆，…，ＮＣ₇，…，Ｖ₃，…」の場合を考
えると動詞Ｖ₃の持つ結合価に対してチェックの対象と
なる格要素の組み合わせは図２のように２０通りある。
ただし、実際の結合価パターンが含む格助詞の数は高々
４〜５以下であるからこのようには多くならない。

【００４５】評価点の減点値Ｐ_iの求め方について述べ
る。結合価として持つ意味素性データはｈｕｍ（人
間）、ｃｏｎ（具象物）、ａｂｓ（抽象物）、ｔｉｍ
（時間）、ｌｏｃ（場所）などの記号であり、これら一
般に数種類から数十種類程度設定される。また、これら
は上位下位関係によって階層的な関係を持つものとして
設定される。そこで結合価データＣ_ab（Ｓ_ab）と格要素
データＮＣ_iのマッチングの度合として以下のような順
位（レベル）と係り受け順位計算のためのマイナス点を
考える。

【００４６】レベル１．格助詞、意味素性が共に一致
（マイナス点０）レベル２．格助詞は一致、（マイナス点１）意味素性は結合価が上位、名詞が下位の階層関係で一致レベル３．格助詞は一致、意味素性は一致しない（マイ
ナス点２）レベル４．格助詞が一致しない（マイナス点３）全てのＮＣがレベル１でマッチングしたものがマイナス
点０で最も高いマッチング度であり、以下同様に設定す
る。

【００４７】例えば「…，ＮＣ₁，ＮＣ₂，Ｖ₁，ＮＣ₃，
ＮＣ₄，Ｖ₂…」という文例でＶ₂を着目動詞とする。
今、結合価チェックの結果、ＮＣ₁＝レベル２、ＮＣ₂＝
レベル３、ＮＣ₃＝レベル２、ＮＣ₄＝レベル１、となっ
たとするとＶとＮＣの係り受けパターンと順位および評
価点の減点価Ｐ_iは次の表のようになる。

【００４８】

【表１】

【００４９】（４）動詞による連体修飾入力単語例を「…，Ｖ，…，Ｎ₁，…，Ｎ₂，…，Ｎ_m，
…」とする。Ｖは連体形で現れた動詞であり、Ｎ_iは名
詞である（ｉ＝１，２，…ｍ）。構文の曖昧性は形容詞
による連体修飾と同様に「Ｖ」＋「Ｎ_i」の組み合わせ
で発生する。

【００５０】連体修飾の意味解析は、動詞Ｖが持つ結合
価と名詞Ｎ_iのマッチング（内接修飾と呼ぶ）とそれ以
外の場合（結合価の如何かかわらず連体修飾が成立する
もの。外修飾と呼ぶ）について行われる。

【００５１】結合価はその動詞が受ける連用修飾（格要
素）によって使用されたものを除いた残りで行わなけれ
ばならないので、前記の格要素による連用修飾の処理の
中から呼び出す形で記述する。この例において、着目動
詞をＶとしてあるＮＣとの結合価チェックが行われこれ
が成功したとき次のような処理を行う。

【００５２】結合価チェックの結果書き換えられたＣａ
ｓｅＶａｌｕｅと名詞Ｎ_iのマッチングを行う（内接修
飾）。これに成功すればＯＫ。これに失敗したら外接修
飾のチェックを行う。外接修飾は一般に被修飾名詞に専
用の意味情報をふっておきこれを用いて判断する。そし
てこれに成功すればＯＫ。失敗したらｆａｉｌである。
成功したときと失敗したときでそれぞれ次のようなデー
タを作成し保存する。

【００５３】［［ＮＣ］，Ｖ，Ｎ_i］−＞［Ｃａｓｅ_i／Ｐ_i ［［ＮＣ］，Ｖ，Ｎ_i］−＞ｆａｉｌここで、Ｃａｓｅ_iは何らかの方式によって決定した名
詞Ｎ_iの動詞Ｖに対する格の意味関係を表す記号、また
は外接修飾を意味する記号であり、Ｐ_iは評価点の減点
値である。Ｐ_iは内接修飾の場合は前記の格要素による
連用修飾の例に記述したレベルを用いて順位付けをして
求める。また外接修飾で成功した場合はレベル１として
処理する。

【００５４】

【発明の効果】以上のとおり、本発明によれば、構文解
析処理を実行する前に部分的に意味解析処理を実行しそ
の結果を保存しておき、構文解析処理の段階で構文木が
生成されていくとき、随時その結果を参照して構文木の
評価点に反映させるようにしたため、以下の効果があ
る。

【００５５】（１）構文の曖昧性の発生に伴い、意味解
析処理で繰り返して同一の処理が行われるのを回避する
ことにより処理効率が向上する。

【００５６】（２）複数の係り先を持つ語について、ど
の係り先が適当か、比較処理を行い、その結果を評価点
に反映させることで、正解の構文木を高い評価点で生成
させることができるので、正しい構文木を選択する率が
向上する。

【図面の簡単な説明】

【図１】本発明の実施形態を示す処理手順。

【図２】実施形態における格要素の組合わせ例。

【図３】従来の処理手順。

Claims

【特許請求の範囲】

【請求項１】入力される日本語を形態素解析し、この
解析結果から局所的な単語データを用いた意味解析を行
って意味関係と減点値の結果を得ておき、前記形態素解
析結果からの構文解析により生成される構文木について
前記減点値を参照してその評価点を用いた意味解析処理
を行い、評価点が設定されるしきい値より低くなる構文
木を削除し、評価点の高い構文木を選択することを特徴
とする日本語処理システム。