JPH09198386A - 日本語処理システム - Google Patents

日本語処理システム

Info

Publication number
JPH09198386A
JPH09198386A JP8007960A JP796096A JPH09198386A JP H09198386 A JPH09198386 A JP H09198386A JP 8007960 A JP8007960 A JP 8007960A JP 796096 A JP796096 A JP 796096A JP H09198386 A JPH09198386 A JP H09198386A
Authority
JP
Japan
Prior art keywords
semantic
syntax
analysis
syntax tree
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8007960A
Other languages
English (en)
Inventor
Takesuke Hiraoka
丈介 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP8007960A priority Critical patent/JPH09198386A/ja
Publication of JPH09198386A publication Critical patent/JPH09198386A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 構文解析で生成される構文木に意味関係の評
価点を与え、評価点の高い構文木を残す構文・意味解析
では曖昧性の削減が不十分で無駄な処理が残る。 【解決手段】 入力される日本語を形態素解析し(S
1)、この解析結果から局所的な単語データを用いた意
味解析を行って意味関係と減点値の結果を得ておき(S
6)、形態素解析結果からの構文解析による構文木生成
処理(S2)において減点値を参照してその評価点を参
照(S4)した意味解析処理を行い(S3)、評価点が
設定されるしきい値より低くなる構文木を削除し(S
2)、評価点の高い構文木を選択することを特徴とする
(S5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語を入力とし
その構文構造や意味内容を解析することによって何らか
の仕事を実行する日本語処理システムの解析アルゴリズ
ムの中で、単語同士の係り受けの妥当性を判断する意味
解析処理方式に関する。
【0002】
【従来の技術】一般に、日本語解析は、まず解析対象と
なる文章を形態素単位(語構成の最小単位)に区切り、
それぞれの形態素がもつ性質を明らかにする形態素解析
を行う。この後、自然言語の統語規則から解析する構文
解析、続いて曖昧性や漠然性を取り除く意味解析、文脈
解析を行う。
【0003】構文解析には、形態素解析された文を文法
を用いて正しい文であるか否かを判定し、正しい文のと
きはその構文解析結果として木構造(解析木)を得る。
この木構造を作成する構文解析アルゴリズムには、文か
ら単語へ向かう探索を行うトップダウン型と、単語から
文へ向かうボトムアップ型がある。
【0004】また、構文解析のある段階で次に作り出す
部分木構造に複数の可能性があるときにそれらの各構造
を同時並列的に作る横型(パラレル型)と、1つだけを
選んで探索する縦型(シリアル型)がある。
【0005】一般に、構文解析処理では、文法的な適合
性のみに着目しているため、構文的な曖昧性が発生し、
多くの解析木が生成されてしまう。この中から、正しい
解析木を選択するために、意味解析処理を行う。
【0006】意味解析処理では、単語の文法カテゴリ
(品詞に相当)だけでなく、その意味的な情報を利用す
るものであり、意味的に不適当な係受けをチェックし、
誤った構文木を削除するという方法がとられている。
【0007】しかしながら、自然言語文を対象としたと
き、このような二者択一的な処理だけでは正しい構文木
を1つだけ選択することは困難であるため、評価点方式
が用いられている。
【0008】この方法は、構文木に評価点を与え、構文
的または意味的なチェックに掛かる構文木の評価点を減
点していき、最終的に残った構文木の中から評価点の高
いものを選択する方法である。
【0009】しかし、評価点の低い構文木も解析すると
探索空間が広くなり過ぎ、解析効率が落ちるため、構文
木の意味的な適合性の判定にしきい値を設け、このしき
い値よりも低くなった構文木を削除する方法が採られ
る。
【0010】図3には、構文解析アルゴリズムに評価点
を加味した処理を示し、形態素解析(S1)に次いで構
文木の生成処理(S2)を行う過程において、単語と単
語の係受けが発生した時点で評価点計算処理(S3)を
含む意味解析処理(S4)を実行し、これら処理を1つ
の文の全ての単語を読み込むまで繰り返し、評価点の最
も大きい構文木を選択する(S5)。
【0011】ここで、意味解析処理(S4)は、当該単
語の係受けが意味的に適合性があるか否かを判定し、こ
の判定で適合性があると判断されればそのままにして構
文木を成長させていき、意味的に不適当な係受けである
と判断された場合には意味チェックの類別に応じて評価
点を減点し、この構文木の評価点がしきい値よりも低く
なるときには当該構文木を削除し、構文木が多大になる
のを抑制する。しきい値は、形態素解析された結果の単
語数を調べて計算しておく。
【0012】
【発明が解決しようとする課題】従来の評価点を用いた
意味解析処理は構文木生成の過程において、単語と単語
の係受けが発生した時点で実行される。係受けの意味的
な適合性をチェックし、その妥当性の程度に応じて評価
点を減点し、構文木の成長を続けていく。評価点があら
かじめ設定されたしきい値より低くなると、その時点で
その構文木を削除する。
【0013】この処理の特徴は、係受けの当事者となる
当該単語のみに着目し、その前後の単語の意味情報につ
いては参照しないということである。また当該構文木以
外に、どのような構文木が生成されているかという情報
は一切参照しない。つまり、局所的な処理を行っている
と言える。
【0014】このように意味解析は構文解析の進行に伴
う形で行われ、かつ局所的に実行されるという特徴があ
るため、次のような二つの欠点を持つ。
【0015】一つは全く同一の処理を構文木の数だけ行
う場合が生じ、構文木が増えるに従って無駄な処理に大
きな負担を掛けることになる。
【0016】二つ目は複数の係り受け候補同士の比較が
出来ないため曖昧性の削減が不十分になることである。
【0017】例えば「…したAのBが問題である」とい
う様な文例があるとき、 (1)「((…したA)のB)が問題である」 (2)「(…した(AのB))が問題である」 という二通りの係り受けができる。そしてここでは次の
三通りの連体修飾の意味解析が行われる。
【0018】(3)「…した」+「A」 (1)の場合 (4)「…した」+「B」 (2)の場合 (5)「A」+「B」 (1),(2)に共通 ここで、もし「…」の部分でn通りの構文曖昧性がある
とすれば、それぞれの意味解析が独立にn回ずつ行われ
ることになる。つまり(1)で2n回、(2)で2n
回、全体で4n回である。次に(3)と(4)の解析で
どちらも妥当な解釈があった場合、人間には「…したA
のB」という全体を見ることによってどちらかが正解か
判断できるが、現状の処理では(1),(2)のどちら
が正解であるかということは機械には判定できない。
【0019】本発明の目的は、構文・意味解析の処理効
率を向上させた日本語処理システムを提供することにあ
る。
【0020】
【課題を解決するための手段】本発明は、入力される日
本語を形態素解析し、この解析結果から局所的な単語デ
ータを用いた意味解析を行って意味関係と減点値の結果
を得ておき、前記形態素解析結果からの構文解析により
生成される構文木について前記減点値を参照してその評
価点を用いた意味解析処理を行い、評価点が設定される
しきい値より低くなる構文木を削除し、評価点の高い構
文木を選択することを特徴とする。
【0021】
【発明の実施の形態】図1は、本発明の実施形態を示す
処理手順である。本実施形態では、従来方式の欠点を改
善するために、前処理として局所的な意味解析処理を実
行する(S6)。つまり構文解析処理を実行する前に部
分的に意味解析処理を実行しその結果を保存しておく。
当然、引き数として構文解析処理に渡してもよい。
【0022】そして、構文解析処理の段階で構文木が生
成されていくとき、随時その結果を参照して構文木の評
価点に反映させる。
【0023】前記の例文であれば(3),(4),
(5)の意味解析を一回ずつ行い、全部で3回の処理で
済ませることができる。また(3),(4)のように複
数の係り先候補があるときはこの時点で出来るだけそれ
らの間の比較処理を行って順位付けをし、評価点の減点
値を相対的な値として設定しておく。以下、連用又は連
体修飾別に具体的に説明する。
【0024】(1)名詞による連体修飾 入力単語列を「…,N0,の,…,N1,…,N2,…,
m,…」とする。N0およびNi(i=1,2,…,
m)は名詞である。「の」は連体修飾を表現する助詞
「の」である。このような並びがあったときN0の修飾
先はN1,…,Nmのm個の名詞のどれかである。そこで
m個の局所的な意味解析処理「N0のN1」〜「N0
m」を行いそれぞれの評価を行う。
【0025】解析の結果として意味関係を表すデータS
R(Semamtic Relation)と解釈の妥
当性に応じて順位付けられた順番が得られる。そのため
には意味解釈は各々の解釈処理の間で順序関係が与えら
れているものとする。この順位に応じて評価点の減点値
Piが与えられる。例えば最も妥当性が高いものは減点
値を0、最も妥当性の低いものは減点値を10とする。
その中間の係り受けのペアは中間の値を持つとする。こ
のようにして [N0,N1]−>SR1/P1 [N0,Nm]−>SRm/Pm という係り受けとその意味関係、減点値のデータが得ら
れる。
【0026】構文解析を実行し連体修飾の構文木「…
((…,N0),の,(…,Ni))…」が生成される時
点で先ほど保存したデータ「N0,Ni」−>SRi/Pi
を参照してPiを得るので、その構文木の評価点をPi
だけ減点する。
【0027】意味解釈は例えば、専門的領域知識、名詞
の意味素性、シソーラスコードといった情報を用意して
おき、修飾名詞と被修飾名詞にどのような情報の組み合
わせの語が来るかによって行われる。順位付けは一般に
意味関係の種別によって与える方法が考えられる。
【0028】(2)形容詞による連体修飾 入力単語列を「…,A,…,N1,…,N2,…,Nm
…」とする。Ni(i=1,2,…,m)は名詞を表
す。Aは連体形で現れた形容詞である。この場合も構文
の曖昧性が組み合わせ的に発生する。連体修飾「A」+
「Ni」の意味解析を実行させて妥当なものとそうでな
いもの、あるいは妥当姓の順位付けを行う。そのために
はどのような形容詞によってどのようなシソーラスコー
ドの名詞が連体修飾を受け易いかという知識情報を記述
しておく。
【0029】つまり[形容詞,シソーラスコード]のペ
アデータを用意しておき、出現した形容詞Aに対応する
シソーラスコードと出現した名詞Niのシソーラスコー
ドとのマッチングを行い、その一致度でN1〜Nmの名詞
に順位付けすることができる。その順位にしたがって減
点値Piを設定し次のようなデータを作成・保存し、前
記の例と同様の処理をする。
【0030】[A,Ni]−>Semi/Pi (Semi
は意味関係を表す記号) (3)格要素による連用修飾 入力単語列を「…,NCi,…,Vk,…,NCm,…,
n,…」とする。NCiは名詞と格助詞が連続して現れ
たものを表す(i=1,2,…,m)。Vkは動詞を表
す(k=1,2,…n)。NCとVが現れる数や順序は
一般にあらゆる組み合わせがありうる。上記の例は全体
でNCがm個、Vがn個出現している例である。
【0031】構文曖昧性は任意個のNCが一つのVに係
る場合の組み合わせの数だけ発生し、意味解析処理(一
般には動詞の結合価と名詞の意味素性のマッチングを予
定している)もそれらの係り受けのパターンに対して行
わなければならない。従ってこのときは次のようなアル
ゴリズムで処理を行う。
【0032】1.単語列の最後から順にVが出現するま
で見ていきVnを見つける。
【0033】2.着目動詞Vnが現れるとVnの結合価
データを参照し、Vnより前方の単語列データで最初に
現れるNCを着目格要素として処理A(以下に詳述)を
実行する。
【0034】3.着目しているVk(一回目はk=n)
から前方へ次にVk-1が現れるまで見ていく。
【0035】4.Vk-1が見つかったら処理2へ行く。
k-1が見つからなかったら終了する。結合価でータC
aseValueは次のような構造をしている。
【0036】CaseValue=Verb([C
11(S11),…,C1n1(S1n1)],[C21(S21),
…,C2n2(S2n2)],…,Cab(Sab),…[C
m1(Sm1),…,Cmnm(Smnm)]) Verbは動詞の表記、Cは格助詞(の表記)、Sは意
味素性のリストである。各行が結合価の一つのパターン
を表す。mはこの動詞が持つ結合価パターンの数に相当
し、naはa行目のパターンに含まれる格助詞の個数に
あたる。つまりCab(Sab)はa行目のパターンのb番
目にある格助詞と意味素性である。
【0037】次に,前記の処理Aについて説明する。処
理Aは着目しているNCiから左側に次にVが現れるま
での間の全てのNCiを対象とした処理であり、Cas
eValueに対するNCの結合価チェックを累積的に
行う。
【0038】今、着目している動詞をVkとし着目して
いる時点で動詞が持っている結合価データをCaseV
aluekとする。NCiに対して次のような結合価の
マッチング処理を実行する。各結合価パターン(Cas
eValueの行)のうち、チェックOKのもの(NC
iの名詞の意味素性と格助詞がCab(Sab)に一致す
る)が含まれる行を残し、チェックOKを含まない行は
削除する。
【0039】また、チェックOKの場合もマッチングし
たCab(Sab)は除いて新しいCaseValuekデ
ータに書き換える。この時点で全ての行が削除されたと
きは、結合価チェック失敗として次のようなデータの組
を保存する。
【0040】[Vk,[NCi]]−>fail この処理を次のVk-1が現れるまで繰り返す。例えば、
NCi-1でチェックOKが残ったがNCi-2でチェックO
Kの結合価パターンが残らなかった場合は次のようなデ
ータの組を保存する。
【0041】[Vk,[NCi,NCi-1]]−>[C
asei/Pi,Casei-1/Pi-1] [Vk,[NCi,NCi-1,NCi-2]]−>fai
l ここで、Caseiは何らかの方式によって決定した格
要素NCiの格の意味関係を表す記号である。Piは評価
点の減点値である。
【0042】Vk-1が現れるとその時点で残っている結
合価パターンをCaseValuekk-1として保存
し、Vk-1とVk-2の間にあるNCi’について処理B
(以下に記述)を進める。処理Bが終了すると処理Aも
終了させる。
【0043】次に処理Bについて説明する。まず着目す
るNCi’を対象にした処理Aを行う。全てのNCi’の
処理が終わると最初のNCi’を飛ばして残りのNCi
を対象にして処理Aを行う。これは最初のNCi’の係
り先がVk-1であってVkでない場合を考慮するためであ
る。以下対象となるNCi’がなくなるまで処理Aを繰
り返して処理Bを終了する。
【0044】例えば、文例「…,NC1,…,NC2
…,V1,…,NC3,…,NC4,…,NC5,…,
2,…,NC6,…,NC7,…,V3,…」の場合を考
えると動詞V3の持つ結合価に対してチェックの対象と
なる格要素の組み合わせは図2のように20通りある。
ただし、実際の結合価パターンが含む格助詞の数は高々
4〜5以下であるからこのようには多くならない。
【0045】評価点の減点値Piの求め方について述べ
る。結合価として持つ意味素性データはhum(人
間)、con(具象物)、abs(抽象物)、tim
(時間)、loc(場所)などの記号であり、これら一
般に数種類から数十種類程度設定される。また、これら
は上位下位関係によって階層的な関係を持つものとして
設定される。そこで結合価データCab(Sab)と格要素
データNCiのマッチングの度合として以下のような順
位(レベル)と係り受け順位計算のためのマイナス点を
考える。
【0046】レベル1.格助詞、意味素性が共に一致
(マイナス点0) レベル2.格助詞は一致、(マイナス点1) 意味素性は結合価が上位、名詞が下位の階層関係で一致 レベル3.格助詞は一致、意味素性は一致しない(マイ
ナス点2) レベル4.格助詞が一致しない(マイナス点3) 全てのNCがレベル1でマッチングしたものがマイナス
点0で最も高いマッチング度であり、以下同様に設定す
る。
【0047】例えば「…,NC1,NC2,V1,NC3
NC4,V2…」という文例でV2を着目動詞とする。
今、結合価チェックの結果、NC1=レベル2、NC2
レベル3、NC3=レベル2、NC4=レベル1、となっ
たとするとVとNCの係り受けパターンと順位および評
価点の減点価Piは次の表のようになる。
【0048】
【表1】
【0049】(4)動詞による連体修飾 入力単語例を「…,V,…,N1,…,N2,…,Nm
…」とする。Vは連体形で現れた動詞であり、Niは名
詞である(i=1,2,…m)。構文の曖昧性は形容詞
による連体修飾と同様に「V」+「Ni」の組み合わせ
で発生する。
【0050】連体修飾の意味解析は、動詞Vが持つ結合
価と名詞Niのマッチング(内接修飾と呼ぶ)とそれ以
外の場合(結合価の如何かかわらず連体修飾が成立する
もの。外修飾と呼ぶ)について行われる。
【0051】結合価はその動詞が受ける連用修飾(格要
素)によって使用されたものを除いた残りで行わなけれ
ばならないので、前記の格要素による連用修飾の処理の
中から呼び出す形で記述する。この例において、着目動
詞をVとしてあるNCとの結合価チェックが行われこれ
が成功したとき次のような処理を行う。
【0052】結合価チェックの結果書き換えられたCa
seValueと名詞Niのマッチングを行う(内接修
飾)。これに成功すればOK。これに失敗したら外接修
飾のチェックを行う。外接修飾は一般に被修飾名詞に専
用の意味情報をふっておきこれを用いて判断する。そし
てこれに成功すればOK。失敗したらfailである。
成功したときと失敗したときでそれぞれ次のようなデー
タを作成し保存する。
【0053】 [[NC],V,Ni]−>[Casei/Pi [[NC],V,Ni]−>fail ここで、Caseiは何らかの方式によって決定した名
詞Niの動詞Vに対する格の意味関係を表す記号、また
は外接修飾を意味する記号であり、Piは評価点の減点
値である。Piは内接修飾の場合は前記の格要素による
連用修飾の例に記述したレベルを用いて順位付けをして
求める。また外接修飾で成功した場合はレベル1として
処理する。
【0054】
【発明の効果】以上のとおり、本発明によれば、構文解
析処理を実行する前に部分的に意味解析処理を実行しそ
の結果を保存しておき、構文解析処理の段階で構文木が
生成されていくとき、随時その結果を参照して構文木の
評価点に反映させるようにしたため、以下の効果があ
る。
【0055】(1)構文の曖昧性の発生に伴い、意味解
析処理で繰り返して同一の処理が行われるのを回避する
ことにより処理効率が向上する。
【0056】(2)複数の係り先を持つ語について、ど
の係り先が適当か、比較処理を行い、その結果を評価点
に反映させることで、正解の構文木を高い評価点で生成
させることができるので、正しい構文木を選択する率が
向上する。
【図面の簡単な説明】
【図1】本発明の実施形態を示す処理手順。
【図2】実施形態における格要素の組合わせ例。
【図3】従来の処理手順。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力される日本語を形態素解析し、この
    解析結果から局所的な単語データを用いた意味解析を行
    って意味関係と減点値の結果を得ておき、前記形態素解
    析結果からの構文解析により生成される構文木について
    前記減点値を参照してその評価点を用いた意味解析処理
    を行い、評価点が設定されるしきい値より低くなる構文
    木を削除し、評価点の高い構文木を選択することを特徴
    とする日本語処理システム。
JP8007960A 1996-01-22 1996-01-22 日本語処理システム Pending JPH09198386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8007960A JPH09198386A (ja) 1996-01-22 1996-01-22 日本語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8007960A JPH09198386A (ja) 1996-01-22 1996-01-22 日本語処理システム

Publications (1)

Publication Number Publication Date
JPH09198386A true JPH09198386A (ja) 1997-07-31

Family

ID=11680060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8007960A Pending JPH09198386A (ja) 1996-01-22 1996-01-22 日本語処理システム

Country Status (1)

Country Link
JP (1) JPH09198386A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301435B2 (en) 2006-02-27 2012-10-30 Nec Corporation Removing ambiguity when analyzing a sentence with a word having multiple meanings

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301435B2 (en) 2006-02-27 2012-10-30 Nec Corporation Removing ambiguity when analyzing a sentence with a word having multiple meanings

Similar Documents

Publication Publication Date Title
US6330530B1 (en) Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
US6778949B2 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US7236925B2 (en) Left-corner chart parsing
JPH0855122A (ja) 文脈タガー
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JPH07200591A (ja) 構文解析装置
JPH09153047A (ja) テキストのトークン分割方法
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
Ali et al. Genetic approach for Arabic part of speech tagging
EP0779578B1 (en) Method and apparatus for parsing unification based grammars using disjunctive lazy copy links
Carroll et al. Probabilistic normalisation and unpacking of packed parse forests for unification-based grammars
Choi et al. Source code summarization using attention-based keyword memory networks
Srinivas et al. An approach to robust partial parsing and evaluation metrics
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
Magerman Parsing as statistical pattern recognition
de Alencar et al. Morphobr: An open source large-coverage full-form lexicon for morphological analysis of portuguese
JPH09198386A (ja) 日本語処理システム
Goldsmith et al. From signatures to finite state automata
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Novák A model of computational morphology and its application to Uralic languages
JP3035261B2 (ja) 日本語構文解析装置
JP3027553B2 (ja) 構文解析装置
WO1999021104A1 (en) Automatically recognizing the discourse structure of a body of text
JPH11259482A (ja) 複合名詞の機械翻訳方式