JPH0789353B2 - 自然言語解析装置 - Google Patents

自然言語解析装置

Info

Publication number
JPH0789353B2
JPH0789353B2 JP5012980A JP1298093A JPH0789353B2 JP H0789353 B2 JPH0789353 B2 JP H0789353B2 JP 5012980 A JP5012980 A JP 5012980A JP 1298093 A JP1298093 A JP 1298093A JP H0789353 B2 JPH0789353 B2 JP H0789353B2
Authority
JP
Japan
Prior art keywords
analysis result
score
analysis
vector
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5012980A
Other languages
English (en)
Other versions
JPH06231165A (ja
Inventor
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5012980A priority Critical patent/JPH0789353B2/ja
Publication of JPH06231165A publication Critical patent/JPH06231165A/ja
Publication of JPH0789353B2 publication Critical patent/JPH0789353B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語の解析装置に関
し、特に複数の部分解を保持しながら解析を進め、優先
度を用いて結果を選択する解析装置に関する。
【0002】
【従来の技術】従来、この種の解析装置は、自然言語の
解析において、解析の途中で発生する複数の統語的/意
味的曖昧性を解消し、適切な最終結果を得ることを目的
として用いられている。人間にとっては意味が一意に決
り、曖昧性がないと思われる文であっても、これを機械
で解析した場合、統語的/意味的に多様な解釈が得られ
るのが普通である。当然ながら、これらの解釈の多くは
人間にとっては不自然なものであり、こうした正当でな
い解釈を出力しないようにすることが、自然言語の解析
における大きな課題である。この課題について、例を挙
げて説明する。「私は社長と京都に行った。」という文
を考えよう。人間であれば、「社長と」の意味は「社長
と一緒に」であり、係先は「行った」であること、すな
わち原文の意味は「私は社長と一緒に京都に行った。」
であることが容易に了解できる。しかし、機械で解析す
ると、「二つの名詞句が「と」を介して並ぶことによ
り、並列名詞句としてまとまる」という、一般的には正
しい規則が別に適用されることにより、前述の正しい解
釈の外に、「社長と京都」で並列名詞句としてまとまる
解釈、すなわち「私は社長に行き、京都にも行った。」
という解釈結果も得られてしまうことがしばしばある。
後者の解釈が不自然なのは、「「行く」における「に」
格の要素としては、場所と解釈できる名詞が入らなけれ
ばならない」という意味的な制約が存在するのに、後者
の解釈はこれを破っているからである。しかし、「社長
に行く」という解釈が得られたら、いつでもこれを捨て
てよいわけではない。というのは、もし入力文が「私は
社長に行った。」というものであれば、それ一つしか解
釈が存在しないため、「社長に行く」を正解とせざるを
得ないからである。このように、どの解釈が正当か、は
相対的なものであり、どの解釈が正しく、どの解釈が誤
りか、を絶対的に決定することはできない。
【0003】以上説明した課題に対処するために、従来
から、解析の途中でできる複数の解釈に対し、構造的/
意味的な情報を用いて優先度を示す数値を与え、最終的
に最も高い優先度のついた解釈を解として出力する、と
いう解析装置が提案されている。たとえば、1990年
8月、プロシーディングス、サーティーンス・インター
ナショナル・コンファランス・オン・コンピューテーシ
ョナル・リングイスティックス、第3巻、162〜16
7頁(Proceedings,13rd Inter
national Conference on Co
mputational Linguistics,V
ol.3,pp.162−167,August,19
90)には、英語の構文解析装置として、解析結果の各
非終端ノードに数値を与えてその非終端ノードをルート
とする構文木に対する優先度とみなし、非終端ノードが
作られる度に、まず子供のノードの優先度の和がその非
終端ノードに対する初期優先度として与えられ、この初
期優先度に対して文法規則中の条件チェックによる修整
が加えられる、という構文解析装置が記載されている。
【0004】また、1987年9月、情報処理学会自然
言語処理研究会報告、NL63−3、1〜8頁には、優
先度の付与が、 1)構文木の全ての節点の優先度(以下Nとする)を0
にする。
【0005】2)Nはボトムアップに全ての子節点のN
の和を親節点に渡して伝播する。
【0006】構文木の根のNがその構文木の優先度とな
る。
【0007】3)述語と格要素の結合を処理する時に述
語の期待するスロットの条件を満たすか否か検査され
る。条件を満足する場合は、格要素と述語の表層格情報
と意味情報にしたがった点数が述語のNに加算される。
のように行われる日本語の構文解析装置が記載されてい
る。
【0008】
【発明が解決しようとする課題】これら従来の技術に共
通するのは、「構文木の優先度は、ルートノードに与え
た数値で示す。優先度計算は、子供となる構文木の優先
度の数値と、子供同士の組合せ自身が持つ優先度の数
値、すなわち文法規則自身の優先度や関係の整合性など
から算出される優先度、この二つの和をとることにより
行う。」という原則である。これは直感的には自然な解
釈ではあるが、以下に示すような問題がある。なお、以
下、状況によって構文木の優先度のことを構文木のスコ
アといいかえることがある。
【0009】第一の問題として、従来の方法では自然に
記述することができない優先知識が存在する。”I k
now the man she was talki
ngto.”という文を、HPSGに基づいた関係節の
扱い方で構文解析することを考えよう。HPSGは単一
化に基づいた文法としては最も標準的な英語文法である
が、以下の議論で本質的なのは、動詞や前置詞の目的語
が空所となった、ギャップを持つ文に対する非終端記号
が、ギャップを持たない通常の文に対する非終端記号と
同じシンボルとなることである。ギャップの存在は、素
性構造の中に示されている。なお、このように、ギャッ
プを持つ文と持たない文とで非終端記号を同じにしてお
くことには、前置詞句や副詞句による修飾など多くの構
造化のための文法規則が共通にできる、という実際的な
利点もあるため、ごく標準的な扱いであることを注意し
ておく。以下、ギャップを持つ文と持たない文とで非終
端記号が同じ”sentence”という記号を持つこ
とを仮定する。”shewas talking t
o”に対応する部分木は、前置詞”to”の目的語が欠
如した、非終端記号が”sentence”である構造
となる。この部分構造に対しては、極めて低い優先度を
付与して、この構造のままでは最終的に選択されないよ
うにしておく必要がある。人間にとっては、ギャップを
持つ文は持たない文よりもはるかに容認度が低いからで
ある。実際、たとえば、”He bought a s
lave.”という文字列を、”He bought
a slave something”という構文にお
いて”something”が不定のままギャップにな
っている、と解釈する人はいないであろう。しかし、上
述の文法による解析では、この解釈が出力の候補中に含
まれることになるため、これが正解とみなされて出力さ
れることを防ぐために、ギャップを持つ文の優先度を低
くしておく必要があるのである。しかし、この、優先度
の低い構造”she was talking to”
が先行詞”the man”と結合して”the ma
n she was talking to”となる
と、人間にとって容認度の高い文になるため、高い(少
なくとも平均的な)優先度を持たせなければならない。
このように、ギャップを持つ文に対する優先度は、先行
詞とまとまる前と後で大きく変化するのである。
【0010】従来の方法でこの現象を扱うには、ギャッ
プを持つ文を作る文法規則に極めて低い優先度を与えて
おくことにより”she was talking t
o”の優先度を下げる一方、ギャップを持つ文が先行詞
と結合することを記述する文法規則に、これをちょうど
打ち消すだけの高い点数を与えておくことによって”t
he man she was talking t
o”の優先度を通常に戻すことになろう。この方針で書
かれた文法の一例を図13に示す。(a)は目的語位置
にギャップを持つ前置詞句の形成規則、(b)はギャッ
プを持つ文が先行詞とまとまる規則である。<#add
(total_score,Value)>は、その文
法規則により作成される構文木の優先度の数値に”Va
lue”で示される値を加算することを示す。(a)で
構文木の優先度を100000下げておき、先行詞とま
とまる規則で優先度を100000上げてこれをキャン
セルするように記述されている。しかし、この方法は、
優先度付与に関する我々の知識の自然な表現ではなく、
アドホックな対処方法であると言わざるを得ない。その
理由は、ギャップを持つ文が先行詞とまとまること自体
は、ごく一般的な構造化にすぎず、そのこと自体に高い
優先度が与えられるべきではないからである。言い替え
れば、先行詞との構造化という、この文法規則に対応す
る現象だけからでは、文法規則の優先度を定めることが
できないのである。実際、ここで与える点数は、ギャッ
プを持つ文の構造化規則で与えた低い評価をちょうど打
ち消すように定めることになる。結局、ここで与える点
数は、構造化自身に起因するものではなく、単に、下部
構造にどのような評価点がついてくるかをあらかじめ予
測しておき、結果的に自分に適切な評価点がつくような
点数操作を行なっているにすぎないのである。
【0011】本来の知識は、単に「ギャップを持つ構造
は容認性が低い」というだけである。先行詞とまとまる
ことによって優先度が上昇するのは、ギャップが解消さ
れ、この評価要因がキャンセルされるためである。すな
わち、先行詞とのまとめあげを行う規則が知っているの
は、単にこの評価要因がキャンセル、あるいは再評価さ
れることだけであるはずである。しかし、以上説明した
ように、従来の方法では、下部構造に付与された優先度
は、様々な要因からの優先度と加算されることによって
その内容が隠されてしまうため、後に特定の要因のみを
キャンセルあるいは再評価することの自然な記述が困難
であった。
【0012】このような従来の対処方法は、単にアドホ
ックであるのみならず、実際的な問題をも引き起こす。
ギャップを持つ文に対してどのような優先度を与えたか
を、ギャップを持つ文を構造化する文法規則のみなら
ず、これを先行詞と結合して解消する文法規則において
も管理しなければならないからである。このことは、優
先度付与知識の量が増大した時の知識の保守を困難にす
る。
【0013】なお、このような現象は、関係節の形成だ
けに現れる特殊な現象ではなく、呼応関係を持つ構造な
ど本来一つとみなされるべき構造が複数の文法規則の適
用により作成される時には常に発生する可能性がある、
一般的な問題であることを注意しておく。
【0014】第二の問題点として、異なった発生源を持
つスコアの間の関係を適切に調整することが難しく、ひ
いては優先知識の保守および新たな優先知識の導入に多
大な手間がかかることがある。実際的なシステムにおけ
る優先度計算に際しては、語の出現頻度、動詞と表層格
の整合性、動詞格スロットと格要素の意味的整合性、係
受けの距離、など、実に多くの要因を考慮しなければな
らない。上述した従来の技術では、これらの各要因に対
するスコアが単純加算されることにより総合的な優先度
が計算される。従って、どれか一つの要因の評価をどの
ように行なうか、たとえば動詞格スロットと格要素の意
味的整合性に対するスコアを何点にするか、を決める際
には、常に、他の要因とどのように相互作用するか、を
事前に分析しておかなければならない。すなわち、一つ
の要因に付与するスコアを決める前に、他の要因との相
互関係を分析しきっておかなければならないのである。
このように、導入の前に、その要因内でのスコアの整合
性の保障のみならず、他の要因のスコアとの整合性の保
障をも最初から行なっておかなければならないため、新
規要因の導入は大変困難で手間のかかる作業である。優
先知識の保守のために、スコアリングを部分的に変更す
る際にも同じ問題が発生する。
【0015】この問題を防ぐために、たとえば、様々な
要因からのスコアを単純加算ではなく加重和とし、スコ
アの間の整合性の知識を加重和に使用するウェイトの形
で個々の文法知識とは別に保持することも考えられる。
しかし、この場合にも、実際の構文木の優先度の数値
に、どのような要因がどのように効いているかを知るた
めには、子供の構文木の優先度という一つの数値の中に
隠れてしまった要因間の相対ウェイトの影響を分離しな
ければならず、手間がかかることは同じである。特に、
構文木を作成する際にその文法規則中で優先度に組み入
れられた要因と、その子供の構文木を作成する段階で優
先度に組み入れられた要因との相互の影響を分離し把握
することは大変困難である。このように、優先要因の新
規導入や優先知識の保守は、困難で大変手間のかかる作
業であることには変わりがない。
【0016】第三に、最終選択のために付与されている
優先度の数値を、枝刈りに用いると正解を刈ってしまう
ことがある。これは、上述の関係節の解析を考えるとわ
かりやすいが、ギャップの存在などの要因による評価点
は、後にキャンセルされて最終結果の優先度に影響しな
くなることがあるためである。このことを考慮に入れず
に、最終選択のための優先度を、上位から何本かを残
し、残りを枝刈りする、という単純な形で枝刈りに用い
ると、誤って正解を刈ってしまうことになる。枝刈りに
は、動詞の格要素選択制約のように、後にキャンセルさ
れる可能性のない要因からくる評価のみを考慮に入れ、
ギャップの存在のように後にキャンセルされる可能性の
ある低い評価点を考慮に入れないようにする必要があ
る。しかし、従来技術では、最終選択に用いるための優
先度と、枝刈りに用いるための優先度との区別が十分で
なかった。
【0017】本発明の自然言語解析装置の目的は、上述
したような従来技術の問題点を解決し、優先度知識が自
然な形で記述でき、優先知識の整合性の保守管理が容易
であり、新たな優先知識の導入が容易であるような構文
解析の方式を提供することにある。また、別の目的は、
正確で有用性の高い枝刈りを行なうことができる構文解
析の方式を提供することにある。
【0018】
【課題を解決するための手段】第1の発明の自然言語解
析装置は、所定の自然言語を解析するためのデータを格
納した辞書と、入力された前記所定の自然言語について
前記辞書を索引して形態素解析を行う形態素解析部と、
前記形態素解析された文を構文意味解析する構文意味解
析部とを備えた自然言語解析装置において、前記構文意
味解析部が、自然言語を解析するための文法規則を記憶
している文法規則記憶手段と、数値のベクトルからなる
ベクトルスコアおよび単一の数値からなるトータルスコ
アが付与された解析結果を保持する解析結果保持手段
と、解析結果保持手段中の解析結果に対して前記文法規
則記憶手段中の文法規則を適用して新たな解析結果を得
る文法規則適用手段と、文法規則適用手段によって得ら
れた解析結果に対し、その子供となった解析結果に付与
されているベクトルスコアを要素毎に加算することによ
り新たなベクトルスコアを作成し、さらに該解析結果の
作成に用いられた文法規則の記述にしたがってその内容
を要素毎に変更した後に、該解析結果に付与するベクト
ルスコア算出手段と、ベクトルスコア算出手段により解
析結果に付与されたベクトルスコアからトータルスコア
を算出して該解析結果に付与し、解析結果保持部に登録
するトータルスコア算出手段と、トータルスコア算出手
段が付与したトータルスコアに基づいて複数の解析結果
から一つを選択する選択手段とを有して構成されてい
る。
【0019】また、第2の発明の自然言語解析装置は、
所定の自然言語を解析するためのデータを格納した辞書
と、入力された前記所定の自然言語について前記辞書を
索引して形態素解析を行う形態素解析部と、前記形態素
解析された文を構文意味解析する構文意味解析部とを備
えた自然言語解析装置において、前記構文意味解析部
が、数値のベクトルからなるベクトルスコア、単一の数
値からなるトータルスコア、および単一の数値からなる
枝刈りスコアが付与された解析結果を保持する解析結果
保持手段と、解析結果保持手段中の解析結果に対して文
法規則記憶手段中の文法規則を適用して新たな解析結果
を得る文法規則適用手段と、文法規則適用手段によって
得られた解析結果に対し、その子供となった解析結果に
付与されているベクトルスコアを要素毎に加算すること
により新たなベクトルスコアを作成し、さらに該解析結
果の作成に用いられた文法規則の記述にしたがってその
内容を要素毎に変更した後に、該解析結果に付与するベ
クトルスコア算出手段と、前記ベクトルスコア算出手段
により解析結果に付与されたベクトルスコアからトータ
ルスコアを算出して該解析結果に付与するトータルスコ
ア算出手段と、前記ベクトルスコア算出手段により解析
結果に付与されたベクトルスコアから枝刈りスコアを算
出して該解析結果に付与し、前記解析結果保持手段に登
録する枝刈りスコア算出手段と、前記枝刈りスコア算出
手段が付与した枝刈りスコアに基づいて前記解析結果保
持手段が保持する解析結果の一部を削除する枝刈り手段
と、前記トータルスコア算出手段が付与したトータルス
コアに基づいて複数の解析結果から一つを選択する選択
手段とを有して構成されている。
【0020】
【作用】本発明においては、解析結果の優先度の情報
は、単一の数値ではなく、要因毎の評価を数値化したベ
クトルスコアとして各解析結果中に保持されており、文
法規則の適用によって構文木上を伝播するのはこのベク
トルである。解析結果に対する優先度であるトータルス
コアは、文法規則が適用され新たな解析結果が得られる
度に、このベクトルスコアから新規に計算される。この
ように、個別の評価項目に対する評価結果が、他の評価
項目と混ざらないで分離したまま構文木上を伝播するの
で、評価のキャンセルや再評価を行う際には、該当する
項目の評価値を0にする/再評価して評価値を入れ換え
るというだけの操作により目的が達成される。この操作
は、「評価のキャンセル/再評価」の自然な表現となっ
ていることに注意されたい。また、各構文木には、優先
度計算の元となった要因毎の評価値が、ベクトルスコア
の形で付随しているため、優先度の成り立ちと、そこに
寄与する要因間の相互作用を一目で把握することがで
き、要因間の整合性の保守が容易である。さらに、本発
明においては、個々の項目を評価するベクトルスコア付
与を行う手段と、これらの評価を統合して優先度を計算
するトータルスコア付与を行う手段が分離している。優
先知識の記述において、評価要因間の整合性をとる必要
があるのは後者の手段に対する知識だけであり、前者の
知識の記述は後者の知識がまったく記述されていない段
階でも独立にすすめることができる。新規要因の導入に
ついては、まず個々の要因に対する評価の記述を完了さ
せ、それから要因間の相互作用を考慮してトータルスコ
ア付与方法を記述する、というように段階を分けること
によって、新規要因の導入をスムーズに行うことができ
る。
【0021】さらに、本発明においては、構文木の優先
度と枝刈りのために用いる数値を分離して管理し、計算
も別々に行う。枝刈りの数値を計算する際には後にキャ
ンセル/再評価される可能性がある項目を考慮しないよ
うにすることによって、正解を刈ってしまうことの少な
い、的確な枝刈りを行うことができる。
【0022】
【実施例】以下、本発明を英語から日本語への機械翻訳
システムに適用した実施例について、図面を参照しなが
ら説明する。図1は本発明の一実施例を示す概略ブロッ
ク図である。第1の発明は、図1に示すように、英語文
字列が入力される入力部11と、辞書12と、入力文字
列を単語に分解して辞書引きを行う形態素解析部13
と、構文/意味解析を行なって意味表現を出力する構文
/意味解析部14と、意味表現から日本語表現を生成す
る生成部15と、出力部16とを有して構成されてい
る。また、構文/意味解析部14は、図2に示すよう
に、解析のための文法規則を記憶している文法規則記憶
部142と、解析の途中結果を保持する解析結果保持部
141と、解析結果保持部141が保持する解析結果に
対して文法規則記憶部142に納められている文法規則
を適用して新たな解析結果を得る文法規則適用部143
と、作成された解析結果に対してベクトルスコアを算出
し付与するベクトルスコア算出部144と、解析結果の
ベクトルスコアからトータルスコアを算出し付与するト
ータルスコア算出部145と、トータルスコアに基づい
て解析結果から一つを選択する選択部146とを有して
構成されている。
【0023】本実施例では、英語文字列が入力部11に
入力されると、辞書12を参照しながら形態素解析部1
3が単語認定と辞書引きを行ない、結果を構文/意味解
析部14に送る。構文/意味解析部14は、文法規則を
参照しながら構文木解析を行なうとともに、解析結果に
対応する意味構造を作成する。解析結果は生成部15に
送られ、その意味構造から対応する日本語文が生成され
て、出力部16から出力される。
【0024】構文/意味解析部14は、文脈自由部分を
持つ単一化文法として記述された文法規則を参照しなが
ら、left to rightのボトムアップ横型チ
ャートパーシングを行う。解析結果保持部141はいわ
ゆるチャートであり、形態素解析部13から与えられた
単語列は、まずこの解析結果保持部141に登録され
る。文法規則適用部143は、解析結果保持部141を
参照し、left torightのボトムアップ横型
チャートパーシングの解析戦略に基づいて、順に注目エ
ッジ(以下、随時「解析結果」の代わりに「エッジ」と
いう言葉を用いる)を変えながら、文法規則記憶部14
2を探索して適用可能な規則を見い出す。適用可能な規
則が見い出せればこれを適用して、新しいエッジを作成
する。対応する意味構造の作成は文法規則適用と同時に
行われ、エッジに付与される。ベクトルスコア算出部1
44はこの新エッジに対してベクトルスコアを算出、付
与する。トータルスコア算出部145はこのベクトルス
コアに基づいてトータルスコアを算出、付与し、解析結
果保持部(チャート)141に登録する。この繰り返し
の後、すべてのエッジに対して、適用チェックの終わっ
ていない文法規則がなくなったら解析終了であり、選択
部146が起動される。選択部146は、解析結果保持
部141に登録された解析結果の中から、入力文全体に
対応する解析結果を抽出し、そのトータルスコアを比較
し、最も高いトータルスコアを持つ解析結果を出力とす
る。
【0025】各解析結果(エッジ)は、そのエッジが作
成されるに至った文法規則適用の過程の文脈自由部分を
表す構文木情報に加えて、素性構造中に、各種の統語的
/意味的な情報を保持している。さらに、エッジの優先
度に関する情報として、数値のベクトルであるベクトル
スコアと、単一の数値であるトータルスコアを保持して
いる。
【0026】ベクトルスコアの要素は、解析結果の優先
度に寄与する個々の項目に対する要因毎の評価結果であ
る。本実施例における評価項目(評価要因)を以下に挙
げる。
【0027】s11)ギャップの存在(gap_exi
stence) s12)未完成の呼応関係の存在 s21)ユーザーによる直接指定との合致/違反 s22)一致の違反 s23)デフォールトルールによる構造化の存在 s31)強いコロケーションの存在 s32)文脈による強い選好の存在 s41)文のヘッドの品詞 s42)名詞間の弱いコロケーションの存在 s43)前置詞句の係り先に関する右連合条件 s44)前置詞句の係り先に関する最小付加 s45)前置詞句の係り先に関する語彙的選好 s46)格要素意味制約の合致/違反 s47)動詞、前置詞、名詞の3項の共起尤度 s48)テンス/アスペクトによる動詞語義の制限 s49)前置詞と目的語の共起関係 s51)その他 これらの項目は、評価対象となる言語現象、全体評価へ
の寄与の度合、解析の過程でキャンセル/再評価が起こ
る可能性があるかどうか、を基準に分割されている。
【0028】文法規則は、文脈自由文法の骨格を持つ単
一化ベース文法として記述される。すなわち、各規則
は、文脈自由文法形式の規則の各項に素性構造が付与さ
れた形をしている。文法規則適用の対象であるデータ
は、品詞シンボルに素性構造が付与される形式をしてお
り、文法規則適用の可否のチェックは、項毎の単一化に
よって行われる。さらに、文法規則中に任意の補強項関
数が記述できるようになっており、これにより任意のデ
ータ構造操作が可能となっている。
【0029】次に、ベクトルスコア算出部144および
トータルスコア算出部145の動きを説明する。ベクト
ルスコア算出部144は、まず該解析結果の子供の解析
結果(一般には複数存在する)が保持しているベクトル
スコアを参照し、これらを要素毎に加算することによっ
て新たなベクトルスコアを作成する。次に、該解析結果
を作成する際に使用された文法規則の記述にしたがっ
て、このベクトルスコアの値を要素毎に変更する。ベク
トルスコアが付与された解析結果はトータルスコア算出
部145に送付される。トータルスコア算出部145
は、自身が持つ一般知識に従って、ベクトルスコアの各
要素の数値を総合してトータルスコアを算出し、該解析
結果にトータルスコアとして付与する。トータルスコア
が付与された解析結果は、解析結果保持部141に登録
され、新たな文法規則適用の対象となる。
【0030】次に、本実施例における構文/意味解析部
14の動作を中心として、具体例を用いて説明する。英
文字列”the man she was talki
ngto.”が入力部11に入力されたとしよう。形態
素解析部13により単語認定と辞書情報付与が行われた
データが、構文/意味解析部14の入力となる。このデ
ータはまず解析結果保持部142に登録され、ボトムア
ップ横型チャートパーシングのアルゴリズムに基づいて
解析が進行する。図4は、解析が進んで、部分区間”s
he was talking to”の解析が終了し
た時点での、解析結果の一つの木構造の概略を示したも
のである。木構造の各ノードのシンボルは対応する非終
端記号であり、{}の中に付随する素性構造が記されて
いる。太字は、ノードの構造に対応する原文区間であ
る。また、vector_scoreおよびtotal
_scoreは、対応するベクトルスコアおよびトータ
ルスコアを示す。なお、ベクトルスコアの各要素は、参
照の便のために、項目名とその評価点が順に並び、項目
間はセミコロンで区切ってある。なお、これらの図で
は、以後の説明に関係のない情報は省略してある。
【0031】図4に示す構造を作成するにあたっては、
図5に示す文法規則が用いられている。図5(a)は、
目的語が欠けた前置詞句を形成する規則であり、図4の
356において”to”が単独で前置詞句となるために
用いられている。図5(b)の二つの規則は、それぞれ
エッジ34(非終端記号verb)とエッジ35(非終
端記号prep_phrase)からエッジ33(非終
端記号verb_phrase)とを作る過程、及びエ
ッジ32(非終端記号noun_phrase)エッジ
33とからエッジ31(非終端記号sentence)
を作る過程で用いられている。
【0032】図5(a)中の<#vassign(ga
p_existence,1)>は、文法規則適用と同
時に実行される補強項関数であり、vector_sc
oreの項目”gap_existence”に対応す
る値として−1を与えることを指示している。その結
果、図4の解析結果(エッジ)36では0であったベク
トルスコア中の項目”gap_existence”の
値が、エッジ35では−1になる。エッジ35のトータ
ルスコア(total_score)は、図6に示した
計算式を用いて、同じエッジのベクトルスコアから計算
される。この例では項目s1 1 が評価−1を持ち、その
他の項目からの影響がないためトータルスコアは−10
0000になる。
【0033】以後、すべての構造化において伝播するの
はベクトルスコアである。子供が複数ある場合には、対
応する要素同士を単純に加算することによりベクトルス
コアが求められる。この例では、”she was t
alking to”の形成に至るまで、”gap_e
xistence”が−1のまま伝播される。
【0034】図7に示すのは、この構造が先行詞と結合
して名詞句となった場合の木構造である。構造化規則は
図8に示すものが用いられている。<#vclear
(gap_existence)>は、ベクトルスコア
の項目”gap_existence”を0にクリアす
ることを指示する補強項関数である。項目”gap_e
xistence”には、”the man”に対応す
るエッジでは0、”she was talking
to”に対応するエッジでは−1が与えられているた
め、ベクトルスコアの初期値は値−1を持つが、この補
強項関数によってこれが0クリアされる。その結果、”
the man she was talking t
o”に対応するエッジのベクトルスコアのこの項目は値
0を持ち、従ってトータルスコアには寄与しない。
【0035】ここで、図8の規則の優先度知識は、「名
詞と、ギャップを持つ文が構造化されることにより、ギ
ャップが解消される」ことの忠実な反映になっているこ
とに注意して欲しい。ここでは、従来の記述で必要であ
ったような、下部構造でどのような評価値が与えられる
か、に関する情報は不要であり、図5(a)の規則でこ
の項目に与える値が変更されても、この規則はいっさい
変更する必要がない。ある項目が依然の評価をキャンセ
ルして「再評価」される必要があること、および再評価
の方法を記述すればよい。
【0036】図3は、第2の発明における、構文/意味
解析部の構成を示したものである。全体の構成は図1に
示されたものと同じである。この構文/意味解析部は、
解析の途中結果を保持する解析結果保持部241と、解
析のための文法規則を保持している文法規則記憶部24
2と、解析結果保持部241中の解析結果に対して文法
規則を適用し新しく解析結果を作成する文法規則適用部
243と、文法規則適用部243からの結果を受けて、
優先順位の評価項目毎の評価結果を数値のベクトルとし
て保持するベクトルスコア算出部244と、算出された
ベクトルスコアを参照して単一の数値であるトータルス
コアを算出して解析結果に付与するトータルスコア算出
部245と、算出されたベクトルスコアを参照して単一
の数値である枝刈りスコアを算出して解析結果に付与し
解析結果保持部241に登録する枝刈りスコア算出部2
47と、解析結果に付与された枝刈りスコアを参照して
解析結果保持部241中の解析結果を削除する枝刈り部
248と、解析結果に付与されたトータルスコアを参照
して解析結果保持部241中の解析結果から一つを選択
する選択部246とを有して構成されている。
【0037】枝刈りスコアは、図11に示す式により計
算される。図4に示した、トータルスコア計算のための
式との相違は、s1 1 ,s1 2 の二つの要因に対してウ
ェイト0が与えられていることである。これらの要因は
後にキャンセルあるいは再評価される可能性があるた
め、ある時点でこれらの評価が低いことを理由に解析結
果を途中削除してしまうと、正解を削除してしまう可能
性があるためである。図9および図10は、”the
man she was talking to”の解
析の途中に出現するエッジに対するスコアリングの様子
を示す図である。この図に示したように、ギャップを含
む構造は、トータルスコアは低いが枝刈りスコアは中立
的な評価がなされる。これのため、正解の下部構造とな
るべき構造を誤って枝刈りしてしまうことが防止でき
る。
【0038】なお、上述の実施例では、ベクトルスコア
の要素間の演算として加算を行うものとしたが、必要に
応じてリストの結合とするなど、改変して実施すること
は容易である。また、パーシングの戦略についてもle
ft to rightのボトムアップ横型としたが、
一般にパーシングが行える戦略ならば、どれを採用して
本発明を実施することも容易である。さらに、ベクトル
スコアからのトータルスコアの計算法として加重和を採
用したが、ここにルールによるアルゴリズミックな制御
を導入し、特定の要因を絶対的に優先して考慮する、な
ど変形して実施することも容易である。以上のように、
本発明は様々に変形して実施することができる。
【0039】
【発明の効果】以上説明したように、本発明の自然言語
解析装置によれば、項目のキャンセル/再評価といった
優先知識を、アドホックな記述を行うことなく自然に記
述できるため、優先知識の保守が容易になる。また、本
発明の構文解析装置によれば、枝刈り用の評価値を優先
度から分離して、後にキャンセル/再評価される可能性
のある評価項目を枝刈りに用いないようにすることがで
きるので、誤って正解を枝刈りしてしまうことが少なく
なる。
【0040】さらに、本発明の自然言語解析装置におい
ては、優先度知識の保守が容易である。この点について
少し説明する。トータルスコアは必ず同じ解析木に付随
するベクトルスコアから計算されたものである。その計
算は、トータルスコア付与部が持つ一般的な知識により
行われる。しかも、計算の元データとなるベクトルスコ
アの各要素は、対応する言語現象毎に分割されており、
その意味がきわめて明確である。したがって、トータル
スコアの意味が明瞭に把握できるのである。例えば、図
4中のエッジ”sentence”に対するトータルス
コアは、gap_existgence項目に−1を持
ち、他の項目がすべて0であるベクトルスコアから図5
に示す加重和により計算されていることから、このトー
タルスコアの評価が低いのはギャップの存在に起因して
いることを把握するのは容易である。従来技術では、各
エッジはトータルスコアに相当する情報しか保持してい
ないため、原因が下部構造に起因することまではたどれ
ても、その原因が何なのか、を理解することは困難であ
ったのである。図12を参照されたい。これは、図4、
図7の示した構文木から、vector_scoreの
情報を取り去ったものであるが、これだけからではto
tal_scoreの意味を把握することが困難である
ことがわかる。このように、本発明によれば、優先知識
の内容の把握が容易であり、ひいては優先知識の保守が
容易である。
【0041】また、本発明の自然言語解析装置において
は、優先度計算のための新しい項目を導入することが容
易である。本発明では、個々の項目に対する評価値を付
与する手段と、これらの評価値を総合して優先度とする
手段が、それぞれベクトルスコア付与手段およびトータ
ルスコア付与手段として分離されている。この分離に対
応して、新規要因の導入を二つの段階に分けて考えるこ
とができる。第一段階はベクトルスコア付与手段に要因
を導入する段階であり、ベクトルスコアに対応する要素
を新設し、関連する文法規則にこれを評価する補強項関
数を記述する。この段階では、導入項目の中での評価の
整合性のみを考えて評価知識を記述すればよく、他の項
目に対する評価値との関係を考える必要はない。これが
可能なのは、本発明においては、ベクトルスコアの計算
に、他の要因の評価値を含むトータルスコアを使用して
いないためである。ただし、この段階では、新規導入し
ようとしている要因の評価は、最終選択には全く反映さ
れない。第二段階では、トータルスコアの計算関数を、
新しく導入した評価要因を考慮するように変更する。こ
こではじめて、他の要因との整合性を考えることにな
る。このように、本発明においては、新たな評価要因の
導入において、 1)評価要因内部での整合性のみを考えて優先度付与を
行う段階 2)他の要因との相互関係を定式化する段階 の二つ、すなわち評価項目に対する評価づけ作業と、他
の評価項目との整合性のチェックという性質の異なる二
つの作業を異なる段階として分離することができるた
め、これらが一体となっていた従来の方法に比べて新規
評価要因に対する知識の記述がはるかに容易である。
【0042】さらに、このことは、文法規則を複数で開
発することを容易にする。通常、文法規則を複数で分担
して記述する場合には、対応する言語現象を軸として分
割することが多い。これは、ベクトルスコアの要素を分
割する際の基準と一致するため、実際には、各人はベク
トルスコアの要因毎に担当することになる。要因内の評
価知識の記述は上述の第一段階に相当し、各人は項目内
での整合性をとるように注意するのみでよいため、作業
を独立に進めることができるのである。その後、文法規
則をまとめる段階ではじめて要因間の整合性をチェック
すればよい。従来の方法では分割して文法を開発してい
る最中にも開発者間での優先知識の間の整合性を常に意
識している必要があったのに比較して、労力が大きく削
減される。
【0043】以上のように、本発明は、従来の技術と比
較して、新規要因の導入が容易であり、文法規則の分割
開発が容易になるという効果をも持つ。
【図面の簡単な説明】
【図1】第1,2の発明の一実施例を示す概略ブロック
図である。
【図2】第1の発明における構文/意味解析部の一実施
例を示すブロック図である。
【図3】第2の発明における構文/意味解析部の一実施
例を示すブロック図である。
【図4】第1の発明の実施例における解析結果の一例を
示す図である。
【図5】第1の発明の実施例で、図4に示す解析結果を
作成するのに使用した文法規則を示す図で、(a)はギ
ャップ形成規則、(b)は動詞句および文形成規則であ
る。
【図6】第1の発明の実施例におけるトータルスコアの
計算法を示す図である。
【図7】第1の発明の実施例における解析結果の一例を
示す図である。
【図8】第1の発明の実施例で、図7に示す解析結果を
作成するのに使用した文法規則を示す図である。
【図9】第2の発明の実施例における解析結果の一例を
示す図である。
【図10】第2の発明の実施例における解析結果の一例
を示す図である。
【図11】第2の発明の実施例におけるトータルスコア
の計算方法を示す図である。
【図12】従来技術による解析結果の一例を示す図であ
る。
【図13】従来技術による優先知識記述の一例を示す図
である。
【符号の説明】
11 入力部 12 辞書 13 形態素解析部 14 構文/意味解析部 15 生成部 16 出力部 141 解析結果保持部 142 文法規則記憶部 143 文法規則適用部 144 ベクトルスコア算出部 145 トータルスコア算出部 146 選択部 241 解析結果保持部 242 文法規則記憶部 243 文法規則適用部 244 ベクトルスコア算出部 245 トータルスコア算出部 246 選択部 247 枝刈りスコア算出部 248 枝刈り部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 所定の自然言語を解析するためのデータ
    を格納した辞書と、入力された前記所定の自然言語につ
    いて前記辞書を索引して形態素解析を行う形態素解析部
    と、前記形態素解析された文を構文意味解析する構文意
    味解析部とを備えた自然言語解析装置において、前記構
    文意味解析部が、自然言語を解析するための文法規則を
    記憶している文法規則記憶手段と、数値のベクトルから
    なるベクトルスコアおよび単一の数値からなるトータル
    スコアが付与された解析結果を保持する解析結果保持手
    段と、前記解析結果保持手段中の解析結果に対して前記
    文法規則記憶手段中の文法規則を適用して新たな解析結
    果を得る文法規則適用手段と、前記文法規則適用手段に
    よって得られた解析結果に対し、その子供となった解析
    結果に付与されているベクトルスコアを要素毎に加算す
    ることにより新たなベクトルスコアを作成し、さらに該
    解析結果の作成に用いられた文法規則の記述にしたがっ
    てその内容を要素毎に変更した後に、該解析結果に付与
    するベクトルスコア算出手段と、前記ベクトルスコア算
    出手段により解析結果に付与されたベクトルスコアから
    トータルスコアを算出して該解析結果に付与し、前記解
    析結果保持手段に登録するトータルスコア算出手段と、
    前記トータルスコア算出手段が付与したトータルスコア
    に基づいて複数の解析結果から一つを選択する選択手段
    とを有することを特徴とする自然言語解析装置。
  2. 【請求項2】 所定の自然言語を解析するためのデータ
    を格納した辞書と、入力された前記所定の自然言語につ
    いて前記辞書を索引して形態素解析を行う形態素解析部
    と、前記形態素解析された文を構文意味解析する構文意
    味解析部とを備えた自然言語解析装置において、前記構
    文意味解析部が、自然言語を解析するための文法規則を
    記憶している文法規則記憶手段と、数値のベクトルから
    なるベクトルスコア、単一の数値からなるトータルスコ
    ア、および単一の数値からなる枝刈りスコアが付与され
    た解析結果を保持する解析結果保持手段と、前記解析結
    果保持手段中の解析結果に対して前記文法規則記憶手段
    中の文法規則を適用して新たな解析結果を得る文法規則
    適用手段と、前記文法規則適用手段によって得られた解
    析結果に対し、その子供となった解析結果に付与されて
    いるベクトルスコアを要素毎に加算することにより新た
    なベクトルスコアを作成し、さらに該解析結果の作成に
    用いられた文法規則の記述にしたがってその内容を要素
    毎に変更した後に、該解析結果に付与するベクトルスコ
    ア算出手段と、前記ベクトルスコア算出手段により解析
    結果に付与されたベクトルスコウからトータルスコアを
    算出して該解析結果に付与するトータルスコア算出手段
    と、前記ベクトルスコア算出手段により解析結果に付与
    されたベクトルスコアから枝刈りスコアを算出して該解
    析結果に付与し、前記解析結果保持手段に登録する枝刈
    りスコア算出手段と、前記枝刈りスコア算出手段が付与
    した枝刈りスコアに基づいて前記解析結果保持手段が保
    持する解析結果の一部を削除する枝刈り手段と、前記ト
    ータルスコア算出手段が付与したトータルスコアに基づ
    いて複数の解析結果から一つを選択する選択手段とを有
    することを特徴とする自然言語解析装置。
JP5012980A 1993-01-29 1993-01-29 自然言語解析装置 Expired - Lifetime JPH0789353B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5012980A JPH0789353B2 (ja) 1993-01-29 1993-01-29 自然言語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5012980A JPH0789353B2 (ja) 1993-01-29 1993-01-29 自然言語解析装置

Publications (2)

Publication Number Publication Date
JPH06231165A JPH06231165A (ja) 1994-08-19
JPH0789353B2 true JPH0789353B2 (ja) 1995-09-27

Family

ID=11820368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5012980A Expired - Lifetime JPH0789353B2 (ja) 1993-01-29 1993-01-29 自然言語解析装置

Country Status (1)

Country Link
JP (1) JPH0789353B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6035267A (en) * 1996-09-26 2000-03-07 Mitsubishi Denki Kabushiki Kaisha Interactive processing apparatus having natural language interfacing capability, utilizing goal frames, and judging action feasibility
CA2803644A1 (en) * 2010-06-25 2011-12-29 Smart Technologies Ulc Equation-based assessment grading method and participant response system employing same

Also Published As

Publication number Publication date
JPH06231165A (ja) 1994-08-19

Similar Documents

Publication Publication Date Title
JP3009215B2 (ja) 自然語処理方法および自然語処理システム
Mihalcea et al. NLP (natural language processing) for NLP (natural language programming)
US20060200336A1 (en) Creating a lexicon using automatic template matching
US8117023B2 (en) Language understanding apparatus, language understanding method, and computer program
US20060200338A1 (en) Method and system for creating a lexicon
JPH0383167A (ja) 自然言語処理方法
JPH05324713A (ja) 自然語処理方法および自然語処理システム
JPWO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
US20060265415A1 (en) System and method for guided and assisted structuring of unstructured information
US20060200337A1 (en) System and method for template authoring and a template data structure
Chang et al. A methodology and interactive environment for iconic language design
Seo et al. Syntactic graphs: A representation for the union of all ambiguous parse trees
Steels A first encounter with Fluid Construction Grammar
JP2609173B2 (ja) 用例主導型機械翻訳方法
Kempson et al. Natural-language syntax as procedures for interpretation: the dynamics of ellipsis construal
Lappin et al. A syntactic filter on pronominal anaphora for slot grammar
Hobbs et al. The automatic transformational analysis of English sentences: An implementation
JPS6318458A (ja) 感情情報抽出装置
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
JPH0789353B2 (ja) 自然言語解析装置
US7143027B2 (en) Sentence realization system for use with unification grammars
Kutlu et al. Noun phrase chunking for Turkish using a dependency parser
JPH08329108A (ja) テキストのハイパーテキスト化方法
Novák A model of computational morphology and its application to Uralic languages

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960326

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110927

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120927

Year of fee payment: 17

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130927

Year of fee payment: 18

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130927

Year of fee payment: 18