JPH0789353B2

JPH0789353B2 - 自然言語解析装置

Info

Publication number: JPH0789353B2
Application number: JP5012980A
Authority: JP
Inventors: 潔山端
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-01-29
Filing date: 1993-01-29
Publication date: 1995-09-27
Anticipated expiration: 2010-09-27
Also published as: JPH06231165A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自然言語の解析装置に関
し、特に複数の部分解を保持しながら解析を進め、優先
度を用いて結果を選択する解析装置に関する。

【０００２】

【従来の技術】従来、この種の解析装置は、自然言語の
解析において、解析の途中で発生する複数の統語的／意
味的曖昧性を解消し、適切な最終結果を得ることを目的
として用いられている。人間にとっては意味が一意に決
り、曖昧性がないと思われる文であっても、これを機械
で解析した場合、統語的／意味的に多様な解釈が得られ
るのが普通である。当然ながら、これらの解釈の多くは
人間にとっては不自然なものであり、こうした正当でな
い解釈を出力しないようにすることが、自然言語の解析
における大きな課題である。この課題について、例を挙
げて説明する。「私は社長と京都に行った。」という文
を考えよう。人間であれば、「社長と」の意味は「社長
と一緒に」であり、係先は「行った」であること、すな
わち原文の意味は「私は社長と一緒に京都に行った。」
であることが容易に了解できる。しかし、機械で解析す
ると、「二つの名詞句が「と」を介して並ぶことによ
り、並列名詞句としてまとまる」という、一般的には正
しい規則が別に適用されることにより、前述の正しい解
釈の外に、「社長と京都」で並列名詞句としてまとまる
解釈、すなわち「私は社長に行き、京都にも行った。」
という解釈結果も得られてしまうことがしばしばある。
後者の解釈が不自然なのは、「「行く」における「に」
格の要素としては、場所と解釈できる名詞が入らなけれ
ばならない」という意味的な制約が存在するのに、後者
の解釈はこれを破っているからである。しかし、「社長
に行く」という解釈が得られたら、いつでもこれを捨て
てよいわけではない。というのは、もし入力文が「私は
社長に行った。」というものであれば、それ一つしか解
釈が存在しないため、「社長に行く」を正解とせざるを
得ないからである。このように、どの解釈が正当か、は
相対的なものであり、どの解釈が正しく、どの解釈が誤
りか、を絶対的に決定することはできない。

【０００３】以上説明した課題に対処するために、従来
から、解析の途中でできる複数の解釈に対し、構造的／
意味的な情報を用いて優先度を示す数値を与え、最終的
に最も高い優先度のついた解釈を解として出力する、と
いう解析装置が提案されている。たとえば、１９９０年
８月、プロシーディングス、サーティーンス・インター
ナショナル・コンファランス・オン・コンピューテーシ
ョナル・リングイスティックス、第３巻、１６２〜１６
７頁（Ｐｒｏｃｅｅｄｉｎｇｓ，１３ｒｄＩｎｔｅｒ
ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏ
ｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖ
ｏｌ．３，ｐｐ．１６２−１６７，Ａｕｇｕｓｔ，１９
９０）には、英語の構文解析装置として、解析結果の各
非終端ノードに数値を与えてその非終端ノードをルート
とする構文木に対する優先度とみなし、非終端ノードが
作られる度に、まず子供のノードの優先度の和がその非
終端ノードに対する初期優先度として与えられ、この初
期優先度に対して文法規則中の条件チェックによる修整
が加えられる、という構文解析装置が記載されている。

【０００４】また、１９８７年９月、情報処理学会自然
言語処理研究会報告、ＮＬ６３−３、１〜８頁には、優
先度の付与が、１）構文木の全ての節点の優先度（以下Ｎとする）を０
にする。

【０００５】２）Ｎはボトムアップに全ての子節点のＮ
の和を親節点に渡して伝播する。

【０００６】構文木の根のＮがその構文木の優先度とな
る。

【０００７】３）述語と格要素の結合を処理する時に述
語の期待するスロットの条件を満たすか否か検査され
る。条件を満足する場合は、格要素と述語の表層格情報
と意味情報にしたがった点数が述語のＮに加算される。
のように行われる日本語の構文解析装置が記載されてい
る。

【０００８】

【発明が解決しようとする課題】これら従来の技術に共
通するのは、「構文木の優先度は、ルートノードに与え
た数値で示す。優先度計算は、子供となる構文木の優先
度の数値と、子供同士の組合せ自身が持つ優先度の数
値、すなわち文法規則自身の優先度や関係の整合性など
から算出される優先度、この二つの和をとることにより
行う。」という原則である。これは直感的には自然な解
釈ではあるが、以下に示すような問題がある。なお、以
下、状況によって構文木の優先度のことを構文木のスコ
アといいかえることがある。

【０００９】第一の問題として、従来の方法では自然に
記述することができない優先知識が存在する。”Ｉｋ
ｎｏｗｔｈｅｍａｎｓｈｅｗａｓｔａｌｋｉ
ｎｇｔｏ．”という文を、ＨＰＳＧに基づいた関係節の
扱い方で構文解析することを考えよう。ＨＰＳＧは単一
化に基づいた文法としては最も標準的な英語文法である
が、以下の議論で本質的なのは、動詞や前置詞の目的語
が空所となった、ギャップを持つ文に対する非終端記号
が、ギャップを持たない通常の文に対する非終端記号と
同じシンボルとなることである。ギャップの存在は、素
性構造の中に示されている。なお、このように、ギャッ
プを持つ文と持たない文とで非終端記号を同じにしてお
くことには、前置詞句や副詞句による修飾など多くの構
造化のための文法規則が共通にできる、という実際的な
利点もあるため、ごく標準的な扱いであることを注意し
ておく。以下、ギャップを持つ文と持たない文とで非終
端記号が同じ”ｓｅｎｔｅｎｃｅ”という記号を持つこ
とを仮定する。”ｓｈｅｗａｓｔａｌｋｉｎｇｔ
ｏ”に対応する部分木は、前置詞”ｔｏ”の目的語が欠
如した、非終端記号が”ｓｅｎｔｅｎｃｅ”である構造
となる。この部分構造に対しては、極めて低い優先度を
付与して、この構造のままでは最終的に選択されないよ
うにしておく必要がある。人間にとっては、ギャップを
持つ文は持たない文よりもはるかに容認度が低いからで
ある。実際、たとえば、”Ｈｅｂｏｕｇｈｔａｓ
ｌａｖｅ．”という文字列を、”Ｈｅｂｏｕｇｈｔ
ａｓｌａｖｅｓｏｍｅｔｈｉｎｇ”という構文にお
いて”ｓｏｍｅｔｈｉｎｇ”が不定のままギャップにな
っている、と解釈する人はいないであろう。しかし、上
述の文法による解析では、この解釈が出力の候補中に含
まれることになるため、これが正解とみなされて出力さ
れることを防ぐために、ギャップを持つ文の優先度を低
くしておく必要があるのである。しかし、この、優先度
の低い構造”ｓｈｅｗａｓｔａｌｋｉｎｇｔｏ”
が先行詞”ｔｈｅｍａｎ”と結合して”ｔｈｅｍａ
ｎｓｈｅｗａｓｔａｌｋｉｎｇｔｏ”となる
と、人間にとって容認度の高い文になるため、高い（少
なくとも平均的な）優先度を持たせなければならない。
このように、ギャップを持つ文に対する優先度は、先行
詞とまとまる前と後で大きく変化するのである。

【００１０】従来の方法でこの現象を扱うには、ギャッ
プを持つ文を作る文法規則に極めて低い優先度を与えて
おくことにより”ｓｈｅｗａｓｔａｌｋｉｎｇｔ
ｏ”の優先度を下げる一方、ギャップを持つ文が先行詞
と結合することを記述する文法規則に、これをちょうど
打ち消すだけの高い点数を与えておくことによって”ｔ
ｈｅｍａｎｓｈｅｗａｓｔａｌｋｉｎｇｔ
ｏ”の優先度を通常に戻すことになろう。この方針で書
かれた文法の一例を図１３に示す。（ａ）は目的語位置
にギャップを持つ前置詞句の形成規則、（ｂ）はギャッ
プを持つ文が先行詞とまとまる規則である。＜＃ａｄｄ
（ｔｏｔａｌ＿ｓｃｏｒｅ，Ｖａｌｕｅ）＞は、その文
法規則により作成される構文木の優先度の数値に”Ｖａ
ｌｕｅ”で示される値を加算することを示す。（ａ）で
構文木の優先度を１０００００下げておき、先行詞とま
とまる規則で優先度を１０００００上げてこれをキャン
セルするように記述されている。しかし、この方法は、
優先度付与に関する我々の知識の自然な表現ではなく、
アドホックな対処方法であると言わざるを得ない。その
理由は、ギャップを持つ文が先行詞とまとまること自体
は、ごく一般的な構造化にすぎず、そのこと自体に高い
優先度が与えられるべきではないからである。言い替え
れば、先行詞との構造化という、この文法規則に対応す
る現象だけからでは、文法規則の優先度を定めることが
できないのである。実際、ここで与える点数は、ギャッ
プを持つ文の構造化規則で与えた低い評価をちょうど打
ち消すように定めることになる。結局、ここで与える点
数は、構造化自身に起因するものではなく、単に、下部
構造にどのような評価点がついてくるかをあらかじめ予
測しておき、結果的に自分に適切な評価点がつくような
点数操作を行なっているにすぎないのである。

【００１１】本来の知識は、単に「ギャップを持つ構造
は容認性が低い」というだけである。先行詞とまとまる
ことによって優先度が上昇するのは、ギャップが解消さ
れ、この評価要因がキャンセルされるためである。すな
わち、先行詞とのまとめあげを行う規則が知っているの
は、単にこの評価要因がキャンセル、あるいは再評価さ
れることだけであるはずである。しかし、以上説明した
ように、従来の方法では、下部構造に付与された優先度
は、様々な要因からの優先度と加算されることによって
その内容が隠されてしまうため、後に特定の要因のみを
キャンセルあるいは再評価することの自然な記述が困難
であった。

【００１２】このような従来の対処方法は、単にアドホ
ックであるのみならず、実際的な問題をも引き起こす。
ギャップを持つ文に対してどのような優先度を与えたか
を、ギャップを持つ文を構造化する文法規則のみなら
ず、これを先行詞と結合して解消する文法規則において
も管理しなければならないからである。このことは、優
先度付与知識の量が増大した時の知識の保守を困難にす
る。

【００１３】なお、このような現象は、関係節の形成だ
けに現れる特殊な現象ではなく、呼応関係を持つ構造な
ど本来一つとみなされるべき構造が複数の文法規則の適
用により作成される時には常に発生する可能性がある、
一般的な問題であることを注意しておく。

【００１４】第二の問題点として、異なった発生源を持
つスコアの間の関係を適切に調整することが難しく、ひ
いては優先知識の保守および新たな優先知識の導入に多
大な手間がかかることがある。実際的なシステムにおけ
る優先度計算に際しては、語の出現頻度、動詞と表層格
の整合性、動詞格スロットと格要素の意味的整合性、係
受けの距離、など、実に多くの要因を考慮しなければな
らない。上述した従来の技術では、これらの各要因に対
するスコアが単純加算されることにより総合的な優先度
が計算される。従って、どれか一つの要因の評価をどの
ように行なうか、たとえば動詞格スロットと格要素の意
味的整合性に対するスコアを何点にするか、を決める際
には、常に、他の要因とどのように相互作用するか、を
事前に分析しておかなければならない。すなわち、一つ
の要因に付与するスコアを決める前に、他の要因との相
互関係を分析しきっておかなければならないのである。
このように、導入の前に、その要因内でのスコアの整合
性の保障のみならず、他の要因のスコアとの整合性の保
障をも最初から行なっておかなければならないため、新
規要因の導入は大変困難で手間のかかる作業である。優
先知識の保守のために、スコアリングを部分的に変更す
る際にも同じ問題が発生する。

【００１５】この問題を防ぐために、たとえば、様々な
要因からのスコアを単純加算ではなく加重和とし、スコ
アの間の整合性の知識を加重和に使用するウェイトの形
で個々の文法知識とは別に保持することも考えられる。
しかし、この場合にも、実際の構文木の優先度の数値
に、どのような要因がどのように効いているかを知るた
めには、子供の構文木の優先度という一つの数値の中に
隠れてしまった要因間の相対ウェイトの影響を分離しな
ければならず、手間がかかることは同じである。特に、
構文木を作成する際にその文法規則中で優先度に組み入
れられた要因と、その子供の構文木を作成する段階で優
先度に組み入れられた要因との相互の影響を分離し把握
することは大変困難である。このように、優先要因の新
規導入や優先知識の保守は、困難で大変手間のかかる作
業であることには変わりがない。

【００１６】第三に、最終選択のために付与されている
優先度の数値を、枝刈りに用いると正解を刈ってしまう
ことがある。これは、上述の関係節の解析を考えるとわ
かりやすいが、ギャップの存在などの要因による評価点
は、後にキャンセルされて最終結果の優先度に影響しな
くなることがあるためである。このことを考慮に入れず
に、最終選択のための優先度を、上位から何本かを残
し、残りを枝刈りする、という単純な形で枝刈りに用い
ると、誤って正解を刈ってしまうことになる。枝刈りに
は、動詞の格要素選択制約のように、後にキャンセルさ
れる可能性のない要因からくる評価のみを考慮に入れ、
ギャップの存在のように後にキャンセルされる可能性の
ある低い評価点を考慮に入れないようにする必要があ
る。しかし、従来技術では、最終選択に用いるための優
先度と、枝刈りに用いるための優先度との区別が十分で
なかった。

【００１７】本発明の自然言語解析装置の目的は、上述
したような従来技術の問題点を解決し、優先度知識が自
然な形で記述でき、優先知識の整合性の保守管理が容易
であり、新たな優先知識の導入が容易であるような構文
解析の方式を提供することにある。また、別の目的は、
正確で有用性の高い枝刈りを行なうことができる構文解
析の方式を提供することにある。

【００１８】

【課題を解決するための手段】第１の発明の自然言語解
析装置は、所定の自然言語を解析するためのデータを格
納した辞書と、入力された前記所定の自然言語について
前記辞書を索引して形態素解析を行う形態素解析部と、
前記形態素解析された文を構文意味解析する構文意味解
析部とを備えた自然言語解析装置において、前記構文意
味解析部が、自然言語を解析するための文法規則を記憶
している文法規則記憶手段と、数値のベクトルからなる
ベクトルスコアおよび単一の数値からなるトータルスコ
アが付与された解析結果を保持する解析結果保持手段
と、解析結果保持手段中の解析結果に対して前記文法規
則記憶手段中の文法規則を適用して新たな解析結果を得
る文法規則適用手段と、文法規則適用手段によって得ら
れた解析結果に対し、その子供となった解析結果に付与
されているベクトルスコアを要素毎に加算することによ
り新たなベクトルスコアを作成し、さらに該解析結果の
作成に用いられた文法規則の記述にしたがってその内容
を要素毎に変更した後に、該解析結果に付与するベクト
ルスコア算出手段と、ベクトルスコア算出手段により解
析結果に付与されたベクトルスコアからトータルスコア
を算出して該解析結果に付与し、解析結果保持部に登録
するトータルスコア算出手段と、トータルスコア算出手
段が付与したトータルスコアに基づいて複数の解析結果
から一つを選択する選択手段とを有して構成されてい
る。

【００１９】また、第２の発明の自然言語解析装置は、
所定の自然言語を解析するためのデータを格納した辞書
と、入力された前記所定の自然言語について前記辞書を
索引して形態素解析を行う形態素解析部と、前記形態素
解析された文を構文意味解析する構文意味解析部とを備
えた自然言語解析装置において、前記構文意味解析部
が、数値のベクトルからなるベクトルスコア、単一の数
値からなるトータルスコア、および単一の数値からなる
枝刈りスコアが付与された解析結果を保持する解析結果
保持手段と、解析結果保持手段中の解析結果に対して文
法規則記憶手段中の文法規則を適用して新たな解析結果
を得る文法規則適用手段と、文法規則適用手段によって
得られた解析結果に対し、その子供となった解析結果に
付与されているベクトルスコアを要素毎に加算すること
により新たなベクトルスコアを作成し、さらに該解析結
果の作成に用いられた文法規則の記述にしたがってその
内容を要素毎に変更した後に、該解析結果に付与するベ
クトルスコア算出手段と、前記ベクトルスコア算出手段
により解析結果に付与されたベクトルスコアからトータ
ルスコアを算出して該解析結果に付与するトータルスコ
ア算出手段と、前記ベクトルスコア算出手段により解析
結果に付与されたベクトルスコアから枝刈りスコアを算
出して該解析結果に付与し、前記解析結果保持手段に登
録する枝刈りスコア算出手段と、前記枝刈りスコア算出
手段が付与した枝刈りスコアに基づいて前記解析結果保
持手段が保持する解析結果の一部を削除する枝刈り手段
と、前記トータルスコア算出手段が付与したトータルス
コアに基づいて複数の解析結果から一つを選択する選択
手段とを有して構成されている。

【００２０】

【作用】本発明においては、解析結果の優先度の情報
は、単一の数値ではなく、要因毎の評価を数値化したベ
クトルスコアとして各解析結果中に保持されており、文
法規則の適用によって構文木上を伝播するのはこのベク
トルである。解析結果に対する優先度であるトータルス
コアは、文法規則が適用され新たな解析結果が得られる
度に、このベクトルスコアから新規に計算される。この
ように、個別の評価項目に対する評価結果が、他の評価
項目と混ざらないで分離したまま構文木上を伝播するの
で、評価のキャンセルや再評価を行う際には、該当する
項目の評価値を０にする／再評価して評価値を入れ換え
るというだけの操作により目的が達成される。この操作
は、「評価のキャンセル／再評価」の自然な表現となっ
ていることに注意されたい。また、各構文木には、優先
度計算の元となった要因毎の評価値が、ベクトルスコア
の形で付随しているため、優先度の成り立ちと、そこに
寄与する要因間の相互作用を一目で把握することがで
き、要因間の整合性の保守が容易である。さらに、本発
明においては、個々の項目を評価するベクトルスコア付
与を行う手段と、これらの評価を統合して優先度を計算
するトータルスコア付与を行う手段が分離している。優
先知識の記述において、評価要因間の整合性をとる必要
があるのは後者の手段に対する知識だけであり、前者の
知識の記述は後者の知識がまったく記述されていない段
階でも独立にすすめることができる。新規要因の導入に
ついては、まず個々の要因に対する評価の記述を完了さ
せ、それから要因間の相互作用を考慮してトータルスコ
ア付与方法を記述する、というように段階を分けること
によって、新規要因の導入をスムーズに行うことができ
る。

【００２１】さらに、本発明においては、構文木の優先
度と枝刈りのために用いる数値を分離して管理し、計算
も別々に行う。枝刈りの数値を計算する際には後にキャ
ンセル／再評価される可能性がある項目を考慮しないよ
うにすることによって、正解を刈ってしまうことの少な
い、的確な枝刈りを行うことができる。

【００２２】

【実施例】以下、本発明を英語から日本語への機械翻訳
システムに適用した実施例について、図面を参照しなが
ら説明する。図１は本発明の一実施例を示す概略ブロッ
ク図である。第１の発明は、図１に示すように、英語文
字列が入力される入力部１１と、辞書１２と、入力文字
列を単語に分解して辞書引きを行う形態素解析部１３
と、構文／意味解析を行なって意味表現を出力する構文
／意味解析部１４と、意味表現から日本語表現を生成す
る生成部１５と、出力部１６とを有して構成されてい
る。また、構文／意味解析部１４は、図２に示すよう
に、解析のための文法規則を記憶している文法規則記憶
部１４２と、解析の途中結果を保持する解析結果保持部
１４１と、解析結果保持部１４１が保持する解析結果に
対して文法規則記憶部１４２に納められている文法規則
を適用して新たな解析結果を得る文法規則適用部１４３
と、作成された解析結果に対してベクトルスコアを算出
し付与するベクトルスコア算出部１４４と、解析結果の
ベクトルスコアからトータルスコアを算出し付与するト
ータルスコア算出部１４５と、トータルスコアに基づい
て解析結果から一つを選択する選択部１４６とを有して
構成されている。

【００２３】本実施例では、英語文字列が入力部１１に
入力されると、辞書１２を参照しながら形態素解析部１
３が単語認定と辞書引きを行ない、結果を構文／意味解
析部１４に送る。構文／意味解析部１４は、文法規則を
参照しながら構文木解析を行なうとともに、解析結果に
対応する意味構造を作成する。解析結果は生成部１５に
送られ、その意味構造から対応する日本語文が生成され
て、出力部１６から出力される。

【００２４】構文／意味解析部１４は、文脈自由部分を
持つ単一化文法として記述された文法規則を参照しなが
ら、ｌｅｆｔｔｏｒｉｇｈｔのボトムアップ横型チ
ャートパーシングを行う。解析結果保持部１４１はいわ
ゆるチャートであり、形態素解析部１３から与えられた
単語列は、まずこの解析結果保持部１４１に登録され
る。文法規則適用部１４３は、解析結果保持部１４１を
参照し、ｌｅｆｔｔｏｒｉｇｈｔのボトムアップ横型
チャートパーシングの解析戦略に基づいて、順に注目エ
ッジ（以下、随時「解析結果」の代わりに「エッジ」と
いう言葉を用いる）を変えながら、文法規則記憶部１４
２を探索して適用可能な規則を見い出す。適用可能な規
則が見い出せればこれを適用して、新しいエッジを作成
する。対応する意味構造の作成は文法規則適用と同時に
行われ、エッジに付与される。ベクトルスコア算出部１
４４はこの新エッジに対してベクトルスコアを算出、付
与する。トータルスコア算出部１４５はこのベクトルス
コアに基づいてトータルスコアを算出、付与し、解析結
果保持部（チャート）１４１に登録する。この繰り返し
の後、すべてのエッジに対して、適用チェックの終わっ
ていない文法規則がなくなったら解析終了であり、選択
部１４６が起動される。選択部１４６は、解析結果保持
部１４１に登録された解析結果の中から、入力文全体に
対応する解析結果を抽出し、そのトータルスコアを比較
し、最も高いトータルスコアを持つ解析結果を出力とす
る。

【００２５】各解析結果（エッジ）は、そのエッジが作
成されるに至った文法規則適用の過程の文脈自由部分を
表す構文木情報に加えて、素性構造中に、各種の統語的
／意味的な情報を保持している。さらに、エッジの優先
度に関する情報として、数値のベクトルであるベクトル
スコアと、単一の数値であるトータルスコアを保持して
いる。

【００２６】ベクトルスコアの要素は、解析結果の優先
度に寄与する個々の項目に対する要因毎の評価結果であ
る。本実施例における評価項目（評価要因）を以下に挙
げる。

【００２７】ｓ１１）ギャップの存在（ｇａｐ＿ｅｘｉ
ｓｔｅｎｃｅ）ｓ１２）未完成の呼応関係の存在ｓ２１）ユーザーによる直接指定との合致／違反ｓ２２）一致の違反ｓ２３）デフォールトルールによる構造化の存在ｓ３１）強いコロケーションの存在ｓ３２）文脈による強い選好の存在ｓ４１）文のヘッドの品詞ｓ４２）名詞間の弱いコロケーションの存在ｓ４３）前置詞句の係り先に関する右連合条件ｓ４４）前置詞句の係り先に関する最小付加ｓ４５）前置詞句の係り先に関する語彙的選好ｓ４６）格要素意味制約の合致／違反ｓ４７）動詞、前置詞、名詞の３項の共起尤度ｓ４８）テンス／アスペクトによる動詞語義の制限ｓ４９）前置詞と目的語の共起関係ｓ５１）その他これらの項目は、評価対象となる言語現象、全体評価へ
の寄与の度合、解析の過程でキャンセル／再評価が起こ
る可能性があるかどうか、を基準に分割されている。

【００２８】文法規則は、文脈自由文法の骨格を持つ単
一化ベース文法として記述される。すなわち、各規則
は、文脈自由文法形式の規則の各項に素性構造が付与さ
れた形をしている。文法規則適用の対象であるデータ
は、品詞シンボルに素性構造が付与される形式をしてお
り、文法規則適用の可否のチェックは、項毎の単一化に
よって行われる。さらに、文法規則中に任意の補強項関
数が記述できるようになっており、これにより任意のデ
ータ構造操作が可能となっている。

【００２９】次に、ベクトルスコア算出部１４４および
トータルスコア算出部１４５の動きを説明する。ベクト
ルスコア算出部１４４は、まず該解析結果の子供の解析
結果（一般には複数存在する）が保持しているベクトル
スコアを参照し、これらを要素毎に加算することによっ
て新たなベクトルスコアを作成する。次に、該解析結果
を作成する際に使用された文法規則の記述にしたがっ
て、このベクトルスコアの値を要素毎に変更する。ベク
トルスコアが付与された解析結果はトータルスコア算出
部１４５に送付される。トータルスコア算出部１４５
は、自身が持つ一般知識に従って、ベクトルスコアの各
要素の数値を総合してトータルスコアを算出し、該解析
結果にトータルスコアとして付与する。トータルスコア
が付与された解析結果は、解析結果保持部１４１に登録
され、新たな文法規則適用の対象となる。

【００３０】次に、本実施例における構文／意味解析部
１４の動作を中心として、具体例を用いて説明する。英
文字列”ｔｈｅｍａｎｓｈｅｗａｓｔａｌｋｉ
ｎｇｔｏ．”が入力部１１に入力されたとしよう。形態
素解析部１３により単語認定と辞書情報付与が行われた
データが、構文／意味解析部１４の入力となる。このデ
ータはまず解析結果保持部１４２に登録され、ボトムア
ップ横型チャートパーシングのアルゴリズムに基づいて
解析が進行する。図４は、解析が進んで、部分区間”ｓ
ｈｅｗａｓｔａｌｋｉｎｇｔｏ”の解析が終了し
た時点での、解析結果の一つの木構造の概略を示したも
のである。木構造の各ノードのシンボルは対応する非終
端記号であり、｛｝の中に付随する素性構造が記されて
いる。太字は、ノードの構造に対応する原文区間であ
る。また、ｖｅｃｔｏｒ＿ｓｃｏｒｅおよびｔｏｔａｌ
＿ｓｃｏｒｅは、対応するベクトルスコアおよびトータ
ルスコアを示す。なお、ベクトルスコアの各要素は、参
照の便のために、項目名とその評価点が順に並び、項目
間はセミコロンで区切ってある。なお、これらの図で
は、以後の説明に関係のない情報は省略してある。

【００３１】図４に示す構造を作成するにあたっては、
図５に示す文法規則が用いられている。図５（ａ）は、
目的語が欠けた前置詞句を形成する規則であり、図４の
３５６において”ｔｏ”が単独で前置詞句となるために
用いられている。図５（ｂ）の二つの規則は、それぞれ
エッジ３４（非終端記号ｖｅｒｂ）とエッジ３５（非終
端記号ｐｒｅｐ＿ｐｈｒａｓｅ）からエッジ３３（非終
端記号ｖｅｒｂ＿ｐｈｒａｓｅ）とを作る過程、及びエ
ッジ３２（非終端記号ｎｏｕｎ＿ｐｈｒａｓｅ）エッジ
３３とからエッジ３１（非終端記号ｓｅｎｔｅｎｃｅ）
を作る過程で用いられている。

【００３２】図５（ａ）中の＜＃ｖａｓｓｉｇｎ（ｇａ
ｐ＿ｅｘｉｓｔｅｎｃｅ，１）＞は、文法規則適用と同
時に実行される補強項関数であり、ｖｅｃｔｏｒ＿ｓｃ
ｏｒｅの項目”ｇａｐ＿ｅｘｉｓｔｅｎｃｅ”に対応す
る値として−１を与えることを指示している。その結
果、図４の解析結果（エッジ）３６では０であったベク
トルスコア中の項目”ｇａｐ＿ｅｘｉｓｔｅｎｃｅ”の
値が、エッジ３５では−１になる。エッジ３５のトータ
ルスコア（ｔｏｔａｌ＿ｓｃｏｒｅ）は、図６に示した
計算式を用いて、同じエッジのベクトルスコアから計算
される。この例では項目ｓ_{1 1}が評価−１を持ち、その
他の項目からの影響がないためトータルスコアは−１０
００００になる。

【００３３】以後、すべての構造化において伝播するの
はベクトルスコアである。子供が複数ある場合には、対
応する要素同士を単純に加算することによりベクトルス
コアが求められる。この例では、”ｓｈｅｗａｓｔ
ａｌｋｉｎｇｔｏ”の形成に至るまで、”ｇａｐ＿ｅ
ｘｉｓｔｅｎｃｅ”が−１のまま伝播される。

【００３４】図７に示すのは、この構造が先行詞と結合
して名詞句となった場合の木構造である。構造化規則は
図８に示すものが用いられている。＜＃ｖｃｌｅａｒ
（ｇａｐ＿ｅｘｉｓｔｅｎｃｅ）＞は、ベクトルスコア
の項目”ｇａｐ＿ｅｘｉｓｔｅｎｃｅ”を０にクリアす
ることを指示する補強項関数である。項目”ｇａｐ＿ｅ
ｘｉｓｔｅｎｃｅ”には、”ｔｈｅｍａｎ”に対応す
るエッジでは０、”ｓｈｅｗａｓｔａｌｋｉｎｇ
ｔｏ”に対応するエッジでは−１が与えられているた
め、ベクトルスコアの初期値は値−１を持つが、この補
強項関数によってこれが０クリアされる。その結果、”
ｔｈｅｍａｎｓｈｅｗａｓｔａｌｋｉｎｇｔ
ｏ”に対応するエッジのベクトルスコアのこの項目は値
０を持ち、従ってトータルスコアには寄与しない。

【００３５】ここで、図８の規則の優先度知識は、「名
詞と、ギャップを持つ文が構造化されることにより、ギ
ャップが解消される」ことの忠実な反映になっているこ
とに注意して欲しい。ここでは、従来の記述で必要であ
ったような、下部構造でどのような評価値が与えられる
か、に関する情報は不要であり、図５（ａ）の規則でこ
の項目に与える値が変更されても、この規則はいっさい
変更する必要がない。ある項目が依然の評価をキャンセ
ルして「再評価」される必要があること、および再評価
の方法を記述すればよい。

【００３６】図３は、第２の発明における、構文／意味
解析部の構成を示したものである。全体の構成は図１に
示されたものと同じである。この構文／意味解析部は、
解析の途中結果を保持する解析結果保持部２４１と、解
析のための文法規則を保持している文法規則記憶部２４
２と、解析結果保持部２４１中の解析結果に対して文法
規則を適用し新しく解析結果を作成する文法規則適用部
２４３と、文法規則適用部２４３からの結果を受けて、
優先順位の評価項目毎の評価結果を数値のベクトルとし
て保持するベクトルスコア算出部２４４と、算出された
ベクトルスコアを参照して単一の数値であるトータルス
コアを算出して解析結果に付与するトータルスコア算出
部２４５と、算出されたベクトルスコアを参照して単一
の数値である枝刈りスコアを算出して解析結果に付与し
解析結果保持部２４１に登録する枝刈りスコア算出部２
４７と、解析結果に付与された枝刈りスコアを参照して
解析結果保持部２４１中の解析結果を削除する枝刈り部
２４８と、解析結果に付与されたトータルスコアを参照
して解析結果保持部２４１中の解析結果から一つを選択
する選択部２４６とを有して構成されている。

【００３７】枝刈りスコアは、図１１に示す式により計
算される。図４に示した、トータルスコア計算のための
式との相違は、ｓ_{1 1}，ｓ_{1 2}の二つの要因に対してウ
ェイト０が与えられていることである。これらの要因は
後にキャンセルあるいは再評価される可能性があるた
め、ある時点でこれらの評価が低いことを理由に解析結
果を途中削除してしまうと、正解を削除してしまう可能
性があるためである。図９および図１０は、”ｔｈｅ
ｍａｎｓｈｅｗａｓｔａｌｋｉｎｇｔｏ”の解
析の途中に出現するエッジに対するスコアリングの様子
を示す図である。この図に示したように、ギャップを含
む構造は、トータルスコアは低いが枝刈りスコアは中立
的な評価がなされる。これのため、正解の下部構造とな
るべき構造を誤って枝刈りしてしまうことが防止でき
る。

【００３８】なお、上述の実施例では、ベクトルスコア
の要素間の演算として加算を行うものとしたが、必要に
応じてリストの結合とするなど、改変して実施すること
は容易である。また、パーシングの戦略についてもｌｅ
ｆｔｔｏｒｉｇｈｔのボトムアップ横型としたが、
一般にパーシングが行える戦略ならば、どれを採用して
本発明を実施することも容易である。さらに、ベクトル
スコアからのトータルスコアの計算法として加重和を採
用したが、ここにルールによるアルゴリズミックな制御
を導入し、特定の要因を絶対的に優先して考慮する、な
ど変形して実施することも容易である。以上のように、
本発明は様々に変形して実施することができる。

【００３９】

【発明の効果】以上説明したように、本発明の自然言語
解析装置によれば、項目のキャンセル／再評価といった
優先知識を、アドホックな記述を行うことなく自然に記
述できるため、優先知識の保守が容易になる。また、本
発明の構文解析装置によれば、枝刈り用の評価値を優先
度から分離して、後にキャンセル／再評価される可能性
のある評価項目を枝刈りに用いないようにすることがで
きるので、誤って正解を枝刈りしてしまうことが少なく
なる。

【００４０】さらに、本発明の自然言語解析装置におい
ては、優先度知識の保守が容易である。この点について
少し説明する。トータルスコアは必ず同じ解析木に付随
するベクトルスコアから計算されたものである。その計
算は、トータルスコア付与部が持つ一般的な知識により
行われる。しかも、計算の元データとなるベクトルスコ
アの各要素は、対応する言語現象毎に分割されており、
その意味がきわめて明確である。したがって、トータル
スコアの意味が明瞭に把握できるのである。例えば、図
４中のエッジ”ｓｅｎｔｅｎｃｅ”に対するトータルス
コアは、ｇａｐ＿ｅｘｉｓｔｇｅｎｃｅ項目に−１を持
ち、他の項目がすべて０であるベクトルスコアから図５
に示す加重和により計算されていることから、このトー
タルスコアの評価が低いのはギャップの存在に起因して
いることを把握するのは容易である。従来技術では、各
エッジはトータルスコアに相当する情報しか保持してい
ないため、原因が下部構造に起因することまではたどれ
ても、その原因が何なのか、を理解することは困難であ
ったのである。図１２を参照されたい。これは、図４、
図７の示した構文木から、ｖｅｃｔｏｒ＿ｓｃｏｒｅの
情報を取り去ったものであるが、これだけからではｔｏ
ｔａｌ＿ｓｃｏｒｅの意味を把握することが困難である
ことがわかる。このように、本発明によれば、優先知識
の内容の把握が容易であり、ひいては優先知識の保守が
容易である。

【００４１】また、本発明の自然言語解析装置において
は、優先度計算のための新しい項目を導入することが容
易である。本発明では、個々の項目に対する評価値を付
与する手段と、これらの評価値を総合して優先度とする
手段が、それぞれベクトルスコア付与手段およびトータ
ルスコア付与手段として分離されている。この分離に対
応して、新規要因の導入を二つの段階に分けて考えるこ
とができる。第一段階はベクトルスコア付与手段に要因
を導入する段階であり、ベクトルスコアに対応する要素
を新設し、関連する文法規則にこれを評価する補強項関
数を記述する。この段階では、導入項目の中での評価の
整合性のみを考えて評価知識を記述すればよく、他の項
目に対する評価値との関係を考える必要はない。これが
可能なのは、本発明においては、ベクトルスコアの計算
に、他の要因の評価値を含むトータルスコアを使用して
いないためである。ただし、この段階では、新規導入し
ようとしている要因の評価は、最終選択には全く反映さ
れない。第二段階では、トータルスコアの計算関数を、
新しく導入した評価要因を考慮するように変更する。こ
こではじめて、他の要因との整合性を考えることにな
る。このように、本発明においては、新たな評価要因の
導入において、１）評価要因内部での整合性のみを考えて優先度付与を
行う段階２）他の要因との相互関係を定式化する段階の二つ、すなわち評価項目に対する評価づけ作業と、他
の評価項目との整合性のチェックという性質の異なる二
つの作業を異なる段階として分離することができるた
め、これらが一体となっていた従来の方法に比べて新規
評価要因に対する知識の記述がはるかに容易である。

【００４２】さらに、このことは、文法規則を複数で開
発することを容易にする。通常、文法規則を複数で分担
して記述する場合には、対応する言語現象を軸として分
割することが多い。これは、ベクトルスコアの要素を分
割する際の基準と一致するため、実際には、各人はベク
トルスコアの要因毎に担当することになる。要因内の評
価知識の記述は上述の第一段階に相当し、各人は項目内
での整合性をとるように注意するのみでよいため、作業
を独立に進めることができるのである。その後、文法規
則をまとめる段階ではじめて要因間の整合性をチェック
すればよい。従来の方法では分割して文法を開発してい
る最中にも開発者間での優先知識の間の整合性を常に意
識している必要があったのに比較して、労力が大きく削
減される。

【００４３】以上のように、本発明は、従来の技術と比
較して、新規要因の導入が容易であり、文法規則の分割
開発が容易になるという効果をも持つ。

【図面の簡単な説明】

【図１】第１，２の発明の一実施例を示す概略ブロック
図である。

【図２】第１の発明における構文／意味解析部の一実施
例を示すブロック図である。

【図３】第２の発明における構文／意味解析部の一実施
例を示すブロック図である。

【図４】第１の発明の実施例における解析結果の一例を
示す図である。

【図５】第１の発明の実施例で、図４に示す解析結果を
作成するのに使用した文法規則を示す図で、（ａ）はギ
ャップ形成規則、（ｂ）は動詞句および文形成規則であ
る。

【図６】第１の発明の実施例におけるトータルスコアの
計算法を示す図である。

【図７】第１の発明の実施例における解析結果の一例を
示す図である。

【図８】第１の発明の実施例で、図７に示す解析結果を
作成するのに使用した文法規則を示す図である。

【図９】第２の発明の実施例における解析結果の一例を
示す図である。

【図１０】第２の発明の実施例における解析結果の一例
を示す図である。

【図１１】第２の発明の実施例におけるトータルスコア
の計算方法を示す図である。

【図１２】従来技術による解析結果の一例を示す図であ
る。

【図１３】従来技術による優先知識記述の一例を示す図
である。

【符号の説明】

１１入力部１２辞書１３形態素解析部１４構文／意味解析部１５生成部１６出力部１４１解析結果保持部１４２文法規則記憶部１４３文法規則適用部１４４ベクトルスコア算出部１４５トータルスコア算出部１４６選択部２４１解析結果保持部２４２文法規則記憶部２４３文法規則適用部２４４ベクトルスコア算出部２４５トータルスコア算出部２４６選択部２４７枝刈りスコア算出部２４８枝刈り部

Claims

【特許請求の範囲】

【請求項１】所定の自然言語を解析するためのデータ
を格納した辞書と、入力された前記所定の自然言語につ
いて前記辞書を索引して形態素解析を行う形態素解析部
と、前記形態素解析された文を構文意味解析する構文意
味解析部とを備えた自然言語解析装置において、前記構
文意味解析部が、自然言語を解析するための文法規則を
記憶している文法規則記憶手段と、数値のベクトルから
なるベクトルスコアおよび単一の数値からなるトータル
スコアが付与された解析結果を保持する解析結果保持手
段と、前記解析結果保持手段中の解析結果に対して前記
文法規則記憶手段中の文法規則を適用して新たな解析結
果を得る文法規則適用手段と、前記文法規則適用手段に
よって得られた解析結果に対し、その子供となった解析
結果に付与されているベクトルスコアを要素毎に加算す
ることにより新たなベクトルスコアを作成し、さらに該
解析結果の作成に用いられた文法規則の記述にしたがっ
てその内容を要素毎に変更した後に、該解析結果に付与
するベクトルスコア算出手段と、前記ベクトルスコア算
出手段により解析結果に付与されたベクトルスコアから
トータルスコアを算出して該解析結果に付与し、前記解
析結果保持手段に登録するトータルスコア算出手段と、
前記トータルスコア算出手段が付与したトータルスコア
に基づいて複数の解析結果から一つを選択する選択手段
とを有することを特徴とする自然言語解析装置。
【請求項２】所定の自然言語を解析するためのデータ
を格納した辞書と、入力された前記所定の自然言語につ
いて前記辞書を索引して形態素解析を行う形態素解析部
と、前記形態素解析された文を構文意味解析する構文意
味解析部とを備えた自然言語解析装置において、前記構
文意味解析部が、自然言語を解析するための文法規則を
記憶している文法規則記憶手段と、数値のベクトルから
なるベクトルスコア、単一の数値からなるトータルスコ
ア、および単一の数値からなる枝刈りスコアが付与され
た解析結果を保持する解析結果保持手段と、前記解析結
果保持手段中の解析結果に対して前記文法規則記憶手段
中の文法規則を適用して新たな解析結果を得る文法規則
適用手段と、前記文法規則適用手段によって得られた解
析結果に対し、その子供となった解析結果に付与されて
いるベクトルスコアを要素毎に加算することにより新た
なベクトルスコアを作成し、さらに該解析結果の作成に
用いられた文法規則の記述にしたがってその内容を要素
毎に変更した後に、該解析結果に付与するベクトルスコ
ア算出手段と、前記ベクトルスコア算出手段により解析
結果に付与されたベクトルスコウからトータルスコアを
算出して該解析結果に付与するトータルスコア算出手段
と、前記ベクトルスコア算出手段により解析結果に付与
されたベクトルスコアから枝刈りスコアを算出して該解
析結果に付与し、前記解析結果保持手段に登録する枝刈
りスコア算出手段と、前記枝刈りスコア算出手段が付与
した枝刈りスコアに基づいて前記解析結果保持手段が保
持する解析結果の一部を削除する枝刈り手段と、前記ト
ータルスコア算出手段が付与したトータルスコアに基づ
いて複数の解析結果から一つを選択する選択手段とを有
することを特徴とする自然言語解析装置。