JP2003030184A

JP2003030184A - 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体

Info

Publication number: JP2003030184A
Application number: JP2001217619A
Authority: JP
Inventors: Kazuhiko Tajima; 和彦田島; Shigeaki Yokota; 重昭横田; Hideki Shimomura; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-07-18
Filing date: 2001-07-18
Publication date: 2003-01-31

Abstract

(57)【要約】【課題】精度の高い構文解析や意味解析を行い、入力
文の意味を正確に理解する。【解決手段】意味解析部４５は、動詞の下位範疇化情
報と項構造情報からなる、多量のコーパスデータを用い
て生成された補助情報を記憶している補助情報データベ
ース４６から、入力文に含まれる動詞についての補助情
報を検索し、入力文中に存在する照応形の属性を、その
入力文に含まれる動詞についての補助情報に基づいて認
識する。そして、意味解析部４５は、照応形の属性に基
づいて、照応形が指し示す先行詞を決定し、その先行詞
を用いて、入力文の意味解析を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語処理装置
および自然言語処理方法、並びにプログラムおよび記録
媒体に関し、動詞について、その下位範疇化情報および
項構造情報を得ることができるようにし、さらに、その
下位範疇化情報および項構造情報を用いて、照応形の先
行詞を決定して、精度の高い対話や翻訳等の自然言語処
理を行うことができるようにする自然言語処理装置およ
び自然言語処理方法、並びにプログラムおよび記録媒体
に関する。

【０００２】

【従来の技術】従来の自然言語処理装置では、入力され
た文（入力文）が形態素解析され、さらに、その形態素
解析結果に基づき、構文解析、意味解析が行われ、入力
文の意味内容が理解される。そして、自然言語処理装置
が、例えば、ユーザとの対話を行う対話装置である場合
には、入力文の意味内容の理解に基づいて、その入力文
に対する応答文が生成されて出力される。

【０００３】

【発明が解決しようとする課題】ところで、例えば、
「もう食べましたか？」という入力文においては、食べ
たのは誰かという主語と、食べたものが何かという直接
目的語が欠けている。従って、この入力文「もう食べま
したか？」については、その欠けている主語と直接目的
語を決定することができないと、その意味を正確に理解
したということができない。

【０００４】ここで、例えば、岩波講座-言語の科学６
「生成文法」岩波書店、１９９７年や、橋田浩一「Glob
al Document Annotation;GDA」電総研、１９９８年等の
記載の自然言語理論によれば、ゼロ照応形(zero anapho
ra)と呼ばれる、表現されないが、目的語の位置にあ
り、照応関係を成立させる代名詞のようなものが存在す
る。即ち、この自然言語理論では、ある位置にあるべき
名詞句が欠けている場合に、その位置に、ゼロ照応形
（zero anaphora）が存在するとして扱われる。

【０００５】なお、照応(anaphora)とは、代名詞、指示
詞などの代用表現（照応形）とその指し示す対象（先行
詞）との組によって表わされる言語現象であり、表現さ
れない照応形が、ゼロ照応形である。

【０００６】上述の入力文「もう食べましたか？」を正
確に理解するためには、例えば、いま、ゼロ照応形を、
proと表すこととすると、構文解析において、入力文
「もう食べましたか？」における動詞「食べる」を、ど
のような構成素を必要とするものであるかを基準に分類
し、その分類結果に基づき、入力文「もう食べましたか
？」が、「pro（主語）もうpro（直接目的語）食べまし
たか？」であると分析（解析）する必要がある。さらに
は、ゼロ照応形(pro)が存在する場合には、そのゼロ照
応形が指し示す先行詞が、具体的に何であるかを決定す
る必要がある。具体的には、入力文「もう食べましたか
？」については、食べたのが誰であるのかと、食べたの
か何であるのかを決定する必要がある。

【０００７】ここで、動詞の種別としては、動作主(Age
nt)を主語にとる自動詞(intransitive)、対象(Theme)を
主語にとる能格動詞(ergative)、直接目的語を選択する
他動詞(transitive)、および直接目的語と間接目的語の
両方を選択する二重目的語他動詞(ditransitive)の４つ
があり、動詞を分類するとは、動詞を、これらの自動
詞、能格動詞、他動詞、二重目的語他動詞のうちのいず
れかに分類することを意味する。なお、上述の動詞「食
べる」は他動詞である。

【０００８】しかしながら、日本語においては、主語や
目的語が頻繁に省略されるため、従来の自然言語処理装
置では、構文解析時に、表層でも、また深層でも、動詞
の分類、およびゼロ照応形を考慮した分析はあまり行わ
れていなかった。

【０００９】従って、従来の自然言語処理装置では、入
力文におけるゼロ照応形の有無を判断することも、さら
には、ゼロ照応形がある場合に、その先行詞を決定する
こともあまり行われていなかったため、精度の高い構文
解析や意味解析を行うことができずに、入力文の意味を
正確に理解することができないことが多かった。

【００１０】本発明は、このような状況に鑑みてなされ
たものであり、精度の高い構文解析や意味解析を可能と
し、さらに、それにより、入力文の意味を正確に理解す
ることができるようにするものである。

【００１１】

【課題を解決するための手段】本発明の第１の自然言語
処理装置は、コーパスデータの形態素解析結果から、格
フレームの生成対象とする単位である基本センテンスを
生成する基本センテンス生成手段と、基本センテンスか
ら、格フレームの生成に不要な語彙を削除する不要語彙
削除手段と、不要語彙が削除された基本センテンスにお
ける動詞について、格フレームを生成する格フレーム生
成手段と、同一の動詞についての格フレームに基づい
て、その動詞の下位範疇化情報と項構造情報を生成し、
補助情報として出力する補助情報生成手段とを備えるこ
とを特徴とする。

【００１２】本発明の第１の自然言語処理方法は、コー
パスデータの形態素解析結果から、格フレームの生成対
象とする単位である基本センテンスを生成する基本セン
テンス生成ステップと、基本センテンスから、格フレー
ムの生成に不要な語彙を削除する不要語彙削除ステップ
と、不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成ステッ
プと、同一の動詞についての格フレームに基づいて、そ
の動詞の下位範疇化情報と項構造情報を生成し、補助情
報として出力する補助情報生成ステップとを備えること
を特徴とする。

【００１３】本発明の第１のプログラムは、コーパスデ
ータの形態素解析結果から、格フレームの生成対象とす
る単位である基本センテンスを生成する基本センテンス
生成ステップと、基本センテンスから、格フレームの生
成に不要な語彙を削除する不要語彙削除ステップと、不
要語彙が削除された基本センテンスにおける動詞につい
て、格フレームを生成する格フレーム生成ステップと、
同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、補助情報とし
て出力する補助情報生成ステップとを備えることを特徴
とする。

【００１４】本発明の第１の記録媒体は、コーパスデー
タの形態素解析結果から、格フレームの生成対象とする
単位である基本センテンスを生成する基本センテンス生
成ステップと、基本センテンスから、格フレームの生成
に不要な語彙を削除する不要語彙削除ステップと、不要
語彙が削除された基本センテンスにおける動詞につい
て、格フレームを生成する格フレーム生成ステップと、
同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、補助情報とし
て出力する補助情報生成ステップとを備えるプログラム
が記録されていることを特徴とする。

【００１５】本発明の第２の自然言語処理装置は、少な
くとも、動詞の下位範疇化情報と項構造情報からなる補
助情報を記憶している補助情報記憶手段から、入力文に
含まれる動詞についての補助情報を検索する検索手段
と、入力文中に照応形が存在するかどうかを判定する判
定手段と、入力文中に存在する照応形の属性を、その入
力文に含まれる動詞についての補助情報に基づいて認識
する属性認識手段と、照応形の属性に基づいて、照応形
が指し示す先行詞を決定する先行詞決定手段と、先行詞
決定手段において決定された先行詞を用いて、入力文の
構文解析または意味解析を行う解析手段とを備えること
を特徴とする。

【００１６】本発明の第２の自然言語処理方法は、少な
くとも、動詞の下位範疇化情報と項構造情報からなる補
助情報を記憶している補助情報記憶手段から、入力文に
含まれる動詞についての補助情報を検索する検索ステッ
プと、入力文中に照応形が存在するかどうかを判定する
判定ステップと、入力文中に存在する照応形の属性を、
その入力文に含まれる動詞についての補助情報に基づい
て認識する属性認識ステップと、照応形の属性に基づい
て、照応形が指し示す先行詞を決定する先行詞決定ステ
ップと、先行詞決定ステップにおいて決定された先行詞
を用いて、入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とする。

【００１７】本発明の第２のプログラムは、少なくと
も、動詞の下位範疇化情報と項構造情報からなる補助情
報を記憶している補助情報記憶手段から、入力文に含ま
れる動詞についての補助情報を検索する検索ステップ
と、入力文中に照応形が存在するかどうかを判定する判
定ステップと、入力文中に存在する照応形の属性を、そ
の入力文に含まれる動詞についての補助情報に基づいて
認識する属性認識ステップと、照応形の属性に基づい
て、照応形が指し示す先行詞を決定する先行詞決定ステ
ップと、先行詞決定ステップにおいて決定された先行詞
を用いて、入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とする。

【００１８】本発明の第２の記録媒体は、少なくとも、
動詞の下位範疇化情報と項構造情報からなる補助情報を
記憶している補助情報記憶手段から、入力文に含まれる
動詞についての補助情報を検索する検索ステップと、入
力文中に照応形が存在するかどうかを判定する判定ステ
ップと、入力文中に存在する照応形の属性を、その入力
文に含まれる動詞についての補助情報に基づいて認識す
る属性認識ステップと、照応形の属性に基づいて、照応
形が指し示す先行詞を決定する先行詞決定ステップと、
先行詞決定ステップにおいて決定された先行詞を用い
て、入力文の構文解析または意味解析を行う解析ステッ
プとを備えるプログラムが記録されていることを特徴と
する。

【００１９】本発明の第１の自然言語処理装置および自
然言語処理方法、並びにプログラムにおいては、コーパ
スデータの形態素解析結果から、格フレームの生成対象
とする単位である基本センテンスが生成され、その基本
センテンスから、格フレームの生成に不要な語彙が削除
される。さらに、不要語彙が削除された基本センテンス
における動詞について、格フレームが生成され、同一の
動詞についての格フレームに基づいて、その動詞の下位
範疇化情報と項構造情報が生成されて、補助情報として
出力される。

【００２０】本発明の第２の自然言語処理装置および自
然言語処理方法、並びにプログラムにおいては、少なく
とも、動詞の下位範疇化情報と項構造情報からなる補助
情報を記憶している補助情報記憶手段から、入力文に含
まれる動詞についての補助情報が検索される一方、入力
文中に照応形が存在するかどうかが判定され、入力文中
に存在する照応形の属性が、その入力文に含まれる動詞
についての補助情報に基づいて認識される。そして、照
応形の属性に基づいて、照応形が指し示す先行詞が決定
され、その先行詞を用いて、入力文の構文解析または意
味解析が行われる。

【００２１】

【発明の実施の形態】図１は、本発明を適用した自然言
語処理装置の一実施の形態の構成例を示している。

【００２２】この自然言語処理装置は、自然言語の構文
解析や意味解析を補助する補助情報を、多量のコーパス
データから求める補助情報生成装置を構成している。

【００２３】即ち、図１の補助情報生成装置としての自
然言語処理装置は、多量のコーパスデータから、動詞に
ついての格フレームを生成し、さらに、その格フレーム
から、動詞の下位範疇化情報(subcategorization)と項
構造情報(argument structure)を含む補助情報を生成す
るようになっている。

【００２４】ここで、例えば、平岡冠二・松本祐治（１
９９４）「コーパスからの動詞の格フレーム獲得と名詞
のクラスタリング」情報処理学会、自然言語処理研究
会、NL-104や、春野雅彦（１９９５）「最小汎化とオッ
カムの原理を用いた動詞格フレーム学習」情報処理学
会、自然言語処理研究会、NL-108、李航・安倍直樹（１
９９６）「Learning Dependencies between Case Frame
Slots」情報処理学会、自然言語処理研究会、NL-116に
は、同義関係情報を含むシソーラスと呼ばれる辞書を作
成するための格フレームの自動生成方法が記載されてい
るが、図１の補助情報生成装置において生成される格フ
レームは、下位範疇化情報と項構造情報を含む補助情報
の作成を目的とする点で、シソーラスを作成する目的で
格フレームを生成するのとは異なる。

【００２５】また、補助情報を構成する下位範疇化情報
は、例えば、ＨＰＳＧ(Head-DrivenPhrase Structure G
rammar - C.Pollard & I.Sag(1996) Head-Driven Phras
e Structure Grammar. CSLI & University of Chicago
Press)や、ＪＰＳＧ(Japanese Phrase Structure Gramm
ar - T.Gunji & K.Hasida(1998) Topics in Constraint
-Based Grammar of Japanese. Kluwer Academic Publis
hers ; 郡司隆男「制約に基づく文法の連続量の概念を
取り入れた拡張の研究」（平成１２年）文部省研究成果
報告書)等に記載されている汎用の自然言語処理理論に
おいて重要な役割を担うもので、次のような情報であ
る。

【００２６】即ち、動詞は、ある特定の構造や特定の統
語的、意味的機能を有する構成素を要求するが、動詞
を、その動詞が要求する構成素を基準に分類すること
は、下位範疇化(subcategorization)と呼ばれる。具体
的には、例えば、動詞「食べる」は、「レストランで、
うどんを、箸で食べました。」のように、名詞句（うど
ん＋「を」）を構成素として必要とし、さらに、場所を
表す名詞句（レストラン＋「で」）や、手段を表す名詞
句（箸＋「で」）を、必要に応じて、構成素として伴
う。このように、動詞が必要とする構成素を基準に、動
詞を分類するのが、下位範疇化であり、下位範疇化によ
って動詞を分類する基準となる構成素に関する情報が、
下位範疇化情報である。

【００２７】さらに、補助情報を構成する項構造情報と
は、動詞が必然的に伴う、または必要に応じて伴う構成
素が、どのような位置に現れ、どのような意味的な役割
を担うのか等といった情報を意味する。

【００２８】図１の補助情報生成装置は、コーパスデー
タベース１、前処理部２、格フレームデータベース３、
格フレーム処理部４、および補助情報データベース５か
ら構成されている。

【００２９】コーパスデータベース１は、多量のコーパ
スデータを記憶している。なお、コーパスデータとして
は、例えば、新聞記事等の文を採用することができる。

【００３０】前処理部２は、形態素解析部１１、基本セ
ンテンスパターン抽出部１２、削除部１３、格フレーム
生成部１４から構成され、補助情報を生成する前処理と
して、コーパスデータベース１に記憶された多量のコー
パスデータから、格フレームを生成する処理を行う。

【００３１】即ち、形態素解析部１１は、コーパスデー
タベース１からコーパスデータを読み出し、形態素解析
を行う。そして、形態素解析部１１は、コーパスデータ
の形態素解析結果を、基本センテンスパターン抽出部１
２と格フレーム生成部１４に供給する。なお、形態素解
析部１１による形態素解析結果は、必要に応じて、後述
する格フレーム処理部４において参照することができる
ようになっている。

【００３２】基本センテンスパターン抽出部１２は、形
態素解析部１１から供給されるコーパスデータの形態素
解析結果から、格フレームの生成対象とする単位である
基本センテンスを生成（抽出）し、削除部１３に供給す
る。即ち、基本センテンスパターン抽出部１２は、原則
的には、形態素解析部１１が出力する形態素解析結果の
うち、句点の次の形態素から句点の直前の形態素まで
を、基本センテンスとして抽出し、削除部１３に供給す
る。

【００３３】削除部１３は、基本センテンスパターン抽
出部１２から供給される基本センテンスから、格フレー
ムの生成に不要な語彙を削除し、格フレーム生成部１４
に供給する。

【００３４】格フレーム生成部１４は、必要に応じて、
形態素解析部１１から供給されるコーパスデータの形態
素解析結果を参照しながら、削除部１３から供給される
基本センテンスにおける動詞について、格フレームを生
成し、格フレームデータベース３に供給する。

【００３５】格フレームデータベース３は、前処理部２
（を構成する格フレーム生成部１４）から供給される格
フレームを記憶するようになっている。

【００３６】格フレーム処理部４は、格フレーム統合部
２１、動詞分類部２２、下位範疇化情報生成部２３、項
構造情報生成部２４、および補助情報生成部２５から構
成され、格フレームデータベース３から、同一の動詞に
ついての格フレームを読み出し、その同一の動詞につい
ての格フレーム等に基づいて、その動詞を分類するとと
もに、その下位範疇化情報と項構造情報を生成し、補助
情報として出力する。

【００３７】即ち、格フレーム統合部２１は、格フレー
ムデータベース３から、同一の動詞についての格フレー
ムを読み出し、それらの格フレームを統合して、後述す
る統合格フレームとする。そして、格フレーム統合部２
１は、各動詞についての統合各フレームを、動詞分類部
２２、下位範疇化情報生成部２３、および項構造情報生
成部２４に供給する。

【００３８】動詞分類部２２は、格フレーム統合部２１
から供給される統合格フレームに対応する動詞を、自動
詞、能格動詞、他動詞、または二重目的語他動詞の４つ
の種別のうちのいずれかに分類し、その分類結果を表す
分類情報を、下位範疇化情報生成部２３と補助情報生成
部２５に供給する。

【００３９】下位範疇化情報生成部２３は、格フレーム
統合部２１から供給される統合格フレームと、動詞分類
部２２から供給される分類情報に基づいて、その統合格
フレームに対応する動詞の下位範疇化情報を生成し、項
構造情報生成部２４と補助情報生成部２５に供給する。

【００４０】項構造情報生成部２４は、格フレーム統合
部２１から供給される統合格フレームと、下位範疇化情
報生成部２３から供給される下位範疇化情報に基づい
て、その統合格フレームに対応する動詞の項構造情報を
生成し、補助情報生成部２５に供給する。

【００４１】補助情報生成部２５は、各動詞について、
動詞分類部２２から供給される分類情報、下位範疇化情
報生成部２３から供給される下位範疇化情報、および項
構造情報生成部２４から供給される項構造情報を対応付
けて補助情報とし、補助情報データベース５に供給す
る。

【００４２】補助情報データベース５は、補助情報生成
部２５から供給される各動詞についての補助情報を記憶
するようになっている。

【００４３】次に、図２は、形態素解析部１１がコーパ
スデータを形態素解析することにより出力する形態素解
析結果の例を示している。

【００４４】なお、図２は、例えば、コーパスデータ
「特に県内果実が数量で一八％増、金額で三四％増と伸
びが目立った。」についての形態素解析結果を示してい
る。

【００４５】形態素解析結果は、形態素の見出し、読み
（音韻）、シソーラス情報で構成され、シソーラス情報
は、形態素の構文的な属性（フィーチャー）（構文属
性）や、意味的な属性（意味属性）を含む。さらに、シ
ソーラス情報は、形態素が動詞である場合には、その動
詞の原形も含む。

【００４６】ここで、図２において、１番目の形態素
「特に」のシソーラス情報における属性[CAT Adverv]の
CATは、品詞を表す属性タグであり、従って、その後に
続く情報が品詞であることを表す。CATの後に続くAdver
vは、品詞が副詞であることを表している。

【００４７】また、形態素「特に」のシソーラス情報に
おける属性[VAL 特に]のVALは、形態素の値（見出し）
を表す属性タグであり、従って、その後に続く情報「特
に」が、対応する形態素であることを表す。

【００４８】２番目の形態素「県内果実」のシソーラス
情報における属性[CAT Noun]は、品詞が名詞であること
を表す。また、形態素「県内果実」のシソーラス情報に
おける属性[cl Compound=CN+CN]のclは、クラスを表す
属性タグであり、従って、その後に続く情報がクラスで
あることを表す。clの後に続くCompound=CN+CNは、クラ
スが、一般名詞(CN)と一般名詞(CN)とが結合した複合名
詞であることを表す。さらに、形態素「県内果実」のシ
ソーラス情報における属性[Sem food]のSemは、意味を
表す属性タグであり、従って、その後に続く情報が意味
であることを表す。Semの後に続くfoodは、形態素が食
べ物を意味するものであることを表す。形態素「県内果
実」のシソーラス情報における属性[VAL 県内果実]は、
そのシソーラス情報が、形態素「県内果実」に対応する
ものであることを表す。

【００４９】３番目の形態素「が」のシソーラス情報に
おける属性[CAT Case] は、品詞が助詞(Case)であるこ
とを表し、属性[cl abstract]は、クラスが格助詞(abst
ract)であることを表す。さらに、属性[fx nominative]
のfxは、形態素のファンクション（文法的役割）を表す
属性タグであり、従って、属性[fx nominative]は、フ
ァンクションが主格(nominative)であることを表す。属
性[VAL が]は、そのシソーラス情報が、形態素「が」に
対応するものであることを表す。

【００５０】４番目の形態素「数量」のシソーラス情報
における属性[CAT Noun]は、品詞が名詞であることを表
し、属性[cl CNoun]は、クラスが一般名詞(CNoun)であ
ることを表す。属性[Sem amount]は、形態素「数量」が
量（amount）を意味するものであることを表し、属性[V
AL 数量]は、そのシソーラス情報が、形態素「数量」に
対応するものであることを表す。

【００５１】５番目の形態素「で」のシソーラス情報に
おける属性[CAT Case]は、品詞が助詞であることを表
し、属性[cl lexical]は、クラスが非格助詞(lexical)
であることを表す。属性[fx instrument]は、ファンク
ションが道具（instrument）であることを表し、属性[V
AL で]は、シソーラス情報が、形態素「で」に対応する
ものであることを表す。

【００５２】６番目の形態素「一八％増」のシソーラス
情報における属性[CAT Noun]は、品詞が名詞であること
を表し、属性[cl Compound=Num+Classifier+suf]は、ク
ラスが、数詞(Num)と助数詞(Classifier)と接尾語(suf)
とからなる複合（名詞）であることを表す。属性[Sem i
ncrease]は、形態素「一八％増」が増加（increase）を
意味するものであることを表し、属性[VAL一八％増]
は、シソーラス情報が、形態素「一八％増」に対応する
ものであることを表す。

【００５３】７番目の形態素「、」のシソーラス情報に
おける属性[CAT Punctuation]は、形態素「、」（の品
詞）が記号(Punctuation)であることを表し、属性[cl c
omma]は、クラスがコンマ(comma)（読点）であることを
表す。属性[VAL 、]は、シソーラス情報が、形態
素「、」に対応するものであることを表す。

【００５４】８番目の形態素「金額」のシソーラス情報
における属性[CAT Noun]は、品詞が名詞であることを表
し、属性[cl CNoun]は、クラスが一般名詞であることを
表す。属性[Sem money]は、形態素「金額」がお金（mon
ey）を意味するものであることを表し、属性[VAL 金額]
は、シソーラス情報が、形態素「金額」に対応するもの
であることを表す。

【００５５】９番目の形態素「で」のシソーラス情報
は、５番目の形態素「で」のものと同一である。

【００５６】１０番目の形態素「三四％増」のシソーラ
ス情報は、属性[VAL 三四％増]を除き、６番目の形態素
「一八％増」のシソーラス情報と同一である。

【００５７】１１番目の形態素「と」のシソーラス情報
における属性[CAT Complementizer]は、品詞が補文をと
る助詞（Complementizer）であることを表し、属性[cl
proposition]は、クラスが文の引用（proposition）で
あることを表す。属性[VAL と]は、シソーラス情報が、
形態素「と」に対応するものであることを表す。

【００５８】１２番目の形態素「伸び」のシソーラス情
報における属性[CAT Noun]は、品詞が名詞であることを
表し、属性[cl CNoun]は、クラスが一般名詞であること
を表す。属性[Sem increase]は、形態素「伸び」が増加
を意味することを表し、属性[VAL 伸び]は、シソーラス
情報が、形態素「伸び」に対応するものであることを表
す。

【００５９】１３番目の形態素「が」のシソーラス情報
は、３番目の形態素「が」のものと同一である。

【００６０】１４番目の形態素「目立った」のシソーラ
ス情報における属性[CAT Verb]は、品詞が動詞(Verb)で
あることを表し、属性[cl active]は、クラスが能動（a
ctive）であることを表す。属性[fm finite]のfmは、フ
ォームを表す属性タグであり、属性[fm finite]は、フ
ォームが時制を伴う形（finite）であることを表す。属
性[Conj (cl 2) (Stem 目立つ) (fm aff-past) (Polari
ty aff) (Ts past)]のConjは、活用を表す属性タグであ
り、属性(cl 2)は、活用がクラス２(cl 2)の活用である
ことを表す。ここで、形態素解析部１１においては、動
詞の活用が幾つかのクラスにクラス分けされており、ク
ラス２の活用は、動詞の原形が子音で終わるということ
を表す。属性(Stem 目立つ)は、形態素「目立った」の
原形(Stem)が「目立つ」であることを表す。なお、Stem
は、動詞の原形を表す属性タグである。属性(fm aff-pa
st)は、形態素「目立った」のフォーム(fm)が、肯定(af
f（affirmation）)で、かつ過去(past)であることを表
し、属性(Polarity aff)は、形態素「目立った」の極性
(Polarity)が肯定(aff)であることを表す。属性(Tspas
t)は、形態素「目立った」の時制(Ts)が過去(past)であ
ることを表す。属性[Style (cl plain) (fm zero)]のSt
yleは、スタイル（文体）を表す属性タグであり、属性
(cl plain)は、スタイルのクラス(cl)が非丁寧形である
こと（いわゆる「ですます調」でないこと）を表す。属
性(fm zero)は、スタイルのフォーム(fm)が原形のみ(ze
ro)であることを表し、属性[VAL 目立った]は、シソー
ラス情報が、形態素「目立った」に対応するものである
ことを表す。

【００６１】１５番目の形態素「。」のシソーラス情報
における属性[CAT Punctuation]は、形態素「。」（の
品詞）が記号(Punctuation)であることを表し、属性[cl
period]は、クラスがピリオド(period)（句点）である
ことを表す。属性[VAL 。]は、シソーラス情報が、形態
素「。」に対応するものであることを表す。

【００６２】次に、図３は、削除部１３が、基本センテ
ンスパターン抽出部１２から供給される基本センテンス
から、格フレームの生成に不要な語彙（以下、適宜、不
要語彙という）として削除する語彙の例を示している。

【００６３】削除部１３は、基本センテンスから、次の
ような８種類の語彙を、不要語彙として削除する。

【００６４】即ち、削除部１３は、第１に、基本センテ
ンスから、副詞を、不要語彙として削除する。副詞は、
図３（Ａ）に示すように、形態素解析結果から、シソー
ラス情報が、{[CAT Adverb]}となっている形態素を検索
することによって検出することができる。

【００６５】削除部１３は、第２に、基本センテンスか
ら、例えば、「夏場の」などといった名詞＋助詞「の」
を、不要語彙として削除する。名詞＋助詞「の」は、図
３（Ｂ）に示すように、形態素解析結果から、シソーラ
ス情報が、{[CAT Noun]・・・}となっている形態素と、
{[CAT Case][cl abstract][fx genitive][VAL の]｝と
なっている形態素が連続している部分を検索することに
よって検出することができる。

【００６６】なお、図３において（後述する図５におい
ても同様）、括弧｛｝内の・・・は、他の属性が記述さ
れ得ることを意味する。

【００６７】削除部１３は、第３に、基本センテンスか
ら、例えば、「日本での」などといった名詞＋助詞＋助
詞「の」を、不要語彙として削除する。名詞＋助詞＋助
詞「の」は、図３（Ｃ）に示すように、形態素解析結果
から、シソーラス情報が、{[CAT Noun]・・・}となって
いる形態素、{[CAT Case]・・・}となっている形態素、
および{[CAT Case][cl abstract][fx genitive][VAL
の]｝となっている形態素が連続している部分を検索す
ることによって検出することができる。

【００６８】削除部１３は、第４に、基本センテンスか
ら、形容詞を、不要語彙として削除する。形容詞は、図
３（Ｄ）に示すように、形態素解析結果から、シソーラ
ス情報が、{[CAT Adjective][cl stative]・・・}とな
っている形態素を検索することによって検出することが
できる。なお、属性[CAT Adjective]は、品詞が形容詞
（Adjective）であることを表し、属性[cl stative]
は、クラスが状態（stative）であることを表す。

【００６９】削除部１３は、第５に、基本センテンスか
ら、例えば、「決定的な」などといった名詞（形容動詞
語幹）＋「な」を、不要語彙として削除する。名詞（形
容動詞語幹）＋「な」は、図３（Ｅ）に示すように、形
態素解析結果から、シソーラス情報が、{[CAT Noun]・
・・}となっている形態素と、{[CAT Verb][cl copula]
・・・[VAL な]}となっている形態素が連続している部
分を検索することによって検出することができる。な
お、属性[cl copula]は、クラスが連結詞であることを
表す。

【００７０】削除部１３は、第６に、基本センテンスか
ら、例えば、「工場に対する」などといった名詞＋後置
詞を、不要語彙として削除する。名詞＋後置詞は、例え
ば、図３（Ｆ）に示すように、形態素解析結果から、シ
ソーラス情報が、{[CAT Noun]・・・}となっている形態
素と、{[CAT Postposition]・・・}となっている形態素
が連続している部分を検索することによって検出するこ
とができる。なお、属性[CAT Postposition]は、品詞が
後置詞（Postposition）であることを表す。

【００７１】削除部１３は、第７に、基本センテンスか
ら、括弧で囲まれた部分を、不要語彙として削除する。
括弧で囲まれた部分は、図３（Ｇ）に示すように、形態
素解析結果から、シソーラス情報が、{[CAT Punctuatio
n][cl L-]}となっている形態素から、{[CAT Punctuatio
n][cl R-]}となっている形態素までの部分を検索するこ
とによって検出することができる。なお、属性[cl L-]
は、クラスが括弧（例えば、"("など）であることを表
し、属性[cl R-]は、クラスが閉じ括弧（例えば、")"な
ど）であることを表す。

【００７２】削除部１３は、第８に、基本センテンスか
ら、括弧で囲まれた部分＋助詞「の」を、不要語彙とし
て削除する。括弧で囲まれた部分＋助詞「の」は、図３
（Ｈ）に示すように、形態素解析結果から、シソーラス
情報が、{[CAT Punctuation][cl L-]}となっている形態
素から、{[CAT Punctuation][cl R-]}となっている形態
素までの部分と、その後に、シソーラス情報が、{[CAT
Case][cl abstract][fx genitive][VAL の]｝となって
いる形態素を検索することによって検出することができ
る。

【００７３】削除部１３では、以上のような８種類の語
彙が不要語彙として、基本センテンスから削除される。

【００７４】従って、例えば、上述したコーパスデータ
「特に県内果実が数量で一八％増、金額で三四％増と伸
びが目立った。」については、削除部１３からは、次の
ような基本センテンスが出力される。

【００７５】即ち、コーパスデータ「特に県内果実が数
量で一八％増、金額で三四％増と伸びが目立った。」に
ついては、基本センテンスパターン抽出部１２におい
て、そのコーパスデータから句点を除いた「特に県内果
実が数量で一八％増、金額で三四％増と伸びが目立っ
た」が、基本センテンスとして抽出される。そして、削
除部１３においては、「特に県内果実が数量で一八％
増、金額で三四％増と伸びが目立った」から、図３
（Ａ）の、品詞が副詞であることに該当する形態素「特
に」が削除され、「特に県内果実が数量で一八％増、金
額で三四％増と伸びが目立った」が出力される。

【００７６】従って、図２に示したコーパスデータ「特
に県内果実が数量で一八％増、金額で三四％増と伸びが
目立った。」の形態素解析結果については、削除部１３
においては、図４に示すように、副詞である形態素「特
に」と、句点である形態素「。」に関する情報がないも
のとなって出力される。

【００７７】次に、格フレーム生成部１４は、削除部１
３が出力する基本センテンスにおける動詞について、格
フレームを生成するが、この格フレームの生成は、基本
センテンスに含まれる動詞の「基準形」を、格フレーム
の見出しとして用いて行われるようになっている。即
ち、格フレームは、その格フレームが、どのような動詞
についてのものであるかを表す、その動詞の見出しと、
基本センテンスにおいて、その動詞が伴う助詞に関する
情報とからなり、格フレームの見出しとしては、動詞の
基準形が用いられる。

【００７８】ここで、格フレームの見出しとなる動詞の
基準形とは、例えば、図５に示すように定義されるもの
である。

【００７９】即ち、以下説明する３つの例外を除いて、
原則的には、基本センテンスに含まれる動詞の原形が、
その動詞の基準形となる。具体的には、例えば、図５
（Ａ）に示すように、基本センテンスに、動詞である形
態素「目立つ」や「目立った」が含まれる場合には、そ
の原形「目立つ」が基準形となる。

【００８０】なお、動詞の原形は、図２で説明したよう
に、形態素解析結果のシソーラス情報の中のStem属性タ
グとともに記述されているから、シソーラス情報を参照
することで認識することができる。

【００８１】次に、第１の例外として、基本センテンス
に、サ変名詞＋動詞「する」が含まれている場合には、
動詞「する」の原形ではなく、サ変名詞＋動詞「する」
が、動詞の基準形となる。

【００８２】従って、例えば、図５（Ｂ）に示すよう
に、形態素解析結果のシソーラス情報が、{[CAT Noun]
[cl Vnoun]・・・[VAL 適用]}となっている形態素「適
用」と、{[CAT Verb][cl active][fm finite]・・・(St
em する)(fm aff-non-past)・・・[VAL する]}となって
いる形態素「する」が連続する場合には、「適用する」
が動詞の基準形とされる。なお、属性[cl Vnoun]は、ク
ラスがサ変名詞(Vnoun)であることを表し、属性(fm aff
-non-past)は、形態素「する」のフォーム(fm)が、肯定
(aff)で、かつ過去でない(non-past)であることを表
す。

【００８３】第２の例外として、基本センテンスにおい
て、動詞が２つ連続し、そのうちの最初の動詞が、シソ
ーラス情報の中に、[fm infinite]と(pres.participle)
の２つの属性を有する場合には、連続する２つの動詞の
うちの最初の動詞の原形が、動詞の基準形となる。な
お、属性[fm infinite]は、フォームが時制を伴わない
形(infinite)であることを表し、属性(pres.participl
e)は、現在分詞(presentparticiple)であることを表
す。

【００８４】従って、例えば、図５（Ｃ）に示すよう
に、基本センテンスにおいて、[fm infinite]と(pres.p
articiple)の２つの属性を有する形態素「見込んで」に
続いて、形態素「いる」があることにより、「見込んで
いる」が存在する場合には、形態素「見込んで」の原形
「見込む」が、動詞の基準形とされる。

【００８５】第３の例外として、基本センテンスに、原
形が「する」である動詞が含まれ、その動詞の直前に、
サ変名詞がある場合は、サ変名詞＋「する」が、動詞の
基準形となる。

【００８６】従って、例えば、図５（Ｄ）に示すよう
に、形態素解析結果のシソーラス情報が、{[CAT Noun]
[cl Vnoun]・・・[VAL 展開]}となっている形態素「展
開」、{{CAT Verb]・・・[fm infinite]・・・(Stem す
る)(fm pres.participle)・・・[VAL して]}となってい
る形態素「して」、および{[CAT Verb]・・・[fm finit
e]・・・(Stem いる)・・・[VAL いる]}となっている形
態素「いる」が連続している場合には、サ変名詞「展
開」＋「する」、即ち、「展開する」が、動詞の基準形
とされる。

【００８７】次に、図６は、格フレーム生成部１４が作
成する格フレームを示している。

【００８８】図６は、動詞「目立つ」について、４つの
基本センテンスからそれぞれ生成された４つの格フレー
ム{目立つ C_FRAME:で[instrument]，が[increas
e]｝、{目立つ C_FRAME:が[thing]｝、{目立つ C_FRA
ME:と[proposition]，が[thing]｝、{目立つ C_FRAME:
で[instrument]，に[locative]，が[increase]｝を示し
ている。

【００８９】格フレームの先頭の文字列は、その格フレ
ームに対応する動詞の見出しを表しており、この動詞の
見出しとしては、図５で説明した動詞の基準形が用いら
れる。

【００９０】また、格フレームにおけるC_FRAMEは、助
詞（格助詞）を表すタグで、その後には、その見出しに
なっている動詞が、基本センテンスにおいてとっている
助詞が記述される。なお、格フレームには、１以上の助
詞を記述することができる。

【００９１】さらに、格フレームにおける助詞の直後に
は、括弧[]が記述されるが、この括弧[]内には、その助
詞のファンクション、またはその助詞の直前の形態素の
意味が、その助詞の属性として記述される。なお、助詞
のファンクションは、形態素解析結果におけるシソーラ
ス情報のfx属性タグを検索することにより認識すること
ができ、また、助詞の直前の形態素の意味は、シソーラ
ス情報のSem属性タグを検索することにより認識するこ
とができる。

【００９２】ここで、図６における１行目の格フレーム
{目立つ C_FRAME:で[instrument]，が[increase]｝
が、上述のコーパスデータ「特に県内果実が数量で一八
％増、金額で三四％増と伸びが目立った。」について、
格フレーム生成部１４が後述する図１２の格フレーム生
成処理を行うことにより生成されるものである。

【００９３】次に、図７は、格フレーム統合部２１が、
同一の動詞についての格フレームを統合することにより
生成する統合格フレームを示している。

【００９４】例えば、動詞（の基準形）「目立つ」につ
いて、図６に示したような４つの格フレームが得られて
いる場合には、その４つの格フレームが統合されること
により、動詞「目立つ」について、図７に示したような
統合格フレームが生成される。

【００９５】即ち、この場合、格フレーム統合部２１
は、動詞「目立つ」についての４つの格フレームに対す
る動詞の見出し「目立つ」を、統合格フレームの見出し
として配置し、続けて、その動詞の読みを配置する。な
お、動詞の読みは、格フレーム統合部２１が形態素解析
部１１の形態素解析結果を参照することで認識される。

【００９６】さらに、格フレーム統合部２１は、４つの
格フレームの助詞と属性の、いわば論理和をとったもの
を求めて、タグsubcatとともに、統合格フレームに配置
する。

【００９７】即ち、図６に示した４つの格フレームに
は、「で」、「が」、「と」、「に」の４種類の助詞が
存在するから、格フレーム統合部２１は、この４種類の
助詞「で」、「が」、「と」、「に」を、タグsubcatの
後に配置する。さらに、図６の４つの格フレームにおい
て、助詞「で」については、属性[instrument]しか存在
しないので、統合格フレームにおける助詞「で」の後に
は、その属性[instrument]だけが配置される。また、図
６の４つの格フレームにおいて、助詞（格助詞）「が」
については、属性[increase]と[thing]の２種類が存在
するので、統合格フレームにおける助詞「が」の後に
は、その２つの属性[increase]と[thing]が配置され
る。さらに、図６の４つの格フレームにおいて、助詞
「と」については、属性[proposition]しか存在しない
ので、統合格フレームにおける助詞「と」の後には、そ
の属性[proposition]だけが配置される。また、図６の
４つの格フレームにおいて、助詞「に」については、属
性[locative]しか存在しないので、統合格フレームにお
ける助詞「に」の後には、その属性[locative]だけが配
置される。

【００９８】次に、図８は、補助情報生成部２５が、各
動詞について生成する補助情報を示している。

【００９９】図８は、動詞「目立つ」についての補助情
報を示しており、その先頭と２番目には、図７に示した
統合格フレームと同様に、動詞「目立つ」の見出し（動
詞の基準形）と読みが配置される。

【０１００】補助情報において、動詞の読みの後には、
その動詞が、自動詞、能格動詞、他動詞、または二重目
的語他動詞のうちのいずれに分類されるものであるかを
表す分類情報が配置される。図８において、動詞「目立
つ」は、対象(Theme)を主語にとる能格動詞であり、従
って、分類情報としては、「能格動詞」が配置されてい
る。なお、分類情報は、動詞分類部２２から補助情報生
成部２５に供給されるものである。

【０１０１】補助情報において、分類情報の後には、動
詞の下位範疇化情報が配置される。下位範疇化情報は、
図８に示したように、下位範疇化情報であることを表す
タグSUBCATとともに、例えば、<SUBCAT:NP[nom]>といっ
た形で記述される。なお、NPは、名詞句を表し、[nom]
は、主格を表す。そして、下位範疇化情報<SUBCAT:NP[n
om]>は、主格となる名詞句を必然的に伴うことを表す。
この下位範疇化情報は、下位範疇化情報生成部２３から
補助情報生成部２５に供給されるものである。

【０１０２】下位範疇化情報の後には、動詞の項構造情
報が配置される。項構造情報は、図８に示したように、
項構造情報であることを表すタグArgStrとともに、例え
ば、<ArgStr:Theme{thing/increase}-(Instrument)-(Lo
cative)-(Proposition)>といった形で記述される。項構
造情報（のArgStr:以降の記述）のうち、小括弧()や、
中括弧{}で囲まれていない部分（以下、適宜、主情報と
いう）は、下位範疇化情報において、動詞が必然的に伴
うとされている構成素を表す。図８では、対象物を表す
Themeが、主情報となっており、従って、下位範疇化情
報も考慮すれば、図８の補助情報は、動詞「目立つ」が
必然的に伴う、主格となる名詞句は、対象物であること
を表す。

【０１０３】主情報の後の、中括弧{}内の記述は、その
主情報の属性（シソーラス）を表す。図８における{thi
ng/increase}のthingとincreaseは、それぞれ、物と増
加を表し、従って、属性{thing/increase}は、主情報
「Theme」が表す対象物が、物または増加を表すもので
あることを表す。

【０１０４】項構造情報の小括弧()内の記述は、動詞が
必要に応じて伴うことのできる表現（語彙）の属性を表
す。図８においては、道具を表すInstrument、場所を表
すLocation、および文（埋め込み文）を表すPropositio
nが記述されており、従って、図８の補助情報は、動詞
「目立つ」が、道具を表す表現、場所を表す表現、文を
指し示す表現を、必要に応じて伴うことを表す。

【０１０５】次に、図９のフローチャートを参照して、
図１の補助情報生成装置が行う自然言語処理としての、
補助情報を生成する補助情報生成処理について説明す
る。

【０１０６】まず最初に、ステップＳ１において、形態
素解析部１１は、コーパスデータベース１に記憶されて
いる多量のコーパスデータを順次読み出し、各コーパス
データについて、形態素解析を行う。形態素解析部１１
が、各コーパスデータについて形態素解析を行うことに
より得られる形態素解析結果は、基本センテンスパター
ン抽出部１２および格フレーム生成部１４、並びに格フ
レーム処理部４に供給される。

【０１０７】その後、ステップＳ２に進み、基本センテ
ンスパターン抽出部１２は、形態素解析部１１から供給
される、各コーパスデータのついての形態素解析結果か
ら、基本センテンスを抽出する基本センテンスパターン
抽出処理を行い、その結果得られる基本センテンスを、
削除部１３に供給して、ステップＳ３に進む。ステップ
Ｓ３では、削除部１３が、基本センテンスパターン抽出
部１２から供給される各基本センテンスから不要語彙を
削除する不要語彙削除処理を行い、その不要語彙を削除
した基本センテンスを、格フレーム生成部１４に供給し
て、ステップＳ４に進む。ステップＳ４では、格フレー
ム生成部１４は、削除部１３から供給される各基本セン
テンスに関し、その基本センテンスに含まれる動詞につ
いて、格フレームを生成する格フレーム生成処理を行
う。さらに、格フレーム生成部１４は、その格フレーム
生成処理によって生成した格フレームを、格フレームデ
ータベース３に供給して記憶させ、ステップＳ５に進
む。

【０１０８】ステップＳ５では、格フレーム統合部２１
が、格フレームデータベース３に記憶された格フレーム
から、同一の動詞についてのものを収集し、図６および
図７で説明したように、その同一の動詞についての１以
上の格フレームを統合して、統合格フレームを生成す
る。そして、格フレーム統合部２１は、統合格フレーム
を、動詞分類部２２、下位範疇化情報生成部２３、項構
造情報生成部２４に供給して、ステップＳ６に進む。

【０１０９】ステップＳ６では、動詞分類部２２が、格
フレーム統合部２１から供給される統合格フレームに基
づいて、各統合格フレームに対応する動詞を、自動詞、
能格動詞、他動詞、二重目的語他動詞のいずれかに分類
し、その分類結果を表す分類情報を出力する動詞分類処
理を行う。さらに、ステップＳ６では、下位範疇化情報
生成部２３が、格フレーム統合部２１から供給される統
合格フレーム、および動詞分類部２２から供給される分
類情報に基づいて、各統合格フレームに対応する動詞の
下位範疇化情報を生成して出力する下位範疇化情報生成
処理を行う。また、ステップＳ６では、項構造情報生成
部２４が、格フレーム統合部２１から供給される統合格
フレーム、および下位範疇化情報生成部２３から供給さ
れる下位範疇化情報に基づいて、各統合格フレームに対
応する動詞の項構造情報を生成して出力する項構造情報
生成処理を行う。

【０１１０】その後、ステップＳ７に進み、補助情報生
成部２５が、動詞分類部２２から供給される分類情報、
下位範疇化情報生成部２３から供給される下位範疇化情
報、および項構造情報生成部２４から供給される項構造
情報を用い、各統合格フレームに対応する動詞につい
て、図８に示したような補助情報を生成する。さらに、
補助情報生成部２５は、補助情報を、補助情報データベ
ース５に供給して記憶させ、補助情報生成処理を終了す
る。

【０１１１】次に、図１０のフローチャートを参照し
て、図１の基本センテンスパターン抽出部１２が図９の
ステップＳ２で行う基本センテンスパターン抽出処理に
ついて説明する。

【０１１２】基本センテンスパターン抽出部１２は、ス
テップＳ１１において、その内蔵するバッファ（図示せ
ず）をクリアするとともに、形態素解析部１１において
形態素解析結果が得られたコーパスデータのうち、まだ
処理の対象としていない最も古いものを注目コーパスデ
ータとする。そして、ステップＳ１２に進み、基本セン
テンスパターン抽出部１２は、注目コーパスデータの形
態素の、まだ読み込んでいない、より文頭に近いもの
を、注目形態素として、その形態素解析結果を読み込
み、ステップＳ１３に進む。ステップＳ１３では、基本
センテンスパターン抽出部１２は、注目形態素が、句点
であるかどうかを、その形態素解析結果を参照すること
によって判定する。

【０１１３】ステップＳ１３において、注目形態素が句
点でないと判定された場合、ステップＳ１４に進み、基
本センテンスパターン抽出部１２は、注目形態素の形態
素解析結果を、その内蔵するバッファに追加記憶させ、
ステップＳ１２に戻り、いま注目形態素となっている次
の形態素を、新たな注目形態素として、以下、同様の処
理を繰り返す。

【０１１４】また、ステップＳ１３において、注目形態
素が句点であると判定された場合、ステップＳ１５に進
み、基本センテンスパターン抽出部１２は、その内蔵す
るバッファを参照することにより、注目形態素である句
点の直前の形態素（あるいは句点以前にある最初の動
詞）が、時制を伴う動詞であるかどうかを判定する。ス
テップＳ１５において、注目形態素である句点の直前の
形態素が、時制を伴う動詞でないと判定された場合、ス
テップＳ１６およびＳ１７をスキップして、ステップＳ
１８に進む。

【０１１５】また、ステップＳ１５において、注目形態
素である句点の直前の形態素が、時制を伴う動詞である
と判定された場合、ステップＳ１６に進み、基本センテ
ンスパターン抽出部１２は、その内蔵するバッファに、
注目形態素である句点の直前の形態素以外に、時制を伴
う動詞（の形態素解析結果）が記憶されていないかどう
かを判定する。

【０１１６】ステップＳ１６において、基本センテンス
パターン抽出部１２の内蔵するバッファに、注目形態素
である句点の直前の形態素以外に、時制を伴う動詞が記
憶されていると判定された場合、ステップＳ１７をスキ
ップして、ステップＳ１８に進む。

【０１１７】一方、ステップＳ１６において、基本セン
テンスパターン抽出部１２の内蔵するバッファに、注目
形態素である句点の直前の形態素以外に、時制を伴う動
詞が記憶されていないと判定された場合、ステップＳ１
７に進み、基本センテンスパターン抽出部１２は、その
内蔵するバッファに記憶された形態素（解析結果）のシ
ーケンスを、基本センテンスとして抽出し（読み出
し）、削除部１３に供給して、ステップＳ１８に進む。

【０１１８】ステップＳ１８では、基本センテンスパタ
ーン抽出部１２は、まだ、注目コーパスデータとしてい
ないコーパスデータがあるかどうかを判定する。ステッ
プＳ１８において、まだ、注目コーパスデータとしてい
ないコーパスデータがあると判定された場合、ステップ
Ｓ１１に戻り、まだ、注目コーパスデータとしていない
コーパスデータの１つが、新たに、注目コーパスデータ
とされ、以下、同様の処理が繰り返される。

【０１１９】また、ステップＳ１８において、まだ、注
目コーパスデータとしていないコーパスデータがないと
判定された場合、基本センテンスパターン抽出処理を終
了する。

【０１２０】以上のような基本センテンスパターン抽出
処理によれば、句点の直後の形態素から、次の句点の直
前の形態素までの形態素列であって、時制を伴う動詞を
１つしか含んでいないもの（基本的には、単文）が、基
本センテンスとして抽出される。

【０１２１】次に、図１１のフローチャートを参照し
て、図１の削除部１３が図９のステップＳ３で行う不要
語彙削除処理について説明する。

【０１２２】削除部１３は、まず最初に、ステップＳ２
１において、基本センテンスパターン抽出部１２から供
給される基本センテンスのうち、まだ、注目基本センテ
ンスとしていないもののうちの１つを、注目基本センテ
ンスとして、その注目基本センテンスを構成する形態素
の数を、変数Ｎにセットする。

【０１２３】そして、削除部１３は、ステップＳ２２に
進み、基本センテンスの形態素をカウントする変数ｉと
ｊを、いずれも１に初期化し、ステップＳ２３に進む。

【０１２４】ステップＳ２３では、削除部１３は、注目
基本センテンスの先頭からｉ番目の形態素から、ｊ番目
の形態素までの形態素列を、変数Stringにセットし、ス
テップＳ２４に進む。

【０１２５】ステップＳ２４では、削除部１３は、変数
Stringにセットされている形態素列（または形態素）
が、削除条件に該当するかどうかを判定する。

【０１２６】ここで、削除条件に該当する場合とは、図
３で説明した不要語彙のいずれかに該当することを意味
する。

【０１２７】ステップＳ２４において、変数Stringにセ
ットされている形態素列が削除条件に該当しないと判定
された場合、ステップＳ２５をスキップして、ステップ
Ｓ２６に進む。また、ステップＳ２４において、変数St
ringにセットされている形態素列が削除条件に該当する
と判定された場合、ステップＳ２５に進み、削除部１３
は、その内蔵するバッファ（図示せず）に、変数String
にセットされている形態素列を、削除対象としてバッフ
ァリングして、ステップＳ２６に進む。

【０１２８】ステップＳ２６では、削除部１３が、変数
ｊが、注目基本センテンスを構成する形態素の数Ｎに等
しいかどうかを判定する。ステップＳ２６において、変
数ｊがＮに等しくないと判定された場合、ステップＳ２
７に進み、削除部１３は、変数ｊを１だけインクリメン
トして、ステップＳ２３に戻り、以下、同様の処理を繰
り返す。

【０１２９】また、ステップＳ２６において、変数ｊが
Ｎに等しいと判定された場合、ステップＳ２８に進み、
削除部１３は、変数ｉがＮに等しいかどうかを判定す
る。ステップＳ２８において、変数ｉがＮに等しくない
と判定された場合、ステップＳ２９に進み、削除部１３
は、変数ｉを１だけインクリメントするとともに、変数
ｊに、変数ｉにセットされている値をセットして、ステ
ップＳ２３に戻り、以下、同様の処理を繰り返す。

【０１３０】一方、ステップＳ２８において、変数ｉが
Ｎに等しいと判定された場合、即ち、基本センテンスを
構成する任意の形態素と形態素列について、不要語彙か
どうかの判定を行った場合、ステップＳ３０に進み、削
除部１３は、注目基本センテンスから、その内蔵するバ
ッファに削除対象として記憶されている形態素と形態素
列を削除し、格フレーム生成部１４に供給して、ステッ
プＳ３１に進む。

【０１３１】ステップＳ３１では、削除部１３は、ま
だ、注目基本センテンスとしていない基本センテンスが
あるかどうかを判定する。ステップＳ３１において、ま
だ、注目基本センテンスとしていない基本センテンスが
あると判定された場合、ステップＳ２１に戻り、削除部
１３は、まだ、注目基本センテンスとしていない基本セ
ンテンスのうちの１つを、新たな注目基本センテンスと
し、以下、同様の処理を繰り返す。

【０１３２】また、ステップＳ３１において、まだ、注
目基本センテンスとしていない基本センテンスがないと
判定された場合、不要語彙削除処理を終了する。

【０１３３】次に、図１２のフローチャートを参照し
て、図１の格フレーム生成部１４が図９のステップＳ５
で行う格フレーム生成処理について説明する。

【０１３４】格フレーム生成部１４は、まず最初に、ス
テップＳ４１において、削除部１３から供給される基本
センテンスのうち、まだ、注目基本センテンスとしてい
ないもののうちの１つを、注目基本センテンスとして、
その注目基本センテンスに含まれる動詞（以下、適宜、
注目動詞という）の基準形を、その注目動詞についての
格フレームの見出しとして記述する。

【０１３５】そして、格フレーム生成部１４は、ステッ
プＳ４２に進み、基本センテンスの形態素をカウントす
る変数ｉを１に初期化し、ステップＳ４３に進む。

【０１３６】ステップＳ４３では、格フレーム生成部１
４は、注目基本センテンスの最後からｉ番目の形態素
を、変数Stringにセットし、ステップＳ４４に進む。

【０１３７】ステップＳ４４では、格フレーム生成部１
４は、変数Stringにセットされている形態素が助詞であ
るかどうかを、その形態素解析結果のシソーラス情報
（図２）を参照することにより判定する。

【０１３８】ステップＳ４４において、変数Stringにセ
ットされている形態素が助詞でないと判定された場合、
ステップＳ４５およびＳ４６をスキップして、ステップ
Ｓ４７に進む。

【０１３９】また、ステップＳ４４において、変数Stri
ngにセットされている形態素が助詞であると判定された
場合、ステップＳ４５に進み、格フレーム生成部１４
は、変数Stringにセットされている助詞と、その属性
を、注目動詞についての格フレームに記述し、ステップ
Ｓ４６に進む。なお、格フレーム生成部１４は、助詞の
属性を、形態素解析部１１による形態素解析結果のシソ
ーラス情報を参照することで認識する。

【０１４０】ステップＳ４６では、格フレーム生成部１
４が、変数Stringにセットされている助詞が、注目基本
センテンスの最後から数えて、１つ目の「は」、または
２つ目の「が」、「に」、若しくは「を」のうちのいず
れかに該当するかどうかを判定する。

【０１４１】ステップＳ４６において、変数Stringにセ
ットされている助詞が、注目基本センテンスの最後から
数えて、１つ目の「は」、２つ目の「が」、２つ目の
「に」、または２つ目の「を」のうちのいずれかに該当
すると判定された場合、ステップＳ４７をスキップし
て、ステップＳ４９に進む。

【０１４２】また、ステップＳ４６において、変数Stri
ngにセットされている助詞が、注目基本センテンスの最
後から数えて、１つ目の「は」、２つ目の「が」、２つ
目の「に」、および２つ目の「を」のうちのいずれにも
該当しないと判定された場合、ステップＳ４７に進み、
格フレーム生成部１４は、変数Stringにセットされてい
る形態素が、注目基本センテンスの先頭の形態素である
かどうかを判定する。

【０１４３】ステップＳ４７において、変数Stringにセ
ットされている形態素が、注目基本センテンスの先頭の
形態素でないと判定された場合、ステップＳ４８に進
み、格フレーム生成部１４は、変数ｉを１だけインクリ
メントして、ステップＳ４３に戻り、以下、同様の処理
を繰り返す。

【０１４４】また、ステップＳ４７において、変数Stri
ngにセットされている形態素が、注目基本センテンスの
先頭の形態素であると判定された場合、ステップＳ４９
に進み、格フレーム生成部１４は、まだ、注目基本セン
テンスとしていない基本センテンスがあるかどうかを判
定する。ステップＳ４９において、まだ、注目基本セン
テンスとしていない基本センテンスがあると判定された
場合、ステップＳ４１に戻り、格フレーム生成部１４
は、まだ、注目基本センテンスとしていない基本センテ
ンスのうちの１つを、新たな注目基本センテンスとし、
以下、同様の処理を繰り返す。

【０１４５】また、ステップＳ４９において、まだ、注
目基本センテンスとしていない基本センテンスがないと
判定された場合、格フレーム生成処理を終了する。

【０１４６】以上のような格フレーム生成処理によれ
ば、削除部１３が出力する基本センテンスの文末から文
頭方向に辿っていって、１つ目の「は」、２つ目の
「が」、２つ目の「に」、または２つ目の「を」のうち
のいずれかに到達するまでに現れる助詞とその属性が、
その基本センテンスに含まれる動詞についての格フレー
ムに記述され、これにより、図６に示したような格フレ
ームが生成される。

【０１４７】次に、図１３のフローチャートを参照し
て、図１の動詞分類部２２が図９のステップＳ６で行う
動詞分類処理について説明する。

【０１４８】動詞分類部２２は、ステップＳ６１におい
て、格フレーム統合部２１が出力する統合格フレームの
うち、まだ、注目統合格フレームとしていないものの１
つを注目統合格フレームとし、その注目統合格フレーム
から、サブカテゴリ情報を読み出す。

【０１４９】ここで、サブカテゴリ情報とは、図７に示
した統合格フレームにおいて、subcatタグ以降に記述さ
れる情報を意味する。

【０１５０】その後、ステップＳ６２に進み、動詞分類
部２２は、注目統合格フレームが、そのサブカテゴリ情
報に、格助詞「を」を含まないが、格助詞「が」を含
み、かつ、その格助詞「が」と名詞とで構成される名詞
＋格助詞「が」が、注目統合格フレームに対応する動詞
の動作主(agent)になり得るという自動詞が満たす条件
（以下、適宜、自動詞条件という）を満たすかどうかを
判定する。

【０１５１】ここで、名詞＋格助詞「が」が、注目統合
格フレームに対応する動詞の動作主になり得るかどうか
は、その動詞を含むコーパスデータの形態素解析結果に
おけるシソーラス情報の意味を表すSemタグを参照する
ことで判定することができる。

【０１５２】ステップＳ６２において、注目統合格フレ
ームが、自動詞条件を満たすと判定された場合、ステッ
プＳ６３に進み、動詞分類部２２は、注目統合格フレー
ムに対応する動詞（注目統合格フレームの見出しとなっ
ている動詞）を、自動詞に分類し、その旨を表す分類情
報を、下位範疇化情報生成部２３と補助情報生成部２５
に供給して、ステップＳ７１に進む。

【０１５３】また、ステップＳ６２において、注目統合
格フレームが、自動詞条件を満たさないと判定された場
合、ステップＳ６４に進み、動詞分類部２２は、注目統
合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含まないが、格助詞「が」を含み、かつ、その
格助詞「が」と名詞とで構成される名詞＋格助詞「が」
が、注目統合格フレームに対応する動詞の動作主(agen
t)になり得ないという能格動詞が満たす条件（以下、適
宜、能格動詞条件という）を満たすかどうかを判定す
る。

【０１５４】ステップＳ６４において、注目統合格フレ
ームが、能格動詞条件を満たすと判定された場合、ステ
ップＳ６５に進み、動詞分類部２２は、注目統合格フレ
ームに対応する動詞を、能格動詞に分類し、その旨を表
す分類情報を、下位範疇化情報生成部２３と補助情報生
成部２５に供給して、ステップＳ７１に進む。

【０１５５】また、ステップＳ６４において、注目統合
格フレームが、能格動詞条件を満たさないと判定された
場合、ステップＳ６６に進み、動詞分類部２２は、注目
統合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含むが、間接目的語をとるのに必要な助詞
「に」を含まないという他動詞が満たす条件（以下、適
宜、他動詞条件という）を満たすかどうかを判定する。

【０１５６】ステップＳ６６において、注目統合格フレ
ームが、他動詞条件を満たすと判定された場合、ステッ
プＳ６７に進み、動詞分類部２２は、注目統合格フレー
ムに対応する動詞を、他動詞に分類し、その旨を表す分
類情報を、下位範疇化情報生成部２３と補助情報生成部
２５に供給して、ステップＳ７１に進む。

【０１５７】また、ステップＳ６６において、注目統合
格フレームが、他動詞条件を満たさないと判定された場
合、ステップＳ６８に進み、動詞分類部２２は、注目統
合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含み、さらに、間接目的語をとるのに必要な助
詞「に」を含むという二重目的語他動詞が満たす条件
（以下、適宜、二重目的語他動詞条件という）を満たす
かどうかを判定する。

【０１５８】ステップＳ６８において、注目統合格フレ
ームが、二重目的語他動詞条件を満たすと判定された場
合、ステップＳ６９に進み、動詞分類部２２は、注目統
合格フレームに対応する動詞を、二重目的語他動詞に分
類し、その旨を表す分類情報を、下位範疇化情報生成部
２３と補助情報生成部２５に供給して、ステップＳ７１
に進む。

【０１５９】また、ステップＳ６８において、注目統合
格フレームが、二重目的語他動詞条件を満たさないと判
定された場合、ステップＳ７０に進み、例えば、注目統
合格フレームを、格フレーム処理部４における処理対象
から除外する等のエラー処理を行い、ステップＳ７１に
進む。

【０１６０】ステップＳ７１では、動詞分類部２２が、
まだ、注目統合格フレームとしていない統合格フレーム
があるかどうかを判定する。ステップＳ７１において、
まだ、注目統合格フレームとしていない統合格フレーム
があると判定された場合、ステップＳ６１に戻り、動詞
分類部２２は、まだ、注目統合格フレームとしていない
統合格フレームのうちの１つを、新たな注目統合格フレ
ームとし、以下、同様の処理を繰り返す。

【０１６１】また、ステップＳ７１において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、動詞分類処理を終了する。

【０１６２】次に、図１４のフローチャートを参照し
て、図１の下位範疇化情報生成部２３が図９のステップ
Ｓ６で行う下位範疇化情報生成処理について説明する。

【０１６３】下位範疇化情報生成部２３は、まず最初
に、ステップＳ８１において、格フレーム統合部２１が
出力する統合格フレームのうち、まだ、注目統合格フレ
ームとしていないものの１つを注目統合格フレームとし
て受信し、さらに、その注目統合格フレームについて、
動詞分類部２２が出力する分類情報を受信する。

【０１６４】そして、ステップＳ８２に進み、下位範疇
化情報生成部２３は、注目統合格フレームと、その分類
情報に基づいて、注目統合格フレームに対応する動詞の
下位範疇化情報を生成する。

【０１６５】即ち、下位範疇化情報生成部２３は、注目
統合格フレームに対応する動詞（以下、適宜、注目動詞
という）の分類情報から、その注目動詞が、自動詞、能
格動詞、他動詞、または二重目的語他動詞のうちのいず
れであるかを認識し、その認識結果と、注目統合格フレ
ームから、注目動詞が必然的に伴う構成素を認識する
（注目動詞が、上述の４つの動詞のうちのいずれである
かによって、その注目動詞が必然的に伴う構成素に制約
をかけ、その制約の下で、注目統合格フレームから、注
目動詞が必然的に伴う構成素を認識する）。そして、下
位範疇化情報生成部２３は、その注目動詞が必然的に伴
う構成素に関する情報を、下位範疇化情報として、項構
造情報生成部２４と補助情報生成部２５に出力する。

【０１６６】従って、例えば、いま、図７に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合を考えると、まず、動詞「目立
つ」は、上述したように、能格動詞であり、主格となる
名詞句を必然的に伴う。また、図７に示した動詞「目立
つ」についての統合格フレームにおいては、主格を表す
格助詞「が」だけが存在し、他の格助詞は存在しない。
そこで、下位範疇化情報生成部２３では、主格となる名
詞句を必然的に伴うことを表すNP[nom]が、動詞「目立
つ」の下位範疇化情報として生成される。なお、図８で
説明したように、NPは名詞句を表し、[nom]は主格を表
す。

【０１６７】その後、ステップＳ８３に進み、下位範疇
化情報生成部２３が、まだ、注目統合格フレームとして
いない統合格フレームがあるかどうかを判定する。ステ
ップＳ８３において、まだ、注目統合格フレームとして
いない統合格フレームがあると判定された場合、ステッ
プＳ８１に戻り、下位範疇化情報生成部２３は、まだ、
注目統合格フレームとしていない統合格フレームのうち
の１つを、新たな注目統合格フレームとし、以下、同様
の処理を繰り返す。

【０１６８】また、ステップＳ８３において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、下位範疇化情報生成処理を終了する。

【０１６９】次に、図１５のフローチャートを参照し
て、図１の項構造情報生成部２４が図９のステップＳ６
で行う項構造情報生成処理について説明する。

【０１７０】項構造情報生成部２４は、まず最初に、ス
テップＳ９１において、格フレーム統合部２１が出力す
る統合格フレームのうち、まだ、注目統合格フレームと
していないものの１つを注目統合格フレームとして受信
し、さらに、その注目統合格フレームについて、下位範
疇化情報生成部２３が出力する下位範疇化情報を受信す
る。

【０１７１】そして、ステップＳ９２に進み、項構造情
報生成部２４は、注目統合格フレームと、その下位範疇
化情報に基づいて、注目統合格フレームに対応する動詞
が必然的に伴う（必須）の格助詞と、その属性を認識す
る。

【０１７２】即ち、項構造情報生成部２４は、注目統合
格フレームに対応する動詞（以下、適宜、注目動詞とい
う）の下位範疇化情報から、その注目動詞に必須の格助
詞を認識し、さらに、その格助詞の属性を、注目統合格
フレームから認識する。

【０１７３】従って、例えば、いま、図７に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合、下位範疇化情報としては、上
述したように、主格となる名詞句を必然的に伴うことを
表すNP[nom]が生成されるから、図７の注目統合格フレ
ームに記述された助詞「で」、「が」、「に」、「と」
のうち、主格を表す格助詞「が」が、注目動詞「目立
つ」に必須の格助詞として認識される。さらに、図７の
注目統合格フレームにおいては、格助詞「が」の属性と
して、その格助詞「が」とともに主格を構成する名詞
が、動作主(agent)となり得ない属性[increase]または
[thing]を有するものとなっているから、それらの上位
概念としての、例えば、対象物を表す属性Themeが認識
され、その属性Themeが、下位概念として、属性[increa
se]と[thing]を含むことを表す属性Theme{thing/increa
se}が、注目動詞「目立つ」に必須の格助詞の属性とし
て認識される。

【０１７４】その後、ステップＳ９３に進み、項構造情
報生成部２４は、注目統合格フレームと、その下位範疇
化情報に基づいて、注目統合格フレームに対応する動詞
が必要に応じて伴う助詞（以下、適宜、オプションの助
詞という）と、その属性を認識する。

【０１７５】即ち、項構造情報生成部２４は、注目統合
格フレームに記述された助詞から、ステップＳ９２で認
識した必須の格助詞を除いたものを、オプションの助詞
として認識する。さらに、項構造情報生成部２４は、注
目統合格フレームにおいて、オプションの助詞として認
識した助詞に付されている属性を、オプションの助詞の
属性として認識する。

【０１７６】従って、例えば、いま、図７に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合、上述したように、必須の格助
詞は「が」であるから、図７の注目統合格フレームに記
述された助詞「で」、「が」、「に」、「と」から、格
助詞「が」を除く３つの助詞「で」、「に」、「と」
が、オプションの助詞として認識され、さらに、そのオ
プションの助詞の属性として、図７の注目統合格フレー
ムに記述されている３つの助詞「で」、「に」、「と」
それぞれの属性Instrument，Locative，Propositionが
認識される。

【０１７７】そして、ステップＳ９４に進み、項構造情
報生成部２４は、ステップＳ９２とＳ９３で認識した情
報から、項構造情報を生成し、補助情報生成部２５に出
力する。

【０１７８】即ち、項構造情報生成部２４は、例えば、
図７に示した注目統合格フレームに対応する注目動詞
「目立つ」について、上述したように、必須の格助詞
「が」とその属性Theme{thing/increase}のセット、並
びにオプションの格助詞とその属性のセット「で」とIn
strument、「に」とLocative、および「と」とProposit
ionが得られた場合には、図８に示した項構造情報<ArgS
tr:Theme{thing/increase}-(Instrument)-(Locative)-
(Proposition)>を生成し、補助情報生成部２５に出力す
る。

【０１７９】その後、ステップＳ９５に進み、項構造情
報生成部２４が、まだ、注目統合格フレームとしていな
い統合格フレームがあるかどうかを判定する。ステップ
Ｓ９５において、まだ、注目統合格フレームとしていな
い統合格フレームがあると判定された場合、ステップＳ
９１に戻り、項構造情報生成部２４は、まだ、注目統合
格フレームとしていない統合格フレームのうちの１つ
を、新たな注目統合格フレームとし、以下、同様の処理
を繰り返す。

【０１８０】また、ステップＳ９５において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、下位範疇化情報生成処理を終了する。

【０１８１】以上のように、図１の補助情報生成装置に
よれば、多数のコーパスデータについて、その形態素解
析結果から、基本センテンスが生成され、その基本セン
テンスから、不要語彙が削除される。さらに、不要語彙
が削除された基本センテンスにおける動詞について、格
フレームが生成され、同一の動詞についての格フレーム
を用いて、統合格フレームが生成される。そして、各動
詞について生成された統合各フレームに基づいて、その
動詞の下位範疇化情報と項構造情報が生成され、補助情
報として出力される。従って、自然言語を構文解析や意
味解析等する場合に、補助情報に含まれる下位範疇化情
報や項構造情報を参照することにより、精度の高い構文
解析や意味解析を行うことが可能となる。

【０１８２】次に、図１６は、本発明を適用した自然言
語処理装置の他の一実施の形態の構成例を示している。

【０１８３】この自然言語処理装置は、音声によって、
ユーザとの対話を行う音声対話システムを構成してい
る。

【０１８４】即ち、マイク（マイクロフォン）３１は、
ユーザからの音声を、電気信号としての音声信号とし
て、Ａ／Ｄ(Analog/Digital)変換器３２に供給する。Ａ
／Ｄ変換器３２は、マイク３１からのアナログの音声信
号をＡ／Ｄ変換することにより、ディジタルの音声デー
タとし、音声認識部３３に供給する。音声認識部３３
は、Ａ／Ｄ変換器３２からの音声データを、適当なフレ
ームごとに区切り、各フレームの音声データについて音
響分析を行うことにより、ＭＦＣＣ(Mel FrequencyCeps
trum Coefficient)等の特徴ベクトルを抽出する。さら
に、音声認識部３３は、その特徴ベクトル系列につい
て、例えば、ＨＭＭ(Hidden Markov Model)法等によっ
てマッチング処理を行い、マイク３１に入力された音声
を認識する。音声認識部３３による音声の認識結果は、
例えば、テキストデータで、言語処理部３４に供給され
る。

【０１８５】言語処理部３４は、音声認識部３３からの
音声認識結果を言語処理することにより、例えば、その
音声認識結果に対する応答としての、例えばテキストの
応答文を生成し、音声合成部３５に出力する。

【０１８６】音声合成部３５は、言語処理部３４からの
応答文に対応する合成音を、例えば規則音声合成処理を
行うことにより生成し、Ｄ／Ａ(Digital/Analog)変換器
３６に供給する。Ｄ／Ａ変換器３６は、音声合成部３５
からのディジタルの合成音データをＤ／Ａ変換すること
により、アナログの音声信号として、スピーカ３７に供
給する。スピーカ３７は、Ｄ／Ａ変換器３６から供給さ
れる音声信号に対応する音声、即ち、言語処理部３４に
おいて生成された応答文に対応する合成音を出力する。

【０１８７】次に、図１６において、言語処理部３４
は、形態素解析部４１、形態素解析辞書記憶部４２、構
文解析部４３、構文解析辞書記憶部４４、意味解析部４
５、補助情報データベース４６、対話管理部４７、対話
履歴データベース４８、および応答文生成部４９から構
成されている。

【０１８８】形態素解析部４１は、音声認識部３３から
供給される音声認識結果について、形態素解析辞書記憶
部４２を参照しながら形態素解析を行い、その形態素解
析結果を、構文解析部４３に供給する。形態素解析辞書
記憶部４２は、形態素解析部４１が形態素解析を行うの
に参照する、例えば、形態素について、その読みや、構
文属性、意味属性等が記述された形態素解析辞書を記憶
している。

【０１８９】構文解析部４３は、形態素解析部４１から
の形態素解析結果と、構文解析辞書記憶部４４や補助情
報データベース４６を参照しながら、音声認識部３３の
音声認識結果の構文解析を行い、その構文解析結果を、
意味解析部４５に供給する。構文解析辞書記憶部４４
は、構文解析部４３が構文解析を行うに参照する、例え
ば、形態素の係り受け関係等についての記述がされてい
る構文解析辞書を記憶している。

【０１９０】意味解析部４５は、構文解析部４３からの
構文解析結果と、補助情報データベース４６を参照しな
がら、音声認識部３３の音声認識結果の意味解析を行
い、その意味解析結果を、対話管理部４７に供給する。

【０１９１】補助情報データベース４６は、図１の補助
情報生成装置としての自然言語処理装置で生成された補
助情報を、多数の動詞について記憶している。

【０１９２】対話管理部４７は、意味解析部４５から供
給される音声認識結果の意味解析結果や、対話履歴デー
タベース４８を参照しながら、その音声認識結果の意味
内容を理解し、その音声認識結果に対応する応答文の意
味内容（以下、適宜、応答内容という）を生成して、応
答文生成部４９に供給する。

【０１９３】対話履歴データベース４８は、音声認識結
果の意味内容や、その音声認識結果に対して、対話管理
部４７が生成した応答内容を、対話履歴として記憶す
る。

【０１９４】応答文生成部４９は、対話管理部４７から
の応答内容に対応するテキストの応答文を生成し、音声
合成部３５に供給する。

【０１９５】次に、図１７のフローチャートを参照し
て、図１６の音声対話システムが行う処理（対話処理）
について説明する。

【０１９６】マイク３１に、ユーザの音声が入力され、
さらに、Ａ／Ｄ変換器３２を介し、音声データが、音声
認識部３３に供給されると、音声認識部３３は、ステッ
プＳ１０１において、マイク３１に入力された音声を音
声認識し、その音声認識結果を、言語処理部３４の形態
素解析部４１に出力して、ステップＳ１０２に進む。

【０１９７】ステップＳ１０２では、形態素解析部４１
は、音声認識部３３からの音声認識結果を入力文とし
て、その形態素解析を行い、その形態素解析結果を、構
文解析部４３に供給して、ステップＳ１０３に進む。ス
テップＳ１０３では、構文解析部４３が、入力文の形態
素解析結果を参照することで、その入力文に含まれる動
詞についての補助情報を、補助情報データベース４６か
ら検索し、ステップＳ１０４に進む。

【０１９８】ステップＳ１０４では、構文解析部４３
が、形態素解析部４１からの形態素解析結果、構文解析
辞書、およびステップＳ１０３で検索した補助情報に基
づき、入力文としての音声認識結果を構文解析し、その
構文解析結果を、意味解析部４５に供給する。さらに、
ステップＳ１０４では、意味解析部４５が、構文解析部
４３から供給される入力文としての音声認識結果の構文
解析結果に基づいて意味解析を行い、ステップＳ１０５
に進む。

【０１９９】ステップＳ１０５では、入力文に、照応形
が存在するかどうか、即ち、その入力文に含まれる動詞
に必須の名詞が欠けているか（ゼロ照応形）、または必
須の名詞が代名詞で代用されているかどうかが判定され
る。

【０２００】なお、入力文に、照応形が存在するかどう
かは、例えば、構文解析部４３による構文解析において
認識することができる。

【０２０１】即ち、例えば、図８に示した動詞「目立
つ」についての補助情報に含まれる下位範疇化情報によ
れば、動詞「目立つ」は、主格となる名詞句を必然的に
伴うことが分かる。従って、入力文に、原形が「目立
つ」の動詞が含まれている場合において、その動詞「目
立つ」が、主格となる名詞句を伴っていなければ、構文
解析部４３は、動詞「目立つ」についての補助情報か
ら、その動詞「目立つ」について必須の名詞句が欠けて
いる、即ち、ゼロ照応形が存在することを認識すること
ができる。なお、照応形の有無は、例えば、ＨＰＳＧ等
のフレームワークにおけるサチュレーション(saturatio
n)という機能によっても認識することができる。

【０２０２】ステップＳ１０５において、入力文に、照
応形が存在しないと判定された場合、意味解析部４５
は、入力文の意味解析結果を、対話管理部４７に供給
し、ステップＳ１０６乃至ステップＳ１１０をスキップ
して、ステップＳ１１１に進む。

【０２０３】また、ステップＳ１０５において、入力文
に、照応形が存在すると判定された場合、ステップＳ１
０６に進み、意味解析部４５は、補助情報データベース
４６を参照することにより、照応形の属性を認識する。

【０２０４】即ち、ステップＳ１０６では、意味解析部
４５は、ステップＳ１０３で検索された補助情報の下位
範疇化情報と項構造情報から、入力文に含まれる動詞が
必然的に伴うべき名詞の属性を認識する。そして、意味
解析部４５は、その入力文に含まれる動詞が必然的に伴
うべき名詞の属性うち、音声認識結果に欠けている名
詞、あるいは代名詞で代用されている名詞の属性を認識
する。

【０２０５】その後、ステップＳ１０７に進み、意味管
理部４５は、対話管理部４７に問い合わせを行うことに
より、ステップＳ１０６で認識した照応形の属性と同一
の属性の名詞が、対話履歴データベース４８の対話履歴
に存在するかどうかを判定する。

【０２０６】なお、ステップＳ１０７では、例えば、J.
Huang, "Logical Relations in Chinese and Theory of
Grammar", MIT PhD. Thesis, 1982で提唱されている、
先行詞と照応家の距離はミニマルであるというヒューリ
スティック(Minimal Distance Principle)にしたがい、
例えば、１乃至４発話前の範囲の対話履歴を対象に、照
応形の属性と同一の属性の名詞が存在するかどうかを判
定する。

【０２０７】ステップＳ１０７において、照応形の属性
と同一の属性の名詞が、対話履歴データベース４８の対
話履歴に存在しないと判定された場合、ステップＳ１０
８に進み、対話管理部４７は、ユーザに対して、照応形
の内容を問い合わせる問い合わせ処理を行う。

【０２０８】即ち、対話管理部４７は、照応形の内容を
問い合わせるメッセージ（以下、適宜、問い合わせメッ
セージという）を、応答文生成部４９に生成させ、音声
合成部３５およびＤ／Ａ変換器３６を介して、スピーカ
３７から、合成音で出力させる。

【０２０９】そして、ユーザが、問い合わせメッセージ
に対応して、照応形の内容を説明する発話を行うと、そ
の音声は、マイク３１、Ａ／Ｄ変換器３２、音声認識部
３３、形態素解析部４１および構文解析部４３を介し
て、意味解析部４５に供給される。

【０２１０】意味解析部４５は、このようにして、構文
解析部４３から、照応形の内容を説明するユーザの音声
についての構文解析結果が供給されるのを待って、ステ
ップＳ１０８からＳ１０９に進み、その構文解析結果に
基づいて、照応形の先行詞を認識、決定して、ステップ
Ｓ１１０に進む。

【０２１１】一方、ステップＳ１０７において、照応形
の属性と同一の属性の名詞が、対話履歴データベース４
８の対話履歴に存在すると判定された場合、ステップＳ
１０９に進み、意味解析部４３は、その対話履歴に存在
する照応形と同一属性の名詞を、その照応形の先行詞と
して決定し、ステップＳ１１０に進む。

【０２１２】ステップＳ１１０では、ステップＳ１０９
で決定された先行詞が、入力文の中の照応形の代わりに
存在するものとして、その入力文について、構文解析部
４３が構文解析を行い、さらに、意味解析部４５が意味
解析を行い、その意味解析結果を、対話管理部４７に供
給する。

【０２１３】対話管理部４７は、意味解析部４５から入
力文の意味解析結果を受信すると、ステップＳ１１１に
進み、その意味解析結果に基づいて、入力文の意味を理
解し、その入力文に対応する応答としての応答文の内容
（応答内容）を生成して、ステップＳ１１２に進む。ス
テップＳ１１２では、対話管理部４７は、入力文の意味
内容と、生成した応答文の意味内容（応答内容）のセッ
トを、対話履歴データベース４８に供給して、対話履歴
として記憶させるとともに、応答内容を、応答文生成部
４９に供給し、ステップＳ１１３に進む。

【０２１４】ステップＳ１１３では、応答文生成部４９
は、対話管理部４７からの応答内容を、その意味内容と
する応答文を生成し、音声合成部３５に供給する。さら
に、ステップＳ１１２では、音声合成部３５が、応答文
生成部４９からの応答文に対応する合成音を生成し、Ｄ
／Ａ変換器３６を介して、スピーカ３７から出力させ、
対話処理を終了する。

【０２１５】なお、以上の対話処理においては、照応形
の先行詞を、原則的には、対話履歴から決定し、対話履
歴から決定することができない場合には、ユーザに問い
合わせを行うようにしたが、照応形の先行詞は、対話履
歴から決定し、ユーザに問い合わせを行わないようにす
ることも可能である。

【０２１６】但し、その場合には、照応形の先行詞が、
同一の文の内部にあるケースと、指示や視覚を伴う理解
(deictic use)が必要なものであるケースは除外する必
要がある。

【０２１７】ここで、照応形の先行詞が、同一の文の内
部にあるケースとは、照応形をproと表すと、例えば、
「pro書いた論文が表彰された男」といった文が該当す
る。この文における照応形proは、この文で言っている
男（書いた論文が表象された男）を指し示しており、照
応形の先行詞となる「男」が、同一の文の内部にある。
このように、照応形の先行詞が、同一の文の内部にある
場合の照応形の問題は、例えば、岩波講座言語の科学
６「生成文法」岩波書店１９９７年等にあるような束
縛理論(binding theory)によって解決することができ
る。

【０２１８】また、照応形の先行詞が、指示や資格を伴
う理解が必要なケースとは、机の上にあるコップを指さ
し、「それを拾え。」といった場合である。

【０２１９】なお、いずれのケースについても、ユーザ
に問い合わせを行えば、照応形の先行詞を決定すること
が可能である。

【０２２０】図１７の対話処理によれば、例えば、次の
ようにして、照応形の先行詞が決定される。

【０２２１】即ち、例えば、いま、音声対話システム
が、合成音「Ａさんは、土用の日にうなぎを食べました
よ。」を出力し、それに対して、ユーザが、「Ｂさん
は、もう食べたの？」と発話したとする。

【０２２２】この場合、音声対話システムが、ユーザの
発話を正しく理解するためには、ユーザの発話「Ｂさん
は、もう食べたの？」に、「うなぎを」を補って、「Ｂ
さんは、もう”うなぎを”食べたの？」とする必要があ
る。

【０２２３】そこで、音声対話システムは、ユーザの発
話「Ｂさんは、もう食べたの？」に含まれる動詞（の原
形）「食べる」についての補助情報を参照する。

【０２２４】いま、動詞「食べる」についての補助情報
が、例えば、図１８に示すようなものであったとする。

【０２２５】ここで、図１８における動詞「食べる」に
ついての補助情報の第１行目（上から１行目）は、動詞
の見出し「食べる」、読み「タベル」、分類情報「他動
詞」を表している。また、第２行目の下位範疇化情報<S
UBCAT:NP[nom]-NP[acc]>は、動詞「食べる」が、主格(n
ominative)を表す名詞句(NP[nom])と対格(accusative)
を表す名詞句(NP[acc])を必然的に伴うことを表してい
る。さらに、第３行目の項構造情報<ArgStr:Agent-Them
e{food}-(Instrument)-(Locative)>は、下位範疇化情報
の主格を表す名詞句NP[nom]が、動詞「食べる」の動作
主(Agent)となるものであること、下位範疇化情報の対
格を表す名詞句NP=[acc]が、動詞「食べる」の対象物(T
heme)となるものであること、その対象物(Theme)が、食
べ物{food}であること、動詞「食べる」が、必要に応じ
て、属性がInstrumentやLocativeで表される助詞を取り
得ること、を表している。

【０２２６】なお、属性InstrumentとLocativeは、上述
したように、それぞれ道具（例えば、「ナイフで」な
ど）と場所（例えば、「レストランで」）を表す。

【０２２７】ユーザの発話「Ｂさんは、もう食べたの
？」については、図１８の補助情報を参照することによ
り、体格を表す名詞句であって、食べる対象物となる食
べ物を表すものが欠けている（ゼロ照応形が存在する）
ことが分かる。

【０２２８】一方、いまの場合、ユーザの発話「Ｂさん
は、もう食べたの？」の直前に、音声対話システムが、
「Ａさんは、土用の日にうなぎを食べましたよ。」を出
力しており、この出力のうちの「うなぎを」は、体格を
表す名詞句であって、食べる対象物となる食べ物を表し
ている。

【０２２９】従って、この場合、音声対話システムは、
対話履歴を参照することにより、ユーザの発話「Ｂさん
は、もう食べたの？」に欠けている、対格を表す名詞句
であって、食べる対象物となる食べ物を表すものが、
「うなぎ」であることを認識することができる。即ち、
この場合、ユーザの発話「Ｂさんは、もう食べたの？」
に存在するゼロ照応形の先行詞が、「うなぎ」であるこ
とが決定される。

【０２３０】その結果、音声対話システムは、ユーザの
発話「Ｂさんは、もう食べたの？」に、決定した先行詞
「うなぎを」を補って、「Ｂさんは、もう”うなぎを”
食べたの？」とし、その意味内容を正しく理解すること
ができる。

【０２３１】なお、対話履歴に、対格を表す名詞句であ
って、食べる対象物となる食べ物を表すものが存在しな
い場合には、音声対話システムは、その食べ物が何であ
るかを問い合わせるメッセージとして、例えば「Ｂさん
は、何を食べたのですが？」などを生成、出力し、その
メッセージに対するユーザの返答を待って、ゼロ照応形
の先行詞（いまの場合は、「うなぎ」）を決定する。

【０２３２】また、上述の場合には、ユーザの発話が、
ゼロ照応形を有する「Ｂさんは、もう食べたの？」であ
るときを対象としたが、図１７の対話処理によれば、ユ
ーザの発話が、ゼロ照応形でない照応形を有する、例え
ば、「Ｂさんは、もう、それを（あれを）食べたの？」
であるときも、ゼロ照応形における場合と同様にして、
照応形「それ（あれ）」の先行詞を決定することができ
る。

【０２３３】以上のように、図１６の音声対話システム
では、動詞の下位範疇化情報と項構造情報を含む補助情
報を参照することにより、入力文中に存在する照応形の
属性を認識した後、その照応形の属性に基づいて、その
照応形が指し示す先行詞を決定し、入力文の構文解析ま
たは意味解析を行うようにしたので、精度の高い構文解
析や意味解析が可能となり、さらに、それにより、入力
文の意味を正確に理解することが可能となる。

【０２３４】なお、本実施の形態では、補助情報に、分
類情報を含めるようにしたが、補助情報は、分類情報を
含めずに構成することが可能である。但し、補助情報
に、明示的に、分類情報が含まれていない場合でも、下
位範疇化情報から分類情報を得ることができるので、間
接的には、分類情報が含まれているということができ
る。

【０２３５】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。

【０２３６】そこで、図１９は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０２３７】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０２３８】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory)，
MO(Magneto Optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体１１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体１１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０２３９】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部１０８で受信し、内蔵するハード
ディスク１０５にインストールすることができる。

【０２４０】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部１０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)１０３に格納されているプログラムを実行
する。あるいは、また、CPU１０２は、ハードディスク
１０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部１０８で受信されてハー
ドディスク１０５にインストールされたプログラム、ま
たはドライブ１０９に装着されたリムーバブル記録媒体
１１１から読み出されてハードディスク１０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)１０４にロードして実行する。これにより、CPU１０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU１０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース１１０を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部１０６から出力、あるいは、通信部１０８から
送信、さらには、ハードディスク１０５に記録等させ
る。

【０２４１】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０２４２】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０２４３】なお、補助情報は、図１６に示した音声対
話システムの他、テキスト要約や翻訳その他の自然言語
処理を行うシステムで用いることが可能である。また、
補助情報は、図１６に示したように、独立の補助情報デ
ータベース４６に記憶させる他、そのシステムで用いら
れるレキシコン（辞書）（例えば、図１７の形態素解析
辞書記憶部４２の形態素解析辞書や、構文解析辞書記憶
部４４の構文解析辞書など）に統合する形で記憶させる
ことも可能である。

【０２４４】また、本発明は、日本語以外の自然言語に
も適用可能である。

【０２４５】

【発明の効果】本発明の第１の自然言語処理装置および
自然言語処理方法、並びにプログラムによれば、コーパ
スデータの形態素解析結果から、格フレームの生成対象
とする単位である基本センテンスが生成され、その基本
センテンスから、格フレームの生成に不要な語彙が削除
される。さらに、不要語彙が削除された基本センテンス
における動詞について、格フレームが生成され、同一の
動詞についての格フレームに基づいて、その動詞の下位
範疇化情報と項構造情報が生成されて、補助情報として
出力される。従って、その補助情報を参照することによ
り、精度の高い構文解析や意味解析等が可能となる。

【０２４６】本発明の第２の自然言語処理装置および自
然言語処理方法、並びにプログラムによれば、少なくと
も、動詞の下位範疇化情報と項構造情報からなる補助情
報を記憶している補助情報記憶手段から、入力文に含ま
れる動詞についての補助情報が検索される一方、入力文
中に照応形が存在するかどうかが判定され、入力文中に
存在する照応形の属性が、その入力文に含まれる動詞に
ついての補助情報に基づいて認識される。そして、照応
形の属性に基づいて、照応形が指し示す先行詞が決定さ
れ、その先行詞を用いて、入力文の構文解析または意味
解析が行われる。従って、精度の高い構文解析や意味解
析等が可能となり、さらに、それにより、入力文の意味
を正確に理解することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した自然言語処理装置の一実施の
形態の構成例を示すブロック図である。

【図２】形態素解析結果を示す図である。

【図３】基本センテンスから削除される語彙（不要語
彙）を説明する図である。

【図４】不要語彙が削除された形態素解析結果を示す図
である。

【図５】動詞の基準形を説明する図である。

【図６】格フレームを示す図である。

【図７】統合格フレームを示す図である。

【図８】補助情報を示す図である。

【図９】補助情報生成処理を説明するフローチャートで
ある。

【図１０】基本センテンスパターン抽出処理を説明する
フローチャートである。

【図１１】不要語彙削除処理を説明するフローチャート
である。

【図１２】格フレーム生成処理を説明するフローチャー
トである。

【図１３】動詞分類処理を説明するフローチャートであ
る。

【図１４】下位範疇化情報生成処理を説明するフローチ
ャートである。

【図１５】項構造情報生成処理を説明するフローチャー
トである。

【図１６】本発明を適用した自然言語処理装置の他の一
実施の形態の構成例を示すブロック図である。

【図１７】対話処理を説明するフローチャートである。

【図１８】補助情報を示す図である。

【図１９】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

１コーパスデータベース，２前処理部，３格
フレームデータベース，４格フレーム処理部，５
補助情報データベース，１１形態素解析部，１
２基本センテンスパターン抽出部，１３削除部，
１４格フレーム生成部，２１格フレーム統合
部，２２動詞分類部，２３下位範疇化情報生成
部，２４項構造情報生成部，２５補助情報生成
部，３１マイク，３２Ａ／Ｄ変換器，３３音
声認識部，３４言語処理部，３５音声合成部，
３６Ｄ／Ａ変換器，３８スピーカ，４１形態
素解析部，４２形態素解析辞書記憶部，４３構
文解析部，４４構文解析辞書記憶部，４５意味
解析部，４６補助情報データベース，４７対話管
理部，４８対話履歴データベース，４９応答文
生成部，１０１バス，１０２ CPU，１０３ R
OM，１０４ RAM，１０５ハードディスク，１
０６出力部，１０７入力部，１０８通信部，
１０９ドライブ，１１０入出力インタフェース，
１１１リムーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者下村秀樹東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B091 AA15 AB15 AB19 CA02 CA12 CA14 CC01 CC15

Claims

【特許請求の範囲】

【請求項１】自然言語の解析を補助する補助情報を、
コーパスデータから求める自然言語処理装置であって、前記コーパスデータを形態素解析する形態素解析手段
と、前記コーパスデータの形態素解析結果から、格フレーム
の生成対象とする単位である基本センテンスを生成する
基本センテンス生成手段と、前記基本センテンスから、格フレームの生成に不要な語
彙を削除する不要語彙削除手段と、前記不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成手段
と、同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、前記補助情報
として出力する補助情報生成手段とを備えることを特徴
とする自然言語処理装置。
【請求項２】前記補助情報生成手段は、同一の動詞に
ついての格フレームに基づいて、その動詞が、自動詞、
他動詞、能格動詞、または二重目的語他動詞のうちのい
ずれに分類されるものであるかを表す分類情報を生成
し、前記分類情報に基づいて、前記下位範疇化情報を生
成することを特徴とする請求項１に記載の自然言語処理
装置。
【請求項３】前記不要語彙削除手段は、副詞、名詞と
「の」からなる語彙、名詞と助詞と「の」からなる語
彙、形容詞、名詞と「な」からなる語彙、名詞と後置詞
からなる語彙、括弧で囲まれた部分、または括弧で囲ま
れた部分と「の」からなる語彙を、前記基本センテンス
から削除することを特徴とする請求項１に記載の自然言
語処理装置。
【請求項４】前記補助情報生成手段は、同一の動詞に
ついての格フレームの格助詞に基づいて、前記下位範疇
化情報を生成することを特徴とする請求項１に記載の自
然言語処理装置。
【請求項５】前記補助情報生成手段は、同一の動詞に
ついての格フレームすべての助詞に基づいて、前記項構
造情報を生成することを特徴とする請求項１に記載の自
然言語処理装置。
【請求項６】前記コーパスデータは、日本語のデータ
であることを特徴とする請求項１に記載の自然言語処理
装置。
【請求項７】自然言語の解析を補助する補助情報を、
コーパスデータから求める自然言語処理方法であって、前記コーパスデータを形態素解析する形態素解析ステッ
プと、前記コーパスデータの形態素解析結果から、格フレーム
の生成対象とする単位である基本センテンスを生成する
基本センテンス生成ステップと、前記基本センテンスから、格フレームの生成に不要な語
彙を削除する不要語彙削除ステップと、前記不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成ステッ
プと、同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、前記補助情報
として出力する補助情報生成ステップとを備えることを
特徴とする自然言語処理方法。
【請求項８】自然言語の解析を補助する補助情報を、
コーパスデータから求める自然言語処理を、コンピュー
タに行わせるプログラムであって、前記コーパスデータを形態素解析する形態素解析ステッ
プと、前記コーパスデータの形態素解析結果から、格フレーム
の生成対象とする単位である基本センテンスを生成する
基本センテンス生成ステップと、前記基本センテンスから、格フレームの生成に不要な語
彙を削除する不要語彙削除ステップと、前記不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成ステッ
プと、同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、前記補助情報
として出力する補助情報生成ステップとを備えることを
特徴とするプログラム。
【請求項９】自然言語の解析を補助する補助情報を、
コーパスデータから求める自然言語処理を、コンピュー
タに行わせるプログラムが記録されている記録媒体であ
って、前記コーパスデータを形態素解析する形態素解析ステッ
プと、前記コーパスデータの形態素解析結果から、格フレーム
の生成対象とする単位である基本センテンスを生成する
基本センテンス生成ステップと、前記基本センテンスから、格フレームの生成に不要な語
彙を削除する不要語彙削除ステップと、前記不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成ステッ
プと、同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、前記補助情報
として出力する補助情報生成ステップとを備えるプログ
ラムが記録されていることを特徴とする記録媒体。
【請求項１０】入力文を自然言語処理する自然言語処
理装置であって、少なくとも、動詞の下位範疇化情報と項構造情報からな
る補助情報を記憶している補助情報記憶手段と、前記補助情報記憶手段から、前記入力文に含まれる動詞
についての前記補助情報を検索する検索手段と、前記入力文中に照応形が存在するかどうかを判定する判
定手段と、前記入力文中に存在する照応形の属性を、その入力文に
含まれる動詞についての前記補助情報に基づいて認識す
る属性認識手段と、前記照応形の属性に基づいて、前記照応形が指し示す先
行詞を決定する先行詞決定手段と、前記先行詞決定手段において決定された先行詞を用い
て、前記入力文の構文解析または意味解析を行う解析手
段とを備えることを特徴とする自然言語処理装置。
【請求項１１】前記判定手段は、前記入力文の構文解
析結果、または前記入力文に含まれる動詞についての前
記補助情報の下位範疇化情報に基づいて、前記入力文中
に照応形が存在するかどうかを判定することを特徴とす
る請求項１０に記載の自然言語処理装置。
【請求項１２】前記照応形は、代名詞またはゼロ照応
形であることを特徴とする請求項１０に記載の自然言語
処理装置。
【請求項１３】対話履歴を記憶しながら、対話を行う
対話装置であり、前記先行詞決定手段は、前記対話履歴を参照することに
より、前記先行詞を決定することを特徴とする請求項１
０に記載の自然言語処理装置。
【請求項１４】ユーザに対して、前記先行詞の内容の
問い合わせを行う問い合わせ手段をさらに備え、前記先行詞決定手段は、前記問い合わせに対するユーザ
の回答に基づいて、前記先行詞を決定することを特徴と
する請求項１０に記載の自然言語処理装置。
【請求項１５】入力文を自然言語処理する自然言語処
理方法であって、少なくとも、動詞の下位範疇化情報と項構造情報からな
る補助情報を記憶している補助情報記憶手段から、前記
入力文に含まれる動詞についての前記補助情報を検索す
る検索ステップと、前記入力文中に照応形が存在するかどうかを判定する判
定ステップと、前記入力文中に存在する照応形の属性を、その入力文に
含まれる動詞についての前記補助情報に基づいて認識す
る属性認識ステップと、前記照応形の属性に基づいて、前記照応形が指し示す先
行詞を決定する先行詞決定ステップと、前記先行詞決定ステップにおいて決定された先行詞を用
いて、前記入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とする自然言語処理方
法。
【請求項１６】入力文を自然言語処理する自然言語処
理を、コンピュータに行わせるプログラムであって、少なくとも、動詞の下位範疇化情報と項構造情報からな
る補助情報を記憶している補助情報記憶手段から、前記
入力文に含まれる動詞についての前記補助情報を検索す
る検索ステップと、前記入力文中に照応形が存在するかどうかを判定する判
定ステップと、前記入力文中に存在する照応形の属性を、その入力文に
含まれる動詞についての前記補助情報に基づいて認識す
る属性認識ステップと、前記照応形の属性に基づいて、前記照応形が指し示す先
行詞を決定する先行詞決定ステップと、前記先行詞決定ステップにおいて決定された先行詞を用
いて、前記入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とするプログラム。
【請求項１７】入力文を自然言語処理する自然言語処
理を、コンピュータに行わせるプログラムが記録されて
いる記録媒体であって、少なくとも、動詞の下位範疇化情報と項構造情報からな
る補助情報を記憶している補助情報記憶手段から、前記
入力文に含まれる動詞についての前記補助情報を検索す
る検索ステップと、前記入力文中に照応形が存在するかどうかを判定する判
定ステップと、前記入力文中に存在する照応形の属性を、その入力文に
含まれる動詞についての前記補助情報に基づいて認識す
る属性認識ステップと、前記照応形の属性に基づいて、前記照応形が指し示す先
行詞を決定する先行詞決定ステップと、前記先行詞決定ステップにおいて決定された先行詞を用
いて、前記入力文の構文解析または意味解析を行う解析
ステップとを備えるプログラムが記録されていることを
特徴とする記録媒体。