JP2003030184A - 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 - Google Patents

自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体

Info

Publication number
JP2003030184A
JP2003030184A JP2001217619A JP2001217619A JP2003030184A JP 2003030184 A JP2003030184 A JP 2003030184A JP 2001217619 A JP2001217619 A JP 2001217619A JP 2001217619 A JP2001217619 A JP 2001217619A JP 2003030184 A JP2003030184 A JP 2003030184A
Authority
JP
Japan
Prior art keywords
verb
information
case frame
sentence
auxiliary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001217619A
Other languages
English (en)
Inventor
Kazuhiko Tajima
和彦 田島
Shigeaki Yokota
重昭 横田
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001217619A priority Critical patent/JP2003030184A/ja
Publication of JP2003030184A publication Critical patent/JP2003030184A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 精度の高い構文解析や意味解析を行い、入力
文の意味を正確に理解する。 【解決手段】 意味解析部45は、動詞の下位範疇化情
報と項構造情報からなる、多量のコーパスデータを用い
て生成された補助情報を記憶している補助情報データベ
ース46から、入力文に含まれる動詞についての補助情
報を検索し、入力文中に存在する照応形の属性を、その
入力文に含まれる動詞についての補助情報に基づいて認
識する。そして、意味解析部45は、照応形の属性に基
づいて、照応形が指し示す先行詞を決定し、その先行詞
を用いて、入力文の意味解析を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語処理装置
および自然言語処理方法、並びにプログラムおよび記録
媒体に関し、動詞について、その下位範疇化情報および
項構造情報を得ることができるようにし、さらに、その
下位範疇化情報および項構造情報を用いて、照応形の先
行詞を決定して、精度の高い対話や翻訳等の自然言語処
理を行うことができるようにする自然言語処理装置およ
び自然言語処理方法、並びにプログラムおよび記録媒体
に関する。
【0002】
【従来の技術】従来の自然言語処理装置では、入力され
た文(入力文)が形態素解析され、さらに、その形態素
解析結果に基づき、構文解析、意味解析が行われ、入力
文の意味内容が理解される。そして、自然言語処理装置
が、例えば、ユーザとの対話を行う対話装置である場合
には、入力文の意味内容の理解に基づいて、その入力文
に対する応答文が生成されて出力される。
【0003】
【発明が解決しようとする課題】ところで、例えば、
「もう食べましたか?」という入力文においては、食べ
たのは誰かという主語と、食べたものが何かという直接
目的語が欠けている。従って、この入力文「もう食べま
したか?」については、その欠けている主語と直接目的
語を決定することができないと、その意味を正確に理解
したということができない。
【0004】ここで、例えば、岩波講座-言語の科学6
「生成文法」岩波書店、1997年や、橋田浩一「Glob
al Document Annotation;GDA」電総研、1998年等の
記載の自然言語理論によれば、ゼロ照応形(zero anapho
ra)と呼ばれる、表現されないが、目的語の位置にあ
り、照応関係を成立させる代名詞のようなものが存在す
る。即ち、この自然言語理論では、ある位置にあるべき
名詞句が欠けている場合に、その位置に、ゼロ照応形
(zero anaphora)が存在するとして扱われる。
【0005】なお、照応(anaphora)とは、代名詞、指示
詞などの代用表現(照応形)とその指し示す対象(先行
詞)との組によって表わされる言語現象であり、表現さ
れない照応形が、ゼロ照応形である。
【0006】上述の入力文「もう食べましたか?」を正
確に理解するためには、例えば、いま、ゼロ照応形を、
proと表すこととすると、構文解析において、入力文
「もう食べましたか?」における動詞「食べる」を、ど
のような構成素を必要とするものであるかを基準に分類
し、その分類結果に基づき、入力文「もう食べましたか
?」が、「pro(主語)もうpro(直接目的語)食べまし
たか?」であると分析(解析)する必要がある。さらに
は、ゼロ照応形(pro)が存在する場合には、そのゼロ照
応形が指し示す先行詞が、具体的に何であるかを決定す
る必要がある。具体的には、入力文「もう食べましたか
?」については、食べたのが誰であるのかと、食べたの
か何であるのかを決定する必要がある。
【0007】ここで、動詞の種別としては、動作主(Age
nt)を主語にとる自動詞(intransitive)、対象(Theme)を
主語にとる能格動詞(ergative)、直接目的語を選択する
他動詞(transitive)、および直接目的語と間接目的語の
両方を選択する二重目的語他動詞(ditransitive)の4つ
があり、動詞を分類するとは、動詞を、これらの自動
詞、能格動詞、他動詞、二重目的語他動詞のうちのいず
れかに分類することを意味する。なお、上述の動詞「食
べる」は他動詞である。
【0008】しかしながら、日本語においては、主語や
目的語が頻繁に省略されるため、従来の自然言語処理装
置では、構文解析時に、表層でも、また深層でも、動詞
の分類、およびゼロ照応形を考慮した分析はあまり行わ
れていなかった。
【0009】従って、従来の自然言語処理装置では、入
力文におけるゼロ照応形の有無を判断することも、さら
には、ゼロ照応形がある場合に、その先行詞を決定する
こともあまり行われていなかったため、精度の高い構文
解析や意味解析を行うことができずに、入力文の意味を
正確に理解することができないことが多かった。
【0010】本発明は、このような状況に鑑みてなされ
たものであり、精度の高い構文解析や意味解析を可能と
し、さらに、それにより、入力文の意味を正確に理解す
ることができるようにするものである。
【0011】
【課題を解決するための手段】本発明の第1の自然言語
処理装置は、コーパスデータの形態素解析結果から、格
フレームの生成対象とする単位である基本センテンスを
生成する基本センテンス生成手段と、基本センテンスか
ら、格フレームの生成に不要な語彙を削除する不要語彙
削除手段と、不要語彙が削除された基本センテンスにお
ける動詞について、格フレームを生成する格フレーム生
成手段と、同一の動詞についての格フレームに基づい
て、その動詞の下位範疇化情報と項構造情報を生成し、
補助情報として出力する補助情報生成手段とを備えるこ
とを特徴とする。
【0012】本発明の第1の自然言語処理方法は、コー
パスデータの形態素解析結果から、格フレームの生成対
象とする単位である基本センテンスを生成する基本セン
テンス生成ステップと、基本センテンスから、格フレー
ムの生成に不要な語彙を削除する不要語彙削除ステップ
と、不要語彙が削除された基本センテンスにおける動詞
について、格フレームを生成する格フレーム生成ステッ
プと、同一の動詞についての格フレームに基づいて、そ
の動詞の下位範疇化情報と項構造情報を生成し、補助情
報として出力する補助情報生成ステップとを備えること
を特徴とする。
【0013】本発明の第1のプログラムは、コーパスデ
ータの形態素解析結果から、格フレームの生成対象とす
る単位である基本センテンスを生成する基本センテンス
生成ステップと、基本センテンスから、格フレームの生
成に不要な語彙を削除する不要語彙削除ステップと、不
要語彙が削除された基本センテンスにおける動詞につい
て、格フレームを生成する格フレーム生成ステップと、
同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、補助情報とし
て出力する補助情報生成ステップとを備えることを特徴
とする。
【0014】本発明の第1の記録媒体は、コーパスデー
タの形態素解析結果から、格フレームの生成対象とする
単位である基本センテンスを生成する基本センテンス生
成ステップと、基本センテンスから、格フレームの生成
に不要な語彙を削除する不要語彙削除ステップと、不要
語彙が削除された基本センテンスにおける動詞につい
て、格フレームを生成する格フレーム生成ステップと、
同一の動詞についての格フレームに基づいて、その動詞
の下位範疇化情報と項構造情報を生成し、補助情報とし
て出力する補助情報生成ステップとを備えるプログラム
が記録されていることを特徴とする。
【0015】本発明の第2の自然言語処理装置は、少な
くとも、動詞の下位範疇化情報と項構造情報からなる補
助情報を記憶している補助情報記憶手段から、入力文に
含まれる動詞についての補助情報を検索する検索手段
と、入力文中に照応形が存在するかどうかを判定する判
定手段と、入力文中に存在する照応形の属性を、その入
力文に含まれる動詞についての補助情報に基づいて認識
する属性認識手段と、照応形の属性に基づいて、照応形
が指し示す先行詞を決定する先行詞決定手段と、先行詞
決定手段において決定された先行詞を用いて、入力文の
構文解析または意味解析を行う解析手段とを備えること
を特徴とする。
【0016】本発明の第2の自然言語処理方法は、少な
くとも、動詞の下位範疇化情報と項構造情報からなる補
助情報を記憶している補助情報記憶手段から、入力文に
含まれる動詞についての補助情報を検索する検索ステッ
プと、入力文中に照応形が存在するかどうかを判定する
判定ステップと、入力文中に存在する照応形の属性を、
その入力文に含まれる動詞についての補助情報に基づい
て認識する属性認識ステップと、照応形の属性に基づい
て、照応形が指し示す先行詞を決定する先行詞決定ステ
ップと、先行詞決定ステップにおいて決定された先行詞
を用いて、入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とする。
【0017】本発明の第2のプログラムは、少なくと
も、動詞の下位範疇化情報と項構造情報からなる補助情
報を記憶している補助情報記憶手段から、入力文に含ま
れる動詞についての補助情報を検索する検索ステップ
と、入力文中に照応形が存在するかどうかを判定する判
定ステップと、入力文中に存在する照応形の属性を、そ
の入力文に含まれる動詞についての補助情報に基づいて
認識する属性認識ステップと、照応形の属性に基づい
て、照応形が指し示す先行詞を決定する先行詞決定ステ
ップと、先行詞決定ステップにおいて決定された先行詞
を用いて、入力文の構文解析または意味解析を行う解析
ステップとを備えることを特徴とする。
【0018】本発明の第2の記録媒体は、少なくとも、
動詞の下位範疇化情報と項構造情報からなる補助情報を
記憶している補助情報記憶手段から、入力文に含まれる
動詞についての補助情報を検索する検索ステップと、入
力文中に照応形が存在するかどうかを判定する判定ステ
ップと、入力文中に存在する照応形の属性を、その入力
文に含まれる動詞についての補助情報に基づいて認識す
る属性認識ステップと、照応形の属性に基づいて、照応
形が指し示す先行詞を決定する先行詞決定ステップと、
先行詞決定ステップにおいて決定された先行詞を用い
て、入力文の構文解析または意味解析を行う解析ステッ
プとを備えるプログラムが記録されていることを特徴と
する。
【0019】本発明の第1の自然言語処理装置および自
然言語処理方法、並びにプログラムにおいては、コーパ
スデータの形態素解析結果から、格フレームの生成対象
とする単位である基本センテンスが生成され、その基本
センテンスから、格フレームの生成に不要な語彙が削除
される。さらに、不要語彙が削除された基本センテンス
における動詞について、格フレームが生成され、同一の
動詞についての格フレームに基づいて、その動詞の下位
範疇化情報と項構造情報が生成されて、補助情報として
出力される。
【0020】本発明の第2の自然言語処理装置および自
然言語処理方法、並びにプログラムにおいては、少なく
とも、動詞の下位範疇化情報と項構造情報からなる補助
情報を記憶している補助情報記憶手段から、入力文に含
まれる動詞についての補助情報が検索される一方、入力
文中に照応形が存在するかどうかが判定され、入力文中
に存在する照応形の属性が、その入力文に含まれる動詞
についての補助情報に基づいて認識される。そして、照
応形の属性に基づいて、照応形が指し示す先行詞が決定
され、その先行詞を用いて、入力文の構文解析または意
味解析が行われる。
【0021】
【発明の実施の形態】図1は、本発明を適用した自然言
語処理装置の一実施の形態の構成例を示している。
【0022】この自然言語処理装置は、自然言語の構文
解析や意味解析を補助する補助情報を、多量のコーパス
データから求める補助情報生成装置を構成している。
【0023】即ち、図1の補助情報生成装置としての自
然言語処理装置は、多量のコーパスデータから、動詞に
ついての格フレームを生成し、さらに、その格フレーム
から、動詞の下位範疇化情報(subcategorization)と項
構造情報(argument structure)を含む補助情報を生成す
るようになっている。
【0024】ここで、例えば、平岡冠二・松本祐治(1
994)「コーパスからの動詞の格フレーム獲得と名詞
のクラスタリング」情報処理学会、自然言語処理研究
会、NL-104や、春野雅彦(1995)「最小汎化とオッ
カムの原理を用いた動詞格フレーム学習」情報処理学
会、自然言語処理研究会、NL-108、李航・安倍直樹(1
996)「Learning Dependencies between Case Frame
Slots」情報処理学会、自然言語処理研究会、NL-116に
は、同義関係情報を含むシソーラスと呼ばれる辞書を作
成するための格フレームの自動生成方法が記載されてい
るが、図1の補助情報生成装置において生成される格フ
レームは、下位範疇化情報と項構造情報を含む補助情報
の作成を目的とする点で、シソーラスを作成する目的で
格フレームを生成するのとは異なる。
【0025】また、補助情報を構成する下位範疇化情報
は、例えば、HPSG(Head-DrivenPhrase Structure G
rammar - C.Pollard & I.Sag(1996) Head-Driven Phras
e Structure Grammar. CSLI & University of Chicago
Press)や、JPSG(Japanese Phrase Structure Gramm
ar - T.Gunji & K.Hasida(1998) Topics in Constraint
-Based Grammar of Japanese. Kluwer Academic Publis
hers ; 郡司隆男「制約に基づく文法の連続量の概念を
取り入れた拡張の研究」(平成12年)文部省研究成果
報告書)等に記載されている汎用の自然言語処理理論に
おいて重要な役割を担うもので、次のような情報であ
る。
【0026】即ち、動詞は、ある特定の構造や特定の統
語的、意味的機能を有する構成素を要求するが、動詞
を、その動詞が要求する構成素を基準に分類すること
は、下位範疇化(subcategorization)と呼ばれる。具体
的には、例えば、動詞「食べる」は、「レストランで、
うどんを、箸で食べました。」のように、名詞句(うど
ん+「を」)を構成素として必要とし、さらに、場所を
表す名詞句(レストラン+「で」)や、手段を表す名詞
句(箸+「で」)を、必要に応じて、構成素として伴
う。このように、動詞が必要とする構成素を基準に、動
詞を分類するのが、下位範疇化であり、下位範疇化によ
って動詞を分類する基準となる構成素に関する情報が、
下位範疇化情報である。
【0027】さらに、補助情報を構成する項構造情報と
は、動詞が必然的に伴う、または必要に応じて伴う構成
素が、どのような位置に現れ、どのような意味的な役割
を担うのか等といった情報を意味する。
【0028】図1の補助情報生成装置は、コーパスデー
タベース1、前処理部2、格フレームデータベース3、
格フレーム処理部4、および補助情報データベース5か
ら構成されている。
【0029】コーパスデータベース1は、多量のコーパ
スデータを記憶している。なお、コーパスデータとして
は、例えば、新聞記事等の文を採用することができる。
【0030】前処理部2は、形態素解析部11、基本セ
ンテンスパターン抽出部12、削除部13、格フレーム
生成部14から構成され、補助情報を生成する前処理と
して、コーパスデータベース1に記憶された多量のコー
パスデータから、格フレームを生成する処理を行う。
【0031】即ち、形態素解析部11は、コーパスデー
タベース1からコーパスデータを読み出し、形態素解析
を行う。そして、形態素解析部11は、コーパスデータ
の形態素解析結果を、基本センテンスパターン抽出部1
2と格フレーム生成部14に供給する。なお、形態素解
析部11による形態素解析結果は、必要に応じて、後述
する格フレーム処理部4において参照することができる
ようになっている。
【0032】基本センテンスパターン抽出部12は、形
態素解析部11から供給されるコーパスデータの形態素
解析結果から、格フレームの生成対象とする単位である
基本センテンスを生成(抽出)し、削除部13に供給す
る。即ち、基本センテンスパターン抽出部12は、原則
的には、形態素解析部11が出力する形態素解析結果の
うち、句点の次の形態素から句点の直前の形態素まで
を、基本センテンスとして抽出し、削除部13に供給す
る。
【0033】削除部13は、基本センテンスパターン抽
出部12から供給される基本センテンスから、格フレー
ムの生成に不要な語彙を削除し、格フレーム生成部14
に供給する。
【0034】格フレーム生成部14は、必要に応じて、
形態素解析部11から供給されるコーパスデータの形態
素解析結果を参照しながら、削除部13から供給される
基本センテンスにおける動詞について、格フレームを生
成し、格フレームデータベース3に供給する。
【0035】格フレームデータベース3は、前処理部2
(を構成する格フレーム生成部14)から供給される格
フレームを記憶するようになっている。
【0036】格フレーム処理部4は、格フレーム統合部
21、動詞分類部22、下位範疇化情報生成部23、項
構造情報生成部24、および補助情報生成部25から構
成され、格フレームデータベース3から、同一の動詞に
ついての格フレームを読み出し、その同一の動詞につい
ての格フレーム等に基づいて、その動詞を分類するとと
もに、その下位範疇化情報と項構造情報を生成し、補助
情報として出力する。
【0037】即ち、格フレーム統合部21は、格フレー
ムデータベース3から、同一の動詞についての格フレー
ムを読み出し、それらの格フレームを統合して、後述す
る統合格フレームとする。そして、格フレーム統合部2
1は、各動詞についての統合各フレームを、動詞分類部
22、下位範疇化情報生成部23、および項構造情報生
成部24に供給する。
【0038】動詞分類部22は、格フレーム統合部21
から供給される統合格フレームに対応する動詞を、自動
詞、能格動詞、他動詞、または二重目的語他動詞の4つ
の種別のうちのいずれかに分類し、その分類結果を表す
分類情報を、下位範疇化情報生成部23と補助情報生成
部25に供給する。
【0039】下位範疇化情報生成部23は、格フレーム
統合部21から供給される統合格フレームと、動詞分類
部22から供給される分類情報に基づいて、その統合格
フレームに対応する動詞の下位範疇化情報を生成し、項
構造情報生成部24と補助情報生成部25に供給する。
【0040】項構造情報生成部24は、格フレーム統合
部21から供給される統合格フレームと、下位範疇化情
報生成部23から供給される下位範疇化情報に基づい
て、その統合格フレームに対応する動詞の項構造情報を
生成し、補助情報生成部25に供給する。
【0041】補助情報生成部25は、各動詞について、
動詞分類部22から供給される分類情報、下位範疇化情
報生成部23から供給される下位範疇化情報、および項
構造情報生成部24から供給される項構造情報を対応付
けて補助情報とし、補助情報データベース5に供給す
る。
【0042】補助情報データベース5は、補助情報生成
部25から供給される各動詞についての補助情報を記憶
するようになっている。
【0043】次に、図2は、形態素解析部11がコーパ
スデータを形態素解析することにより出力する形態素解
析結果の例を示している。
【0044】なお、図2は、例えば、コーパスデータ
「特に県内果実が数量で一八%増、金額で三四%増と伸
びが目立った。」についての形態素解析結果を示してい
る。
【0045】形態素解析結果は、形態素の見出し、読み
(音韻)、シソーラス情報で構成され、シソーラス情報
は、形態素の構文的な属性(フィーチャー)(構文属
性)や、意味的な属性(意味属性)を含む。さらに、シ
ソーラス情報は、形態素が動詞である場合には、その動
詞の原形も含む。
【0046】ここで、図2において、1番目の形態素
「特に」のシソーラス情報における属性[CAT Adverv]の
CATは、品詞を表す属性タグであり、従って、その後に
続く情報が品詞であることを表す。CATの後に続くAdver
vは、品詞が副詞であることを表している。
【0047】また、形態素「特に」のシソーラス情報に
おける属性[VAL 特に]のVALは、形態素の値(見出し)
を表す属性タグであり、従って、その後に続く情報「特
に」が、対応する形態素であることを表す。
【0048】2番目の形態素「県内果実」のシソーラス
情報における属性[CAT Noun]は、品詞が名詞であること
を表す。また、形態素「県内果実」のシソーラス情報に
おける属性[cl Compound=CN+CN]のclは、クラスを表す
属性タグであり、従って、その後に続く情報がクラスで
あることを表す。clの後に続くCompound=CN+CNは、クラ
スが、一般名詞(CN)と一般名詞(CN)とが結合した複合名
詞であることを表す。さらに、形態素「県内果実」のシ
ソーラス情報における属性[Sem food]のSemは、意味を
表す属性タグであり、従って、その後に続く情報が意味
であることを表す。Semの後に続くfoodは、形態素が食
べ物を意味するものであることを表す。形態素「県内果
実」のシソーラス情報における属性[VAL 県内果実]は、
そのシソーラス情報が、形態素「県内果実」に対応する
ものであることを表す。
【0049】3番目の形態素「が」のシソーラス情報に
おける属性[CAT Case] は、品詞が助詞(Case)であるこ
とを表し、属性[cl abstract]は、クラスが格助詞(abst
ract)であることを表す。さらに、属性[fx nominative]
のfxは、形態素のファンクション(文法的役割)を表す
属性タグであり、従って、属性[fx nominative]は、フ
ァンクションが主格(nominative)であることを表す。属
性[VAL が]は、そのシソーラス情報が、形態素「が」に
対応するものであることを表す。
【0050】4番目の形態素「数量」のシソーラス情報
における属性[CAT Noun]は、品詞が名詞であることを表
し、属性[cl CNoun]は、クラスが一般名詞(CNoun)であ
ることを表す。属性[Sem amount]は、形態素「数量」が
量(amount)を意味するものであることを表し、属性[V
AL 数量]は、そのシソーラス情報が、形態素「数量」に
対応するものであることを表す。
【0051】5番目の形態素「で」のシソーラス情報に
おける属性[CAT Case]は、品詞が助詞であることを表
し、属性[cl lexical]は、クラスが非格助詞(lexical)
であることを表す。属性[fx instrument]は、ファンク
ションが道具(instrument)であることを表し、属性[V
AL で]は、シソーラス情報が、形態素「で」に対応する
ものであることを表す。
【0052】6番目の形態素「一八%増」のシソーラス
情報における属性[CAT Noun]は、品詞が名詞であること
を表し、属性[cl Compound=Num+Classifier+suf]は、ク
ラスが、数詞(Num)と助数詞(Classifier)と接尾語(suf)
とからなる複合(名詞)であることを表す。属性[Sem i
ncrease]は、形態素「一八%増」が増加(increase)を
意味するものであることを表し、属性[VAL一八%増]
は、シソーラス情報が、形態素「一八%増」に対応する
ものであることを表す。
【0053】7番目の形態素「、」のシソーラス情報に
おける属性[CAT Punctuation]は、形態素「、」(の品
詞)が記号(Punctuation)であることを表し、属性[cl c
omma]は、クラスがコンマ(comma)(読点)であることを
表す。属性[VAL 、]は、シソーラス情報が、形態
素「、」に対応するものであることを表す。
【0054】8番目の形態素「金額」のシソーラス情報
における属性[CAT Noun]は、品詞が名詞であることを表
し、属性[cl CNoun]は、クラスが一般名詞であることを
表す。属性[Sem money]は、形態素「金額」がお金(mon
ey)を意味するものであることを表し、属性[VAL 金額]
は、シソーラス情報が、形態素「金額」に対応するもの
であることを表す。
【0055】9番目の形態素「で」のシソーラス情報
は、5番目の形態素「で」のものと同一である。
【0056】10番目の形態素「三四%増」のシソーラ
ス情報は、属性[VAL 三四%増]を除き、6番目の形態素
「一八%増」のシソーラス情報と同一である。
【0057】11番目の形態素「と」のシソーラス情報
における属性[CAT Complementizer]は、品詞が補文をと
る助詞(Complementizer)であることを表し、属性[cl
proposition]は、クラスが文の引用(proposition)で
あることを表す。属性[VAL と]は、シソーラス情報が、
形態素「と」に対応するものであることを表す。
【0058】12番目の形態素「伸び」のシソーラス情
報における属性[CAT Noun]は、品詞が名詞であることを
表し、属性[cl CNoun]は、クラスが一般名詞であること
を表す。属性[Sem increase]は、形態素「伸び」が増加
を意味することを表し、属性[VAL 伸び]は、シソーラス
情報が、形態素「伸び」に対応するものであることを表
す。
【0059】13番目の形態素「が」のシソーラス情報
は、3番目の形態素「が」のものと同一である。
【0060】14番目の形態素「目立った」のシソーラ
ス情報における属性[CAT Verb]は、品詞が動詞(Verb)で
あることを表し、属性[cl active]は、クラスが能動(a
ctive)であることを表す。属性[fm finite]のfmは、フ
ォームを表す属性タグであり、属性[fm finite]は、フ
ォームが時制を伴う形(finite)であることを表す。属
性[Conj (cl 2) (Stem 目立つ) (fm aff-past) (Polari
ty aff) (Ts past)]のConjは、活用を表す属性タグであ
り、属性(cl 2)は、活用がクラス2(cl 2)の活用である
ことを表す。ここで、形態素解析部11においては、動
詞の活用が幾つかのクラスにクラス分けされており、ク
ラス2の活用は、動詞の原形が子音で終わるということ
を表す。属性(Stem 目立つ)は、形態素「目立った」の
原形(Stem)が「目立つ」であることを表す。なお、Stem
は、動詞の原形を表す属性タグである。属性(fm aff-pa
st)は、形態素「目立った」のフォーム(fm)が、肯定(af
f(affirmation))で、かつ過去(past)であることを表
し、属性(Polarity aff)は、形態素「目立った」の極性
(Polarity)が肯定(aff)であることを表す。属性(Tspas
t)は、形態素「目立った」の時制(Ts)が過去(past)であ
ることを表す。属性[Style (cl plain) (fm zero)]のSt
yleは、スタイル(文体)を表す属性タグであり、属性
(cl plain)は、スタイルのクラス(cl)が非丁寧形である
こと(いわゆる「ですます調」でないこと)を表す。属
性(fm zero)は、スタイルのフォーム(fm)が原形のみ(ze
ro)であることを表し、属性[VAL 目立った]は、シソー
ラス情報が、形態素「目立った」に対応するものである
ことを表す。
【0061】15番目の形態素「。」のシソーラス情報
における属性[CAT Punctuation]は、形態素「。」(の
品詞)が記号(Punctuation)であることを表し、属性[cl
period]は、クラスがピリオド(period)(句点)である
ことを表す。属性[VAL 。]は、シソーラス情報が、形態
素「。」に対応するものであることを表す。
【0062】次に、図3は、削除部13が、基本センテ
ンスパターン抽出部12から供給される基本センテンス
から、格フレームの生成に不要な語彙(以下、適宜、不
要語彙という)として削除する語彙の例を示している。
【0063】削除部13は、基本センテンスから、次の
ような8種類の語彙を、不要語彙として削除する。
【0064】即ち、削除部13は、第1に、基本センテ
ンスから、副詞を、不要語彙として削除する。副詞は、
図3(A)に示すように、形態素解析結果から、シソー
ラス情報が、{[CAT Adverb]}となっている形態素を検索
することによって検出することができる。
【0065】削除部13は、第2に、基本センテンスか
ら、例えば、「夏場の」などといった名詞+助詞「の」
を、不要語彙として削除する。名詞+助詞「の」は、図
3(B)に示すように、形態素解析結果から、シソーラ
ス情報が、{[CAT Noun]・・・}となっている形態素と、
{[CAT Case][cl abstract][fx genitive][VAL の]}と
なっている形態素が連続している部分を検索することに
よって検出することができる。
【0066】なお、図3において(後述する図5におい
ても同様)、括弧{}内の・・・は、他の属性が記述さ
れ得ることを意味する。
【0067】削除部13は、第3に、基本センテンスか
ら、例えば、「日本での」などといった名詞+助詞+助
詞「の」を、不要語彙として削除する。名詞+助詞+助
詞「の」は、図3(C)に示すように、形態素解析結果
から、シソーラス情報が、{[CAT Noun]・・・}となって
いる形態素、{[CAT Case]・・・}となっている形態素、
および{[CAT Case][cl abstract][fx genitive][VAL
の]}となっている形態素が連続している部分を検索す
ることによって検出することができる。
【0068】削除部13は、第4に、基本センテンスか
ら、形容詞を、不要語彙として削除する。形容詞は、図
3(D)に示すように、形態素解析結果から、シソーラ
ス情報が、{[CAT Adjective][cl stative]・・・}とな
っている形態素を検索することによって検出することが
できる。なお、属性[CAT Adjective]は、品詞が形容詞
(Adjective)であることを表し、属性[cl stative]
は、クラスが状態(stative)であることを表す。
【0069】削除部13は、第5に、基本センテンスか
ら、例えば、「決定的な」などといった名詞(形容動詞
語幹)+「な」を、不要語彙として削除する。名詞(形
容動詞語幹)+「な」は、図3(E)に示すように、形
態素解析結果から、シソーラス情報が、{[CAT Noun]・
・・}となっている形態素と、{[CAT Verb][cl copula]
・・・[VAL な]}となっている形態素が連続している部
分を検索することによって検出することができる。な
お、属性[cl copula]は、クラスが連結詞であることを
表す。
【0070】削除部13は、第6に、基本センテンスか
ら、例えば、「工場に対する」などといった名詞+後置
詞を、不要語彙として削除する。名詞+後置詞は、例え
ば、図3(F)に示すように、形態素解析結果から、シ
ソーラス情報が、{[CAT Noun]・・・}となっている形態
素と、{[CAT Postposition]・・・}となっている形態素
が連続している部分を検索することによって検出するこ
とができる。なお、属性[CAT Postposition]は、品詞が
後置詞(Postposition)であることを表す。
【0071】削除部13は、第7に、基本センテンスか
ら、括弧で囲まれた部分を、不要語彙として削除する。
括弧で囲まれた部分は、図3(G)に示すように、形態
素解析結果から、シソーラス情報が、{[CAT Punctuatio
n][cl L-]}となっている形態素から、{[CAT Punctuatio
n][cl R-]}となっている形態素までの部分を検索するこ
とによって検出することができる。なお、属性[cl L-]
は、クラスが括弧(例えば、"("など)であることを表
し、属性[cl R-]は、クラスが閉じ括弧(例えば、")"な
ど)であることを表す。
【0072】削除部13は、第8に、基本センテンスか
ら、括弧で囲まれた部分+助詞「の」を、不要語彙とし
て削除する。括弧で囲まれた部分+助詞「の」は、図3
(H)に示すように、形態素解析結果から、シソーラス
情報が、{[CAT Punctuation][cl L-]}となっている形態
素から、{[CAT Punctuation][cl R-]}となっている形態
素までの部分と、その後に、シソーラス情報が、{[CAT
Case][cl abstract][fx genitive][VAL の]}となって
いる形態素を検索することによって検出することができ
る。
【0073】削除部13では、以上のような8種類の語
彙が不要語彙として、基本センテンスから削除される。
【0074】従って、例えば、上述したコーパスデータ
「特に県内果実が数量で一八%増、金額で三四%増と伸
びが目立った。」については、削除部13からは、次の
ような基本センテンスが出力される。
【0075】即ち、コーパスデータ「特に県内果実が数
量で一八%増、金額で三四%増と伸びが目立った。」に
ついては、基本センテンスパターン抽出部12におい
て、そのコーパスデータから句点を除いた「特に県内果
実が数量で一八%増、金額で三四%増と伸びが目立っ
た」が、基本センテンスとして抽出される。そして、削
除部13においては、「特に県内果実が数量で一八%
増、金額で三四%増と伸びが目立った」から、図3
(A)の、品詞が副詞であることに該当する形態素「特
に」が削除され、「特に県内果実が数量で一八%増、金
額で三四%増と伸びが目立った」が出力される。
【0076】従って、図2に示したコーパスデータ「特
に県内果実が数量で一八%増、金額で三四%増と伸びが
目立った。」の形態素解析結果については、削除部13
においては、図4に示すように、副詞である形態素「特
に」と、句点である形態素「。」に関する情報がないも
のとなって出力される。
【0077】次に、格フレーム生成部14は、削除部1
3が出力する基本センテンスにおける動詞について、格
フレームを生成するが、この格フレームの生成は、基本
センテンスに含まれる動詞の「基準形」を、格フレーム
の見出しとして用いて行われるようになっている。即
ち、格フレームは、その格フレームが、どのような動詞
についてのものであるかを表す、その動詞の見出しと、
基本センテンスにおいて、その動詞が伴う助詞に関する
情報とからなり、格フレームの見出しとしては、動詞の
基準形が用いられる。
【0078】ここで、格フレームの見出しとなる動詞の
基準形とは、例えば、図5に示すように定義されるもの
である。
【0079】即ち、以下説明する3つの例外を除いて、
原則的には、基本センテンスに含まれる動詞の原形が、
その動詞の基準形となる。具体的には、例えば、図5
(A)に示すように、基本センテンスに、動詞である形
態素「目立つ」や「目立った」が含まれる場合には、そ
の原形「目立つ」が基準形となる。
【0080】なお、動詞の原形は、図2で説明したよう
に、形態素解析結果のシソーラス情報の中のStem属性タ
グとともに記述されているから、シソーラス情報を参照
することで認識することができる。
【0081】次に、第1の例外として、基本センテンス
に、サ変名詞+動詞「する」が含まれている場合には、
動詞「する」の原形ではなく、サ変名詞+動詞「する」
が、動詞の基準形となる。
【0082】従って、例えば、図5(B)に示すよう
に、形態素解析結果のシソーラス情報が、{[CAT Noun]
[cl Vnoun]・・・[VAL 適用]}となっている形態素「適
用」と、{[CAT Verb][cl active][fm finite]・・・(St
em する)(fm aff-non-past)・・・[VAL する]}となって
いる形態素「する」が連続する場合には、「適用する」
が動詞の基準形とされる。なお、属性[cl Vnoun]は、ク
ラスがサ変名詞(Vnoun)であることを表し、属性(fm aff
-non-past)は、形態素「する」のフォーム(fm)が、肯定
(aff)で、かつ過去でない(non-past)であることを表
す。
【0083】第2の例外として、基本センテンスにおい
て、動詞が2つ連続し、そのうちの最初の動詞が、シソ
ーラス情報の中に、[fm infinite]と(pres.participle)
の2つの属性を有する場合には、連続する2つの動詞の
うちの最初の動詞の原形が、動詞の基準形となる。な
お、属性[fm infinite]は、フォームが時制を伴わない
形(infinite)であることを表し、属性(pres.participl
e)は、現在分詞(presentparticiple)であることを表
す。
【0084】従って、例えば、図5(C)に示すよう
に、基本センテンスにおいて、[fm infinite]と(pres.p
articiple)の2つの属性を有する形態素「見込んで」に
続いて、形態素「いる」があることにより、「見込んで
いる」が存在する場合には、形態素「見込んで」の原形
「見込む」が、動詞の基準形とされる。
【0085】第3の例外として、基本センテンスに、原
形が「する」である動詞が含まれ、その動詞の直前に、
サ変名詞がある場合は、サ変名詞+「する」が、動詞の
基準形となる。
【0086】従って、例えば、図5(D)に示すよう
に、形態素解析結果のシソーラス情報が、{[CAT Noun]
[cl Vnoun]・・・[VAL 展開]}となっている形態素「展
開」、{{CAT Verb]・・・[fm infinite]・・・(Stem す
る)(fm pres.participle)・・・[VAL して]}となってい
る形態素「して」、および{[CAT Verb]・・・[fm finit
e]・・・(Stem いる)・・・[VAL いる]}となっている形
態素「いる」が連続している場合には、サ変名詞「展
開」+「する」、即ち、「展開する」が、動詞の基準形
とされる。
【0087】次に、図6は、格フレーム生成部14が作
成する格フレームを示している。
【0088】図6は、動詞「目立つ」について、4つの
基本センテンスからそれぞれ生成された4つの格フレー
ム{目立つ C_FRAME:で[instrument],が[increas
e]}、{目立つ C_FRAME:が[thing]}、{目立つ C_FRA
ME:と[proposition],が[thing]}、{目立つ C_FRAME:
で[instrument],に[locative],が[increase]}を示し
ている。
【0089】格フレームの先頭の文字列は、その格フレ
ームに対応する動詞の見出しを表しており、この動詞の
見出しとしては、図5で説明した動詞の基準形が用いら
れる。
【0090】また、格フレームにおけるC_FRAMEは、助
詞(格助詞)を表すタグで、その後には、その見出しに
なっている動詞が、基本センテンスにおいてとっている
助詞が記述される。なお、格フレームには、1以上の助
詞を記述することができる。
【0091】さらに、格フレームにおける助詞の直後に
は、括弧[]が記述されるが、この括弧[]内には、その助
詞のファンクション、またはその助詞の直前の形態素の
意味が、その助詞の属性として記述される。なお、助詞
のファンクションは、形態素解析結果におけるシソーラ
ス情報のfx属性タグを検索することにより認識すること
ができ、また、助詞の直前の形態素の意味は、シソーラ
ス情報のSem属性タグを検索することにより認識するこ
とができる。
【0092】ここで、図6における1行目の格フレーム
{目立つ C_FRAME:で[instrument],が[increase]}
が、上述のコーパスデータ「特に県内果実が数量で一八
%増、金額で三四%増と伸びが目立った。」について、
格フレーム生成部14が後述する図12の格フレーム生
成処理を行うことにより生成されるものである。
【0093】次に、図7は、格フレーム統合部21が、
同一の動詞についての格フレームを統合することにより
生成する統合格フレームを示している。
【0094】例えば、動詞(の基準形)「目立つ」につ
いて、図6に示したような4つの格フレームが得られて
いる場合には、その4つの格フレームが統合されること
により、動詞「目立つ」について、図7に示したような
統合格フレームが生成される。
【0095】即ち、この場合、格フレーム統合部21
は、動詞「目立つ」についての4つの格フレームに対す
る動詞の見出し「目立つ」を、統合格フレームの見出し
として配置し、続けて、その動詞の読みを配置する。な
お、動詞の読みは、格フレーム統合部21が形態素解析
部11の形態素解析結果を参照することで認識される。
【0096】さらに、格フレーム統合部21は、4つの
格フレームの助詞と属性の、いわば論理和をとったもの
を求めて、タグsubcatとともに、統合格フレームに配置
する。
【0097】即ち、図6に示した4つの格フレームに
は、「で」、「が」、「と」、「に」の4種類の助詞が
存在するから、格フレーム統合部21は、この4種類の
助詞「で」、「が」、「と」、「に」を、タグsubcatの
後に配置する。さらに、図6の4つの格フレームにおい
て、助詞「で」については、属性[instrument]しか存在
しないので、統合格フレームにおける助詞「で」の後に
は、その属性[instrument]だけが配置される。また、図
6の4つの格フレームにおいて、助詞(格助詞)「が」
については、属性[increase]と[thing]の2種類が存在
するので、統合格フレームにおける助詞「が」の後に
は、その2つの属性[increase]と[thing]が配置され
る。さらに、図6の4つの格フレームにおいて、助詞
「と」については、属性[proposition]しか存在しない
ので、統合格フレームにおける助詞「と」の後には、そ
の属性[proposition]だけが配置される。また、図6の
4つの格フレームにおいて、助詞「に」については、属
性[locative]しか存在しないので、統合格フレームにお
ける助詞「に」の後には、その属性[locative]だけが配
置される。
【0098】次に、図8は、補助情報生成部25が、各
動詞について生成する補助情報を示している。
【0099】図8は、動詞「目立つ」についての補助情
報を示しており、その先頭と2番目には、図7に示した
統合格フレームと同様に、動詞「目立つ」の見出し(動
詞の基準形)と読みが配置される。
【0100】補助情報において、動詞の読みの後には、
その動詞が、自動詞、能格動詞、他動詞、または二重目
的語他動詞のうちのいずれに分類されるものであるかを
表す分類情報が配置される。図8において、動詞「目立
つ」は、対象(Theme)を主語にとる能格動詞であり、従
って、分類情報としては、「能格動詞」が配置されてい
る。なお、分類情報は、動詞分類部22から補助情報生
成部25に供給されるものである。
【0101】補助情報において、分類情報の後には、動
詞の下位範疇化情報が配置される。下位範疇化情報は、
図8に示したように、下位範疇化情報であることを表す
タグSUBCATとともに、例えば、<SUBCAT:NP[nom]>といっ
た形で記述される。なお、NPは、名詞句を表し、[nom]
は、主格を表す。そして、下位範疇化情報<SUBCAT:NP[n
om]>は、主格となる名詞句を必然的に伴うことを表す。
この下位範疇化情報は、下位範疇化情報生成部23から
補助情報生成部25に供給されるものである。
【0102】下位範疇化情報の後には、動詞の項構造情
報が配置される。項構造情報は、図8に示したように、
項構造情報であることを表すタグArgStrとともに、例え
ば、<ArgStr:Theme{thing/increase}-(Instrument)-(Lo
cative)-(Proposition)>といった形で記述される。項構
造情報(のArgStr:以降の記述)のうち、小括弧()や、
中括弧{}で囲まれていない部分(以下、適宜、主情報と
いう)は、下位範疇化情報において、動詞が必然的に伴
うとされている構成素を表す。図8では、対象物を表す
Themeが、主情報となっており、従って、下位範疇化情
報も考慮すれば、図8の補助情報は、動詞「目立つ」が
必然的に伴う、主格となる名詞句は、対象物であること
を表す。
【0103】主情報の後の、中括弧{}内の記述は、その
主情報の属性(シソーラス)を表す。図8における{thi
ng/increase}のthingとincreaseは、それぞれ、物と増
加を表し、従って、属性{thing/increase}は、主情報
「Theme」が表す対象物が、物または増加を表すもので
あることを表す。
【0104】項構造情報の小括弧()内の記述は、動詞が
必要に応じて伴うことのできる表現(語彙)の属性を表
す。図8においては、道具を表すInstrument、場所を表
すLocation、および文(埋め込み文)を表すPropositio
nが記述されており、従って、図8の補助情報は、動詞
「目立つ」が、道具を表す表現、場所を表す表現、文を
指し示す表現を、必要に応じて伴うことを表す。
【0105】次に、図9のフローチャートを参照して、
図1の補助情報生成装置が行う自然言語処理としての、
補助情報を生成する補助情報生成処理について説明す
る。
【0106】まず最初に、ステップS1において、形態
素解析部11は、コーパスデータベース1に記憶されて
いる多量のコーパスデータを順次読み出し、各コーパス
データについて、形態素解析を行う。形態素解析部11
が、各コーパスデータについて形態素解析を行うことに
より得られる形態素解析結果は、基本センテンスパター
ン抽出部12および格フレーム生成部14、並びに格フ
レーム処理部4に供給される。
【0107】その後、ステップS2に進み、基本センテ
ンスパターン抽出部12は、形態素解析部11から供給
される、各コーパスデータのついての形態素解析結果か
ら、基本センテンスを抽出する基本センテンスパターン
抽出処理を行い、その結果得られる基本センテンスを、
削除部13に供給して、ステップS3に進む。ステップ
S3では、削除部13が、基本センテンスパターン抽出
部12から供給される各基本センテンスから不要語彙を
削除する不要語彙削除処理を行い、その不要語彙を削除
した基本センテンスを、格フレーム生成部14に供給し
て、ステップS4に進む。ステップS4では、格フレー
ム生成部14は、削除部13から供給される各基本セン
テンスに関し、その基本センテンスに含まれる動詞につ
いて、格フレームを生成する格フレーム生成処理を行
う。さらに、格フレーム生成部14は、その格フレーム
生成処理によって生成した格フレームを、格フレームデ
ータベース3に供給して記憶させ、ステップS5に進
む。
【0108】ステップS5では、格フレーム統合部21
が、格フレームデータベース3に記憶された格フレーム
から、同一の動詞についてのものを収集し、図6および
図7で説明したように、その同一の動詞についての1以
上の格フレームを統合して、統合格フレームを生成す
る。そして、格フレーム統合部21は、統合格フレーム
を、動詞分類部22、下位範疇化情報生成部23、項構
造情報生成部24に供給して、ステップS6に進む。
【0109】ステップS6では、動詞分類部22が、格
フレーム統合部21から供給される統合格フレームに基
づいて、各統合格フレームに対応する動詞を、自動詞、
能格動詞、他動詞、二重目的語他動詞のいずれかに分類
し、その分類結果を表す分類情報を出力する動詞分類処
理を行う。さらに、ステップS6では、下位範疇化情報
生成部23が、格フレーム統合部21から供給される統
合格フレーム、および動詞分類部22から供給される分
類情報に基づいて、各統合格フレームに対応する動詞の
下位範疇化情報を生成して出力する下位範疇化情報生成
処理を行う。また、ステップS6では、項構造情報生成
部24が、格フレーム統合部21から供給される統合格
フレーム、および下位範疇化情報生成部23から供給さ
れる下位範疇化情報に基づいて、各統合格フレームに対
応する動詞の項構造情報を生成して出力する項構造情報
生成処理を行う。
【0110】その後、ステップS7に進み、補助情報生
成部25が、動詞分類部22から供給される分類情報、
下位範疇化情報生成部23から供給される下位範疇化情
報、および項構造情報生成部24から供給される項構造
情報を用い、各統合格フレームに対応する動詞につい
て、図8に示したような補助情報を生成する。さらに、
補助情報生成部25は、補助情報を、補助情報データベ
ース5に供給して記憶させ、補助情報生成処理を終了す
る。
【0111】次に、図10のフローチャートを参照し
て、図1の基本センテンスパターン抽出部12が図9の
ステップS2で行う基本センテンスパターン抽出処理に
ついて説明する。
【0112】基本センテンスパターン抽出部12は、ス
テップS11において、その内蔵するバッファ(図示せ
ず)をクリアするとともに、形態素解析部11において
形態素解析結果が得られたコーパスデータのうち、まだ
処理の対象としていない最も古いものを注目コーパスデ
ータとする。そして、ステップS12に進み、基本セン
テンスパターン抽出部12は、注目コーパスデータの形
態素の、まだ読み込んでいない、より文頭に近いもの
を、注目形態素として、その形態素解析結果を読み込
み、ステップS13に進む。ステップS13では、基本
センテンスパターン抽出部12は、注目形態素が、句点
であるかどうかを、その形態素解析結果を参照すること
によって判定する。
【0113】ステップS13において、注目形態素が句
点でないと判定された場合、ステップS14に進み、基
本センテンスパターン抽出部12は、注目形態素の形態
素解析結果を、その内蔵するバッファに追加記憶させ、
ステップS12に戻り、いま注目形態素となっている次
の形態素を、新たな注目形態素として、以下、同様の処
理を繰り返す。
【0114】また、ステップS13において、注目形態
素が句点であると判定された場合、ステップS15に進
み、基本センテンスパターン抽出部12は、その内蔵す
るバッファを参照することにより、注目形態素である句
点の直前の形態素(あるいは句点以前にある最初の動
詞)が、時制を伴う動詞であるかどうかを判定する。ス
テップS15において、注目形態素である句点の直前の
形態素が、時制を伴う動詞でないと判定された場合、ス
テップS16およびS17をスキップして、ステップS
18に進む。
【0115】また、ステップS15において、注目形態
素である句点の直前の形態素が、時制を伴う動詞である
と判定された場合、ステップS16に進み、基本センテ
ンスパターン抽出部12は、その内蔵するバッファに、
注目形態素である句点の直前の形態素以外に、時制を伴
う動詞(の形態素解析結果)が記憶されていないかどう
かを判定する。
【0116】ステップS16において、基本センテンス
パターン抽出部12の内蔵するバッファに、注目形態素
である句点の直前の形態素以外に、時制を伴う動詞が記
憶されていると判定された場合、ステップS17をスキ
ップして、ステップS18に進む。
【0117】一方、ステップS16において、基本セン
テンスパターン抽出部12の内蔵するバッファに、注目
形態素である句点の直前の形態素以外に、時制を伴う動
詞が記憶されていないと判定された場合、ステップS1
7に進み、基本センテンスパターン抽出部12は、その
内蔵するバッファに記憶された形態素(解析結果)のシ
ーケンスを、基本センテンスとして抽出し(読み出
し)、削除部13に供給して、ステップS18に進む。
【0118】ステップS18では、基本センテンスパタ
ーン抽出部12は、まだ、注目コーパスデータとしてい
ないコーパスデータがあるかどうかを判定する。ステッ
プS18において、まだ、注目コーパスデータとしてい
ないコーパスデータがあると判定された場合、ステップ
S11に戻り、まだ、注目コーパスデータとしていない
コーパスデータの1つが、新たに、注目コーパスデータ
とされ、以下、同様の処理が繰り返される。
【0119】また、ステップS18において、まだ、注
目コーパスデータとしていないコーパスデータがないと
判定された場合、基本センテンスパターン抽出処理を終
了する。
【0120】以上のような基本センテンスパターン抽出
処理によれば、句点の直後の形態素から、次の句点の直
前の形態素までの形態素列であって、時制を伴う動詞を
1つしか含んでいないもの(基本的には、単文)が、基
本センテンスとして抽出される。
【0121】次に、図11のフローチャートを参照し
て、図1の削除部13が図9のステップS3で行う不要
語彙削除処理について説明する。
【0122】削除部13は、まず最初に、ステップS2
1において、基本センテンスパターン抽出部12から供
給される基本センテンスのうち、まだ、注目基本センテ
ンスとしていないもののうちの1つを、注目基本センテ
ンスとして、その注目基本センテンスを構成する形態素
の数を、変数Nにセットする。
【0123】そして、削除部13は、ステップS22に
進み、基本センテンスの形態素をカウントする変数iと
jを、いずれも1に初期化し、ステップS23に進む。
【0124】ステップS23では、削除部13は、注目
基本センテンスの先頭からi番目の形態素から、j番目
の形態素までの形態素列を、変数Stringにセットし、ス
テップS24に進む。
【0125】ステップS24では、削除部13は、変数
Stringにセットされている形態素列(または形態素)
が、削除条件に該当するかどうかを判定する。
【0126】ここで、削除条件に該当する場合とは、図
3で説明した不要語彙のいずれかに該当することを意味
する。
【0127】ステップS24において、変数Stringにセ
ットされている形態素列が削除条件に該当しないと判定
された場合、ステップS25をスキップして、ステップ
S26に進む。また、ステップS24において、変数St
ringにセットされている形態素列が削除条件に該当する
と判定された場合、ステップS25に進み、削除部13
は、その内蔵するバッファ(図示せず)に、変数String
にセットされている形態素列を、削除対象としてバッフ
ァリングして、ステップS26に進む。
【0128】ステップS26では、削除部13が、変数
jが、注目基本センテンスを構成する形態素の数Nに等
しいかどうかを判定する。ステップS26において、変
数jがNに等しくないと判定された場合、ステップS2
7に進み、削除部13は、変数jを1だけインクリメン
トして、ステップS23に戻り、以下、同様の処理を繰
り返す。
【0129】また、ステップS26において、変数jが
Nに等しいと判定された場合、ステップS28に進み、
削除部13は、変数iがNに等しいかどうかを判定す
る。ステップS28において、変数iがNに等しくない
と判定された場合、ステップS29に進み、削除部13
は、変数iを1だけインクリメントするとともに、変数
jに、変数iにセットされている値をセットして、ステ
ップS23に戻り、以下、同様の処理を繰り返す。
【0130】一方、ステップS28において、変数iが
Nに等しいと判定された場合、即ち、基本センテンスを
構成する任意の形態素と形態素列について、不要語彙か
どうかの判定を行った場合、ステップS30に進み、削
除部13は、注目基本センテンスから、その内蔵するバ
ッファに削除対象として記憶されている形態素と形態素
列を削除し、格フレーム生成部14に供給して、ステッ
プS31に進む。
【0131】ステップS31では、削除部13は、ま
だ、注目基本センテンスとしていない基本センテンスが
あるかどうかを判定する。ステップS31において、ま
だ、注目基本センテンスとしていない基本センテンスが
あると判定された場合、ステップS21に戻り、削除部
13は、まだ、注目基本センテンスとしていない基本セ
ンテンスのうちの1つを、新たな注目基本センテンスと
し、以下、同様の処理を繰り返す。
【0132】また、ステップS31において、まだ、注
目基本センテンスとしていない基本センテンスがないと
判定された場合、不要語彙削除処理を終了する。
【0133】次に、図12のフローチャートを参照し
て、図1の格フレーム生成部14が図9のステップS5
で行う格フレーム生成処理について説明する。
【0134】格フレーム生成部14は、まず最初に、ス
テップS41において、削除部13から供給される基本
センテンスのうち、まだ、注目基本センテンスとしてい
ないもののうちの1つを、注目基本センテンスとして、
その注目基本センテンスに含まれる動詞(以下、適宜、
注目動詞という)の基準形を、その注目動詞についての
格フレームの見出しとして記述する。
【0135】そして、格フレーム生成部14は、ステッ
プS42に進み、基本センテンスの形態素をカウントす
る変数iを1に初期化し、ステップS43に進む。
【0136】ステップS43では、格フレーム生成部1
4は、注目基本センテンスの最後からi番目の形態素
を、変数Stringにセットし、ステップS44に進む。
【0137】ステップS44では、格フレーム生成部1
4は、変数Stringにセットされている形態素が助詞であ
るかどうかを、その形態素解析結果のシソーラス情報
(図2)を参照することにより判定する。
【0138】ステップS44において、変数Stringにセ
ットされている形態素が助詞でないと判定された場合、
ステップS45およびS46をスキップして、ステップ
S47に進む。
【0139】また、ステップS44において、変数Stri
ngにセットされている形態素が助詞であると判定された
場合、ステップS45に進み、格フレーム生成部14
は、変数Stringにセットされている助詞と、その属性
を、注目動詞についての格フレームに記述し、ステップ
S46に進む。なお、格フレーム生成部14は、助詞の
属性を、形態素解析部11による形態素解析結果のシソ
ーラス情報を参照することで認識する。
【0140】ステップS46では、格フレーム生成部1
4が、変数Stringにセットされている助詞が、注目基本
センテンスの最後から数えて、1つ目の「は」、または
2つ目の「が」、「に」、若しくは「を」のうちのいず
れかに該当するかどうかを判定する。
【0141】ステップS46において、変数Stringにセ
ットされている助詞が、注目基本センテンスの最後から
数えて、1つ目の「は」、2つ目の「が」、2つ目の
「に」、または2つ目の「を」のうちのいずれかに該当
すると判定された場合、ステップS47をスキップし
て、ステップS49に進む。
【0142】また、ステップS46において、変数Stri
ngにセットされている助詞が、注目基本センテンスの最
後から数えて、1つ目の「は」、2つ目の「が」、2つ
目の「に」、および2つ目の「を」のうちのいずれにも
該当しないと判定された場合、ステップS47に進み、
格フレーム生成部14は、変数Stringにセットされてい
る形態素が、注目基本センテンスの先頭の形態素である
かどうかを判定する。
【0143】ステップS47において、変数Stringにセ
ットされている形態素が、注目基本センテンスの先頭の
形態素でないと判定された場合、ステップS48に進
み、格フレーム生成部14は、変数iを1だけインクリ
メントして、ステップS43に戻り、以下、同様の処理
を繰り返す。
【0144】また、ステップS47において、変数Stri
ngにセットされている形態素が、注目基本センテンスの
先頭の形態素であると判定された場合、ステップS49
に進み、格フレーム生成部14は、まだ、注目基本セン
テンスとしていない基本センテンスがあるかどうかを判
定する。ステップS49において、まだ、注目基本セン
テンスとしていない基本センテンスがあると判定された
場合、ステップS41に戻り、格フレーム生成部14
は、まだ、注目基本センテンスとしていない基本センテ
ンスのうちの1つを、新たな注目基本センテンスとし、
以下、同様の処理を繰り返す。
【0145】また、ステップS49において、まだ、注
目基本センテンスとしていない基本センテンスがないと
判定された場合、格フレーム生成処理を終了する。
【0146】以上のような格フレーム生成処理によれ
ば、削除部13が出力する基本センテンスの文末から文
頭方向に辿っていって、1つ目の「は」、2つ目の
「が」、2つ目の「に」、または2つ目の「を」のうち
のいずれかに到達するまでに現れる助詞とその属性が、
その基本センテンスに含まれる動詞についての格フレー
ムに記述され、これにより、図6に示したような格フレ
ームが生成される。
【0147】次に、図13のフローチャートを参照し
て、図1の動詞分類部22が図9のステップS6で行う
動詞分類処理について説明する。
【0148】動詞分類部22は、ステップS61におい
て、格フレーム統合部21が出力する統合格フレームの
うち、まだ、注目統合格フレームとしていないものの1
つを注目統合格フレームとし、その注目統合格フレーム
から、サブカテゴリ情報を読み出す。
【0149】ここで、サブカテゴリ情報とは、図7に示
した統合格フレームにおいて、subcatタグ以降に記述さ
れる情報を意味する。
【0150】その後、ステップS62に進み、動詞分類
部22は、注目統合格フレームが、そのサブカテゴリ情
報に、格助詞「を」を含まないが、格助詞「が」を含
み、かつ、その格助詞「が」と名詞とで構成される名詞
+格助詞「が」が、注目統合格フレームに対応する動詞
の動作主(agent)になり得るという自動詞が満たす条件
(以下、適宜、自動詞条件という)を満たすかどうかを
判定する。
【0151】ここで、名詞+格助詞「が」が、注目統合
格フレームに対応する動詞の動作主になり得るかどうか
は、その動詞を含むコーパスデータの形態素解析結果に
おけるシソーラス情報の意味を表すSemタグを参照する
ことで判定することができる。
【0152】ステップS62において、注目統合格フレ
ームが、自動詞条件を満たすと判定された場合、ステッ
プS63に進み、動詞分類部22は、注目統合格フレー
ムに対応する動詞(注目統合格フレームの見出しとなっ
ている動詞)を、自動詞に分類し、その旨を表す分類情
報を、下位範疇化情報生成部23と補助情報生成部25
に供給して、ステップS71に進む。
【0153】また、ステップS62において、注目統合
格フレームが、自動詞条件を満たさないと判定された場
合、ステップS64に進み、動詞分類部22は、注目統
合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含まないが、格助詞「が」を含み、かつ、その
格助詞「が」と名詞とで構成される名詞+格助詞「が」
が、注目統合格フレームに対応する動詞の動作主(agen
t)になり得ないという能格動詞が満たす条件(以下、適
宜、能格動詞条件という)を満たすかどうかを判定す
る。
【0154】ステップS64において、注目統合格フレ
ームが、能格動詞条件を満たすと判定された場合、ステ
ップS65に進み、動詞分類部22は、注目統合格フレ
ームに対応する動詞を、能格動詞に分類し、その旨を表
す分類情報を、下位範疇化情報生成部23と補助情報生
成部25に供給して、ステップS71に進む。
【0155】また、ステップS64において、注目統合
格フレームが、能格動詞条件を満たさないと判定された
場合、ステップS66に進み、動詞分類部22は、注目
統合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含むが、間接目的語をとるのに必要な助詞
「に」を含まないという他動詞が満たす条件(以下、適
宜、他動詞条件という)を満たすかどうかを判定する。
【0156】ステップS66において、注目統合格フレ
ームが、他動詞条件を満たすと判定された場合、ステッ
プS67に進み、動詞分類部22は、注目統合格フレー
ムに対応する動詞を、他動詞に分類し、その旨を表す分
類情報を、下位範疇化情報生成部23と補助情報生成部
25に供給して、ステップS71に進む。
【0157】また、ステップS66において、注目統合
格フレームが、他動詞条件を満たさないと判定された場
合、ステップS68に進み、動詞分類部22は、注目統
合格フレームが、そのサブカテゴリ情報に、格助詞
「を」を含み、さらに、間接目的語をとるのに必要な助
詞「に」を含むという二重目的語他動詞が満たす条件
(以下、適宜、二重目的語他動詞条件という)を満たす
かどうかを判定する。
【0158】ステップS68において、注目統合格フレ
ームが、二重目的語他動詞条件を満たすと判定された場
合、ステップS69に進み、動詞分類部22は、注目統
合格フレームに対応する動詞を、二重目的語他動詞に分
類し、その旨を表す分類情報を、下位範疇化情報生成部
23と補助情報生成部25に供給して、ステップS71
に進む。
【0159】また、ステップS68において、注目統合
格フレームが、二重目的語他動詞条件を満たさないと判
定された場合、ステップS70に進み、例えば、注目統
合格フレームを、格フレーム処理部4における処理対象
から除外する等のエラー処理を行い、ステップS71に
進む。
【0160】ステップS71では、動詞分類部22が、
まだ、注目統合格フレームとしていない統合格フレーム
があるかどうかを判定する。ステップS71において、
まだ、注目統合格フレームとしていない統合格フレーム
があると判定された場合、ステップS61に戻り、動詞
分類部22は、まだ、注目統合格フレームとしていない
統合格フレームのうちの1つを、新たな注目統合格フレ
ームとし、以下、同様の処理を繰り返す。
【0161】また、ステップS71において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、動詞分類処理を終了する。
【0162】次に、図14のフローチャートを参照し
て、図1の下位範疇化情報生成部23が図9のステップ
S6で行う下位範疇化情報生成処理について説明する。
【0163】下位範疇化情報生成部23は、まず最初
に、ステップS81において、格フレーム統合部21が
出力する統合格フレームのうち、まだ、注目統合格フレ
ームとしていないものの1つを注目統合格フレームとし
て受信し、さらに、その注目統合格フレームについて、
動詞分類部22が出力する分類情報を受信する。
【0164】そして、ステップS82に進み、下位範疇
化情報生成部23は、注目統合格フレームと、その分類
情報に基づいて、注目統合格フレームに対応する動詞の
下位範疇化情報を生成する。
【0165】即ち、下位範疇化情報生成部23は、注目
統合格フレームに対応する動詞(以下、適宜、注目動詞
という)の分類情報から、その注目動詞が、自動詞、能
格動詞、他動詞、または二重目的語他動詞のうちのいず
れであるかを認識し、その認識結果と、注目統合格フレ
ームから、注目動詞が必然的に伴う構成素を認識する
(注目動詞が、上述の4つの動詞のうちのいずれである
かによって、その注目動詞が必然的に伴う構成素に制約
をかけ、その制約の下で、注目統合格フレームから、注
目動詞が必然的に伴う構成素を認識する)。そして、下
位範疇化情報生成部23は、その注目動詞が必然的に伴
う構成素に関する情報を、下位範疇化情報として、項構
造情報生成部24と補助情報生成部25に出力する。
【0166】従って、例えば、いま、図7に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合を考えると、まず、動詞「目立
つ」は、上述したように、能格動詞であり、主格となる
名詞句を必然的に伴う。また、図7に示した動詞「目立
つ」についての統合格フレームにおいては、主格を表す
格助詞「が」だけが存在し、他の格助詞は存在しない。
そこで、下位範疇化情報生成部23では、主格となる名
詞句を必然的に伴うことを表すNP[nom]が、動詞「目立
つ」の下位範疇化情報として生成される。なお、図8で
説明したように、NPは名詞句を表し、[nom]は主格を表
す。
【0167】その後、ステップS83に進み、下位範疇
化情報生成部23が、まだ、注目統合格フレームとして
いない統合格フレームがあるかどうかを判定する。ステ
ップS83において、まだ、注目統合格フレームとして
いない統合格フレームがあると判定された場合、ステッ
プS81に戻り、下位範疇化情報生成部23は、まだ、
注目統合格フレームとしていない統合格フレームのうち
の1つを、新たな注目統合格フレームとし、以下、同様
の処理を繰り返す。
【0168】また、ステップS83において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、下位範疇化情報生成処理を終了する。
【0169】次に、図15のフローチャートを参照し
て、図1の項構造情報生成部24が図9のステップS6
で行う項構造情報生成処理について説明する。
【0170】項構造情報生成部24は、まず最初に、ス
テップS91において、格フレーム統合部21が出力す
る統合格フレームのうち、まだ、注目統合格フレームと
していないものの1つを注目統合格フレームとして受信
し、さらに、その注目統合格フレームについて、下位範
疇化情報生成部23が出力する下位範疇化情報を受信す
る。
【0171】そして、ステップS92に進み、項構造情
報生成部24は、注目統合格フレームと、その下位範疇
化情報に基づいて、注目統合格フレームに対応する動詞
が必然的に伴う(必須)の格助詞と、その属性を認識す
る。
【0172】即ち、項構造情報生成部24は、注目統合
格フレームに対応する動詞(以下、適宜、注目動詞とい
う)の下位範疇化情報から、その注目動詞に必須の格助
詞を認識し、さらに、その格助詞の属性を、注目統合格
フレームから認識する。
【0173】従って、例えば、いま、図7に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合、下位範疇化情報としては、上
述したように、主格となる名詞句を必然的に伴うことを
表すNP[nom]が生成されるから、図7の注目統合格フレ
ームに記述された助詞「で」、「が」、「に」、「と」
のうち、主格を表す格助詞「が」が、注目動詞「目立
つ」に必須の格助詞として認識される。さらに、図7の
注目統合格フレームにおいては、格助詞「が」の属性と
して、その格助詞「が」とともに主格を構成する名詞
が、動作主(agent)となり得ない属性[increase]または
[thing]を有するものとなっているから、それらの上位
概念としての、例えば、対象物を表す属性Themeが認識
され、その属性Themeが、下位概念として、属性[increa
se]と[thing]を含むことを表す属性Theme{thing/increa
se}が、注目動詞「目立つ」に必須の格助詞の属性とし
て認識される。
【0174】その後、ステップS93に進み、項構造情
報生成部24は、注目統合格フレームと、その下位範疇
化情報に基づいて、注目統合格フレームに対応する動詞
が必要に応じて伴う助詞(以下、適宜、オプションの助
詞という)と、その属性を認識する。
【0175】即ち、項構造情報生成部24は、注目統合
格フレームに記述された助詞から、ステップS92で認
識した必須の格助詞を除いたものを、オプションの助詞
として認識する。さらに、項構造情報生成部24は、注
目統合格フレームにおいて、オプションの助詞として認
識した助詞に付されている属性を、オプションの助詞の
属性として認識する。
【0176】従って、例えば、いま、図7に示した動詞
「目立つ」についての統合格フレームが注目統合格フレ
ームとされたとした場合、上述したように、必須の格助
詞は「が」であるから、図7の注目統合格フレームに記
述された助詞「で」、「が」、「に」、「と」から、格
助詞「が」を除く3つの助詞「で」、「に」、「と」
が、オプションの助詞として認識され、さらに、そのオ
プションの助詞の属性として、図7の注目統合格フレー
ムに記述されている3つの助詞「で」、「に」、「と」
それぞれの属性Instrument,Locative,Propositionが
認識される。
【0177】そして、ステップS94に進み、項構造情
報生成部24は、ステップS92とS93で認識した情
報から、項構造情報を生成し、補助情報生成部25に出
力する。
【0178】即ち、項構造情報生成部24は、例えば、
図7に示した注目統合格フレームに対応する注目動詞
「目立つ」について、上述したように、必須の格助詞
「が」とその属性Theme{thing/increase}のセット、並
びにオプションの格助詞とその属性のセット「で」とIn
strument、「に」とLocative、および「と」とProposit
ionが得られた場合には、図8に示した項構造情報<ArgS
tr:Theme{thing/increase}-(Instrument)-(Locative)-
(Proposition)>を生成し、補助情報生成部25に出力す
る。
【0179】その後、ステップS95に進み、項構造情
報生成部24が、まだ、注目統合格フレームとしていな
い統合格フレームがあるかどうかを判定する。ステップ
S95において、まだ、注目統合格フレームとしていな
い統合格フレームがあると判定された場合、ステップS
91に戻り、項構造情報生成部24は、まだ、注目統合
格フレームとしていない統合格フレームのうちの1つ
を、新たな注目統合格フレームとし、以下、同様の処理
を繰り返す。
【0180】また、ステップS95において、まだ、注
目統合格フレームとしていない統合格フレームがないと
判定された場合、下位範疇化情報生成処理を終了する。
【0181】以上のように、図1の補助情報生成装置に
よれば、多数のコーパスデータについて、その形態素解
析結果から、基本センテンスが生成され、その基本セン
テンスから、不要語彙が削除される。さらに、不要語彙
が削除された基本センテンスにおける動詞について、格
フレームが生成され、同一の動詞についての格フレーム
を用いて、統合格フレームが生成される。そして、各動
詞について生成された統合各フレームに基づいて、その
動詞の下位範疇化情報と項構造情報が生成され、補助情
報として出力される。従って、自然言語を構文解析や意
味解析等する場合に、補助情報に含まれる下位範疇化情
報や項構造情報を参照することにより、精度の高い構文
解析や意味解析を行うことが可能となる。
【0182】次に、図16は、本発明を適用した自然言
語処理装置の他の一実施の形態の構成例を示している。
【0183】この自然言語処理装置は、音声によって、
ユーザとの対話を行う音声対話システムを構成してい
る。
【0184】即ち、マイク(マイクロフォン)31は、
ユーザからの音声を、電気信号としての音声信号とし
て、A/D(Analog/Digital)変換器32に供給する。A
/D変換器32は、マイク31からのアナログの音声信
号をA/D変換することにより、ディジタルの音声デー
タとし、音声認識部33に供給する。音声認識部33
は、A/D変換器32からの音声データを、適当なフレ
ームごとに区切り、各フレームの音声データについて音
響分析を行うことにより、MFCC(Mel FrequencyCeps
trum Coefficient)等の特徴ベクトルを抽出する。さら
に、音声認識部33は、その特徴ベクトル系列につい
て、例えば、HMM(Hidden Markov Model)法等によっ
てマッチング処理を行い、マイク31に入力された音声
を認識する。音声認識部33による音声の認識結果は、
例えば、テキストデータで、言語処理部34に供給され
る。
【0185】言語処理部34は、音声認識部33からの
音声認識結果を言語処理することにより、例えば、その
音声認識結果に対する応答としての、例えばテキストの
応答文を生成し、音声合成部35に出力する。
【0186】音声合成部35は、言語処理部34からの
応答文に対応する合成音を、例えば規則音声合成処理を
行うことにより生成し、D/A(Digital/Analog)変換器
36に供給する。D/A変換器36は、音声合成部35
からのディジタルの合成音データをD/A変換すること
により、アナログの音声信号として、スピーカ37に供
給する。スピーカ37は、D/A変換器36から供給さ
れる音声信号に対応する音声、即ち、言語処理部34に
おいて生成された応答文に対応する合成音を出力する。
【0187】次に、図16において、言語処理部34
は、形態素解析部41、形態素解析辞書記憶部42、構
文解析部43、構文解析辞書記憶部44、意味解析部4
5、補助情報データベース46、対話管理部47、対話
履歴データベース48、および応答文生成部49から構
成されている。
【0188】形態素解析部41は、音声認識部33から
供給される音声認識結果について、形態素解析辞書記憶
部42を参照しながら形態素解析を行い、その形態素解
析結果を、構文解析部43に供給する。形態素解析辞書
記憶部42は、形態素解析部41が形態素解析を行うの
に参照する、例えば、形態素について、その読みや、構
文属性、意味属性等が記述された形態素解析辞書を記憶
している。
【0189】構文解析部43は、形態素解析部41から
の形態素解析結果と、構文解析辞書記憶部44や補助情
報データベース46を参照しながら、音声認識部33の
音声認識結果の構文解析を行い、その構文解析結果を、
意味解析部45に供給する。構文解析辞書記憶部44
は、構文解析部43が構文解析を行うに参照する、例え
ば、形態素の係り受け関係等についての記述がされてい
る構文解析辞書を記憶している。
【0190】意味解析部45は、構文解析部43からの
構文解析結果と、補助情報データベース46を参照しな
がら、音声認識部33の音声認識結果の意味解析を行
い、その意味解析結果を、対話管理部47に供給する。
【0191】補助情報データベース46は、図1の補助
情報生成装置としての自然言語処理装置で生成された補
助情報を、多数の動詞について記憶している。
【0192】対話管理部47は、意味解析部45から供
給される音声認識結果の意味解析結果や、対話履歴デー
タベース48を参照しながら、その音声認識結果の意味
内容を理解し、その音声認識結果に対応する応答文の意
味内容(以下、適宜、応答内容という)を生成して、応
答文生成部49に供給する。
【0193】対話履歴データベース48は、音声認識結
果の意味内容や、その音声認識結果に対して、対話管理
部47が生成した応答内容を、対話履歴として記憶す
る。
【0194】応答文生成部49は、対話管理部47から
の応答内容に対応するテキストの応答文を生成し、音声
合成部35に供給する。
【0195】次に、図17のフローチャートを参照し
て、図16の音声対話システムが行う処理(対話処理)
について説明する。
【0196】マイク31に、ユーザの音声が入力され、
さらに、A/D変換器32を介し、音声データが、音声
認識部33に供給されると、音声認識部33は、ステッ
プS101において、マイク31に入力された音声を音
声認識し、その音声認識結果を、言語処理部34の形態
素解析部41に出力して、ステップS102に進む。
【0197】ステップS102では、形態素解析部41
は、音声認識部33からの音声認識結果を入力文とし
て、その形態素解析を行い、その形態素解析結果を、構
文解析部43に供給して、ステップS103に進む。ス
テップS103では、構文解析部43が、入力文の形態
素解析結果を参照することで、その入力文に含まれる動
詞についての補助情報を、補助情報データベース46か
ら検索し、ステップS104に進む。
【0198】ステップS104では、構文解析部43
が、形態素解析部41からの形態素解析結果、構文解析
辞書、およびステップS103で検索した補助情報に基
づき、入力文としての音声認識結果を構文解析し、その
構文解析結果を、意味解析部45に供給する。さらに、
ステップS104では、意味解析部45が、構文解析部
43から供給される入力文としての音声認識結果の構文
解析結果に基づいて意味解析を行い、ステップS105
に進む。
【0199】ステップS105では、入力文に、照応形
が存在するかどうか、即ち、その入力文に含まれる動詞
に必須の名詞が欠けているか(ゼロ照応形)、または必
須の名詞が代名詞で代用されているかどうかが判定され
る。
【0200】なお、入力文に、照応形が存在するかどう
かは、例えば、構文解析部43による構文解析において
認識することができる。
【0201】即ち、例えば、図8に示した動詞「目立
つ」についての補助情報に含まれる下位範疇化情報によ
れば、動詞「目立つ」は、主格となる名詞句を必然的に
伴うことが分かる。従って、入力文に、原形が「目立
つ」の動詞が含まれている場合において、その動詞「目
立つ」が、主格となる名詞句を伴っていなければ、構文
解析部43は、動詞「目立つ」についての補助情報か
ら、その動詞「目立つ」について必須の名詞句が欠けて
いる、即ち、ゼロ照応形が存在することを認識すること
ができる。なお、照応形の有無は、例えば、HPSG等
のフレームワークにおけるサチュレーション(saturatio
n)という機能によっても認識することができる。
【0202】ステップS105において、入力文に、照
応形が存在しないと判定された場合、意味解析部45
は、入力文の意味解析結果を、対話管理部47に供給
し、ステップS106乃至ステップS110をスキップ
して、ステップS111に進む。
【0203】また、ステップS105において、入力文
に、照応形が存在すると判定された場合、ステップS1
06に進み、意味解析部45は、補助情報データベース
46を参照することにより、照応形の属性を認識する。
【0204】即ち、ステップS106では、意味解析部
45は、ステップS103で検索された補助情報の下位
範疇化情報と項構造情報から、入力文に含まれる動詞が
必然的に伴うべき名詞の属性を認識する。そして、意味
解析部45は、その入力文に含まれる動詞が必然的に伴
うべき名詞の属性うち、音声認識結果に欠けている名
詞、あるいは代名詞で代用されている名詞の属性を認識
する。
【0205】その後、ステップS107に進み、意味管
理部45は、対話管理部47に問い合わせを行うことに
より、ステップS106で認識した照応形の属性と同一
の属性の名詞が、対話履歴データベース48の対話履歴
に存在するかどうかを判定する。
【0206】なお、ステップS107では、例えば、J.
Huang, "Logical Relations in Chinese and Theory of
Grammar", MIT PhD. Thesis, 1982で提唱されている、
先行詞と照応家の距離はミニマルであるというヒューリ
スティック(Minimal Distance Principle)にしたがい、
例えば、1乃至4発話前の範囲の対話履歴を対象に、照
応形の属性と同一の属性の名詞が存在するかどうかを判
定する。
【0207】ステップS107において、照応形の属性
と同一の属性の名詞が、対話履歴データベース48の対
話履歴に存在しないと判定された場合、ステップS10
8に進み、対話管理部47は、ユーザに対して、照応形
の内容を問い合わせる問い合わせ処理を行う。
【0208】即ち、対話管理部47は、照応形の内容を
問い合わせるメッセージ(以下、適宜、問い合わせメッ
セージという)を、応答文生成部49に生成させ、音声
合成部35およびD/A変換器36を介して、スピーカ
37から、合成音で出力させる。
【0209】そして、ユーザが、問い合わせメッセージ
に対応して、照応形の内容を説明する発話を行うと、そ
の音声は、マイク31、A/D変換器32、音声認識部
33、形態素解析部41および構文解析部43を介し
て、意味解析部45に供給される。
【0210】意味解析部45は、このようにして、構文
解析部43から、照応形の内容を説明するユーザの音声
についての構文解析結果が供給されるのを待って、ステ
ップS108からS109に進み、その構文解析結果に
基づいて、照応形の先行詞を認識、決定して、ステップ
S110に進む。
【0211】一方、ステップS107において、照応形
の属性と同一の属性の名詞が、対話履歴データベース4
8の対話履歴に存在すると判定された場合、ステップS
109に進み、意味解析部43は、その対話履歴に存在
する照応形と同一属性の名詞を、その照応形の先行詞と
して決定し、ステップS110に進む。
【0212】ステップS110では、ステップS109
で決定された先行詞が、入力文の中の照応形の代わりに
存在するものとして、その入力文について、構文解析部
43が構文解析を行い、さらに、意味解析部45が意味
解析を行い、その意味解析結果を、対話管理部47に供
給する。
【0213】対話管理部47は、意味解析部45から入
力文の意味解析結果を受信すると、ステップS111に
進み、その意味解析結果に基づいて、入力文の意味を理
解し、その入力文に対応する応答としての応答文の内容
(応答内容)を生成して、ステップS112に進む。ス
テップS112では、対話管理部47は、入力文の意味
内容と、生成した応答文の意味内容(応答内容)のセッ
トを、対話履歴データベース48に供給して、対話履歴
として記憶させるとともに、応答内容を、応答文生成部
49に供給し、ステップS113に進む。
【0214】ステップS113では、応答文生成部49
は、対話管理部47からの応答内容を、その意味内容と
する応答文を生成し、音声合成部35に供給する。さら
に、ステップS112では、音声合成部35が、応答文
生成部49からの応答文に対応する合成音を生成し、D
/A変換器36を介して、スピーカ37から出力させ、
対話処理を終了する。
【0215】なお、以上の対話処理においては、照応形
の先行詞を、原則的には、対話履歴から決定し、対話履
歴から決定することができない場合には、ユーザに問い
合わせを行うようにしたが、照応形の先行詞は、対話履
歴から決定し、ユーザに問い合わせを行わないようにす
ることも可能である。
【0216】但し、その場合には、照応形の先行詞が、
同一の文の内部にあるケースと、指示や視覚を伴う理解
(deictic use)が必要なものであるケースは除外する必
要がある。
【0217】ここで、照応形の先行詞が、同一の文の内
部にあるケースとは、照応形をproと表すと、例えば、
「pro書いた論文が表彰された男」といった文が該当す
る。この文における照応形proは、この文で言っている
男(書いた論文が表象された男)を指し示しており、照
応形の先行詞となる「男」が、同一の文の内部にある。
このように、照応形の先行詞が、同一の文の内部にある
場合の照応形の問題は、例えば、岩波講座 言語の科学
6「生成文法」岩波書店 1997年等にあるような束
縛理論(binding theory)によって解決することができ
る。
【0218】また、照応形の先行詞が、指示や資格を伴
う理解が必要なケースとは、机の上にあるコップを指さ
し、「それを拾え。」といった場合である。
【0219】なお、いずれのケースについても、ユーザ
に問い合わせを行えば、照応形の先行詞を決定すること
が可能である。
【0220】図17の対話処理によれば、例えば、次の
ようにして、照応形の先行詞が決定される。
【0221】即ち、例えば、いま、音声対話システム
が、合成音「Aさんは、土用の日にうなぎを食べました
よ。」を出力し、それに対して、ユーザが、「Bさん
は、もう食べたの?」と発話したとする。
【0222】この場合、音声対話システムが、ユーザの
発話を正しく理解するためには、ユーザの発話「Bさん
は、もう食べたの?」に、「うなぎを」を補って、「B
さんは、もう”うなぎを”食べたの?」とする必要があ
る。
【0223】そこで、音声対話システムは、ユーザの発
話「Bさんは、もう食べたの?」に含まれる動詞(の原
形)「食べる」についての補助情報を参照する。
【0224】いま、動詞「食べる」についての補助情報
が、例えば、図18に示すようなものであったとする。
【0225】ここで、図18における動詞「食べる」に
ついての補助情報の第1行目(上から1行目)は、動詞
の見出し「食べる」、読み「タベル」、分類情報「他動
詞」を表している。また、第2行目の下位範疇化情報<S
UBCAT:NP[nom]-NP[acc]>は、動詞「食べる」が、主格(n
ominative)を表す名詞句(NP[nom])と対格(accusative)
を表す名詞句(NP[acc])を必然的に伴うことを表してい
る。さらに、第3行目の項構造情報<ArgStr:Agent-Them
e{food}-(Instrument)-(Locative)>は、下位範疇化情報
の主格を表す名詞句NP[nom]が、動詞「食べる」の動作
主(Agent)となるものであること、下位範疇化情報の対
格を表す名詞句NP=[acc]が、動詞「食べる」の対象物(T
heme)となるものであること、その対象物(Theme)が、食
べ物{food}であること、動詞「食べる」が、必要に応じ
て、属性がInstrumentやLocativeで表される助詞を取り
得ること、を表している。
【0226】なお、属性InstrumentとLocativeは、上述
したように、それぞれ道具(例えば、「ナイフで」な
ど)と場所(例えば、「レストランで」)を表す。
【0227】ユーザの発話「Bさんは、もう食べたの
?」については、図18の補助情報を参照することによ
り、体格を表す名詞句であって、食べる対象物となる食
べ物を表すものが欠けている(ゼロ照応形が存在する)
ことが分かる。
【0228】一方、いまの場合、ユーザの発話「Bさん
は、もう食べたの?」の直前に、音声対話システムが、
「Aさんは、土用の日にうなぎを食べましたよ。」を出
力しており、この出力のうちの「うなぎを」は、体格を
表す名詞句であって、食べる対象物となる食べ物を表し
ている。
【0229】従って、この場合、音声対話システムは、
対話履歴を参照することにより、ユーザの発話「Bさん
は、もう食べたの?」に欠けている、対格を表す名詞句
であって、食べる対象物となる食べ物を表すものが、
「うなぎ」であることを認識することができる。即ち、
この場合、ユーザの発話「Bさんは、もう食べたの?」
に存在するゼロ照応形の先行詞が、「うなぎ」であるこ
とが決定される。
【0230】その結果、音声対話システムは、ユーザの
発話「Bさんは、もう食べたの?」に、決定した先行詞
「うなぎを」を補って、「Bさんは、もう”うなぎを”
食べたの?」とし、その意味内容を正しく理解すること
ができる。
【0231】なお、対話履歴に、対格を表す名詞句であ
って、食べる対象物となる食べ物を表すものが存在しな
い場合には、音声対話システムは、その食べ物が何であ
るかを問い合わせるメッセージとして、例えば「Bさん
は、何を食べたのですが?」などを生成、出力し、その
メッセージに対するユーザの返答を待って、ゼロ照応形
の先行詞(いまの場合は、「うなぎ」)を決定する。
【0232】また、上述の場合には、ユーザの発話が、
ゼロ照応形を有する「Bさんは、もう食べたの?」であ
るときを対象としたが、図17の対話処理によれば、ユ
ーザの発話が、ゼロ照応形でない照応形を有する、例え
ば、「Bさんは、もう、それを(あれを)食べたの?」
であるときも、ゼロ照応形における場合と同様にして、
照応形「それ(あれ)」の先行詞を決定することができ
る。
【0233】以上のように、図16の音声対話システム
では、動詞の下位範疇化情報と項構造情報を含む補助情
報を参照することにより、入力文中に存在する照応形の
属性を認識した後、その照応形の属性に基づいて、その
照応形が指し示す先行詞を決定し、入力文の構文解析ま
たは意味解析を行うようにしたので、精度の高い構文解
析や意味解析が可能となり、さらに、それにより、入力
文の意味を正確に理解することが可能となる。
【0234】なお、本実施の形態では、補助情報に、分
類情報を含めるようにしたが、補助情報は、分類情報を
含めずに構成することが可能である。但し、補助情報
に、明示的に、分類情報が含まれていない場合でも、下
位範疇化情報から分類情報を得ることができるので、間
接的には、分類情報が含まれているということができ
る。
【0235】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0236】そこで、図19は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0237】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0238】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM(Compact DiscRead Only Memory),
MO(Magneto Optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
【0239】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0240】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0241】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0242】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0243】なお、補助情報は、図16に示した音声対
話システムの他、テキスト要約や翻訳その他の自然言語
処理を行うシステムで用いることが可能である。また、
補助情報は、図16に示したように、独立の補助情報デ
ータベース46に記憶させる他、そのシステムで用いら
れるレキシコン(辞書)(例えば、図17の形態素解析
辞書記憶部42の形態素解析辞書や、構文解析辞書記憶
部44の構文解析辞書など)に統合する形で記憶させる
ことも可能である。
【0244】また、本発明は、日本語以外の自然言語に
も適用可能である。
【0245】
【発明の効果】本発明の第1の自然言語処理装置および
自然言語処理方法、並びにプログラムによれば、コーパ
スデータの形態素解析結果から、格フレームの生成対象
とする単位である基本センテンスが生成され、その基本
センテンスから、格フレームの生成に不要な語彙が削除
される。さらに、不要語彙が削除された基本センテンス
における動詞について、格フレームが生成され、同一の
動詞についての格フレームに基づいて、その動詞の下位
範疇化情報と項構造情報が生成されて、補助情報として
出力される。従って、その補助情報を参照することによ
り、精度の高い構文解析や意味解析等が可能となる。
【0246】本発明の第2の自然言語処理装置および自
然言語処理方法、並びにプログラムによれば、少なくと
も、動詞の下位範疇化情報と項構造情報からなる補助情
報を記憶している補助情報記憶手段から、入力文に含ま
れる動詞についての補助情報が検索される一方、入力文
中に照応形が存在するかどうかが判定され、入力文中に
存在する照応形の属性が、その入力文に含まれる動詞に
ついての補助情報に基づいて認識される。そして、照応
形の属性に基づいて、照応形が指し示す先行詞が決定さ
れ、その先行詞を用いて、入力文の構文解析または意味
解析が行われる。従って、精度の高い構文解析や意味解
析等が可能となり、さらに、それにより、入力文の意味
を正確に理解することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した自然言語処理装置の一実施の
形態の構成例を示すブロック図である。
【図2】形態素解析結果を示す図である。
【図3】基本センテンスから削除される語彙(不要語
彙)を説明する図である。
【図4】不要語彙が削除された形態素解析結果を示す図
である。
【図5】動詞の基準形を説明する図である。
【図6】格フレームを示す図である。
【図7】統合格フレームを示す図である。
【図8】補助情報を示す図である。
【図9】補助情報生成処理を説明するフローチャートで
ある。
【図10】基本センテンスパターン抽出処理を説明する
フローチャートである。
【図11】不要語彙削除処理を説明するフローチャート
である。
【図12】格フレーム生成処理を説明するフローチャー
トである。
【図13】動詞分類処理を説明するフローチャートであ
る。
【図14】下位範疇化情報生成処理を説明するフローチ
ャートである。
【図15】項構造情報生成処理を説明するフローチャー
トである。
【図16】本発明を適用した自然言語処理装置の他の一
実施の形態の構成例を示すブロック図である。
【図17】対話処理を説明するフローチャートである。
【図18】補助情報を示す図である。
【図19】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 コーパスデータベース, 2 前処理部, 3 格
フレームデータベース, 4 格フレーム処理部, 5
補助情報データベース, 11 形態素解析部, 1
2 基本センテンスパターン抽出部, 13 削除部,
14 格フレーム生成部, 21 格フレーム統合
部, 22 動詞分類部, 23 下位範疇化情報生成
部, 24 項構造情報生成部, 25 補助情報生成
部, 31マイク, 32 A/D変換器, 33 音
声認識部, 34 言語処理部,35 音声合成部,
36 D/A変換器, 38 スピーカ, 41 形態
素解析部, 42 形態素解析辞書記憶部, 43 構
文解析部, 44 構文解析辞書記憶部, 45 意味
解析部, 46 補助情報データベース, 47対話管
理部, 48 対話履歴データベース, 49 応答文
生成部, 101 バス, 102 CPU, 103 R
OM, 104 RAM, 105 ハードディスク, 1
06 出力部, 107 入力部, 108 通信部,
109ドライブ, 110 入出力インタフェース,
111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 下村 秀樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B091 AA15 AB15 AB19 CA02 CA12 CA14 CC01 CC15

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 自然言語の解析を補助する補助情報を、
    コーパスデータから求める自然言語処理装置であって、 前記コーパスデータを形態素解析する形態素解析手段
    と、 前記コーパスデータの形態素解析結果から、格フレーム
    の生成対象とする単位である基本センテンスを生成する
    基本センテンス生成手段と、 前記基本センテンスから、格フレームの生成に不要な語
    彙を削除する不要語彙削除手段と、 前記不要語彙が削除された基本センテンスにおける動詞
    について、格フレームを生成する格フレーム生成手段
    と、 同一の動詞についての格フレームに基づいて、その動詞
    の下位範疇化情報と項構造情報を生成し、前記補助情報
    として出力する補助情報生成手段とを備えることを特徴
    とする自然言語処理装置。
  2. 【請求項2】 前記補助情報生成手段は、同一の動詞に
    ついての格フレームに基づいて、その動詞が、自動詞、
    他動詞、能格動詞、または二重目的語他動詞のうちのい
    ずれに分類されるものであるかを表す分類情報を生成
    し、前記分類情報に基づいて、前記下位範疇化情報を生
    成することを特徴とする請求項1に記載の自然言語処理
    装置。
  3. 【請求項3】 前記不要語彙削除手段は、副詞、名詞と
    「の」からなる語彙、名詞と助詞と「の」からなる語
    彙、形容詞、名詞と「な」からなる語彙、名詞と後置詞
    からなる語彙、括弧で囲まれた部分、または括弧で囲ま
    れた部分と「の」からなる語彙を、前記基本センテンス
    から削除することを特徴とする請求項1に記載の自然言
    語処理装置。
  4. 【請求項4】 前記補助情報生成手段は、同一の動詞に
    ついての格フレームの格助詞に基づいて、前記下位範疇
    化情報を生成することを特徴とする請求項1に記載の自
    然言語処理装置。
  5. 【請求項5】 前記補助情報生成手段は、同一の動詞に
    ついての格フレームすべての助詞に基づいて、前記項構
    造情報を生成することを特徴とする請求項1に記載の自
    然言語処理装置。
  6. 【請求項6】 前記コーパスデータは、日本語のデータ
    であることを特徴とする請求項1に記載の自然言語処理
    装置。
  7. 【請求項7】 自然言語の解析を補助する補助情報を、
    コーパスデータから求める自然言語処理方法であって、 前記コーパスデータを形態素解析する形態素解析ステッ
    プと、 前記コーパスデータの形態素解析結果から、格フレーム
    の生成対象とする単位である基本センテンスを生成する
    基本センテンス生成ステップと、 前記基本センテンスから、格フレームの生成に不要な語
    彙を削除する不要語彙削除ステップと、 前記不要語彙が削除された基本センテンスにおける動詞
    について、格フレームを生成する格フレーム生成ステッ
    プと、 同一の動詞についての格フレームに基づいて、その動詞
    の下位範疇化情報と項構造情報を生成し、前記補助情報
    として出力する補助情報生成ステップとを備えることを
    特徴とする自然言語処理方法。
  8. 【請求項8】 自然言語の解析を補助する補助情報を、
    コーパスデータから求める自然言語処理を、コンピュー
    タに行わせるプログラムであって、 前記コーパスデータを形態素解析する形態素解析ステッ
    プと、 前記コーパスデータの形態素解析結果から、格フレーム
    の生成対象とする単位である基本センテンスを生成する
    基本センテンス生成ステップと、 前記基本センテンスから、格フレームの生成に不要な語
    彙を削除する不要語彙削除ステップと、 前記不要語彙が削除された基本センテンスにおける動詞
    について、格フレームを生成する格フレーム生成ステッ
    プと、 同一の動詞についての格フレームに基づいて、その動詞
    の下位範疇化情報と項構造情報を生成し、前記補助情報
    として出力する補助情報生成ステップとを備えることを
    特徴とするプログラム。
  9. 【請求項9】 自然言語の解析を補助する補助情報を、
    コーパスデータから求める自然言語処理を、コンピュー
    タに行わせるプログラムが記録されている記録媒体であ
    って、 前記コーパスデータを形態素解析する形態素解析ステッ
    プと、 前記コーパスデータの形態素解析結果から、格フレーム
    の生成対象とする単位である基本センテンスを生成する
    基本センテンス生成ステップと、 前記基本センテンスから、格フレームの生成に不要な語
    彙を削除する不要語彙削除ステップと、 前記不要語彙が削除された基本センテンスにおける動詞
    について、格フレームを生成する格フレーム生成ステッ
    プと、 同一の動詞についての格フレームに基づいて、その動詞
    の下位範疇化情報と項構造情報を生成し、前記補助情報
    として出力する補助情報生成ステップとを備えるプログ
    ラムが記録されていることを特徴とする記録媒体。
  10. 【請求項10】 入力文を自然言語処理する自然言語処
    理装置であって、 少なくとも、動詞の下位範疇化情報と項構造情報からな
    る補助情報を記憶している補助情報記憶手段と、 前記補助情報記憶手段から、前記入力文に含まれる動詞
    についての前記補助情報を検索する検索手段と、 前記入力文中に照応形が存在するかどうかを判定する判
    定手段と、 前記入力文中に存在する照応形の属性を、その入力文に
    含まれる動詞についての前記補助情報に基づいて認識す
    る属性認識手段と、 前記照応形の属性に基づいて、前記照応形が指し示す先
    行詞を決定する先行詞決定手段と、 前記先行詞決定手段において決定された先行詞を用い
    て、前記入力文の構文解析または意味解析を行う解析手
    段とを備えることを特徴とする自然言語処理装置。
  11. 【請求項11】 前記判定手段は、前記入力文の構文解
    析結果、または前記入力文に含まれる動詞についての前
    記補助情報の下位範疇化情報に基づいて、前記入力文中
    に照応形が存在するかどうかを判定することを特徴とす
    る請求項10に記載の自然言語処理装置。
  12. 【請求項12】 前記照応形は、代名詞またはゼロ照応
    形であることを特徴とする請求項10に記載の自然言語
    処理装置。
  13. 【請求項13】 対話履歴を記憶しながら、対話を行う
    対話装置であり、 前記先行詞決定手段は、前記対話履歴を参照することに
    より、前記先行詞を決定することを特徴とする請求項1
    0に記載の自然言語処理装置。
  14. 【請求項14】 ユーザに対して、前記先行詞の内容の
    問い合わせを行う問い合わせ手段をさらに備え、 前記先行詞決定手段は、前記問い合わせに対するユーザ
    の回答に基づいて、前記先行詞を決定することを特徴と
    する請求項10に記載の自然言語処理装置。
  15. 【請求項15】 入力文を自然言語処理する自然言語処
    理方法であって、 少なくとも、動詞の下位範疇化情報と項構造情報からな
    る補助情報を記憶している補助情報記憶手段から、前記
    入力文に含まれる動詞についての前記補助情報を検索す
    る検索ステップと、 前記入力文中に照応形が存在するかどうかを判定する判
    定ステップと、 前記入力文中に存在する照応形の属性を、その入力文に
    含まれる動詞についての前記補助情報に基づいて認識す
    る属性認識ステップと、 前記照応形の属性に基づいて、前記照応形が指し示す先
    行詞を決定する先行詞決定ステップと、 前記先行詞決定ステップにおいて決定された先行詞を用
    いて、前記入力文の構文解析または意味解析を行う解析
    ステップとを備えることを特徴とする自然言語処理方
    法。
  16. 【請求項16】 入力文を自然言語処理する自然言語処
    理を、コンピュータに行わせるプログラムであって、 少なくとも、動詞の下位範疇化情報と項構造情報からな
    る補助情報を記憶している補助情報記憶手段から、前記
    入力文に含まれる動詞についての前記補助情報を検索す
    る検索ステップと、 前記入力文中に照応形が存在するかどうかを判定する判
    定ステップと、 前記入力文中に存在する照応形の属性を、その入力文に
    含まれる動詞についての前記補助情報に基づいて認識す
    る属性認識ステップと、 前記照応形の属性に基づいて、前記照応形が指し示す先
    行詞を決定する先行詞決定ステップと、 前記先行詞決定ステップにおいて決定された先行詞を用
    いて、前記入力文の構文解析または意味解析を行う解析
    ステップとを備えることを特徴とするプログラム。
  17. 【請求項17】 入力文を自然言語処理する自然言語処
    理を、コンピュータに行わせるプログラムが記録されて
    いる記録媒体であって、 少なくとも、動詞の下位範疇化情報と項構造情報からな
    る補助情報を記憶している補助情報記憶手段から、前記
    入力文に含まれる動詞についての前記補助情報を検索す
    る検索ステップと、 前記入力文中に照応形が存在するかどうかを判定する判
    定ステップと、 前記入力文中に存在する照応形の属性を、その入力文に
    含まれる動詞についての前記補助情報に基づいて認識す
    る属性認識ステップと、 前記照応形の属性に基づいて、前記照応形が指し示す先
    行詞を決定する先行詞決定ステップと、 前記先行詞決定ステップにおいて決定された先行詞を用
    いて、前記入力文の構文解析または意味解析を行う解析
    ステップとを備えるプログラムが記録されていることを
    特徴とする記録媒体。
JP2001217619A 2001-07-18 2001-07-18 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 Withdrawn JP2003030184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001217619A JP2003030184A (ja) 2001-07-18 2001-07-18 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001217619A JP2003030184A (ja) 2001-07-18 2001-07-18 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2003030184A true JP2003030184A (ja) 2003-01-31

Family

ID=19051906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001217619A Withdrawn JP2003030184A (ja) 2001-07-18 2001-07-18 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2003030184A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
JP2005092617A (ja) * 2003-09-18 2005-04-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2013536468A (ja) * 2010-08-20 2013-09-19 ヒ ユン,ヒョク 語学学習システムおよびその制御方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
AU2004232276B2 (en) * 2003-04-24 2007-08-02 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
CN100378724C (zh) * 2003-04-24 2008-04-02 禹蕣朝 基于移动配置概念的句子结构分析方法及使用其的自然语言搜索方法
JP2005092617A (ja) * 2003-09-18 2005-04-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2013536468A (ja) * 2010-08-20 2013-09-19 ヒ ユン,ヒョク 語学学習システムおよびその制御方法

Similar Documents

Publication Publication Date Title
Vasiliev Natural language processing with Python and spaCy: A practical introduction
Oostdijk et al. Experiences from the spoken Dutch corpus project
Ostendorf et al. Human language technology: Opportunities and challenges
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Watts Unsupervised learning for text-to-speech synthesis
WO1999063456A1 (fr) Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d&#39;enregistrement de programme
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
Psutka et al. System for fast lexical and phonetic spoken term detection in a czech cultural heritage archive
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
Gao et al. MARS: A statistical semantic parsing and generation-based multilingual automatic translation system
Beke et al. Automatic summarization of highly spontaneous speech
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Fairon et al. I’m like,“Hey, it works!”: Using GlossaNet to find attestations of the quotative (be) like in English-language newspapers
Maegaard et al. The BLARK concept and BLARK for Arabic.
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
JP2003030184A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
Szaszák et al. Summarization of spontaneous speech using automatic speech recognition and a speech prosody based tokenizer
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Thatphithakkul et al. LOTUS-BI: A Thai-English code-mixing speech corpus
NithyaKalyani et al. Speech summarization for tamil language
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR20040055292A (ko) 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법
Phull et al. Ameliorated language modelling for lecture speech recognition of Indian English

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081007