JP2002149675A

JP2002149675A - テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体

Info

Publication number: JP2002149675A
Application number: JP2000348286A
Authority: JP
Inventors: Shigeaki Sakurai; 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-11-15
Filing date: 2000-11-15
Publication date: 2002-05-24

Abstract

(57)【要約】【課題】テキストデータから利用者の意図に合った規
則性を容易に発見可能なテキストデータ分析装置および
方法を提供する。【解決手段】テキスト格納部Ｆ１にテキストを格納
し、テキストクラス格納部Ｆ２にテキストを分類するク
ラスを格納し、概念定義辞書格納部Ｆ３に対象としてい
る分野において重要な概念を示す単語の集合を概念定義
辞書として格納する。テキスト分析部Ｆ４は、形態素解
析部Ｆ６によってテキストから単語列を生成し、得られ
た単語列から特徴抽出部Ｆ７によってテキストの特徴を
抽出し、事例生成部Ｆ８によってテキストの特徴とそれ
に対応するクラスとを示す事例を生成し、生成された事
例を用いて帰納学習部Ｆ９によって帰納学習を行い、判
断規則を生成し、得られた判断規則をルール格納部Ｆ５
に格納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ上に
蓄積されている電子化されたテキスト、例えば、小売業
務における販売員の営業活動及び商品の売上動向を記載
したテキスト、ヘルプデスク業務における顧客からの様
々な問い合わせと回答内容を記載したテキスト、等から
当該テキストに内在する規則性を発見し、利用者の意思
決定を支援するための装置及びその方法に関するもので
ある。

【０００２】

【従来の技術】データの電子媒体上への格納が進むに連
れて、蓄積されている大量のデータの中から必要な情報
を効率よく抽出することが必要になってきている。この
問題に対して、文献１：電気学会Ｃ部門論文誌 No.11
5、vol.9、p.1057-1063(1996年)記載の「ファジイ帰納
学習アルゴリズムの改良」(著者:櫻井茂明、荒木大)
では、表形式に記述されたデータを入力として与えるこ
とにより、データに内在する規則性を発見する手法が開
示されている。しかしながら、この手法においては、入
力として与えられるデータは表形式のデータに限定され
ており、より自由な記述の可能なテキストデータから規
則性を発見することはできなかった。

【０００３】また、文献２：特開平１１−１３４３６４
号公報記載の「体系化知識解析方法及び装置並びに分類
方法及び装置」(発明者：呉亜棟)では、分類済のテキ
ストデータの中からそのクラスを特徴付ける平均的な特
徴量を抽出し、新たなテキストの特徴量とクラスの特徴
量を比較することにより、テキストの自動分類を行う手
法が開示されている。しかしながら、この手法において
は、テキストデータを利用できるものの、各クラスと特
徴量の間に存在する規則性を発見することはできない。
このため、テキストデータが当該クラスに分類される根
拠を示すことができなかった。

【０００４】さらには、文献３：特開２０００−１７２
６９１号記載の「情報マイニング方法、情報マイニング
装置、および情報マイニンングプログラムを記載したコ
ンピュータ読み取り可能な記録媒体」(発明者：藤井
洋一)では、多数のテキストの中から重要な単語を抽出
し、同一のテキストの中に同時に出現する単語の出現頻
度を計算することにより、単語間に内在する規則性を発
見する手法が開示されている。しかしながら、この手法
において、単語間の規則性には、利用者の意図を反映さ
せることができないため、利用者の意図に合った規則性
を発見することができなかった。

【０００５】

【発明が解決しようとする課題】本発明は、上記の事情
を考慮してなされたものであり、その目的は、テキスト
データから利用者の意図に合った規則性を容易に発見可
能なテキストデータ分析装置および方法を提供すること
である。また、本発明の別の目的は、既存のテキストデ
ータから発見された規則性を利用することにより、新た
に与えられたテキストデータを分類の根拠を示して分類
可能なテキストデータ分析装置および方法を提供するこ
とである。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、本発明のテキストデータ分析装置および方法は、テ
キスト、テキストを分類するクラス、および重要な概念
を示す単語を予め用意することにより、これらのデータ
を用いて利用者の意図に合った規則性を容易に発見でき
るようにしたものである。

【０００７】請求項１に記載の発明は、テキストデータ
分析装置であり、テキストを格納するテキスト格納部
と、テキストを分類するクラスを格納するテキストクラ
ス格納部と、対象としている分野において重要な概念を
示す単語の集合を概念定義辞書として格納する概念定義
辞書格納部と、前記概念定義辞書格納部に格納されてい
る単語に基づいて、前記テキスト格納部に格納されてい
るテキストの特徴を求める特徴分析部と、前記特徴分析
部によって得られたテキストの特徴と前記テキストクラ
ス格納部に格納されているクラスに基づいて、別のテキ
ストに対応するクラスを判断するための判断規則を生成
するルール生成部とを有することを特徴とする。

【０００８】請求項７に記載の発明は、請求項１に記載
の発明を方法の観点から把握したテキストデータ分析方
法であり、請求項１の発明におけるテキスト格納部、テ
キストクラス格納部、概念定義辞書格納部、特徴分析
部、およびルール生成部、の各機能に対応するステップ
として、テキスト格納ステップ、テキストクラス格納ス
テップ、概念定義辞書格納ステップ、特徴分析ステッ
プ、およびルール生成ステップ、を有することを特徴と
する。

【０００９】請求項１３に記載の発明は、請求項１、７
に記載の発明を記録媒体の観点から把握したものであ
り、テキストデータを分析するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体において、プ
ログラムが、コンピュータに、請求項７の発明における
テキスト格納ステップ、テキストクラス格納ステップ、
概念定義辞書格納ステップ、特徴分析ステップ、および
ルール生成ステップ、に対応する処理として、テキスト
格納処理、テキストクラス格納処理、概念定義辞書格納
処理、特徴分析処理、およびルール生成処理、を実行さ
せることを特徴とする。

【００１０】請求項１６に記載の発明は、請求項１、
７、１３に記載の発明をコンピュータプログラムの観点
から把握したものであり、コンピュータに、請求項１３
の発明におけるテキスト格納処理、テキストクラス格納
処理、概念定義辞書格納処理、特徴分析処理、およびル
ール生成処理、に対応する機能として、テキスト格納機
能、テキストクラス格納機能、概念定義辞書格納機能、
特徴分析機能、およびルール生成機能を実現させること
を特徴とする。

【００１１】以上のような請求項１、７、１３、１６の
発明によれば、テキストを格納することに加えて、テキ
ストを分類するクラスと、重要な概念を示す概念定義辞
書とをそれぞれ予め格納しておくことにより、格納され
たテキストから概念定義辞書に基づいてテキストの特徴
を求め、得られたテキストの特徴とクラスに基づいて判
断規則を生成することができる。したがって、予めテキ
ストを用意するとともに、テキストに対して利用者の意
図を反映させたクラスを用意し、また、利用者の意図を
反映させた概念定義辞書を予め用意することにより、こ
れらのデータから利用者の意図に合った判断規則を容易
に生成することができる。

【００１２】請求項２に記載の発明は、請求項１に記載
のテキストデータ分析装置において、前記ルール生成部
によって生成された判断規則を格納するルール格納部
と、前記ルール生成部によって判断規則を生成するため
に使用されたテキストとは異なるテキストが所属するク
ラスを、前記特徴分析部によって得られたテキストの特
徴と前記ルール格納部に格納されている判断規則に基づ
いて推定するテキスト分類部とを有することを特徴とす
る。

【００１３】請求項８に記載の発明は、請求項２に記載
の発明を方法の観点から把握したものであり、請求項７
に記載のテキストデータ分析方法において、請求項２の
発明におけるルール格納部およびテキスト分類部に対応
するステップとして、ルール格納ステップおよびテキス
ト分類ステップを有することを特徴とする。

【００１４】請求項１４に記載の発明は、請求項２、８
に記載の発明を記録媒体の観点から把握したものであ
り、請求項１３に記載の記録媒体において、プログラム
が、コンピュータに、請求項８の発明におけるルール格
納ステップおよびテキスト分類ステップに対応する処理
として、ルール格納処理とテキスト分類処理を実行させ
ることを特徴とする。

【００１５】以上のような請求項２、８、１４の発明に
よれば、既存のテキストデータから生成された判断規則
を格納することにより、新たに与えられたテキストデー
タについて、そのテキストのクラスを、判断規則に基づ
いて容易に推定することができる。このように、判断規
則を利用することにより、新たに与えられたテキストデ
ータを分類の根拠を示して分類可能である。また、生成
された判断規則は、前述したように、利用者の意図に合
ったものであるため、利用者の意図に沿った分類を行う
ことができる。

【００１６】請求項３に記載の発明は、請求項１または
２に記載のテキストデータ分析装置において、前記特徴
分析部が、前記テキスト格納部に格納されているテキス
トに含まれる単語を抽出する形態素解析部と、前記形態
素解析部によって抽出された単語から、前記概念定義辞
書格納部に格納されている単語に基づいてテキストの特
徴を抽出する特徴抽出部とを含み、前記ルール生成部
が、前記特徴抽出部によって抽出されたテキストの特徴
とテキストを分類するクラスから、特徴とそれに対応す
るクラスとを示す事例を生成する事例生成部と、前記事
例生成部によって生成された事例を用いて帰納学習を行
い、判断規則を生成する帰納学習部とを含むことを特徴
とする。

【００１７】請求項９に記載の発明は、請求項３に記載
の発明を方法の観点から把握したものであり、請求項７
または８に記載のテキストデータ分析方法において、請
求項３の発明における形態素解析部、特徴抽出部、事例
生成部、および帰納学習部の各機能に対応するステップ
として、形態素解析ステップ、特徴抽出ステップ、事例
生成ステップ、および帰納学習ステップ、を含むことを
特徴とする。

【００１８】請求項１５に記載の発明は、請求項３、９
に記載の発明を記録媒体の観点から把握したものであ
り、請求項１３または１４に記載の記録媒体において、
請求項９の発明における形態素解析ステップ、特徴抽出
ステップ、事例生成ステップ、および帰納学習ステッ
プ、に対応する処理として、形態素解析処理、特徴抽出
処理、事例生成処理、および帰納学習処理、を含むこと
を特徴とする。

【００１９】以上のような請求項３、９、１５の発明に
よれば、格納されたテキストから単語を抽出し、抽出さ
れた単語から、格納された単語に基づいてテキストの特
徴を抽出し、抽出した特徴とそれに対応するクラスとを
示す事例を生成し、この事例を用いて帰納学習を行うこ
とにより、判断規則を容易に生成することができる。

【００２０】請求項４に記載の発明は、請求項３に記載
のテキストデータ分析装置において、前記概念定義辞書
格納部には、少なくともテキストの複数の属性を示す単
語と各属性の属性値を示す単語が格納されており、前記
特徴抽出部が、前記形態素解析部によって抽出された単
語が前記概念定義辞書格納部に格納されている属性値と
同じ概念を示す場合に、その属性値をテキストの特徴と
して抽出するように構成され、前記事例生成部が、事例
として、前記複数の属性に関する属性値の組合せとそれ
に対応するクラスからなるデータを生成するように構成
されたことを特徴とする。

【００２１】請求項１０に記載の発明は、請求項４に記
載の発明を方法の観点から把握したものであり、請求項
９に記載のテキストデータ分析方法において、概念定義
辞書格納ステップ、特徴抽出ステップ、および事例生成
ステップが、請求項４の発明における概念定義辞書格納
部、特徴抽出部、および事例生成部、の各機能に対応す
ることを特徴とする。

【００２２】以上のような請求項４、１０の発明によれ
ば、概念定義辞書として、複数の属性を示す単語と各属
性の属性値を示す単語を格納しておき、テキストの特徴
として、各属性の属性値をそれぞれ抽出し、属性値の組
合せとそれに対応するクラスからなるデータを事例とし
て生成することにより、この事例を用いて帰納学習を行
い、判断規則を容易に生成することができる。この場
合、利用者の意図に合った属性と属性値を格納しておく
ことにより、属性値の組合せとそれに対応するクラスと
いう単純なデータを用いて、利用者の意図に合った明確
な判断規則を容易に生成することができる。

【００２３】請求項５に記載の発明は、請求項４に記載
のテキストデータ分析装置において、前記概念定義辞書
格納部には、前記複数の属性を示す単語、各属性の属性
値を示す単語、および各属性値と同じ概念を示す表現と
して定義された表層表現を示す単語が、少なくとも３層
以上の階層構造で格納されており、前記特徴抽出部が、
前記形態素解析部によって抽出された単語またはその組
合せが前記概念定義辞書格納部に格納されている表層表
現と一致する場合に、その表層表現の上位に位置する属
性値を抽出するように構成されたことを特徴とする。

【００２４】請求項１１に記載の発明は、請求項５に記
載の発明を方法の観点から把握したものであり、請求項
１０に記載のテキストデータ分析方法において、概念定
義辞書格納ステップおよび特徴抽出ステップが、請求項
５の発明における概念定義辞書格納部および特徴抽出部
の各機能に対応することを特徴とする。

【００２５】以上のような請求項５、１１の発明によれ
ば、属性値と同じ概念を示す表層表現を予め定義してお
くことにより、同じ概念を示す複数の異なる表現を同じ
属性値として処理することができる。したがって、予想
される多様な表層表現を予め定義しておくことにより、
それらの表現を無視することなく、テキストデータをよ
り適切に分析することができる。したがって、利用者の
意図により適合したテキストデータ分析が可能となる。

【００２６】請求項６に記載の発明は、請求項４に記載
のテキストデータ分析装置において、前記帰納学習部
が、前記事例を集めた事例集合を入力し、各属性に対し
てクラスに分類することの良さに関する評価値を計算
し、評価値が最大となる属性を利用して前記事例集合を
複数の部分事例集合に分割し、分割された各部分事例集
合に対して評価値が次に最大となる属性を利用して同様
の分割を行う、という形で分割を再帰的に繰り返すこと
により、ファジィ決定木形式の判断規則を学習するよう
に構成されたことを特徴とする。

【００２７】請求項１２に記載の発明は、請求項６に記
載の発明を方法の観点から把握したものであり、請求項
１０に記載のテキストデータ分析方法において、帰納学
習ステップが、請求項６の発明における帰納学習部の機
能に対応することを特徴とする。

【００２８】以上のような請求項６、１２の発明によれ
ば、前述した文献１：「ファジイ帰納学習アルゴリズム
の改良」に記載されている帰納学習法ＩＤＦを利用する
ことにより、木構造の形式を持った明確な判断規則を効
率よく生成することができる。

【００２９】なお、本発明において重要な用語の定義は
次の通りである。「テキスト」は、一つ以上の単語から
なる文字列である。「テキストデータ」は、テキストを
表現するために、コンピュータ上で処理できるように電
子化されたデータであり、テキスト本体の他、テキスト
番号等の識別を含む。「対象としている分野」は、対象
としているテキストが属する分野あるいはテキストデー
タを用いて分析する対象となる分野である。「判断規
則」は、テキストに対応するクラスを判断するための規
則であり、一般的には、ファジィ決定木形式の規則が生
成されるが、一定の規則性を有する限り、その形式は何
ら限定されない。

【００３０】

【発明の実施の形態】以下には、本発明の実施の形態
（以下「実施形態」と称する）について、図面を参照し
ながら説明する。なお、本発明は、周辺機器を持つコン
ピュータをプログラムで制御することによって実現され
る。この場合、そのプログラムは、本明細書の記載にし
たがった命令を組み合わせることで作成され、既存の手
法を適宜含むものである。また、そのプログラムは、プ
ログラムコードだけでなく、プログラムコードの実行時
に使用するために予め用意されたデータも含む。

【００３１】そして、そのプログラムは、ＣＰＵ、コプ
ロセッサ、各種チップセットといった処理装置、キーボ
ードやマウスといった入力装置、メモリやハードディス
ク装置といった記憶装置、ディスプレイやプリンタとい
った出力装置、等の物理的な資源を活用することで、本
発明の作用効果を実現する。ただし、本発明を実現する
具体的なソフトウェアやハードウェアの構成は、必要に
応じて自由に変更することができる。例えば、ソフトウ
ェアの形式は、コンパイラ、インタプリタ、アセンブラ
など多様であり、外部との情報をやりとりするにも、フ
ロッピー（登録商標）ディスクなどの着脱可能な記録媒
体、ネットワーク接続装置など多様な媒体の使用が考え
られる。また、本発明を実現するプログラムを記録した
ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどの記録媒体は、単独
でも本発明の一態様である。

【００３２】［１．第１の実施形態］［１−１．構成］図１は、本発明を適用した第１の実施
形態に係るテキストデータ分析装置を示す機能ブロック
図である。この図１に示すように、テキストデータ分析
装置は、テキスト格納部Ｆ１、テキストクラス格納部Ｆ
２、概念定義辞書格納部Ｆ３、テキスト分析部Ｆ４、お
よびルール格納部Ｆ５を備えている。さらに、テキスト
分析部Ｆ４は、形態素解析部Ｆ６、特徴抽出部Ｆ７、事
例生成部Ｆ８、帰納学習部Ｆ９を備えている。データの
流れを明瞭に示す観点から、図中において、各部Ｆ１〜
Ｆ９は、データの流れに沿って配置されている。各部Ｆ
１〜Ｆ９の機能は次の通りである。

【００３３】テキスト格納部Ｆ１は、テキストを格納す
る部分である。より詳細には、テキストデータとして、
利用者の意図を反映した複数のテキストとそれに対応す
るテキスト番号とが互いに関連付けられてテキスト格納
部Ｆ１に格納されている。

【００３４】テキストクラス格納部Ｆ２は、テキストを
分類するクラスを格納する部分である。より詳細には、
テキスト格納部Ｆ１に格納されたテキストについて利用
者の意図を反映したクラス分類が予め行われた上で、各
テキスト番号とそれに対応するクラスとが互いに関連付
けられてテキストクラス格納部Ｆ２に格納されている。

【００３５】概念定義辞書格納部Ｆ３は、対象としてい
る分野において重要な概念を示す単語を注目語として格
納する部分である。より詳細には、テキスト格納部Ｆ１
に格納されたテキストについて、利用者の意図を反映し
た複数の属性を示す単語、各属性の属性値を示す単語、
および各属性値と同じ概念を示す表現として定義された
表層表現を示す単語が、少なくとも３層以上の階層構造
で格納されている。

【００３６】テキスト分析部Ｆ４は、テキスト格納部Ｆ
１に格納されているテキスト、概念定義辞書格納部Ｆ３
に格納されている単語、およびテキストクラス格納部Ｆ
２に格納されているクラスを用いて、別のテキストに対
応するクラスを判断するための判断規則を生成する部分
である。ルール格納部Ｆ５は、テキスト分析部Ｆ４によ
って生成された判断規則を格納する部分である。

【００３７】形態素解析部Ｆ６は、テキスト格納部Ｆ１
に格納されているテキストに含まれる単語を抽出する部
分である。より詳細には、テキスト格納部Ｆ１に格納さ
れているテキストを読み込み、そのテキストから最小単
位となる単語を順次切り出して、一つ以上の単語からな
る単語列を生成するようになっている。この場合、語尾
変化がある場合には、終止形あるいは原形となる単語を
抽出するようになっている。

【００３８】特徴抽出部Ｆ７は、形態素解析部Ｆ６によ
って抽出された単語から、概念定義辞書格納部Ｆ３に格
納されている単語に基づいてテキストの特徴を抽出する
部分である。より詳細には、特徴抽出部Ｆ５は、形態素
解析部Ｆ６によって抽出された単語が概念定義辞書格納
部Ｆ３に格納されている属性値と同じ概念を示す場合
に、その属性値をテキストの特徴として抽出するように
なっており、特に、形態素解析部Ｆ６によって抽出され
た単語または隣接する２つの単語の組合せが表層表現と
一致する場合には、その表層表現の上位に位置する属性
値を抽出するようになっている。

【００３９】事例生成部Ｆ８は、特徴抽出部Ｆ７によっ
て抽出されたテキストの特徴とテキストを分類するクラ
スから、テキストの特徴とそれに対応するクラスとを示
す事例を生成する部分である。より詳細には、事例生成
部Ｆ８は、事例として、複数の属性に関する属性値の組
合せとそれに対応するクラスからなるデータを生成する
ようになっている。

【００４０】帰納学習部Ｆ９は、事例生成部Ｆ８によっ
て生成された事例を用いて帰納学習を行い、判断規則を
生成する部分である。この帰納学習部Ｆ９は、前述した
文献１：電気学会Ｃ部門論文誌 No.115、vol.9、p.1057
-1063(1996年)記載の「ファジイ帰納学習アルゴリズム
の改良」(著者:櫻井茂明、荒木大)に記載されている
帰納学習法ＩＤＦを利用して判断規則を学習するように
なっている。

【００４１】［１−２．作用］図２は、図１のテキスト
データ分析装置のテキスト分析部Ｆ４による処理の流れ
を示すフローチャートである。以下には、この図２を参
照しながら、一例として、小売業務における販促活動や
商品の売上動向を記載したテキストから利用者の意図に
合った規則性を発見する場合について説明する。

【００４２】ここで、テキスト格納部Ｆ１には、図３に
示すようなテキスト番号：ｔ１，ｔ２，…、で示される
テキストが格納されているものとする。そして、テキス
トクラス格納部Ｆ２には、図４に示すように、図３の各
テキストを示す各テキスト番号に対して、利用者の意図
を反映した２種類のクラス「注目」、「無視」のいずれ
かが関連付けられて格納されているものとする。

【００４３】また、概念定義辞書格納部Ｆ３には、図５
に示すように、「売上」Ａ１、「季節」Ａ２、「商品」
Ａ３、「売場」Ａ４、「販促活動」Ａ５、などの属性の
階層、その下位の、「良い」Ｖ１−１、「悪い」Ｖ１−
２、などの属性値の階層、さらにその下位の、「売れて
いる」Ｄ１−１−１、「伸びている」Ｄ１−１−２、な
どの表層表現の階層、という３層構造の概念定義辞書が
格納されているものとする。

【００４４】そして、これらの格納部Ｆ１〜Ｆ３に格納
されたデータを用いて、図２に示すような一連の特徴分
析・ルール生成処理が行われる。まず、ステップＳ１０
１において、テキスト分析部Ｆ４は、テキスト格納部Ｆ
１に格納されているテキストの中から一つのテキストを
読み込む。ここでは、例えば、テキスト格納部Ｆ１に予
め格納された複数のテキストｔ１，ｔ２，…、（図３）
の中からテキストｔ１を読み込んだものと仮定する。

【００４５】次に、テキスト分析部Ｆ４は、ステップＳ
１０２において、テキスト格納部Ｆ１から新たに読み込
まれたテキストがあるか否かを判定する。そして、新た
に読み込まれたテキストが存在する場合には、ステップ
Ｓ１０３に処理を進める。また、新たに読み込まれたテ
キストが存在しない場合には、ステップＳ１０４に処理
を進める。したがって、テキストｔ１が読み込まれた場
合には、図３に示すように、ステップＳ１０３に処理が
進む。

【００４６】テキスト分析部Ｆ４は、ステップＳ１０３
において、読み込んだテキストを形態素解析部Ｆ６に入
力し、形態素解析させる。この場合、形態素解析部Ｆ６
は、テキストから最小単位となる単語を順次切り出し、
一つ以上の単語からなる単語列を生成する。したがっ
て、図３に示すテキストｔ１「真夏にシャンプーＡが売
れている。」の形態素解析を行った場合には、図６に示
すように、「真夏、に、シャンプー、Ａ、が、売れる、
いる」という終止形の単語からなる単語列が生成され
る。

【００４７】テキスト分析部Ｆ４は、ステップＳ１０４
において、特徴抽出部Ｆ７により、形態素解析部Ｆ６で
生成された単語列からテキストの特徴を抽出させる。こ
の場合、特徴抽出部Ｆ７は、単語列と、概念定義辞書格
納部Ｆ３に格納されている表層表現とを比較して、その
単語列に含まれる単語または隣接する２つの単語の組合
せと一致する表層表現があるか否かを判断する。そし
て、一致する表層表現がある場合には、その表層表現を
テキストの特徴としてまず抽出し、続いて、その表層表
現の上位に位置する属性値を抽出する。

【００４８】したがって、図６に示すテキストｔ１の単
語列「真夏、に、シャンプー、Ａ、が、売れる、いる」
に対して、図５に示す概念定義辞書を適用した場合に
は、表層表現として「真夏」が抽出されるとともに、
「シャンプー」と「Ａ」の組合せと一致する表層表現と
して「シャンプーＡ」が、また、「売れる」と「いる」
の組合せと一致する表層表現として「売れている」が、
それぞれ抽出される。

【００４９】そして、各表層表現の上位に位置する属性
および属性値を参照することにより、属性「季節」の属
性値として「夏」が、属性「商品」の属性値として「シ
ャンプー」が、また、属性「売上」の属性値として「良
い」が、それぞれ抽出される。ここで、テキストｔ１に
係るこの単語列から、他の表層表現が抽出されないとす
れば、他の属性「売場」、「販促活動」の属性値として
「なし」がそれぞれ割り当てられる。

【００５０】テキスト分析部Ｆ４は、ステップＳ１０５
において、事例生成部Ｆ８により、特徴抽出部Ｆ７で抽
出された特徴から事例を生成させる。この場合、事例生
成部Ｆ８は、特徴抽出部Ｆ７で特徴として抽出された各
属性の属性値の組合せと、テキストクラス格納部Ｆ２に
格納されているテキストのクラスとを組み合わせること
により、事例を生成する。

【００５１】したがって、図６に示すテキストｔ１の単
語列「真夏、に、シャンプー、Ａ、が、売れる、いる」
に関しては、次のようにして事例が生成される。まず、
前述したように、特徴抽出部Ｆ７によって、属性「季
節」の属性値として「夏」が、属性「商品」の属性値と
して「シャンプー」が、また、属性「売上」の属性値と
して「良い」が、残りの属性「売場」、「販促活動」の
属性値として「なし」が、それぞれ与えられている。ま
た、図４に示すように、テキストｔ１のクラスとして
は、「注目」がテキストクラス格納部Ｆ２に格納されて
いる。

【００５２】このような各属性の属性値の組合せ「季
節：夏、商品：シャンプー、売上：良い、販促活動：な
し、売場：なし」、とクラス「注目」とを組み合わせる
ことにより、図７に示すようなテキストｔ１の事例「売
上：良い、商品：シャンプー、季節：夏、販促活動：な
し、売場：なし、クラス：注目」が生成される。

【００５３】テキスト分析部Ｆ４は、ステップＳ１０２
において、新たに読み込まれたテキストの存在が確認さ
れなくなるまで、以上のような一連のステップＳ１０１
〜Ｓ１０５を繰り返す。したがって、上記のように、図
３に示すテキストｔ１の事例を生成した後は、他のテキ
ストｔ２，ｔ３，…、の各々について、同様にして単語
列を生成し、各属性の属性値の組合せを抽出して、その
属性値の組合せをクラスと組合せて同様に事例を生成す
る。図７においては、このようにしてテキストｔ１，ｔ
２，ｔ３，…、に対して順次生成された事例集合の一部
が示されている。

【００５４】テキスト格納部Ｆ１に格納されているすべ
てのテキストに対して事例が生成された場合には、テキ
スト分析部Ｆ４が、ステップＳ１０１において一つのテ
キストを読み込もうとしても、新たなテキストは読み込
まれない（ステップＳ１０２のＮＯ）。この場合に、テ
キスト分析部Ｆ４は、生成した事例集合を帰納学習部Ｆ
９に入力して帰納学習を行わせ、判断規則を学習させ
る。

【００５５】この場合、帰納学習部Ｆ９は、前述した文
献１：「ファジイ帰納学習アルゴリズムの改良」で提案
されている帰納学習法ＩＤＦを利用することにより、木
構造の形式を持った判断規則を生成する。すなわち、帰
納学習部Ｆ９は、事例生成部Ｆ８によって生成された事
例集合の各属性に対してクラスに分類することの良さに
関する評価値を計算する。そして、評価値が最大となる
属性を利用して事例集合を複数の部分事例集合に分割
し、分割された各部分事例集合に対して評価値が次に最
大となる属性を利用して同様の分割を行う、という形で
分割を再帰的に繰り返すことにより、ファジィ決定木形
式の判断規則を学習する。

【００５６】したがって、帰納学習部Ｆ９は、図７に示
す事例集合を入力した場合には、事例集合の属性「売
上」、「商品」、「季節」、「販促活動」、「売場」の
各々に対してクラス「注目」、「無視」に分類すること
の良さに関する評価値を計算する。ここで、評価値が最
大となる属性が「売上」である場合には、この属性「売
上」を利用して事例集合を部分事例集合に分割する。属
性「売上」の属性値は「良い」、「悪い」の２種類であ
るため、２つの部分事例集合に分割する。

【００５７】次に、属性「売上」の属性値が「悪い」と
なる部分事例集合において、評価値が次に最大となる属
性が「売場」である場合には、この属性「売場」を利用
してその部分事例集合をさらに分割する。また、属性
「売上」の属性値が「良い」となる部分事例集合におい
て、評価値が次に最大となる属性が「季節」である場合
には、この属性「季節」を利用してその部分事例集合を
さらに分割する。

【００５８】このようにして分割を再帰的に繰り返すこ
とで、具体的には、図８に示すようなファジィ決定木形
式の判断規則が生成される。この図８においては、最上
位の分岐ノードＢ１から各末端ノードまでの経路が一つ
の判断規則を表している。例えば、最上位の分岐ノード
Ｂ１から図中左端の末端ノードＥ１までの経路は、
「『売上』の属性値が『悪い』で、『売場』の属性値が
『狭い』ならば、『クラス』の値は『無視』である」、
という一つの規則を表現している。

【００５９】テキスト分析部Ｆ４は、最終的に、ステッ
プＳ１０７において、帰納学習部Ｆ９で生成した判断規
則をルール格納部Ｆ５に格納し、処理を終了する。した
がって、図３に示すテキストｔ１，ｔ２，…、から得ら
れた判断規則としては、図８に示すようなファジィ決定
木形式の判断規則がルール格納部Ｆ５に格納される。

【００６０】［１−３．効果］以上のように、本実施形
態によれば、予めテキストを用意するとともに、テキス
トに対して利用者の意図を反映させたクラスを用意し、
また、利用者の意図を反映させた概念定義辞書を予め用
意することにより、これらのデータから利用者の意図に
合った判断規則を容易に生成することができる。

【００６１】また、本実施形態においては、利用者の意
図を反映させた単語の集合として、属性、属性値、およ
び属性値と同じ概念を示す表層表現からなる３層構造の
概念定義辞書を予め用意しておくことにより、属性値の
組合せとそれに対応するクラスという単純なデータを用
いて、利用者の意図に合った明確な判断規則を容易に生
成することができる。特に、属性値と同じ概念を示す表
層表現として存在が予想される多様な表現を予め定義し
ておくことにより、それらの表現を無視することなく、
テキストデータをより適切に分析することができる。し
たがって、利用者の意図により適合したテキストデータ
分析が可能となる。

【００６２】さらに、本実施形態においては、前述した
文献１：「ファジイ帰納学習アルゴリズムの改良」に記
載されている帰納学習法ＩＤＦを利用することにより、
ファジィ決定木形式の明確な判断規則を効率よく生成す
ることができる。

【００６３】［２．第２の実施形態］［２−１．構成］図９は、本発明を適用した第２の実施
形態に係るテキストデータ分析装置を示す機能ブロック
図である。この図９に示すように、本実施形態は、前述
した第１の実施形態の構成において、テキスト分析部４
にテキスト分類部Ｆ１０を加えたものである。ここで、
テキスト分類部Ｆ１０は、判断規則を生成するために使
用されたテキストとは異なる、新たなテキストが所属す
るクラスを推定する部分である。このテキスト分類部Ｆ
１０は、特徴抽出部Ｆ７によって抽出されたテキストの
特徴とルール格納部Ｆ５に格納されている判断規則を用
いて、新たなテキストが所属するクラスを推定するよう
になっている。なお、本実施形態は、このテキスト分類
部Ｆ１０を加えたことを除けば、前述した第１の実施形
態と全く同様であるため、他の部分の説明は省略する。

【００６４】［２−２．作用］図１０は、図９のテキス
トデータ分析装置のテキスト分析部Ｆ４によって新たな
テキストを分類する処理の流れを示すフローチャートで
ある。なお、判断規則を生成するまでの特徴分析・ルー
ル生成処理は、第１の実施形態の処理（図２）と全く同
様であるため、その説明は省略し、ここでは、テキスト
分類部Ｆ１０の追加によって可能となったテキスト分類
処理のみについて説明する。

【００６５】まず、ステップＳ２０１において、テキス
ト分析部Ｆ４は、ルール格納部Ｆ５に格納されている判
断規則を読み込む。ここでは、一例として、前述した第
１の実施形態で作成したファジィ決定木形式の判断規則
（図８）を用いて新たなテキストの分類を行う場合につ
いて説明する。

【００６６】次に、テキスト分析部Ｆ４は、ステップＳ
２０２において、テキスト格納部Ｆ１に格納されたテキ
ストの中から特徴分析・ルール生成処理に使用したテキ
スト以外の、新たなテキストデータを読み込む。ここで
は、テキスト格納部Ｆ１に、図３に示すようなテキスト
ｔ１，ｔ２，…、以外に、例えば、図１１に示すような
新たなテキストｅ１，ｅ２，…、が格納されているもの
とし、このうちのテキストｅ１を読み込んだものと仮定
する。

【００６７】続いて、テキスト分析部Ｆ４は、ステップ
Ｓ２０３において、テキスト格納部Ｆ１から新たに読み
込まれたテキストがあるか否かを判定する。そして、新
たに読み込まれたテキストが存在する場合には、ステッ
プＳ２０４に処理を進める。また、新たに読み込まれた
テキストが存在しない場合には、処理を終了する。した
がって、テキストｅ１が読み込まれた場合には、図１０
に示すように、ステップＳ２０４に処理が進む。

【００６８】テキスト分析部Ｆ４は、ステップＳ２０４
において、読み込んだテキストを形態素解析部Ｆ６に入
力し、形態素解析させる。この場合、形態素解析部Ｆ６
は、前述した特徴分析・ルール生成処理（図２）におけ
るステップＳ１０３の形態素解析処理と同様に、テキス
トから最小単位となる単語を順次切り出し、一つ以上の
単語からなる単語列を生成する。したがって、図１１に
示すテキストｅ１「売場は狭くないが、シャンプーＢが
売れていない。」の形態素解析を行った場合には、図１
２に示すように、「売場、は、狭い、ない、が、シャン
プー、Ｂ、が、売れる、ない」という終止形の単語から
なる単語列が生成される。

【００６９】テキスト分析部Ｆ４は、ステップＳ２０５
において、特徴抽出部Ｆ７により、形態素解析部Ｆ６で
生成された単語列からテキストの特徴を抽出させる。こ
の場合、特徴抽出部Ｆ７は、前述した特徴分析・ルール
生成処理（図２）におけるステップＳ１０４の特徴抽出
処理と同様に、単語列と、概念定義辞書格納部Ｆ３に格
納されている表層表現とを比較して、その単語列に含ま
れる単語または隣接する２つの単語の組合せと一致する
表層表現があるか否かを判断する。そして、一致する表
層表現がある場合には、その表層表現をテキストの特徴
としてまず抽出し、続いて、その表層表現の上位に位置
する属性値を抽出する。

【００７０】したがって、図１２に示すテキストｅ１の
単語列「売場、は、狭い、ない、が、シャンプー、Ｂ、
が、売れる、ない」に対して、図５に示す概念定義辞書
を適用した場合には、「狭い」と「ない」の組合せと一
致する表層表現として「狭くない」が、「シャンプー」
と「Ｂ」の組合せと一致する表層表現として「シャンプ
ーＢ」が、また、「売れる」と「ない」の組合せと一致
する表層表現として「売れていない」が、それぞれ抽出
される。

【００７１】そして、各表層表現の上位に位置する属性
および属性値を参照することにより、属性「売場」の属
性値として「普通」が、属性「商品」の属性値として
「シャンプー」が、また、属性「売上」の属性値として
「悪い」が、それぞれ抽出される。ここで、テキストｅ
１に係るこの単語列から、他の表層表現が抽出されない
とすれば、他の属性「季節」、「販促活動」の属性値と
して「なし」がそれぞれ割り当てられる。したがって、
テキストｅ１に対して、図１３に示すようなテキストｅ
１の特徴「売上：悪い、商品：シャンプー、季節：な
し、販促活動：なし、売場：普通」が抽出される。

【００７２】テキスト分析部Ｆ４は、ステップＳ２０６
において、テキスト分類部Ｆ１０により、特徴抽出部Ｆ
７で抽出された特徴からテキストが属するクラスを推論
させる。この場合、テキスト分類部Ｆ１０は、特徴抽出
部Ｆ７で特徴として抽出された各属性の属性値の組合せ
を、ルール格納部Ｆ５から読み込んだ判断規則に適用す
ることにより、テキストに対応するクラスを推論する。

【００７３】したがって、図１１に示すテキストｅ１に
対応するクラスの推論に当たっては、図１３に示すよう
なテキストｅ１の特徴を図８に示すファジィ決定木形式
の判断規則に適用して、次のような推論処理を行う。初
めに、図８に示す判断規則における最上位の属性「売
上」の値が評価される。この場合、テキストｅ１におけ
る属性「売上」の属性値は、「悪い」と与えられている
ので、分岐ノードＢ２に伝播する。

【００７４】次に、分岐ノードＢ２の属性「売場」を評
価すると、属性値「普通」と与えられており、当該ノー
ドに割り当てられている属性値「広い」、「狭い」に該
当する属性値が存在しない。そこで、確信度０．５ずつ
を与えてテキストｅ１を末端ノードＥ１および分岐ノー
ドＢ４にそれぞれ伝播させる。

【００７５】このうち、末端ノードＥ１に到達したテキ
ストｅ１は、さらに下位のノードに伝播する必要がない
ので、処理を終了する。一方、分岐ノードＢ４に伝播し
たテキストｅ１は、この分岐ノードＢ４の属性「販促活
動」についてさらに評価される。この場合、テキストｅ
１の属性「販促活動」の属性値は「なし」と与えられて
いるので、テキストｅ１は末端ノードＥ４に伝搬する。

【００７６】テキスト分類部Ｆ１０は、テキストｅ１が
末端ノードＥ１，Ｅ４に伝搬した時点で、クラスごとに
確信度を合計することにより、確信度の最大値を与える
クラスを選択する。すなわち、テキストｅ１に対応する
クラスとしては、末端ノードＥ１のクラス「無視」の確
信度が０．５であり、また、末端ノードＥ４のクラス
「無視」の確信度が０．５であることから、クラス「無
視」の確信度の合計が１となるため、クラス「無視」が
推論される。なお、図１４は、以上に説明したテキスト
ｅ１の推論の流れを示している。

【００７７】テキスト分析部Ｆ４は、最終的に、ステッ
プＳ２０７において、テキストに対して推論されたクラ
スを、推論判断に利用された判断規則とともにテキスト
クラス格納部Ｆ２に格納する。したがって、図１１に示
すテキストｅ１に関しては、対応するクラスとして「無
視」が、また、根拠となる判断規則として「分岐ノード
Ｂ１から末端ノードＥ１まで、確信度０．５」、「分岐
ノードＢ１から末端ノードＥ４まで、確信度０．５」を
テキストクラス格納部Ｆ２に格納する。すなわち、図１
５に示すようなテキストｅ１の推論結果が格納される。

【００７８】テキスト分析部Ｆ４は、ステップＳ２０３
において、新たに読み込まれたテキストの存在が確認さ
れなくなるまで、以上のような一連のステップＳ２０１
〜Ｓ２０７を繰り返す。したがって、上記のように、図
１１に示すテキストｅ１の特徴を分析し、クラスを推論
し、推論結果を格納した後は、他のテキストｅ２，ｅ
３，…、の各々について、同様にしてテキストの特徴を
分析し、クラスを推論し、推論結果を格納する。図１５
においては、このようにしてテキストｅ１，ｅ２，ｅ
３，…、に対して順次格納された推論結果の一部が示さ
れている。

【００７９】［２−３．効果］以上のように、本実施形
態においては、テキスト分類部Ｆ１０により、既存のテ
キストｔ１，ｔ２，…、から生成された判断規則に基づ
いて、新たに与えられたテキストｅ１，ｅ２，…、に対
応するクラスを容易に推定することができるため、前述
した第１の実施形態の効果に加えて、さらに、新たに与
えられたテキストを判断規則という分類の根拠を示して
分類可能である、という効果が得られる。また、既存の
テキストから生成された判断規則は、第１の実施形態に
ついて前述したように、利用者の意図に合ったものであ
るため、利用者の意図に沿ったクラス分類を行うことが
できる。

【００８０】［３．他の実施形態］なお、本発明は、前
述した実施形態に限定されるものではなく、本発明の範
囲内で他にも多種多様な変形例が実施可能である。例え
ば、概念定義辞書格納部Ｆ３に格納する概念定義辞書
は、必ずしも三層構造である必要はない。より深い階層
を与えた場合でも、属性および属性値を適切に設定する
ことにより、特徴抽出部Ｆ７においてテキストから特徴
を抽出することが可能である。

【００８１】また、ルール生成の際に利用するテキスト
クラス格納部Ｆ２に格納する各テキストのクラスは、必
ずしも一つに限定する必要はない。このようなクラス
は、利用者ごとに設定したり、同一の利用者であって
も、テキストから抽出したい意図が変化したり、複数の
観点を持っていることがある。したがって、ルールの生
成に先立って、どのクラスを利用するかを指定すること
により、各テキストに対して複数のクラスを格納するこ
とも可能である。

【００８２】これに関連して、テキスト分類部Ｆ１０に
おいては、テキストを一つのクラスに分類していたが、
必ずしも一つのクラスに分類する必要はない。確信度を
付して複数のクラスを割り当てることも可能である。例
えば、図１５に示す推論結果のうち、テキストｅ３に関
しては、対応するクラスとして「無視」が、また、根拠
となる判断規則として「分岐ノードＢ１から末端ノード
Ｅ７まで、確信度０．３３３」、「分岐ノードＢ１から
末端ノードＥ８まで、確信度０．３３３」、「分岐ノー
ドＢ１から末端ノードＥ９まで、確信度０．３３３」、
が得られている。

【００８３】この場合、末端ノードＥ７のクラスは「注
目」、末端ノードＥ８，Ｅ９のクラスは「無視」である
ため、テキストｅ３に関して、クラス「注目」の確信度
の合計は０．３３３であり、クラス「無視」の確信度の
合計は０．６６６である。したがって、テキストｅ３に
ついては、確信度「０．３３３」を付したクラス「注
目」と、確信度「０．６６６」を付したクラス「無視」
という２つのクラスを割り当てることが考えられる。

【００８４】また、前記実施形態においては、ルール生
成に使用するクラスを格納したテキストクラス格納部Ｆ
２に、テキスト分類部Ｆ１０で得られた推論結果を格納
する場合について説明したが、推論結果を、ルール生成
に使用したクラスと全く別に格納してもよい。これに関
連して、前記実施形態においては、ルール生成に使用す
るテキストを格納したテキスト格納部Ｆ１に、別の新た
なテキストを格納する場合について説明したが、新たな
テキストを、ルール生成に使用したテキストと全く別に
格納してもよい。

【００８５】そしてまた、前記実施形態においては、前
述した文献１：「ファジイ帰納学習アルゴリズムの改
良」に記載されている帰納学習法ＩＤＦを利用して判断
規則を生成する場合について説明したが、他の適当な手
法を適宜利用して判断規則を生成することも可能であ
る。すなわち、本発明においては、テキストと、テキス
トを分類するクラスと、重要な概念を示す概念定義辞書
とをそれぞれ予め格納しておくことにより、格納された
テキストから概念定義辞書に基づいてテキストの特徴を
求め、得られたテキストの特徴とクラスに基づいて判断
規則を生成することが可能である限り、各部の具体的な
構成や関係などは自由に選択可能である。

【００８６】

【発明の効果】以上に説明した通り、本発明によれば、
テキストと、テキストを分類するクラスと、重要な概念
を示す概念定義辞書とをそれぞれ予め格納しておき、格
納されたテキストから概念定義辞書に基づいてテキスト
の特徴を求め、得られたテキストの特徴とクラスに基づ
いて判断規則を生成することにより、テキストデータか
ら利用者の意図に合った規則性を容易に発見可能なテキ
ストデータ分析装置および方法を提供することができ
る。また、獲得した規則性を利用することにより、新た
に与えられたテキストデータを、判断規則という分類の
根拠を示して分類し、提示することが可能なテキストデ
ータ分析装置および方法を提供することができる。

【図面の簡単な説明】

【図１】本発明を適用した第１の実施形態に係るテキス
トデータ分析装置を示す機能ブロック図。

【図２】図１のテキストデータ分析装置のテキスト分析
部による処理の流れを示すフローチャート。

【図３】図１のテキスト格納部に格納され、ルール生成
に使用されるテキストの一例を示すデータ構造図。

【図４】図１のテキストクラス格納部にテキストに対応
するクラスとして格納されるクラスの一例を示すデータ
構造図。

【図５】図１の概念定義辞書格納部に格納される概念定
義辞書の一例を示すデータ構造図。

【図６】図３のテキストの一つから図１の形態素解析部
により得られる単語列の一例を示すデータ構造図。

【図７】図３のテキストから図１の事例生成部により生
成される事例集合を示すデータ構造図。

【図８】図３のテキストから図１の帰納学習部により生
成され、ルール格納部に格納される判断規則の一例を示
すデータ構造図。

【図９】本発明を適用した第２の実施形態に係るテキス
トデータ分析装置を示す機能ブロック図。

【図１０】図９のテキストデータ分析装置において、ル
ール格納部に格納されている判断規則に基づいて新たな
テキストを分類する際のテキストの一例を示すフローチ
ャート。

【図１１】図１のテキスト格納部に新たに格納されるテ
キストの一例を示すデータ構造図。

【図１２】図１１のテキストの一つから図１０の形態素
解析部により得られる単語列の一例を示すデータ構造
図。

【図１３】図１１のテキストから図１０の特徴抽出部に
より得られる特徴を示すデータ構造図。

【図１４】図１０のテキスト分類部により図８の判断規
則に基づいて図１１のテキストに図１３の特徴を適用し
た場合における一つのテキストに関する推論の流れを示
す説明図。

【図１５】図１１のテキストに対して、図１０のテキス
ト分類部により推論されたクラスおよびその根拠として
示される確信度付きの判断規則を示すデータ構造図。

【符号の説明】

Ｆ１…テキスト格納部Ｆ２…テキストクラス格納部Ｆ３…概念定義辞書格納部Ｆ４…テキスト分析部Ｆ５…ルール格納部Ｆ６…形態素解析部Ｆ７…特徴抽出部Ｆ８…事例生成部Ｆ９…帰納学習部Ｆ１０…テキスト分類部Ｓ１０１〜Ｓ１０７…特徴分析・ルール生成処理の各ス
テップ番号Ｓ２０１〜Ｓ２０７…テキスト分類処理の各ステップ番
号Ａ１〜Ａ５…概念定義辞書格納部に格納される属性の通
し番号Ｖ１−１〜Ｖ５−２…概念定義辞書格納部に格納される
属性値の通し番号Ｄ１−１−１〜Ｄ５−２−２…概念定義辞書格納部に格
納される表層表現の通し番号ｔ１〜ｔ５，ｅ１〜ｅ３…テキストの通し番号Ｂ１〜Ｂ５…ルール格納部に格納される木構造形式で記
載された判断規則の分岐ノードの通し番号Ｅ１〜Ｅ９…ルール格納部に格納される木構造形式で記
載された判断規則の末端ノードの通し番号

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 19/00 １３０Ｇ０６Ｆ 19/00 １３０

Claims

【特許請求の範囲】

【請求項１】テキストを格納するテキスト格納部と、テキストを分類するクラスを格納するテキストクラス格
納部と、対象としている分野において重要な概念を示す単語の集
合を概念定義辞書として格納する概念定義辞書格納部
と、前記概念定義辞書格納部に格納されている単語に基づい
て、前記テキスト格納部に格納されているテキストの特
徴を求める特徴分析部と、前記特徴分析部によって得られたテキストの特徴と前記
テキストクラス格納部に格納されているクラスに基づい
て、別のテキストに対応するクラスを判断するための判
断規則を生成するルール生成部とを有することを特徴と
するテキストデータ分析装置。
【請求項２】前記ルール生成部によって生成された判
断規則を格納するルール格納部と、前記ルール生成部によって判断規則を生成するために使
用されたテキストとは異なるテキストが所属するクラス
を、前記特徴分析部によって得られたテキストの特徴と
前記ルール格納部に格納されている判断規則に基づいて
推定するテキスト分類部とを有することを特徴とする請
求項１に記載のテキストデータ分析装置。
【請求項３】前記特徴分析部は、前記テキスト格納部に格納されているテキストに含まれ
る単語を抽出する形態素解析部と、前記形態素解析部によって抽出された単語から、前記概
念定義辞書格納部に格納されている単語に基づいてテキ
ストの特徴を抽出する特徴抽出部とを含み、前記ルール生成部は、前記特徴抽出部によって抽出されたテキストの特徴とテ
キストを分類するクラスから、特徴とそれに対応するク
ラスとを示す事例を生成する事例生成部と、前記事例生成部によって生成された事例を用いて帰納学
習を行い、判断規則を生成する帰納学習部とを含むこと
を特徴とする請求項１または２に記載のテキストデータ
分析装置。
【請求項４】前記概念定義辞書格納部には、少なくと
もテキストの複数の属性を示す単語と各属性の属性値を
示す単語が格納されており、前記特徴抽出部は、前記形態素解析部によって抽出され
た単語が前記概念定義辞書格納部に格納されている属性
値と同じ概念を示す場合に、その属性値をテキストの特
徴として抽出するように構成され、前記事例生成部は、事例として、前記複数の属性に関す
る属性値の組合せとそれに対応するクラスからなるデー
タを生成するように構成されたことを特徴とする請求項
３に記載のテキストデータ分析装置。
【請求項５】前記概念定義辞書格納部には、前記複数
の属性を示す単語、各属性の属性値を示す単語、および
各属性値と同じ概念を示す表現として定義された表層表
現を示す単語が、少なくとも３層以上の階層構造で格納
されており、前記特徴抽出部は、前記形態素解析部によって抽出され
た単語またはその組合せが前記概念定義辞書格納部に格
納されている表層表現と一致する場合に、その表層表現
の上位に位置する属性値を抽出するように構成されたこ
とを特徴とする請求項４に記載のテキストデータ分析装
置。
【請求項６】前記帰納学習部は、前記事例を集めた事
例集合を入力し、各属性に対してクラスに分類すること
の良さに関する評価値を計算し、評価値が最大となる属
性を利用して前記事例集合を複数の部分事例集合に分割
し、分割された各部分事例集合に対して評価値が次に最
大となる属性を利用して同様の分割を行う、という形で
分割を再帰的に繰り返すことにより、ファジィ決定木形
式の判断規則を学習するように構成されたことを特徴と
する請求項４に記載のテキストデータ分析装置。
【請求項７】テキストを格納するテキスト格納ステッ
プと、テキストを分類するクラスを格納するテキストクラス格
納ステップと、対象としている分野において重要な概念を示す単語の集
合を概念定義辞書として格納する概念定義辞書格納ステ
ップと、前記概念定義辞書格納ステップにおいて格納された単語
に基づいて、前記テキスト格納ステップにおいて格納さ
れたテキストの特徴を求める特徴分析ステップと、前記特徴分析ステップによって得られたテキストの特徴
と前記テキストクラス格納ステップにおいて格納された
クラスに基づいて、別のテキストに対応するクラスを判
断するための判断規則を生成するルール生成ステップと
を有することを特徴とするテキストデータ分析方法。
【請求項８】前記ルール生成ステップによって生成さ
れた判断規則を格納するルール格納ステップと、前記ルール生成ステップにおいて判断規則を生成するた
めに使用されたテキストとは異なるテキストが所属する
クラスを、前記特徴分析ステップによって得られたテキ
ストの特徴と前記ルール格納ステップにおいて格納され
た判断規則に基づいて推定するテキスト分類ステップと
を有することを特徴とする請求項７に記載のテキストデ
ータ分析方法。
【請求項９】前記特徴分析ステップは、前記テキスト格納ステップにおいて格納されたテキスト
に含まれる単語を抽出する形態素解析ステップと、前記形態素解析ステップによって抽出された単語から、
前記概念定義辞書格納ステップにおいて格納された単語
に基づいてテキストの特徴を抽出する特徴抽出ステップ
とを含み、前記ルール生成ステップは、前記特徴抽出ステップによって抽出されたテキストの特
徴とテキストを分類するクラスから、特徴とそれに対応
するクラスとを示す事例を生成する事例生成ステップ
と、前記事例生成ステップによって生成された事例を用いて
帰納学習を行い、判断規則を生成する帰納学習ステップ
とを含むことを特徴とする請求項７または８に記載のテ
キストデータ分析方法。
【請求項１０】前記概念定義辞書格納ステップにおい
ては、少なくともテキストの複数の属性を示す単語と各
属性の属性値を示す単語が格納され、前記特徴抽出ステップは、前記形態素解析ステップによ
って抽出された単語が前記概念定義辞書格納ステップに
おいて格納された属性値と同じ概念を示す場合に、その
属性値をテキストの特徴として抽出し、前記事例生成ステップは、事例として、前記複数の属性
に関する属性値の組合せとそれに対応するクラスからな
るデータを生成することを特徴とする請求項９に記載の
テキストデータ分析方法。
【請求項１１】前記概念定義辞書格納ステップにおい
ては、前記複数の属性を示す単語、各属性の属性値を示
す単語、および各属性値と同じ概念を示す表現として定
義された表層表現を示す単語が、少なくとも３層以上の
階層構造で格納され、前記特徴抽出ステップにおいては、前記形態素解析ステ
ップによって抽出された単語またはその組合せが前記概
念定義辞書格納ステップにおいて格納された前記表層表
現と一致する場合に、その表層表現の上位に位置する属
性値を抽出することを特徴とする請求項１０に記載のテ
キストデータ分析方法。
【請求項１２】前記帰納学習ステップは、前記事例を
集めた事例集合を入力し、各属性に対してクラスに分類
することの良さに関する評価値を計算し、評価値が最大
となる属性を利用して前記事例集合を複数の部分事例集
合に分割し、分割された各部分事例集合に対して評価値
が次に最大となる属性を利用して同様の分割を行う、と
いう形で分割を再帰的に繰り返すことにより、ファジィ
決定木形式の判断規則を学習することを特徴とする請求
項１０に記載のテキストデータ分析方法。
【請求項１３】テキストデータを分析するためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
において、前記プログラムは、コンピュータに、テキストを格納するテキスト格納処理と、テキストを分類するクラスを格納するテキストクラス格
納処理と、対象としている分野において重要な概念を示す単語の集
合を概念定義辞書として格納する概念定義辞書格納処理
と、前記概念定義辞書格納処理において格納された単語に基
づいて、前記テキスト格納処理において格納されたテキ
ストの特徴を求める特徴分析処理と、前記特徴分析処理によって得られたテキストの特徴と前
記テキストクラス格納処理において格納されたクラスに
基づいて、別のテキストに対応するクラスを判断するた
めの判断規則を生成するルール生成処理とを実行させる
ことを特徴とする記録媒体。
【請求項１４】前記プログラムは、コンピュータに、前記帰納学習処理によって生成された判断規則を格納す
るルール格納処理と、前記ルール生成処理において判断規則を生成するために
使用されたテキストとは異なるテキストが所属するクラ
スを、前記特徴分析処理によって得られたテキストの特
徴と前記ルール格納処理において格納された判断規則に
基づいて推定するテキスト分類処理とを実行させること
を特徴とする請求項１３に記載の記録媒体。
【請求項１５】前記特徴分析処理は、前記テキスト格納処理において格納されたテキストに含
まれる単語を抽出する形態素解析処理と、前記形態素解析処理によって抽出された単語から、前記
概念定義辞書格納処理において格納された単語に基づい
てテキストの特徴を抽出する特徴抽出処理とを含み、前記ルール生成ステップは、前記特徴抽出処理によって抽出されたテキストの特徴と
テキストを分類するクラスから、特徴とそれに対応する
クラスとを示す事例を生成する事例生成処理と、前記事例生成処理によって生成された事例を用いて帰納
学習を行い、別のテキストに対応するクラスを判断する
ための判断規則を生成する帰納学習処理とを含むことを
特徴とする請求項１３または１４に記載の記録媒体。
【請求項１６】コンピュータに、テキストを格納するテキスト格納機能と、テキストを分類するクラスを格納するテキストクラス格
納機能と、対象としている分野において重要な概念を示す単語の集
合を概念定義辞書として格納する概念定義辞書格納機能
と、前記概念定義辞書格納機能によって格納された単語に基
づいて、前記テキスト格納機能によって格納されたテキ
ストの特徴を求める特徴分析機能と、前記特徴分析機能によって得られたテキストの特徴と前
記テキストクラス格納機能によって格納されたクラスに
基づいて、別のテキストに対応するクラスを判断するた
めの判断規則を生成するルール生成機能とを実現させる
ことを特徴とするコンピュータプログラム。