JP2002149675A - テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体 - Google Patents

テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体

Info

Publication number
JP2002149675A
JP2002149675A JP2000348286A JP2000348286A JP2002149675A JP 2002149675 A JP2002149675 A JP 2002149675A JP 2000348286 A JP2000348286 A JP 2000348286A JP 2000348286 A JP2000348286 A JP 2000348286A JP 2002149675 A JP2002149675 A JP 2002149675A
Authority
JP
Japan
Prior art keywords
text
class
stored
rule
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000348286A
Other languages
English (en)
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000348286A priority Critical patent/JP2002149675A/ja
Publication of JP2002149675A publication Critical patent/JP2002149675A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 テキストデータから利用者の意図に合った規
則性を容易に発見可能なテキストデータ分析装置および
方法を提供する。 【解決手段】 テキスト格納部F1にテキストを格納
し、テキストクラス格納部F2にテキストを分類するク
ラスを格納し、概念定義辞書格納部F3に対象としてい
る分野において重要な概念を示す単語の集合を概念定義
辞書として格納する。テキスト分析部F4は、形態素解
析部F6によってテキストから単語列を生成し、得られ
た単語列から特徴抽出部F7によってテキストの特徴を
抽出し、事例生成部F8によってテキストの特徴とそれ
に対応するクラスとを示す事例を生成し、生成された事
例を用いて帰納学習部F9によって帰納学習を行い、判
断規則を生成し、得られた判断規則をルール格納部F5
に格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ上に
蓄積されている電子化されたテキスト、例えば、小売業
務における販売員の営業活動及び商品の売上動向を記載
したテキスト、ヘルプデスク業務における顧客からの様
々な問い合わせと回答内容を記載したテキスト、等から
当該テキストに内在する規則性を発見し、利用者の意思
決定を支援するための装置及びその方法に関するもので
ある。
【0002】
【従来の技術】データの電子媒体上への格納が進むに連
れて、蓄積されている大量のデータの中から必要な情報
を効率よく抽出することが必要になってきている。この
問題に対して、文献1:電気学会C部門論文誌 No.11
5、vol.9、p.1057-1063(1996年)記載の「ファジイ帰納
学習アルゴリズムの改良」(著者:櫻井 茂明、荒木 大)
では、表形式に記述されたデータを入力として与えるこ
とにより、データに内在する規則性を発見する手法が開
示されている。しかしながら、この手法においては、入
力として与えられるデータは表形式のデータに限定され
ており、より自由な記述の可能なテキストデータから規
則性を発見することはできなかった。
【0003】また、文献2:特開平11−134364
号公報記載の「体系化知識解析方法及び装置並びに分類
方法及び装置」(発明者:呉 亜棟)では、分類済のテキ
ストデータの中からそのクラスを特徴付ける平均的な特
徴量を抽出し、新たなテキストの特徴量とクラスの特徴
量を比較することにより、テキストの自動分類を行う手
法が開示されている。しかしながら、この手法において
は、テキストデータを利用できるものの、各クラスと特
徴量の間に存在する規則性を発見することはできない。
このため、テキストデータが当該クラスに分類される根
拠を示すことができなかった。
【0004】さらには、文献3:特開2000−172
691号記載の「情報マイニング方法、情報マイニング
装置、および情報マイニンングプログラムを記載したコ
ンピュータ読み取り可能な記録媒体」(発明者:藤井
洋一)では、多数のテキストの中から重要な単語を抽出
し、同一のテキストの中に同時に出現する単語の出現頻
度を計算することにより、単語間に内在する規則性を発
見する手法が開示されている。しかしながら、この手法
において、単語間の規則性には、利用者の意図を反映さ
せることができないため、利用者の意図に合った規則性
を発見することができなかった。
【0005】
【発明が解決しようとする課題】本発明は、上記の事情
を考慮してなされたものであり、その目的は、テキスト
データから利用者の意図に合った規則性を容易に発見可
能なテキストデータ分析装置および方法を提供すること
である。また、本発明の別の目的は、既存のテキストデ
ータから発見された規則性を利用することにより、新た
に与えられたテキストデータを分類の根拠を示して分類
可能なテキストデータ分析装置および方法を提供するこ
とである。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明のテキストデータ分析装置および方法は、テ
キスト、テキストを分類するクラス、および重要な概念
を示す単語を予め用意することにより、これらのデータ
を用いて利用者の意図に合った規則性を容易に発見でき
るようにしたものである。
【0007】請求項1に記載の発明は、テキストデータ
分析装置であり、テキストを格納するテキスト格納部
と、テキストを分類するクラスを格納するテキストクラ
ス格納部と、対象としている分野において重要な概念を
示す単語の集合を概念定義辞書として格納する概念定義
辞書格納部と、前記概念定義辞書格納部に格納されてい
る単語に基づいて、前記テキスト格納部に格納されてい
るテキストの特徴を求める特徴分析部と、前記特徴分析
部によって得られたテキストの特徴と前記テキストクラ
ス格納部に格納されているクラスに基づいて、別のテキ
ストに対応するクラスを判断するための判断規則を生成
するルール生成部とを有することを特徴とする。
【0008】請求項7に記載の発明は、請求項1に記載
の発明を方法の観点から把握したテキストデータ分析方
法であり、請求項1の発明におけるテキスト格納部、テ
キストクラス格納部、概念定義辞書格納部、特徴分析
部、およびルール生成部、の各機能に対応するステップ
として、テキスト格納ステップ、テキストクラス格納ス
テップ、概念定義辞書格納ステップ、特徴分析ステッ
プ、およびルール生成ステップ、を有することを特徴と
する。
【0009】請求項13に記載の発明は、請求項1、7
に記載の発明を記録媒体の観点から把握したものであ
り、テキストデータを分析するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体において、プ
ログラムが、コンピュータに、請求項7の発明における
テキスト格納ステップ、テキストクラス格納ステップ、
概念定義辞書格納ステップ、特徴分析ステップ、および
ルール生成ステップ、に対応する処理として、テキスト
格納処理、テキストクラス格納処理、概念定義辞書格納
処理、特徴分析処理、およびルール生成処理、を実行さ
せることを特徴とする。
【0010】請求項16に記載の発明は、請求項1、
7、13に記載の発明をコンピュータプログラムの観点
から把握したものであり、コンピュータに、請求項13
の発明におけるテキスト格納処理、テキストクラス格納
処理、概念定義辞書格納処理、特徴分析処理、およびル
ール生成処理、に対応する機能として、テキスト格納機
能、テキストクラス格納機能、概念定義辞書格納機能、
特徴分析機能、およびルール生成機能を実現させること
を特徴とする。
【0011】以上のような請求項1、7、13、16の
発明によれば、テキストを格納することに加えて、テキ
ストを分類するクラスと、重要な概念を示す概念定義辞
書とをそれぞれ予め格納しておくことにより、格納され
たテキストから概念定義辞書に基づいてテキストの特徴
を求め、得られたテキストの特徴とクラスに基づいて判
断規則を生成することができる。したがって、予めテキ
ストを用意するとともに、テキストに対して利用者の意
図を反映させたクラスを用意し、また、利用者の意図を
反映させた概念定義辞書を予め用意することにより、こ
れらのデータから利用者の意図に合った判断規則を容易
に生成することができる。
【0012】請求項2に記載の発明は、請求項1に記載
のテキストデータ分析装置において、前記ルール生成部
によって生成された判断規則を格納するルール格納部
と、前記ルール生成部によって判断規則を生成するため
に使用されたテキストとは異なるテキストが所属するク
ラスを、前記特徴分析部によって得られたテキストの特
徴と前記ルール格納部に格納されている判断規則に基づ
いて推定するテキスト分類部とを有することを特徴とす
る。
【0013】請求項8に記載の発明は、請求項2に記載
の発明を方法の観点から把握したものであり、請求項7
に記載のテキストデータ分析方法において、請求項2の
発明におけるルール格納部およびテキスト分類部に対応
するステップとして、ルール格納ステップおよびテキス
ト分類ステップを有することを特徴とする。
【0014】請求項14に記載の発明は、請求項2、8
に記載の発明を記録媒体の観点から把握したものであ
り、請求項13に記載の記録媒体において、プログラム
が、コンピュータに、請求項8の発明におけるルール格
納ステップおよびテキスト分類ステップに対応する処理
として、ルール格納処理とテキスト分類処理を実行させ
ることを特徴とする。
【0015】以上のような請求項2、8、14の発明に
よれば、既存のテキストデータから生成された判断規則
を格納することにより、新たに与えられたテキストデー
タについて、そのテキストのクラスを、判断規則に基づ
いて容易に推定することができる。このように、判断規
則を利用することにより、新たに与えられたテキストデ
ータを分類の根拠を示して分類可能である。また、生成
された判断規則は、前述したように、利用者の意図に合
ったものであるため、利用者の意図に沿った分類を行う
ことができる。
【0016】請求項3に記載の発明は、請求項1または
2に記載のテキストデータ分析装置において、前記特徴
分析部が、前記テキスト格納部に格納されているテキス
トに含まれる単語を抽出する形態素解析部と、前記形態
素解析部によって抽出された単語から、前記概念定義辞
書格納部に格納されている単語に基づいてテキストの特
徴を抽出する特徴抽出部とを含み、前記ルール生成部
が、前記特徴抽出部によって抽出されたテキストの特徴
とテキストを分類するクラスから、特徴とそれに対応す
るクラスとを示す事例を生成する事例生成部と、前記事
例生成部によって生成された事例を用いて帰納学習を行
い、判断規則を生成する帰納学習部とを含むことを特徴
とする。
【0017】請求項9に記載の発明は、請求項3に記載
の発明を方法の観点から把握したものであり、請求項7
または8に記載のテキストデータ分析方法において、請
求項3の発明における形態素解析部、特徴抽出部、事例
生成部、および帰納学習部の各機能に対応するステップ
として、形態素解析ステップ、特徴抽出ステップ、事例
生成ステップ、および帰納学習ステップ、を含むことを
特徴とする。
【0018】請求項15に記載の発明は、請求項3、9
に記載の発明を記録媒体の観点から把握したものであ
り、請求項13または14に記載の記録媒体において、
請求項9の発明における形態素解析ステップ、特徴抽出
ステップ、事例生成ステップ、および帰納学習ステッ
プ、に対応する処理として、形態素解析処理、特徴抽出
処理、事例生成処理、および帰納学習処理、を含むこと
を特徴とする。
【0019】以上のような請求項3、9、15の発明に
よれば、格納されたテキストから単語を抽出し、抽出さ
れた単語から、格納された単語に基づいてテキストの特
徴を抽出し、抽出した特徴とそれに対応するクラスとを
示す事例を生成し、この事例を用いて帰納学習を行うこ
とにより、判断規則を容易に生成することができる。
【0020】請求項4に記載の発明は、請求項3に記載
のテキストデータ分析装置において、前記概念定義辞書
格納部には、少なくともテキストの複数の属性を示す単
語と各属性の属性値を示す単語が格納されており、前記
特徴抽出部が、前記形態素解析部によって抽出された単
語が前記概念定義辞書格納部に格納されている属性値と
同じ概念を示す場合に、その属性値をテキストの特徴と
して抽出するように構成され、前記事例生成部が、事例
として、前記複数の属性に関する属性値の組合せとそれ
に対応するクラスからなるデータを生成するように構成
されたことを特徴とする。
【0021】請求項10に記載の発明は、請求項4に記
載の発明を方法の観点から把握したものであり、請求項
9に記載のテキストデータ分析方法において、概念定義
辞書格納ステップ、特徴抽出ステップ、および事例生成
ステップが、請求項4の発明における概念定義辞書格納
部、特徴抽出部、および事例生成部、の各機能に対応す
ることを特徴とする。
【0022】以上のような請求項4、10の発明によれ
ば、概念定義辞書として、複数の属性を示す単語と各属
性の属性値を示す単語を格納しておき、テキストの特徴
として、各属性の属性値をそれぞれ抽出し、属性値の組
合せとそれに対応するクラスからなるデータを事例とし
て生成することにより、この事例を用いて帰納学習を行
い、判断規則を容易に生成することができる。この場
合、利用者の意図に合った属性と属性値を格納しておく
ことにより、属性値の組合せとそれに対応するクラスと
いう単純なデータを用いて、利用者の意図に合った明確
な判断規則を容易に生成することができる。
【0023】請求項5に記載の発明は、請求項4に記載
のテキストデータ分析装置において、前記概念定義辞書
格納部には、前記複数の属性を示す単語、各属性の属性
値を示す単語、および各属性値と同じ概念を示す表現と
して定義された表層表現を示す単語が、少なくとも3層
以上の階層構造で格納されており、前記特徴抽出部が、
前記形態素解析部によって抽出された単語またはその組
合せが前記概念定義辞書格納部に格納されている表層表
現と一致する場合に、その表層表現の上位に位置する属
性値を抽出するように構成されたことを特徴とする。
【0024】請求項11に記載の発明は、請求項5に記
載の発明を方法の観点から把握したものであり、請求項
10に記載のテキストデータ分析方法において、概念定
義辞書格納ステップおよび特徴抽出ステップが、請求項
5の発明における概念定義辞書格納部および特徴抽出部
の各機能に対応することを特徴とする。
【0025】以上のような請求項5、11の発明によれ
ば、属性値と同じ概念を示す表層表現を予め定義してお
くことにより、同じ概念を示す複数の異なる表現を同じ
属性値として処理することができる。したがって、予想
される多様な表層表現を予め定義しておくことにより、
それらの表現を無視することなく、テキストデータをよ
り適切に分析することができる。したがって、利用者の
意図により適合したテキストデータ分析が可能となる。
【0026】請求項6に記載の発明は、請求項4に記載
のテキストデータ分析装置において、前記帰納学習部
が、前記事例を集めた事例集合を入力し、各属性に対し
てクラスに分類することの良さに関する評価値を計算
し、評価値が最大となる属性を利用して前記事例集合を
複数の部分事例集合に分割し、分割された各部分事例集
合に対して評価値が次に最大となる属性を利用して同様
の分割を行う、という形で分割を再帰的に繰り返すこと
により、ファジィ決定木形式の判断規則を学習するよう
に構成されたことを特徴とする。
【0027】請求項12に記載の発明は、請求項6に記
載の発明を方法の観点から把握したものであり、請求項
10に記載のテキストデータ分析方法において、帰納学
習ステップが、請求項6の発明における帰納学習部の機
能に対応することを特徴とする。
【0028】以上のような請求項6、12の発明によれ
ば、前述した文献1:「ファジイ帰納学習アルゴリズム
の改良」に記載されている帰納学習法IDFを利用する
ことにより、木構造の形式を持った明確な判断規則を効
率よく生成することができる。
【0029】なお、本発明において重要な用語の定義は
次の通りである。「テキスト」は、一つ以上の単語から
なる文字列である。「テキストデータ」は、テキストを
表現するために、コンピュータ上で処理できるように電
子化されたデータであり、テキスト本体の他、テキスト
番号等の識別を含む。「対象としている分野」は、対象
としているテキストが属する分野あるいはテキストデー
タを用いて分析する対象となる分野である。「判断規
則」は、テキストに対応するクラスを判断するための規
則であり、一般的には、ファジィ決定木形式の規則が生
成されるが、一定の規則性を有する限り、その形式は何
ら限定されない。
【0030】
【発明の実施の形態】以下には、本発明の実施の形態
(以下「実施形態」と称する)について、図面を参照し
ながら説明する。なお、本発明は、周辺機器を持つコン
ピュータをプログラムで制御することによって実現され
る。この場合、そのプログラムは、本明細書の記載にし
たがった命令を組み合わせることで作成され、既存の手
法を適宜含むものである。また、そのプログラムは、プ
ログラムコードだけでなく、プログラムコードの実行時
に使用するために予め用意されたデータも含む。
【0031】そして、そのプログラムは、CPU、コプ
ロセッサ、各種チップセットといった処理装置、キーボ
ードやマウスといった入力装置、メモリやハードディス
ク装置といった記憶装置、ディスプレイやプリンタとい
った出力装置、等の物理的な資源を活用することで、本
発明の作用効果を実現する。ただし、本発明を実現する
具体的なソフトウェアやハードウェアの構成は、必要に
応じて自由に変更することができる。例えば、ソフトウ
ェアの形式は、コンパイラ、インタプリタ、アセンブラ
など多様であり、外部との情報をやりとりするにも、フ
ロッピー(登録商標)ディスクなどの着脱可能な記録媒
体、ネットワーク接続装置など多様な媒体の使用が考え
られる。また、本発明を実現するプログラムを記録した
CD−ROM、DVD−ROMなどの記録媒体は、単独
でも本発明の一態様である。
【0032】[1.第1の実施形態] [1−1.構成]図1は、本発明を適用した第1の実施
形態に係るテキストデータ分析装置を示す機能ブロック
図である。この図1に示すように、テキストデータ分析
装置は、テキスト格納部F1、テキストクラス格納部F
2、概念定義辞書格納部F3、テキスト分析部F4、お
よびルール格納部F5を備えている。さらに、テキスト
分析部F4は、形態素解析部F6、特徴抽出部F7、事
例生成部F8、帰納学習部F9を備えている。データの
流れを明瞭に示す観点から、図中において、各部F1〜
F9は、データの流れに沿って配置されている。各部F
1〜F9の機能は次の通りである。
【0033】テキスト格納部F1は、テキストを格納す
る部分である。より詳細には、テキストデータとして、
利用者の意図を反映した複数のテキストとそれに対応す
るテキスト番号とが互いに関連付けられてテキスト格納
部F1に格納されている。
【0034】テキストクラス格納部F2は、テキストを
分類するクラスを格納する部分である。より詳細には、
テキスト格納部F1に格納されたテキストについて利用
者の意図を反映したクラス分類が予め行われた上で、各
テキスト番号とそれに対応するクラスとが互いに関連付
けられてテキストクラス格納部F2に格納されている。
【0035】概念定義辞書格納部F3は、対象としてい
る分野において重要な概念を示す単語を注目語として格
納する部分である。より詳細には、テキスト格納部F1
に格納されたテキストについて、利用者の意図を反映し
た複数の属性を示す単語、各属性の属性値を示す単語、
および各属性値と同じ概念を示す表現として定義された
表層表現を示す単語が、少なくとも3層以上の階層構造
で格納されている。
【0036】テキスト分析部F4は、テキスト格納部F
1に格納されているテキスト、概念定義辞書格納部F3
に格納されている単語、およびテキストクラス格納部F
2に格納されているクラスを用いて、別のテキストに対
応するクラスを判断するための判断規則を生成する部分
である。ルール格納部F5は、テキスト分析部F4によ
って生成された判断規則を格納する部分である。
【0037】形態素解析部F6は、テキスト格納部F1
に格納されているテキストに含まれる単語を抽出する部
分である。より詳細には、テキスト格納部F1に格納さ
れているテキストを読み込み、そのテキストから最小単
位となる単語を順次切り出して、一つ以上の単語からな
る単語列を生成するようになっている。この場合、語尾
変化がある場合には、終止形あるいは原形となる単語を
抽出するようになっている。
【0038】特徴抽出部F7は、形態素解析部F6によ
って抽出された単語から、概念定義辞書格納部F3に格
納されている単語に基づいてテキストの特徴を抽出する
部分である。より詳細には、特徴抽出部F5は、形態素
解析部F6によって抽出された単語が概念定義辞書格納
部F3に格納されている属性値と同じ概念を示す場合
に、その属性値をテキストの特徴として抽出するように
なっており、特に、形態素解析部F6によって抽出され
た単語または隣接する2つの単語の組合せが表層表現と
一致する場合には、その表層表現の上位に位置する属性
値を抽出するようになっている。
【0039】事例生成部F8は、特徴抽出部F7によっ
て抽出されたテキストの特徴とテキストを分類するクラ
スから、テキストの特徴とそれに対応するクラスとを示
す事例を生成する部分である。より詳細には、事例生成
部F8は、事例として、複数の属性に関する属性値の組
合せとそれに対応するクラスからなるデータを生成する
ようになっている。
【0040】帰納学習部F9は、事例生成部F8によっ
て生成された事例を用いて帰納学習を行い、判断規則を
生成する部分である。この帰納学習部F9は、前述した
文献1:電気学会C部門論文誌 No.115、vol.9、p.1057
-1063(1996年)記載の「ファジイ帰納学習アルゴリズム
の改良」(著者:櫻井 茂明、荒木 大)に記載されている
帰納学習法IDFを利用して判断規則を学習するように
なっている。
【0041】[1−2.作用]図2は、図1のテキスト
データ分析装置のテキスト分析部F4による処理の流れ
を示すフローチャートである。以下には、この図2を参
照しながら、一例として、小売業務における販促活動や
商品の売上動向を記載したテキストから利用者の意図に
合った規則性を発見する場合について説明する。
【0042】ここで、テキスト格納部F1には、図3に
示すようなテキスト番号:t1,t2,…、で示される
テキストが格納されているものとする。そして、テキス
トクラス格納部F2には、図4に示すように、図3の各
テキストを示す各テキスト番号に対して、利用者の意図
を反映した2種類のクラス「注目」、「無視」のいずれ
かが関連付けられて格納されているものとする。
【0043】また、概念定義辞書格納部F3には、図5
に示すように、「売上」A1、「季節」A2、「商品」
A3、「売場」A4、「販促活動」A5、などの属性の
階層、その下位の、「良い」V1−1、「悪い」V1−
2、などの属性値の階層、さらにその下位の、「売れて
いる」D1−1−1、「伸びている」D1−1−2、な
どの表層表現の階層、という3層構造の概念定義辞書が
格納されているものとする。
【0044】そして、これらの格納部F1〜F3に格納
されたデータを用いて、図2に示すような一連の特徴分
析・ルール生成処理が行われる。まず、ステップS10
1において、テキスト分析部F4は、テキスト格納部F
1に格納されているテキストの中から一つのテキストを
読み込む。ここでは、例えば、テキスト格納部F1に予
め格納された複数のテキストt1,t2,…、(図3)
の中からテキストt1を読み込んだものと仮定する。
【0045】次に、テキスト分析部F4は、ステップS
102において、テキスト格納部F1から新たに読み込
まれたテキストがあるか否かを判定する。そして、新た
に読み込まれたテキストが存在する場合には、ステップ
S103に処理を進める。また、新たに読み込まれたテ
キストが存在しない場合には、ステップS104に処理
を進める。したがって、テキストt1が読み込まれた場
合には、図3に示すように、ステップS103に処理が
進む。
【0046】テキスト分析部F4は、ステップS103
において、読み込んだテキストを形態素解析部F6に入
力し、形態素解析させる。この場合、形態素解析部F6
は、テキストから最小単位となる単語を順次切り出し、
一つ以上の単語からなる単語列を生成する。したがっ
て、図3に示すテキストt1「真夏にシャンプーAが売
れている。」の形態素解析を行った場合には、図6に示
すように、「真夏、に、シャンプー、A、が、売れる、
いる」という終止形の単語からなる単語列が生成され
る。
【0047】テキスト分析部F4は、ステップS104
において、特徴抽出部F7により、形態素解析部F6で
生成された単語列からテキストの特徴を抽出させる。こ
の場合、特徴抽出部F7は、単語列と、概念定義辞書格
納部F3に格納されている表層表現とを比較して、その
単語列に含まれる単語または隣接する2つの単語の組合
せと一致する表層表現があるか否かを判断する。そし
て、一致する表層表現がある場合には、その表層表現を
テキストの特徴としてまず抽出し、続いて、その表層表
現の上位に位置する属性値を抽出する。
【0048】したがって、図6に示すテキストt1の単
語列「真夏、に、シャンプー、A、が、売れる、いる」
に対して、図5に示す概念定義辞書を適用した場合に
は、表層表現として「真夏」が抽出されるとともに、
「シャンプー」と「A」の組合せと一致する表層表現と
して「シャンプーA」が、また、「売れる」と「いる」
の組合せと一致する表層表現として「売れている」が、
それぞれ抽出される。
【0049】そして、各表層表現の上位に位置する属性
および属性値を参照することにより、属性「季節」の属
性値として「夏」が、属性「商品」の属性値として「シ
ャンプー」が、また、属性「売上」の属性値として「良
い」が、それぞれ抽出される。ここで、テキストt1に
係るこの単語列から、他の表層表現が抽出されないとす
れば、他の属性「売場」、「販促活動」の属性値として
「なし」がそれぞれ割り当てられる。
【0050】テキスト分析部F4は、ステップS105
において、事例生成部F8により、特徴抽出部F7で抽
出された特徴から事例を生成させる。この場合、事例生
成部F8は、特徴抽出部F7で特徴として抽出された各
属性の属性値の組合せと、テキストクラス格納部F2に
格納されているテキストのクラスとを組み合わせること
により、事例を生成する。
【0051】したがって、図6に示すテキストt1の単
語列「真夏、に、シャンプー、A、が、売れる、いる」
に関しては、次のようにして事例が生成される。まず、
前述したように、特徴抽出部F7によって、属性「季
節」の属性値として「夏」が、属性「商品」の属性値と
して「シャンプー」が、また、属性「売上」の属性値と
して「良い」が、残りの属性「売場」、「販促活動」の
属性値として「なし」が、それぞれ与えられている。ま
た、図4に示すように、テキストt1のクラスとして
は、「注目」がテキストクラス格納部F2に格納されて
いる。
【0052】このような各属性の属性値の組合せ「季
節:夏、商品:シャンプー、売上:良い、販促活動:な
し、売場:なし」、とクラス「注目」とを組み合わせる
ことにより、図7に示すようなテキストt1の事例「売
上:良い、商品:シャンプー、季節:夏、販促活動:な
し、売場:なし、クラス:注目」が生成される。
【0053】テキスト分析部F4は、ステップS102
において、新たに読み込まれたテキストの存在が確認さ
れなくなるまで、以上のような一連のステップS101
〜S105を繰り返す。したがって、上記のように、図
3に示すテキストt1の事例を生成した後は、他のテキ
ストt2,t3,…、の各々について、同様にして単語
列を生成し、各属性の属性値の組合せを抽出して、その
属性値の組合せをクラスと組合せて同様に事例を生成す
る。図7においては、このようにしてテキストt1,t
2,t3,…、に対して順次生成された事例集合の一部
が示されている。
【0054】テキスト格納部F1に格納されているすべ
てのテキストに対して事例が生成された場合には、テキ
スト分析部F4が、ステップS101において一つのテ
キストを読み込もうとしても、新たなテキストは読み込
まれない(ステップS102のNO)。この場合に、テ
キスト分析部F4は、生成した事例集合を帰納学習部F
9に入力して帰納学習を行わせ、判断規則を学習させ
る。
【0055】この場合、帰納学習部F9は、前述した文
献1:「ファジイ帰納学習アルゴリズムの改良」で提案
されている帰納学習法IDFを利用することにより、木
構造の形式を持った判断規則を生成する。すなわち、帰
納学習部F9は、事例生成部F8によって生成された事
例集合の各属性に対してクラスに分類することの良さに
関する評価値を計算する。そして、評価値が最大となる
属性を利用して事例集合を複数の部分事例集合に分割
し、分割された各部分事例集合に対して評価値が次に最
大となる属性を利用して同様の分割を行う、という形で
分割を再帰的に繰り返すことにより、ファジィ決定木形
式の判断規則を学習する。
【0056】したがって、帰納学習部F9は、図7に示
す事例集合を入力した場合には、事例集合の属性「売
上」、「商品」、「季節」、「販促活動」、「売場」の
各々に対してクラス「注目」、「無視」に分類すること
の良さに関する評価値を計算する。ここで、評価値が最
大となる属性が「売上」である場合には、この属性「売
上」を利用して事例集合を部分事例集合に分割する。属
性「売上」の属性値は「良い」、「悪い」の2種類であ
るため、2つの部分事例集合に分割する。
【0057】次に、属性「売上」の属性値が「悪い」と
なる部分事例集合において、評価値が次に最大となる属
性が「売場」である場合には、この属性「売場」を利用
してその部分事例集合をさらに分割する。また、属性
「売上」の属性値が「良い」となる部分事例集合におい
て、評価値が次に最大となる属性が「季節」である場合
には、この属性「季節」を利用してその部分事例集合を
さらに分割する。
【0058】このようにして分割を再帰的に繰り返すこ
とで、具体的には、図8に示すようなファジィ決定木形
式の判断規則が生成される。この図8においては、最上
位の分岐ノードB1から各末端ノードまでの経路が一つ
の判断規則を表している。例えば、最上位の分岐ノード
B1から図中左端の末端ノードE1までの経路は、
「『売上』の属性値が『悪い』で、『売場』の属性値が
『狭い』ならば、『クラス』の値は『無視』である」、
という一つの規則を表現している。
【0059】テキスト分析部F4は、最終的に、ステッ
プS107において、帰納学習部F9で生成した判断規
則をルール格納部F5に格納し、処理を終了する。した
がって、図3に示すテキストt1,t2,…、から得ら
れた判断規則としては、図8に示すようなファジィ決定
木形式の判断規則がルール格納部F5に格納される。
【0060】[1−3.効果]以上のように、本実施形
態によれば、予めテキストを用意するとともに、テキス
トに対して利用者の意図を反映させたクラスを用意し、
また、利用者の意図を反映させた概念定義辞書を予め用
意することにより、これらのデータから利用者の意図に
合った判断規則を容易に生成することができる。
【0061】また、本実施形態においては、利用者の意
図を反映させた単語の集合として、属性、属性値、およ
び属性値と同じ概念を示す表層表現からなる3層構造の
概念定義辞書を予め用意しておくことにより、属性値の
組合せとそれに対応するクラスという単純なデータを用
いて、利用者の意図に合った明確な判断規則を容易に生
成することができる。特に、属性値と同じ概念を示す表
層表現として存在が予想される多様な表現を予め定義し
ておくことにより、それらの表現を無視することなく、
テキストデータをより適切に分析することができる。し
たがって、利用者の意図により適合したテキストデータ
分析が可能となる。
【0062】さらに、本実施形態においては、前述した
文献1:「ファジイ帰納学習アルゴリズムの改良」に記
載されている帰納学習法IDFを利用することにより、
ファジィ決定木形式の明確な判断規則を効率よく生成す
ることができる。
【0063】[2.第2の実施形態] [2−1.構成]図9は、本発明を適用した第2の実施
形態に係るテキストデータ分析装置を示す機能ブロック
図である。この図9に示すように、本実施形態は、前述
した第1の実施形態の構成において、テキスト分析部4
にテキスト分類部F10を加えたものである。ここで、
テキスト分類部F10は、判断規則を生成するために使
用されたテキストとは異なる、新たなテキストが所属す
るクラスを推定する部分である。このテキスト分類部F
10は、特徴抽出部F7によって抽出されたテキストの
特徴とルール格納部F5に格納されている判断規則を用
いて、新たなテキストが所属するクラスを推定するよう
になっている。なお、本実施形態は、このテキスト分類
部F10を加えたことを除けば、前述した第1の実施形
態と全く同様であるため、他の部分の説明は省略する。
【0064】[2−2.作用]図10は、図9のテキス
トデータ分析装置のテキスト分析部F4によって新たな
テキストを分類する処理の流れを示すフローチャートで
ある。なお、判断規則を生成するまでの特徴分析・ルー
ル生成処理は、第1の実施形態の処理(図2)と全く同
様であるため、その説明は省略し、ここでは、テキスト
分類部F10の追加によって可能となったテキスト分類
処理のみについて説明する。
【0065】まず、ステップS201において、テキス
ト分析部F4は、ルール格納部F5に格納されている判
断規則を読み込む。ここでは、一例として、前述した第
1の実施形態で作成したファジィ決定木形式の判断規則
(図8)を用いて新たなテキストの分類を行う場合につ
いて説明する。
【0066】次に、テキスト分析部F4は、ステップS
202において、テキスト格納部F1に格納されたテキ
ストの中から特徴分析・ルール生成処理に使用したテキ
スト以外の、新たなテキストデータを読み込む。ここで
は、テキスト格納部F1に、図3に示すようなテキスト
t1,t2,…、以外に、例えば、図11に示すような
新たなテキストe1,e2,…、が格納されているもの
とし、このうちのテキストe1を読み込んだものと仮定
する。
【0067】続いて、テキスト分析部F4は、ステップ
S203において、テキスト格納部F1から新たに読み
込まれたテキストがあるか否かを判定する。そして、新
たに読み込まれたテキストが存在する場合には、ステッ
プS204に処理を進める。また、新たに読み込まれた
テキストが存在しない場合には、処理を終了する。した
がって、テキストe1が読み込まれた場合には、図10
に示すように、ステップS204に処理が進む。
【0068】テキスト分析部F4は、ステップS204
において、読み込んだテキストを形態素解析部F6に入
力し、形態素解析させる。この場合、形態素解析部F6
は、前述した特徴分析・ルール生成処理(図2)におけ
るステップS103の形態素解析処理と同様に、テキス
トから最小単位となる単語を順次切り出し、一つ以上の
単語からなる単語列を生成する。したがって、図11に
示すテキストe1「売場は狭くないが、シャンプーBが
売れていない。」の形態素解析を行った場合には、図1
2に示すように、「売場、は、狭い、ない、が、シャン
プー、B、が、売れる、ない」という終止形の単語から
なる単語列が生成される。
【0069】テキスト分析部F4は、ステップS205
において、特徴抽出部F7により、形態素解析部F6で
生成された単語列からテキストの特徴を抽出させる。こ
の場合、特徴抽出部F7は、前述した特徴分析・ルール
生成処理(図2)におけるステップS104の特徴抽出
処理と同様に、単語列と、概念定義辞書格納部F3に格
納されている表層表現とを比較して、その単語列に含ま
れる単語または隣接する2つの単語の組合せと一致する
表層表現があるか否かを判断する。そして、一致する表
層表現がある場合には、その表層表現をテキストの特徴
としてまず抽出し、続いて、その表層表現の上位に位置
する属性値を抽出する。
【0070】したがって、図12に示すテキストe1の
単語列「売場、は、狭い、ない、が、シャンプー、B、
が、売れる、ない」に対して、図5に示す概念定義辞書
を適用した場合には、「狭い」と「ない」の組合せと一
致する表層表現として「狭くない」が、「シャンプー」
と「B」の組合せと一致する表層表現として「シャンプ
ーB」が、また、「売れる」と「ない」の組合せと一致
する表層表現として「売れていない」が、それぞれ抽出
される。
【0071】そして、各表層表現の上位に位置する属性
および属性値を参照することにより、属性「売場」の属
性値として「普通」が、属性「商品」の属性値として
「シャンプー」が、また、属性「売上」の属性値として
「悪い」が、それぞれ抽出される。ここで、テキストe
1に係るこの単語列から、他の表層表現が抽出されない
とすれば、他の属性「季節」、「販促活動」の属性値と
して「なし」がそれぞれ割り当てられる。したがって、
テキストe1に対して、図13に示すようなテキストe
1の特徴「売上:悪い、商品:シャンプー、季節:な
し、販促活動:なし、売場:普通」が抽出される。
【0072】テキスト分析部F4は、ステップS206
において、テキスト分類部F10により、特徴抽出部F
7で抽出された特徴からテキストが属するクラスを推論
させる。この場合、テキスト分類部F10は、特徴抽出
部F7で特徴として抽出された各属性の属性値の組合せ
を、ルール格納部F5から読み込んだ判断規則に適用す
ることにより、テキストに対応するクラスを推論する。
【0073】したがって、図11に示すテキストe1に
対応するクラスの推論に当たっては、図13に示すよう
なテキストe1の特徴を図8に示すファジィ決定木形式
の判断規則に適用して、次のような推論処理を行う。初
めに、図8に示す判断規則における最上位の属性「売
上」の値が評価される。この場合、テキストe1におけ
る属性「売上」の属性値は、「悪い」と与えられている
ので、分岐ノードB2に伝播する。
【0074】次に、分岐ノードB2の属性「売場」を評
価すると、属性値「普通」と与えられており、当該ノー
ドに割り当てられている属性値「広い」、「狭い」に該
当する属性値が存在しない。そこで、確信度0.5ずつ
を与えてテキストe1を末端ノードE1および分岐ノー
ドB4にそれぞれ伝播させる。
【0075】このうち、末端ノードE1に到達したテキ
ストe1は、さらに下位のノードに伝播する必要がない
ので、処理を終了する。一方、分岐ノードB4に伝播し
たテキストe1は、この分岐ノードB4の属性「販促活
動」についてさらに評価される。この場合、テキストe
1の属性「販促活動」の属性値は「なし」と与えられて
いるので、テキストe1は末端ノードE4に伝搬する。
【0076】テキスト分類部F10は、テキストe1が
末端ノードE1,E4に伝搬した時点で、クラスごとに
確信度を合計することにより、確信度の最大値を与える
クラスを選択する。すなわち、テキストe1に対応する
クラスとしては、末端ノードE1のクラス「無視」の確
信度が0.5であり、また、末端ノードE4のクラス
「無視」の確信度が0.5であることから、クラス「無
視」の確信度の合計が1となるため、クラス「無視」が
推論される。なお、図14は、以上に説明したテキスト
e1の推論の流れを示している。
【0077】テキスト分析部F4は、最終的に、ステッ
プS207において、テキストに対して推論されたクラ
スを、推論判断に利用された判断規則とともにテキスト
クラス格納部F2に格納する。したがって、図11に示
すテキストe1に関しては、対応するクラスとして「無
視」が、また、根拠となる判断規則として「分岐ノード
B1から末端ノードE1まで、確信度0.5」、「分岐
ノードB1から末端ノードE4まで、確信度0.5」を
テキストクラス格納部F2に格納する。すなわち、図1
5に示すようなテキストe1の推論結果が格納される。
【0078】テキスト分析部F4は、ステップS203
において、新たに読み込まれたテキストの存在が確認さ
れなくなるまで、以上のような一連のステップS201
〜S207を繰り返す。したがって、上記のように、図
11に示すテキストe1の特徴を分析し、クラスを推論
し、推論結果を格納した後は、他のテキストe2,e
3,…、の各々について、同様にしてテキストの特徴を
分析し、クラスを推論し、推論結果を格納する。図15
においては、このようにしてテキストe1,e2,e
3,…、に対して順次格納された推論結果の一部が示さ
れている。
【0079】[2−3.効果]以上のように、本実施形
態においては、テキスト分類部F10により、既存のテ
キストt1,t2,…、から生成された判断規則に基づ
いて、新たに与えられたテキストe1,e2,…、に対
応するクラスを容易に推定することができるため、前述
した第1の実施形態の効果に加えて、さらに、新たに与
えられたテキストを判断規則という分類の根拠を示して
分類可能である、という効果が得られる。また、既存の
テキストから生成された判断規則は、第1の実施形態に
ついて前述したように、利用者の意図に合ったものであ
るため、利用者の意図に沿ったクラス分類を行うことが
できる。
【0080】[3.他の実施形態]なお、本発明は、前
述した実施形態に限定されるものではなく、本発明の範
囲内で他にも多種多様な変形例が実施可能である。例え
ば、概念定義辞書格納部F3に格納する概念定義辞書
は、必ずしも三層構造である必要はない。より深い階層
を与えた場合でも、属性および属性値を適切に設定する
ことにより、特徴抽出部F7においてテキストから特徴
を抽出することが可能である。
【0081】また、ルール生成の際に利用するテキスト
クラス格納部F2に格納する各テキストのクラスは、必
ずしも一つに限定する必要はない。このようなクラス
は、利用者ごとに設定したり、同一の利用者であって
も、テキストから抽出したい意図が変化したり、複数の
観点を持っていることがある。したがって、ルールの生
成に先立って、どのクラスを利用するかを指定すること
により、各テキストに対して複数のクラスを格納するこ
とも可能である。
【0082】これに関連して、テキスト分類部F10に
おいては、テキストを一つのクラスに分類していたが、
必ずしも一つのクラスに分類する必要はない。確信度を
付して複数のクラスを割り当てることも可能である。例
えば、図15に示す推論結果のうち、テキストe3に関
しては、対応するクラスとして「無視」が、また、根拠
となる判断規則として「分岐ノードB1から末端ノード
E7まで、確信度0.333」、「分岐ノードB1から
末端ノードE8まで、確信度0.333」、「分岐ノー
ドB1から末端ノードE9まで、確信度0.333」、
が得られている。
【0083】この場合、末端ノードE7のクラスは「注
目」、末端ノードE8,E9のクラスは「無視」である
ため、テキストe3に関して、クラス「注目」の確信度
の合計は0.333であり、クラス「無視」の確信度の
合計は0.666である。したがって、テキストe3に
ついては、確信度「0.333」を付したクラス「注
目」と、確信度「0.666」を付したクラス「無視」
という2つのクラスを割り当てることが考えられる。
【0084】また、前記実施形態においては、ルール生
成に使用するクラスを格納したテキストクラス格納部F
2に、テキスト分類部F10で得られた推論結果を格納
する場合について説明したが、推論結果を、ルール生成
に使用したクラスと全く別に格納してもよい。これに関
連して、前記実施形態においては、ルール生成に使用す
るテキストを格納したテキスト格納部F1に、別の新た
なテキストを格納する場合について説明したが、新たな
テキストを、ルール生成に使用したテキストと全く別に
格納してもよい。
【0085】そしてまた、前記実施形態においては、前
述した文献1:「ファジイ帰納学習アルゴリズムの改
良」に記載されている帰納学習法IDFを利用して判断
規則を生成する場合について説明したが、他の適当な手
法を適宜利用して判断規則を生成することも可能であ
る。すなわち、本発明においては、テキストと、テキス
トを分類するクラスと、重要な概念を示す概念定義辞書
とをそれぞれ予め格納しておくことにより、格納された
テキストから概念定義辞書に基づいてテキストの特徴を
求め、得られたテキストの特徴とクラスに基づいて判断
規則を生成することが可能である限り、各部の具体的な
構成や関係などは自由に選択可能である。
【0086】
【発明の効果】以上に説明した通り、本発明によれば、
テキストと、テキストを分類するクラスと、重要な概念
を示す概念定義辞書とをそれぞれ予め格納しておき、格
納されたテキストから概念定義辞書に基づいてテキスト
の特徴を求め、得られたテキストの特徴とクラスに基づ
いて判断規則を生成することにより、テキストデータか
ら利用者の意図に合った規則性を容易に発見可能なテキ
ストデータ分析装置および方法を提供することができ
る。また、獲得した規則性を利用することにより、新た
に与えられたテキストデータを、判断規則という分類の
根拠を示して分類し、提示することが可能なテキストデ
ータ分析装置および方法を提供することができる。
【図面の簡単な説明】
【図1】本発明を適用した第1の実施形態に係るテキス
トデータ分析装置を示す機能ブロック図。
【図2】図1のテキストデータ分析装置のテキスト分析
部による処理の流れを示すフローチャート。
【図3】図1のテキスト格納部に格納され、ルール生成
に使用されるテキストの一例を示すデータ構造図。
【図4】図1のテキストクラス格納部にテキストに対応
するクラスとして格納されるクラスの一例を示すデータ
構造図。
【図5】図1の概念定義辞書格納部に格納される概念定
義辞書の一例を示すデータ構造図。
【図6】図3のテキストの一つから図1の形態素解析部
により得られる単語列の一例を示すデータ構造図。
【図7】図3のテキストから図1の事例生成部により生
成される事例集合を示すデータ構造図。
【図8】図3のテキストから図1の帰納学習部により生
成され、ルール格納部に格納される判断規則の一例を示
すデータ構造図。
【図9】本発明を適用した第2の実施形態に係るテキス
トデータ分析装置を示す機能ブロック図。
【図10】図9のテキストデータ分析装置において、ル
ール格納部に格納されている判断規則に基づいて新たな
テキストを分類する際のテキストの一例を示すフローチ
ャート。
【図11】図1のテキスト格納部に新たに格納されるテ
キストの一例を示すデータ構造図。
【図12】図11のテキストの一つから図10の形態素
解析部により得られる単語列の一例を示すデータ構造
図。
【図13】図11のテキストから図10の特徴抽出部に
より得られる特徴を示すデータ構造図。
【図14】図10のテキスト分類部により図8の判断規
則に基づいて図11のテキストに図13の特徴を適用し
た場合における一つのテキストに関する推論の流れを示
す説明図。
【図15】図11のテキストに対して、図10のテキス
ト分類部により推論されたクラスおよびその根拠として
示される確信度付きの判断規則を示すデータ構造図。
【符号の説明】
F1…テキスト格納部 F2…テキストクラス格納部 F3…概念定義辞書格納部 F4…テキスト分析部 F5…ルール格納部 F6…形態素解析部 F7…特徴抽出部 F8…事例生成部 F9…帰納学習部 F10…テキスト分類部 S101〜S107…特徴分析・ルール生成処理の各ス
テップ番号 S201〜S207…テキスト分類処理の各ステップ番
号 A1〜A5…概念定義辞書格納部に格納される属性の通
し番号 V1−1〜V5−2…概念定義辞書格納部に格納される
属性値の通し番号 D1−1−1〜D5−2−2…概念定義辞書格納部に格
納される表層表現の通し番号 t1〜t5,e1〜e3…テキストの通し番号 B1〜B5…ルール格納部に格納される木構造形式で記
載された判断規則の分岐ノードの通し番号 E1〜E9…ルール格納部に格納される木構造形式で記
載された判断規則の末端ノードの通し番号
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 19/00 130 G06F 19/00 130

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 テキストを格納するテキスト格納部と、 テキストを分類するクラスを格納するテキストクラス格
    納部と、 対象としている分野において重要な概念を示す単語の集
    合を概念定義辞書として格納する概念定義辞書格納部
    と、 前記概念定義辞書格納部に格納されている単語に基づい
    て、前記テキスト格納部に格納されているテキストの特
    徴を求める特徴分析部と、 前記特徴分析部によって得られたテキストの特徴と前記
    テキストクラス格納部に格納されているクラスに基づい
    て、別のテキストに対応するクラスを判断するための判
    断規則を生成するルール生成部とを有することを特徴と
    するテキストデータ分析装置。
  2. 【請求項2】 前記ルール生成部によって生成された判
    断規則を格納するルール格納部と、 前記ルール生成部によって判断規則を生成するために使
    用されたテキストとは異なるテキストが所属するクラス
    を、前記特徴分析部によって得られたテキストの特徴と
    前記ルール格納部に格納されている判断規則に基づいて
    推定するテキスト分類部とを有することを特徴とする請
    求項1に記載のテキストデータ分析装置。
  3. 【請求項3】 前記特徴分析部は、 前記テキスト格納部に格納されているテキストに含まれ
    る単語を抽出する形態素解析部と、 前記形態素解析部によって抽出された単語から、前記概
    念定義辞書格納部に格納されている単語に基づいてテキ
    ストの特徴を抽出する特徴抽出部とを含み、 前記ルール生成部は、 前記特徴抽出部によって抽出されたテキストの特徴とテ
    キストを分類するクラスから、特徴とそれに対応するク
    ラスとを示す事例を生成する事例生成部と、 前記事例生成部によって生成された事例を用いて帰納学
    習を行い、判断規則を生成する帰納学習部とを含むこと
    を特徴とする請求項1または2に記載のテキストデータ
    分析装置。
  4. 【請求項4】 前記概念定義辞書格納部には、少なくと
    もテキストの複数の属性を示す単語と各属性の属性値を
    示す単語が格納されており、 前記特徴抽出部は、前記形態素解析部によって抽出され
    た単語が前記概念定義辞書格納部に格納されている属性
    値と同じ概念を示す場合に、その属性値をテキストの特
    徴として抽出するように構成され、 前記事例生成部は、事例として、前記複数の属性に関す
    る属性値の組合せとそれに対応するクラスからなるデー
    タを生成するように構成されたことを特徴とする請求項
    3に記載のテキストデータ分析装置。
  5. 【請求項5】 前記概念定義辞書格納部には、前記複数
    の属性を示す単語、各属性の属性値を示す単語、および
    各属性値と同じ概念を示す表現として定義された表層表
    現を示す単語が、少なくとも3層以上の階層構造で格納
    されており、 前記特徴抽出部は、前記形態素解析部によって抽出され
    た単語またはその組合せが前記概念定義辞書格納部に格
    納されている表層表現と一致する場合に、その表層表現
    の上位に位置する属性値を抽出するように構成されたこ
    とを特徴とする請求項4に記載のテキストデータ分析装
    置。
  6. 【請求項6】 前記帰納学習部は、前記事例を集めた事
    例集合を入力し、各属性に対してクラスに分類すること
    の良さに関する評価値を計算し、評価値が最大となる属
    性を利用して前記事例集合を複数の部分事例集合に分割
    し、分割された各部分事例集合に対して評価値が次に最
    大となる属性を利用して同様の分割を行う、という形で
    分割を再帰的に繰り返すことにより、ファジィ決定木形
    式の判断規則を学習するように構成されたことを特徴と
    する請求項4に記載のテキストデータ分析装置。
  7. 【請求項7】 テキストを格納するテキスト格納ステッ
    プと、 テキストを分類するクラスを格納するテキストクラス格
    納ステップと、 対象としている分野において重要な概念を示す単語の集
    合を概念定義辞書として格納する概念定義辞書格納ステ
    ップと、 前記概念定義辞書格納ステップにおいて格納された単語
    に基づいて、前記テキスト格納ステップにおいて格納さ
    れたテキストの特徴を求める特徴分析ステップと、 前記特徴分析ステップによって得られたテキストの特徴
    と前記テキストクラス格納ステップにおいて格納された
    クラスに基づいて、別のテキストに対応するクラスを判
    断するための判断規則を生成するルール生成ステップと
    を有することを特徴とするテキストデータ分析方法。
  8. 【請求項8】 前記ルール生成ステップによって生成さ
    れた判断規則を格納するルール格納ステップと、 前記ルール生成ステップにおいて判断規則を生成するた
    めに使用されたテキストとは異なるテキストが所属する
    クラスを、前記特徴分析ステップによって得られたテキ
    ストの特徴と前記ルール格納ステップにおいて格納され
    た判断規則に基づいて推定するテキスト分類ステップと
    を有することを特徴とする請求項7に記載のテキストデ
    ータ分析方法。
  9. 【請求項9】 前記特徴分析ステップは、 前記テキスト格納ステップにおいて格納されたテキスト
    に含まれる単語を抽出する形態素解析ステップと、 前記形態素解析ステップによって抽出された単語から、
    前記概念定義辞書格納ステップにおいて格納された単語
    に基づいてテキストの特徴を抽出する特徴抽出ステップ
    とを含み、 前記ルール生成ステップは、 前記特徴抽出ステップによって抽出されたテキストの特
    徴とテキストを分類するクラスから、特徴とそれに対応
    するクラスとを示す事例を生成する事例生成ステップ
    と、 前記事例生成ステップによって生成された事例を用いて
    帰納学習を行い、判断規則を生成する帰納学習ステップ
    とを含むことを特徴とする請求項7または8に記載のテ
    キストデータ分析方法。
  10. 【請求項10】 前記概念定義辞書格納ステップにおい
    ては、少なくともテキストの複数の属性を示す単語と各
    属性の属性値を示す単語が格納され、 前記特徴抽出ステップは、前記形態素解析ステップによ
    って抽出された単語が前記概念定義辞書格納ステップに
    おいて格納された属性値と同じ概念を示す場合に、その
    属性値をテキストの特徴として抽出し、 前記事例生成ステップは、事例として、前記複数の属性
    に関する属性値の組合せとそれに対応するクラスからな
    るデータを生成することを特徴とする請求項9に記載の
    テキストデータ分析方法。
  11. 【請求項11】 前記概念定義辞書格納ステップにおい
    ては、前記複数の属性を示す単語、各属性の属性値を示
    す単語、および各属性値と同じ概念を示す表現として定
    義された表層表現を示す単語が、少なくとも3層以上の
    階層構造で格納され、 前記特徴抽出ステップにおいては、前記形態素解析ステ
    ップによって抽出された単語またはその組合せが前記概
    念定義辞書格納ステップにおいて格納された前記表層表
    現と一致する場合に、その表層表現の上位に位置する属
    性値を抽出することを特徴とする請求項10に記載のテ
    キストデータ分析方法。
  12. 【請求項12】 前記帰納学習ステップは、前記事例を
    集めた事例集合を入力し、各属性に対してクラスに分類
    することの良さに関する評価値を計算し、評価値が最大
    となる属性を利用して前記事例集合を複数の部分事例集
    合に分割し、分割された各部分事例集合に対して評価値
    が次に最大となる属性を利用して同様の分割を行う、と
    いう形で分割を再帰的に繰り返すことにより、ファジィ
    決定木形式の判断規則を学習することを特徴とする請求
    項10に記載のテキストデータ分析方法。
  13. 【請求項13】 テキストデータを分析するためのプロ
    グラムを記録したコンピュータ読み取り可能な記録媒体
    において、 前記プログラムは、コンピュータに、 テキストを格納するテキスト格納処理と、 テキストを分類するクラスを格納するテキストクラス格
    納処理と、 対象としている分野において重要な概念を示す単語の集
    合を概念定義辞書として格納する概念定義辞書格納処理
    と、 前記概念定義辞書格納処理において格納された単語に基
    づいて、前記テキスト格納処理において格納されたテキ
    ストの特徴を求める特徴分析処理と、 前記特徴分析処理によって得られたテキストの特徴と前
    記テキストクラス格納処理において格納されたクラスに
    基づいて、別のテキストに対応するクラスを判断するた
    めの判断規則を生成するルール生成処理とを実行させる
    ことを特徴とする記録媒体。
  14. 【請求項14】 前記プログラムは、コンピュータに、 前記帰納学習処理によって生成された判断規則を格納す
    るルール格納処理と、 前記ルール生成処理において判断規則を生成するために
    使用されたテキストとは異なるテキストが所属するクラ
    スを、前記特徴分析処理によって得られたテキストの特
    徴と前記ルール格納処理において格納された判断規則に
    基づいて推定するテキスト分類処理とを実行させること
    を特徴とする請求項13に記載の記録媒体。
  15. 【請求項15】 前記特徴分析処理は、 前記テキスト格納処理において格納されたテキストに含
    まれる単語を抽出する形態素解析処理と、 前記形態素解析処理によって抽出された単語から、前記
    概念定義辞書格納処理において格納された単語に基づい
    てテキストの特徴を抽出する特徴抽出処理とを含み、 前記ルール生成ステップは、 前記特徴抽出処理によって抽出されたテキストの特徴と
    テキストを分類するクラスから、特徴とそれに対応する
    クラスとを示す事例を生成する事例生成処理と、 前記事例生成処理によって生成された事例を用いて帰納
    学習を行い、別のテキストに対応するクラスを判断する
    ための判断規則を生成する帰納学習処理とを含むことを
    特徴とする請求項13または14に記載の記録媒体。
  16. 【請求項16】 コンピュータに、 テキストを格納するテキスト格納機能と、 テキストを分類するクラスを格納するテキストクラス格
    納機能と、 対象としている分野において重要な概念を示す単語の集
    合を概念定義辞書として格納する概念定義辞書格納機能
    と、 前記概念定義辞書格納機能によって格納された単語に基
    づいて、前記テキスト格納機能によって格納されたテキ
    ストの特徴を求める特徴分析機能と、 前記特徴分析機能によって得られたテキストの特徴と前
    記テキストクラス格納機能によって格納されたクラスに
    基づいて、別のテキストに対応するクラスを判断するた
    めの判断規則を生成するルール生成機能とを実現させる
    ことを特徴とするコンピュータプログラム。
JP2000348286A 2000-11-15 2000-11-15 テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体 Pending JP2002149675A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000348286A JP2002149675A (ja) 2000-11-15 2000-11-15 テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000348286A JP2002149675A (ja) 2000-11-15 2000-11-15 テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002149675A true JP2002149675A (ja) 2002-05-24

Family

ID=18821896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000348286A Pending JP2002149675A (ja) 2000-11-15 2000-11-15 テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002149675A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107464A (ja) * 2004-08-31 2006-04-20 Microsoft Corp 文の分類に基づいて通信の優先順位を決定するための方法およびシステム
JP2010237923A (ja) * 2009-03-31 2010-10-21 Dainippon Printing Co Ltd 広告物作成支援装置、広告物作成支援方法、及びプログラム
JP2011108085A (ja) * 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
US8577718B2 (en) 2010-11-04 2013-11-05 Dw Associates, Llc Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context
US8952796B1 (en) 2011-06-28 2015-02-10 Dw Associates, Llc Enactive perception device
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9667513B1 (en) 2012-01-24 2017-05-30 Dw Associates, Llc Real-time autonomous organization
WO2019212006A1 (ja) 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 事象予測装置、予測モデル生成装置および事象予測用プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107464A (ja) * 2004-08-31 2006-04-20 Microsoft Corp 文の分類に基づいて通信の優先順位を決定するための方法およびシステム
JP2010237923A (ja) * 2009-03-31 2010-10-21 Dainippon Printing Co Ltd 広告物作成支援装置、広告物作成支援方法、及びプログラム
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
JP2011108085A (ja) * 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
US8577718B2 (en) 2010-11-04 2013-11-05 Dw Associates, Llc Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US8952796B1 (en) 2011-06-28 2015-02-10 Dw Associates, Llc Enactive perception device
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
US9667513B1 (en) 2012-01-24 2017-05-30 Dw Associates, Llc Real-time autonomous organization
WO2019212006A1 (ja) 2018-05-02 2019-11-07 株式会社Fronteoヘルスケア 事象予測装置、予測モデル生成装置および事象予測用プログラム
KR20200128584A (ko) 2018-05-02 2020-11-13 가부시키가이샤 프론테오 사상 예측 장치, 예측 모델 생성 장치 및 사상 예측용 프로그램
CN112106040A (zh) * 2018-05-02 2020-12-18 株式会社Fronteo 事件预测装置、预测模型生成装置以及事件预测用程序

Similar Documents

Publication Publication Date Title
US7444325B2 (en) Method and system for information extraction
US10803107B2 (en) Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
Jiang et al. Two-phase clustering process for outliers detection
RU2657173C2 (ru) Сентиментный анализ на уровне аспектов с использованием методов машинного обучения
JP5824532B2 (ja) サーフショッピングのための関連抽出のシステム及び方法
US8073865B2 (en) System and method for content extraction from unstructured sources
RU2635257C1 (ru) Сентиментный анализ на уровне аспектов и создание отчетов с использованием методов машинного обучения
CN108763496B (zh) 一种基于网格和密度的动静态数据融合客户分类方法
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
JP5160312B2 (ja) 文書分類装置
JP2001266060A (ja) アンケート回答分析システム
JP2002149675A (ja) テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体
KR102344075B1 (ko) 데이터 마이닝기반 온라인 마케팅 플랫폼
WO2012022035A1 (en) Product information
JP7291419B2 (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
EP4196900A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
KR20120019245A (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP2006072787A (ja) 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム
EP1681643B1 (en) Method and system for information extraction
JP4393482B2 (ja) 情報共有システム及びプログラム
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
JP2010256960A (ja) 類似度判定システム、類似度判定方法および類似度判定用プログラム
JP2012242933A (ja) 商品名同一性判定装置および商品名同一性判定プログラム
CN114064895A (zh) 一种用户新建议实时发现方法、装置、设备及介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060404