JP3743204B2

JP3743204B2 - データ分析支援方法および装置

Info

Publication number: JP3743204B2
Application number: JP10216699A
Authority: JP
Inventors: 久雄間瀬; 浩孝水野; 幸康伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-04-09
Filing date: 1999-04-09
Publication date: 2006-02-08
Anticipated expiration: 2019-04-09
Also published as: JP2000293537A

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の属性項目からなるデータ集合から属性データ間の関係を抽出するデータ分析（データマイニング）技術に関するものであり、特にテキストから抽出された複数の文章属性からなるデータ集合から文章属性データ間あるいは文章属性データと他の属性データとの間に潜在する因果関係をルールとして抽出するテキストデータ分析技術に関する。
【０００２】
【従来の技術】
本発明は主に、電子文章から種々の文章属性情報を抽出する文章解析技術と、抽出された文章属性情報を分析してそれらの間に潜在する因果関係を抽出するデータ分析技術に関係している。
【０００３】
計算機を用いた文章解析技術としては、多くの文書検索システムで採用されているキーワード抽出技術をはじめ，情報処理学会題５２回全国大会講演論文集3-303に記載されているカテゴリ分類技術，情報処理学会論文誌Vol.30, No.10, pp.1258-1267に記載されている文章要約技術などが知られている。これらの処理精度は決して高くはないが、大量の電子文章から利用者が必要とする情報を効率良く抽出する際にはこれらの技術は非常に有効である。
【０００４】
一方、計算機を用いたデータ分析技術としては、（社）計測自動制御学会発行の「計測と制御」Vol.36,N0.3（1997）p.p.198に記載されているように、ルールインダクション（帰納）と呼ばれる技術やニューラルネットワークを利用した技術が広く知られている。データマイニングでは統計的手法が最も広く用いられており、その理論的基盤も確立されている。
【０００５】
【発明が解決しようとする課題】
文章解析技術とデータ分析技術とを融合する上記従来技術では以下の課題がある。
【０００６】
（１）属性データ間の因果関係を抽出する場合にまず問題となるのは、対象とするデータが必ずしも用意されているとは限らないことである。属性データは表形式で記述されることが多いが、データが表形式でなく電子文章の形で用意されている場合、電子文章データから必要な文章属性データを抽出して表形式データに変換する必要がある。
【０００７】
（２）次に問題となるのは、データマイニング結果として提示される因果関係が必ずしも利用者の要求を満たすものではないということである。従来のデータ分析技術では、生成されたルールが利用者の期待にそぐわない陳腐なものである場合、生成された因果関係をさらに展開することができないため、利用者はあきらめるしかなかった。
【０００８】
電子文章データから文章属性データを抽出することを想定した場合、抽出される文章属性データの抽象度（文章解析のレベル）を調節することにより、さまざまな解析レベルの文章属性データを抽出することが可能である。しかし実際には、どのレベルで文章を解析すれば良いのかは、生成される属性データ間の因果関係をチェックしてみないと分からない。すなわち、文章解析のレベルが非常に低い（文章解析が比較的抽象化している）と、抽出される因果関係も非常に抽象的・一般的なものになる。逆に文章解析のレベルが非常に高い（文章解析が比較的複雑化・詳細化している）と、抽出される文章属性データが細分化されるので、抽出される因果関係も細かくなり、統計的に有意な因果関係を抽出できなくなる。従って、抽出された因果関係をチェックする段階で、利用者がある特定の因果関係を詳細化／抽象化したいという要求をシステムが受理可能であれば、利用者の要求に近い因果関係を出力できる。
【０００９】
本発明の目的は、電子文章データから文章属性データを抽出する際に、抽出された因果関係をチェックする段階で、ある特定の因果関係を詳細化／抽象化したいという利用者の要求に近い因果関係を出力できるデータ分析支援方法を提供することにある。
【００１０】
【課題を解決するための手段】
上記の目的を達成するために、本発明では、利用者が入力装置を介して指定した文章属性について、電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【００１１】
また本発明では、利用者が入力装置を介して指定した関係を構成する文章属性について、当該関係に関連する電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【００１２】
【発明の実施の形態】
本発明の実施例について、以下、図面を用いて詳細に説明する。
【００１３】
本実施例は、メーカの製品やサービス企業の業務に関して顧客から寄せられた大量の意見・要求・クレーム文章を電子化し、これらの情報を分析して顧客がどんな点について不平・不満を持っているかを分析することを支援するシステムについて述べる。本システムを用いることによって得られる分析結果は、業務改善へフィードバックされる。本実施例で用いているデータは保険会社に関するものであるが、その他、銀行・証券・メーカ・通信販売・その他のサービス業における顧客意見の分析にも適用できる。一般に顧客から寄せられる意見は膨大な量であり、手作業による分析は多大なコストがかかるため、本実施例で述べるシステムは分析者の作業を支援するものとして有効である。
【００１４】
図１は本実施例で述べるシステムの概要を示す図である。簡潔に言えば本システムは、大量の顧客電子文章データ１１を解析して文章属性データ１７を抽出し、文章属性データ１７と顧客属性データ１８を用いて、どんな属性を持つ顧客がどんなクレームを持っているのかを記述したルール２０を出力する。具体的には、顧客電子文章データ１１に格納された、「営業マンの勧誘がしつこい」、「保険プランＡの保険料が高い」、「住所変更の手続きが複雑だ」など、顧客から寄せられた文章を解析して、内容・分野別の分類カテゴリ，内容を特徴付けるキーワード，内容を定式化した要約などに関する情報を文章属性データ１７として抽出する。そして性別・年齢・職業・年収・趣味など顧客の属性を記述した顧客属性データ１８と組み合わせてデータ分析することよって、例えば「４０代の主婦は営業マンの態度が悪いと感じている」といった属性データ間の因果関係をルール２０として抽出する。
【００１５】
図１に示すように、本システムは大きく三つの処理部から構成され、これらの処理部は、入力装置、出力装置、および記憶装置を有する計算機を用いて実行される。すなわち、顧客から寄せられた電子文章データ１１を解析して文章属性データ１７を抽出する文章解析処理部３，文章解析によって生成された文章属性テーブル１７および顧客の個人属性が格納された顧客属性テーブル１８を参照して属性データ間に潜在する特徴的な因果関係をIF-THENルールとして抽出するルール生成処理部４，そして文章解析処理部３とルール生成処理部４に指示を送り、文章解析とルール生成との間の処理を橋渡しする役目を持つルール展開制御部２である。ルール展開制御部２は後述するように、ルール生成処理部４で生成されたルールを利用者の要求に応じて展開（詳細化あるいは抽象化）する処理を制御する。
【００１６】
各処理部の処理内容および各処理部におけるデータの流れについては後に詳述するが、以下ではその概略について説明する。
【００１７】
ルール展開処理部２は主に解析対象文章決定２ａと文章属性抽出パラメータ設定２ｂと文章解析およびルール生成指示という処理からなる。解析対象文章決定２ａでは、利用者からの指示内容に基づいて、文章解析処理部３で解析あるいは再解析すべき電子文章がどれであるかを認定する。まだ一度もルール生成を実行していない場合には対象としている電子文章すべてが文章解析対象となるが、一度ルール生成をした後にある特定のルールを構成するある特定の文章属性を詳細化・抽象化する場合には、当該ルールに関係のある電子文章のみを文章解析対象とすることもある。文章解析の対象となる文章ＩＤは解析対象文章ＩＤ１３に格納される。
【００１８】
文章属性抽出パラメータ設定２ｂでは、文章をどの解析レベルで解析するのか、言い換えれば文章からどのレベルの文章属性データを抽出するのかを設定する。利用者からの指示に基づいて各文章属性データの解析レベルを決定する。解析レベルは文章属性抽出パラメータ群１２に記述され、文章解析処理部３で文章から文章属性データを抽出する際に必ず参照される。
【００１９】
文章解析処理部３は大きく文章解析３ａと文章属性抽出３ｂという二つの処理からなる。文章解析３ａでは、まず解析対象となる電子文章データＩＤを解析対象文書ＩＤ１３から順次読み込んで、対応する電子文章データを顧客電子文章データから取り出す。次に、用語辞書１４を参照して当該文章に含まれる単語文字列および単語属性を認定する形態素解析を行い、その結果を単語テーブル１６に格納・保持する。
【００２０】
文章属性抽出３ｂでは、文章属性データを抽出するためにさまざまな処理を行う。本実施例では、（１）キーワード、（２）カテゴリ分類、（３）内容（要約）の三つの文章属性についてのみ言及する。文章属性抽出３ｂを実行するために必要な知識は文章属性抽出知識１５に格納されており適宜参照される。本処理の詳細については後述する。
【００２１】
文章解析処理部３は、各文章に関する文章属性データからなる文章属性テーブル１７を出力する。後述するように、この文章属性テーブル１７のみからでもルールを生成できるが、本実施例では顧客属性を格納した顧客属性テーブル１８の情報を文章属性テーブル１７に結合することにより、どんなタイプの顧客がどんなクレームを言っているのかを統計的に分析する。ここで、顧客属性テーブル１８に記述される顧客属性データは利用者が変更できないことに注意されたい。
【００２２】
ルール生成処理部４は大きく対象属性テーブル生成４ａとルール抽出４ｂからなる。対象属性テーブル生成４ａでは、文章属性テーブル１７と顧客属性テーブル１８を共通の属性項目をキーにして結合し、分析対象となる対象属性テーブル１９を生成する。
【００２３】
ルール抽出４ｂでは、生成された対象属性テーブル１９を統計的に分析して、属性データ間に潜在する因果関係をIF-THENルール２０として抽出し、ルールの確信度とともに出力する。例えばルール２０ａは、「クレームを寄せて来た４０代の主婦の８０％が営業担当の勧誘がしつこいというクレームを寄せてきている」、あるいは確信度の計算方法によっては、「営業担当の勧誘がしつこいというクレームを寄せてきた人の８０％は４０代の主婦である」という内容を示す。
【００２４】
ルール表示処理部５は、ルール生成処理部４で出力されたルール一覧２０を入出力部１を介して利用者に報知する。
【００２５】
利用者は報知されたルールの各々を見て分析に役立てるが、すべてのルールが利用者にとって有用であるとは限らない。あるルールは当たり前で一般的な漠然としたものかもしれないし、別のあるルールはあまりにも細かすぎるものかもしれない。
【００２６】
本システムでは、利用者がこれらのルールにぶつかったときに、そのルールを詳細化あるいは抽象化（一般化）し、その再分析結果を利用者に報知する機能を有するのが特徴の一つである。ルールの詳細化／抽象化のためには電子文章１１を再解析する必要があるかもしれない。その際、前回と同じ解析レベルで解析しても同じ内容の文章属性データが出力されるだけで意味がないので、ルールを詳細化する場合には解析レベルを上げてより詳細な文章属性データを出力する必要があるし、逆にルールを抽象化する場合には解析レベルを落としてより抽象的な文章属性データを出力する必要がある。
【００２７】
例えば表示されたルール一覧２０のうちのある特定のルールについて詳細化したいという要求を利用者が持った場合、入出力部１を介してその旨をシステムに伝える。すなわち、ルール２０ａについて、「文章属性であるカテゴリ属性を詳細化した結果が見たい」とか「営業担当の勧誘がしつこいという内容に近いものをまとめたい（抽象化したい）」といった要求を伝える。この要求をシステムが受け取ると、ルール展開制御部２で、（１）どのルールに関するルール展開要求が来たのか、（２）対象となる文章属性はどれか、（３）再解析が必要な電子文章はどれか、（４）解析レベルをどのように変更するのか、を認定・決定する処理を行い、文章解析処理部３に対して該当する電子文章の再解析を指示する。再解析の結果、文章属性テーブル１７の文章属性データを更新あるいは追加した後、ルール生成処理部４でルール抽出を再度行い、更新されたルールを利用者に報知する。
【００２８】
図２は、本実施例で述べるシステムのハードウェア構成を示す図である。本システムは各種の処理を実行する処理装置５０、プログラムおよび各種データを格納する記憶装置６０、データあるいは操作指示内容を入力するキーボード５１およびマウス５２、生成されたルールやシステムからのメッセージ等を利用者に報知する出力モニタ５３からなる。また、本システムは計算機ネットワーク５４に接続して、各種データを他の計算機から受け取ったり他の計算機に送ったりすることも可能である。処理装置５０では必要に応じて記憶装置６０からデータあるいはプログラムをロードし、処理演算を実行し、結果を記憶装置６０に格納する。記憶装置６０はワーキングエリア６１、ルール展開制御部格納エリア６２、文章解析処理部格納エリア６３、ルール生成処理部格納エリア６４、ルール表示処理部格納エリア６５、顧客電子文章データ格納エリア６６、文章属性抽出パラメータ群格納エリア６７、解析対象文章ＩＤ格納エリア６８、用語辞書格納エリア６９、文章属性抽出知識格納エリア７０、単語テーブル格納エリア７１、文章属性テーブル格納エリア７２、顧客属性テーブル格納エリア７３、対象属性テーブル格納エリア７４、ルール（属性間の因果関係）格納エリア７５から構成される。
【００２９】
本発明のデータ分析支援方法を実施するプログラムは、通常、外部記憶装置に格納され、実行時に記憶装置（メモリ）に読み込まれて実行されるが、このプログラムを計算機で読取り可能な記憶媒体に格納し、これを処理装置の記憶装置に読み込んで実行することも可能である。
【００３０】
図３は、利用者がルールの初期生成（第一回目の生成）を指示する際に提示される画面の一例を示す図である。本画面はルール生成までの一連の処理で必要な各種データを利用者に設定／入力させるものである。「対象文章ディレクトリ」欄８９には、文章解析の対象となる電子文章が格納されたディレクトリ名を記述する。本実施例ではディレクトリ名を入力させるが、電子文章はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「文章属性抽出パラメータ」欄９０には、文章解析処理部３で用いる文章属性抽出パラメータ群１２の情報が格納されたファイルの格納位置およびファイル名称を記述する。「他に結合する属性データ」欄９１には、文章属性テーブル１７と結合する顧客属性テーブル１８があればそのファイル名称を記述する。顧客属性テーブル１８はオプションであり、指定しなくても構わない。顧客属性テーブル１８はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「結合するための共通属性」欄９２には、文章属性テーブル１７と顧客属性テーブル１８を結合する際のキーとなる属性項目の名称を記述する。これらの設定データはワーキングエリア６１に格納され、適宜参照される。
【００３１】
「文章属性抽出パラメータの設定」ボタン９３を押すと、上記欄９０に記述されたファイルがオープンされ、編集可能となる。どの文章属性をどの解析レベルで抽出するのかに関する情報をこのファイルに記述する（詳細は後述）。
【００３２】
実行ボタン９４を押すとルールの初期生成が実行される。また中止ボタン９５を押すとルール生成は行われないで、本画面はクローズする。
【００３３】
図３の画面の上部にはメニューバーが配置されており、各種ボタン８１〜８８があるが、これらのボタンは本実施例の本質には直接関係しないので、各ボタンの詳説は省略する。
【００３４】
図４は文章属性抽出パラメータ群１２の構成を示す図である。文章属性抽出パラメータ群１２は、文章属性テーブル１７の文章属性の名称となる属性名1201、属性名1201を詳細化した詳細属性名1202、文章属性の解析レベルを示す解析レベル1203、ルール初期生成の際に適用される解析レベルを示す初期レベル1204、ルール展開の際に参照される現在レベル1205から構成される。解析レベル1203は整数値をとり、数が小さいほど解析が抽象的となる。初期レベル1204は整数値をとり、値がマイナスの場合その属性は文章解析時に抽出されないことを示す。初期レベル1204の値は書き換えが可能であり、その値に対応する解析レベル1203で文章属性の抽出は行われる。現在レベル1205は、文章の再解析の際に参照されるものであり、ルール展開処理部２の文章属性抽出パラメータ設定２ｂにおいて利用者の要求に応じて値を変える。
【００３５】
図４では、本システムにおいて抽出可能な文章属性として、分類（カテゴリ）1206，キーワード1207，内容1208の３種類があることを示している。分類属性1206については大分類，中分類，小分類が可能であり、中分類は大分類に比べて分類が細かく、小分類は中分類に比べて分類が細かい。キーワード1207および内容1208の抽出についてはそれぞれ２段階の解析レベルがあることを示している。もちろん、これら以外の文章属性も定義可能である。例えば、文章中の５Ｗ１Ｈ（いつ、どこで、だれが、何を、どのように、なぜ）情報であるとか、内容の類似する文章同士をまとめてグループ化する（クラスタリングする）などが考えられる。
【００３６】
図５は、利用者が図３においてルールの初期生成を実行指示したときの、ルール展開制御部２の処理内容を示す図である。
【００３７】
まず、解析対象文章決定２ａにおいて、解析対象文章ＩＤ１３を初期化した後（ステップ2a01）、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し（ステップ2a02）、ルール初期生成である場合は、解析対象文章ＩＤの先頭に文字列"ALL"を書き込む（ステップ2a03）。ルール展開の場合の処理については図２１の説明の中で述べる。
【００３８】
次に、文章属性抽出パラメータ設定２ｂにおいて、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し（ステップ2b01）、ルール初期生成である場合はステップ201に移る。ルール展開の場合の処理については図２１の説明の中で述べる。
【００３９】
次に、文章解析処理部３に対して解析対象文章の解析を指示する（ステップ201）。文章解析処理部３が正常に処理終了したら（ステップ202）、ルール生成処理部４に対してルールの抽出を指示する（ステップ203）。ルール生成処理部４が正常に終了したら（ステップ204）、ルール表示処理部５に対して生成されたルールの表示を指示する（ステップ205）。文章解析処理部３、ルール生成処理部４、ルール表示処理部５では、ルール展開制御部からの指示を受けてそれぞれ所定の処理を実行し、結果をそれぞれ所定の位置に出力し、リターンコードをルール展開制御部２に返す。
【００４０】
図６は、解析対象文章ＩＤ１３の構成および内容を示す図である。解析対象文章ＩＤ１３には、文章解析処理部３で解析対象となる電子文章データ１１の文章ＩＤ集合を記述する。上述したように、ルール初期生成の場合はすべての電子文章を解析対象とするので、その場合は図６（ａ）に示すように文字列"ALL"のみが記述される（この処理はルール展開制御部２における解析対象文章決定２ａ（ステップ2a03）で行われる）。図６（ｂ）の説明については後述する。
【００４１】
図７は、本システムで対象とする電子文章データ１１の構成と内容を示す図である。電子文章データ１１は少なくとも顧客からのクレーム内容を記述した部分はテキスト形式で格納されている必要がある。本システムでは、電子文章データ１１は予め記憶装置６０に格納されていることを前提としているが、その入力方法としては、キーボードを介したキー入力，ペン等による入力，ＯＣＲ等を用いた文字認識による入力，音声認識装置を介した入力，計算機ネットワーク５４で接続された計算機からの転送による入力などがあるが、どれでも構わない。
【００４２】
図７に示すように、一つの電子文章データは、文章を識別する文章ＩＤ1101，顧客属性テーブル１８のデータとリンクするために必要な顧客ＩＤ1102，顧客からのクレームを受け付けた受付月日1103，そして受付文章1104から構成される。もちろん、受付担当者など他の情報があっても構わない。また、電子文章データ１１は構造化されていない普通の文章で書かれてあっても良いし、ＳＧＭＬ（Standard General Markup Language），ＸＭＬ（eXtensible Markup Language）に代表されるようなマークアップ言語（タグ付き言語）で書かれてあっても良い。ただし、前者の場合はシステムが各情報の位置を正確に特定できるように記述方法を工夫・統一する必要がある。後者の場合はタグの名称を統一する必要がある。
【００４３】
図８は、用語辞書１４の構成と内容を示す図である。用語辞書１４は、文章解析部３における文章解析３ａにおいて参照されるデータであり、このデータを用いて文章を構成する単語および各々の単語の属性を認定する。
【００４４】
用語辞書１４は単語見出し1401，品詞1402，活用形／活用行／活用種に関する情報を記述した活用1403，複数の表記方法がある場合の代表的な表記である正表記1404，キーワードを抽出する際に明らかにキーワードとなり得ない単語（不要語）であることを示す不要語フラグ1405，単語の意味的な分類を記述する意味コード1406，感情を表す単語かを記述する感情コード1407から構成される。もちろん、これ以外の単語属性が含まれていても構わない。正表記1404とは、ほぼ同じ意味内容を表すが表記の異なる二つの単語を同一の単語として扱うためのものであり、例として「人」と「人間」などが挙げられる。また、カタカナの表記の違い（例えば、インタフェースとインターフェイス）やアルファベットの大文字／小文字の記述の違いなどもこれに含まれるがこれらについては機械的処理が可能であるので、用語辞書１４に記述しなくても文章解析において表記の統一処理を行うことが可能である。
【００４５】
図９は、文章属性抽出知識１５の構成と内容を示す図である。文章属性抽出知識１５とは、文章から種々の文章属性データ１７を抽出するのに必要な知識の集合である。前述したように本システムでは、分類，キーワード，内容という三種類の文章属性を抽出するが、それぞれの文章属性を抽出するためにはそれぞれ別の知識を参照する。
【００４６】
図９（ａ）は、各文章を予め定義された分類カテゴリに分類するためのカテゴリ分類知識１５ａを記述したものである。このテーブルは、分類の際に使用するキーワード見出し1501，分類カテゴリ名1502，当該キーワード見出しが当該分類カテゴリを特徴付けるキーワードとしてどのくらい重要であるのかを定量的に表す重み1503から構成される。
【００４７】
分類の際に使用するキーワードの認定方法としては、ある特定の品詞の単語を使用する方法や、予め定義したキーワード集合に含まれるキーワードのみを使用する方法や、明らかにキーワードとなり得ない単語（不要語）を除いた残りの単語を使用する方法や、上記方法の組み合わせによる方法などがある。また、あるキーワードがある分類カテゴリを特徴付けるか否かを決めるために、予め既に分類済みの文章を教師データとして用意し、それらを文章解析することによって、あるキーワードがある分類カテゴリにどのくらいの頻度で出現するかを統計的に自動計算することもできる。
【００４８】
さらに、重みの付与方法としては、あるキーワードが含まれる全文書数に占める、そのキーワードが含まれる「ある分類カテゴリに属する文書数」の割合を用いる方法や、あるキーワードが全文書中に含まれる総出現頻度に占める、そのキーワードが「ある分類カテゴリに属する文書中」に含まれる総出現頻度の割合を用いる方法などがあり、どれを用いても構わない。文章属性抽出３ｂにおいて分類カテゴリを決定する際には、分類の対象となる文章中に出現するキーワードが持つ重みを分類カテゴリ別に加算した合計値を求め、最も大きな値を持つ分類カテゴリをその文書の分類カテゴリとするなど多くの方法が知られている。
【００４９】
図４に示すように、本システムでは大分類，中分類，小分類の３階層からなる分類カテゴリ体系を採用しているので、図９（ａ）に示すカテゴリ分類知識は各分類階層毎に作成する必要がある。
【００５０】
図９（ｂ）は、文章属性の他の一つである内容（要約）を抽出するために必要な内容抽出知識１５ｂを記述したものである。本システムでは、文章の構文的構造および文章を構成する単語の持つ属性を手掛かりとした、IF-THENルールベースの内容抽出を行う。もちろん、これ以外の手法を用いても構わない。
【００５１】
図９（ｂ）に示すように、各ルールは、条件を記述するＩＦ部と帰結部を記述するＴＨＥＮ部からなる。最初のルール（ＩＤ＝00001）は、名詞１の直後に単語「の」が続き（記号「＋」はその前後の単語が直接つながることを示す）、その直後に名詞２が続き、その直後に単語「が」が続き、その後方に形容詞１が続く（記号「＊」は直後の単語が直前の単語に直接つながる必要はないが後方に現れる必要があることを示す）という条件を示しており、かつ、名詞１の単語属性である意味コード1406が「人間」であり、名詞２の意味コード1406が「行為」であり、形容詞１の単語属性である感情コード1407が「悪感情」であるときに初めてこのＩＦ部を満たすことを示している。従って、例えば「営業担当の勧誘が悪い」という文の場合、名詞１が「営業担当」、名詞２が「勧誘」、形容詞１が「悪い」と対応付けることにより、このルールを満たすことになる。従って、ＴＨＥＮ部に記述された式に当てはめた、「勧誘（営業担当）＝悪い」という結果が得られる。
【００５２】
このようなIF-THENルールを用意しておくことにより、文章をある特定の構文を持った表記に置き換えることが可能となり、文章を短く表現（要約）することが可能となる。
【００５３】
図９（ｃ）は、（ｂ）と同様、内容（要約）属性を抽出するために必要な内容抽出知識１５ｂを記述したものである。電子文章データ１１の中にある単語が含まれている場合、その単語の正表記1404は用語辞書１４から抽出できるが、単語間の意味的関係（意味的階層関係）については用語辞書１４には記述されていない。そこで、（ｃ）に示すような意味シソーラスを用意することにより、類似する意味を持つ単語をまとめることが可能となる。例えば、単語「保険料」「手数料」はどちらも料金の一種であるという情報が（ｃ）のシソーラスから得られる。この時、「保険料」「手数料」という単語をそのまま使って内容属性を抽出するよりも、「料金」という単語に置き換えて内容属性を抽出する方がその内容属性の抽象度は高くなる。従って、利用者が抽象的な解析を要求している場合には、より上位の単語に置き換えて解析し、逆に利用者が詳細な解析を要求している場合には、より下位の単語を用いて解析することにより、解析レベルの異なった解析結果を得ることができる。
【００５４】
図９には記載されていないが、残る一つの文章属性であるキーワードを認定するための知識について以下簡単に説明する。キーワード抽出方法にはいろいろな手法が提案されている。すなわち、（１）出現頻度の高いものをキーワードとする方法や、（２）出現頻度の高い上位Ｎ％と下位Ｍ％の単語を除去したものをキーワードとする方法や、（３）対象とするすべての文章において各単語がどのくらいの割合で出現するかによって各文章中の出現頻度を補正する方法や、（４）単語の文章中での出現の仕方や出現位置等を考慮した重み付けによるものなどがある。本システムでは、どの手法を用いても構わないが、これらの処理は特別な知識を持たなくても処理できる類のものであるので、キーワード抽出のための知識についてはここでは特に言及しない。
【００５５】
図１０は、文章解析処理部３の処理内容を示す図である。文章解析処理部３はルール展開制御部２からの実行指示（ステップ201）を受けて文章を解析するもので、大きく文章解析３ａと文章属性抽出３ｂからなる。
【００５６】
文章解析３ａではまず、解析対象の文章情報が格納されている解析対象文章ＩＤ１３を一行読み取り（ステップ3a01）、それが文字列"ALL"であるか否かを判別する（ステップ3a02）。"ALL"の場合、顧客電子文章データ１１に格納されるすべての文章が解析対象となるので、単語テーブルを初期化した後（ステップ3a03）、顧客電子文章データ１１の中に未解析の文章があるか否かを判別し（ステップ3a04）、ある場合は、その未解析文章に対して以下の処理を行う。
【００５７】
まず、対象文章から顧客ＩＤおよび文章ＩＤなどの固定属性情報を抽出する（ステップ3a05）。これら固定情報の抽出の仕方は文章の記述形式に依存するが、前述したようにXML等で記述されていれば、特定のタグ内に記述された文字列を値として抽出可能であるので、比較的容易にこれらの属性データを抽出できる。次に、対象文章から顧客のクレーム内容を表す文章部分を取り出す（ステップ3a06）。次に取り出した文章を単語に分割し、用語辞書１４を参照して各単語の属性情報を取得する形態素解析を行う（ステップ3a07）。形態素解析のアルゴリズムとしては、最長一致法や最小コスト法など多くの手法が公知であるので、ここでは詳細の説明を省略する。次に取得した単語の属性情報を単語テーブル１６に書き込む（ステップ3a08）。このとき、各単語および単語の属性情報を文章ＩＤと対応させて書き込む。一般に上記単語分割は多大な解析時間を要するが、単語分割結果を単語テーブル１６に保持しておくことによって、後の解析において単語テーブル１６からある特定の文章ＩＤに関する単語データを高速に取得することが可能となる。
【００５８】
ステップ3a02で"ALL"でない場合、解析対象文章ＩＤ１３に記述された文章ＩＤに対応する文章のみが解析対象となるが、この場合、既に単語テーブル１６に文章解析３ａの結果が格納されているので、文章解析３ａをスキップしてステップ3b01に進む。
【００５９】
文章属性抽出３ｂでは、本システムで扱う三つの文章属性である、分類カテゴリ，キーワード，内容情報を抽出する。まず本処理が、利用者からの指示に基づいて、ルール初期生成かルール展開であるかをチェックし（ステップ3b01）、ルール初期生成である場合は、文章属性抽出パラメータ群１２の初期レベル1204の値を取り込む（ステップ3b02）。ルール展開である場合は、文章属性抽出パラメータ群１２の現在レベル1205の値を取り込む（ステップ3b03）。次に、解析対象文章ＩＤ１３から先頭の一行を読み取り（ステップ3b04）、その文字列が"ALL"または"ALL2"であるかを判別し（ステップ3b05）、どちらか一方である場合は、単語テーブル１６中の文章すべてを文章属性抽出対象とみなし（ステップ3b06）、どちらでもない場合は、解析対象文章ＩＤ１３に格納された文章を文章属性抽出対象とみなす（ステップ3b07）。次に、文章属性を未抽出の文章があるか否かを判別し（ステップ3b08）、ある場合は、分類属性，内容属性，キーワード属性の抽出をそれぞれ行う（ステップ3b09）を行う。これらの文章属性の抽出順序については特に考慮する必要はない。
【００６０】
分類属性の抽出においては、文章属性抽出パラメータ群１２から取り込んだ解析レベルの値が０の場合は大分類を行うことを示し、１の場合は中分類を行うことを示し、２の場合は小分類を行うことを示し、値がマイナスである場合は分類カテゴリの抽出は行わないことを示す。もちろん、分類カテゴリが４種類以上あっても良い。ここでは、該当する分類レベルに対応する文章属性抽出知識１５のカテゴリ分類知識１５ａを参照して分類カテゴリを決定する。具体的にはまず、単語テーブル１６に格納されている、分類対象文章から抽出された単語集合から品詞が名詞である単語を抽出する。次に、各名詞についてカテゴリ分類知識１５ａに記述された重みの値をカテゴリ別に加算してその合計値を求める。次にこれらの合計値の最も高い分類カテゴリを求め、その分類カテゴリを当該文章の分類カテゴリとして文章属性テーブル１７に保持する（ステップ3b10）。もちろん、上記値の計算方法は一例であり、上記以外の計算方法でも構わない。
【００６１】
内容属性の抽出においては、図４に示すように解析レベルとして０，１を取ることができ、解析レベル１の方が詳細な解析を行う。もちろん解析レベルは３種類以上あっても構わない。以下では、２種類の内容属性の抽出方法について述べるが他の抽出方法を用いても構わない。
【００６２】
一つ目の方法は、図９（ｃ）に示したような意味シソーラスの階層情報を用いるものである。意味シソーラスは階層が高いほど意味は抽象的になっているので、ある文章中に出現する単語（の正表記）が意味シソーラスに記述されている場合でかつ、その単語が意味シソーラスの下位に位置する場合、その単語を、その単語の上位に位置する単語に置き換えることにより、単語を抽象化することができる。例えば、文章中に「保険料」という単語が出現した場合、意味シソーラスにおける上位の単語である「料金」に置き換える。一方、「手数料」という単語が出現した場合も同様に「料金」という単語に置き換える。意味シソーラスにおけるどの階層の単語に置き換えるのかが、内容属性の解析レベルに対応させることにより、意味シソーラスの階層の数だけの種類の解析ができる。
【００６３】
二つ目の方法は、図９（ｂ）に示す内容抽出知識における帰結部の記述を複数持たせる方法である。すなわち、内容属性の解析レベルに対応した帰結部をそれぞれ記述しておく。内容属性を抽出する際には、解析レベルに応じて採用する帰結部を変える。一般に解析レベルの抽象度が高い場合は、帰結部の記述も簡潔になり、逆に解析レベルの抽象度が低い場合は、帰結部の記述も複雑になる。
【００６４】
キーワード属性の抽出においては、図４に示すように、解析レベルとして０，１の２種類を取ることができる。キーワード属性の抽出においても、内容属性の抽出と同様に、図９（ｃ）に示すようなシソーラスを用いてキーワードをある階層のキーワードに置き換える方法が可能である。あるいは、あるキーワードの出現する文章数の割合が高いキーワードは一般性の強いキーワードであると仮定すると、対象とする電子文章のうち、一定割合（Ｎ％）以上の文章に出現する単語をキーワードから除外するという方法が考えられる。すなわち、上記Ｎの値を低くすることにより、一般的な単語がキーワードから除外されるので、より詳細なキーワードを得ることが可能となる。従って、キーワード属性における解析レベルを上記Ｎの値と対応付けて定義することにより、Ｎの値に応じた異なるキーワードを出力することが可能となる。また、一部の文章に絞って再解析を行う場合、上記Ｎの値が同じでも出力されるキーワードが異なるはずである。対象とする電子文章全体から見るとあまり高い割合で出現していないキーワードでも、対象を絞ることにより、その割合が急激に高くなる可能性があるので、そのようなキーワードを除去することにより、より詳細なキーワードを得ることが可能となる。
【００６５】
このように、文章解析処理部３の処理は、ルール展開制御部２で決められたパラメータ設定に基づいて行われるため、パラメータの値に応じて処理方法および参照するデータが変わる。その結果、パラメータの値に応じて異なる文章属性データ１７を得ることができる。
【００６６】
図１１は、単語テーブル１６の構成と内容を示す図である。単語テーブル１６は用語辞書１４と似た構造をしている。図１１は図７に示した文章「営業マンの勧誘が大変しつこい。」の解析結果として生成される単語テーブル１６を表しており、出現単語1601，品詞1602，活用1603，正表記1604，不要語フラグ1605，意味コード1606，感情コード1607から構成される。出現単語1601の記述順序は、文章における記述順序に等しい。不要語フラグ1605は図１０の文章属性抽出３ｂにおけるステップ3b09におけるキーワード属性抽出の際に参照可能なデータであり、この値が１の場合、キーワードとして不適当であることを示している。意味コード1606および感情コード1607は、内容属性抽出の際に参照されるデータであり、図９（ｂ）に示されている内容抽出知識との照合を行うためのデータである。
【００６７】
図１２は、文章属性テーブル１７の構成と内容を示す図である。文章属性テーブル１７を構成する属性としては、顧客ＩＤや文章ＩＤ等のように必ず抽出される固定の属性と、利用者によって文章属性抽出パラメータ群１２において抽出することが指定され、その値が可変である文章属性とがある。図１２では見やすいように表形式で記述してあるが、本システムでは文章属性テーブル１７をＣＳＶ形式で記述する。すなわち、各属性がコンマで区切られ、一行に一文章の情報を記述する。これは後のデータ加工処理を容易にするためであるが、リレーショナルデータベース（ＲＤＢ）のように表形式のテーブルに格納しても構わない。
【００６８】
図１３は、顧客属性テーブル１８の構成と内容を示す図である。顧客属性テーブル１８は必ずしも不可欠なデータではないが、このデータを文章属性テーブル１７と結合することにより、どんなタイプの顧客がどんな内容のクレームを言っているのかという因果関係を抽出することが可能となる。顧客属性テーブル１８は固定属性データであり、その属性としては、性別，年齢，職業，年収，趣味，加入保険タイプなどが挙げられる。本システムでは、顧客属性データ１８もＣＳＶ形式で記述するが、ＲＤＢのように表形式のテーブルに格納しても構わない。
【００６９】
図１４は、ルール生成処理部４の処理内容を示す図である。ルール生成処理部４はルール展開制御部２からの実行指示（ステップ203）を受けて文章属性テーブル１７および顧客属性テーブル１８に格納された属性データを統計的に分析するもので、対象属性テーブル生成４ａとルール抽出４ｂからなる。
【００７０】
対象属性テーブル生成４ａではルール抽出４ｂの処理対象となる対象属性テーブル１９を作成する。まず、図３の画面から取得した「他に結合する属性データ９１」および「結合するための共通属性９２」に関するデータをワーキングエリア６１から取得する（ステップ4a01）。次に、「他に結合する顧客属性データ９１」の値が存在するか否かを判別し（ステップ4a02）、存在しない場合は文章属性テーブル１７をそのまま対象属性テーブル１９と認定する（ステップ4a03）。存在する場合は、「結合するための共通属性９２」の値である属性項目を共通属性として文章属性テーブル１７と顧客属性テーブル１８とを結合し、その結果を対象属性テーブル１９として格納する（ステップ4a04）。ここで、文章属性テーブル１７に記述される文章が全文章データの一部である場合、顧客属性テーブル１８からもこの一部の文章が持つ顧客ＩＤに関する顧客属性データのみを用いることとし、その他の関係ない顧客ＩＤに関する顧客属性データは用いない。すなわち、ルール初期生成時にはすべての文章が解析対象となり、すべての文章に関する文章属性データが文章属性テーブル１７に格納されるので、関連する顧客属性テーブル１７中の属性データはすべて対象属性テーブル１９に格納されるが、ルール展開時には一部の文章のみが解析対象となることがあるので、その場合、顧客属性テーブル１８に記述されている属性データのうち、一部の文章が持つ顧客ＩＤに関係する属性データのみ（ある特定の顧客ＩＤを持つレコードのみ）が対象属性テーブル１９に格納される。
【００７１】
ルール抽出４ｂでは、対象属性テーブル１９に格納された属性データを対象として、それらの間に潜在する因果関係を統計的に解析し、特徴的な因果関係をIF-THENルールとして抽出する（ステップ4b01）。すなわち「Ａという条件を満たすならば、Ｂである」又は「もしＡならばＢである」という形でルールを出力する。ここで注意したいのは、本システムは文章属性を分析するためのものであるため、帰結部Ｂには文章属性（分類カテゴリ，キーワード，内容）に関する内容が含まれていなければならない。もし、抽出されたルールの構成要素がすべて顧客属性テーブル１８に関連するものであるならば、図７に示すようなクレーム文章を集めて文章解析をして文章属性を抽出する意味がない。上記の結論部Ｂに含まれるべき文章属性は文章属性抽出パラメータ群１２等から認定できるので、最終的にルールを抽出する際に結論部Ｂを構成する属性が文章属性であるか否かを判別し、文章属性でない場合、当該ルールを削除するという処理を行うか、あるいは、ルール生成において各属性の組み合わせを考える際に、結論部Ｂには文章属性が含まれるようにするなどの処理が不可欠となる。
【００７２】
また、従来のデータ分析システムの中には、結論部Ｂに相当する部分を利用者に記述させ、条件部Ａに相当する部分をシステムが抽出するという形のものもある。このようなタイプのシステムにおけるルール抽出アルゴリズムを本システムに適用する場合、結論部Ｂに相当する文章属性名あるいは文章属性データを利用者に指定させ、ルール抽出の際に当該文章属性の属性値を一つずつ抽出し、その属性値を持つときの条件（Ａの部分）を分析することになるが、技術的には十分実現可能である。
【００７３】
なお、ルール抽出４ｂのアルゴリズムの詳細については、例えば特開平８−７７０１０など多くの手法が既に知られているので、ここでは深く言及しない。
【００７４】
図１５は、対象属性テーブル１９の構成と内容を示す図である。図１２の文章属性テーブル１７と図１３の顧客属性テーブル１８は属性「顧客ＩＤ」を共通属性として持っているので、これをキーとして両テーブルを結合する。同一の顧客ＩＤを持つ属性データが一つのレコードを構成している。
【００７５】
図１６は、ルール（属性間因果関係）２０の構成と内容を示す図である。ルールＩＤ0001は、「年齢が４０代の主婦は、営業担当の接客態度が悪い」ということを示すルールであり、ＩＤ0002は、「２０代の人は、「保険」カテゴリに関するクレームが多い」というルールである。条件部は属性名とその値の対が一つ以上組み合わさったものである。また、確信度はそのルールの傾向の強さを示すものであり、値が大きいほどそのルールの傾向が強いことを示す。既に知られている確信度の計算方法についての詳細は省略するが、確信度を表示することは利用者が生成されたルールを評価する一つの尺度として有効である。
【００７６】
図１７は、ルール２０を利用者に報知するための画面の一例を示す図である。画面はルールＩＤ103，確信度106，IF−THENのIF部に相当する条件部104，THEN部に相当する帰結部105，別のルールを表示するための指示ボタン群110〜113，ルール検索用ボタン101，ルールを確信度等に基づいてソートするボタン102，各種メニューボタン81〜88，ルール展開をシステムに指示するボタン114，直前に表示した画面に戻るボタン115から構成されている。条件部104では、条件を構成する属性について、属性名と属性値を対にして「属性名＝属性値」の形で表示している。
【００７７】
図１８は、利用者がルール展開を指示するための画面の構成と内容を示す図である。図１７において、利用者があるルールを表示した状態でルール展開ボタン114を押すとこの画面が立ち上がる。図１７と同様、ルールＩＤ，確信度，条件部，帰結部を表示する。図１８において、文章属性であるものについては、チェックボックスが付加されている。これは、このチェックボックスの付いた文章属性の再解析が可能であることを示している。このチェックボックスをチェックすることは、表示されているルールを満たす文章を対象として、チェックされた文章属性を再解析することを要求することに等しい。図１８では、帰結部123の文章属性「内容」の欄に四角いチェックボックスが表示され、利用者がこのチェックボックスをチェックした状態であることを示している。また、再解析の対象となる文章を利用者が選択できるようになっている（128）。すなわち、上記選択したルールに該当する文章のみを再解析の対象とするのか、すべての文章を再解析の対象とするのかのどちらか一方を選択できる。前者の場合は、ある特定のルールについて、そのルールを展開したい場合に選択する。後者の場合は、ある特定の属性データ全体を再解析したい場合に選択する。
【００７８】
展開したい文章属性を選択した後に詳細化ボタン129を押すと、ルール展開制御部２はこの指示情報を受けてルールの詳細化を実行する。また、抽象化ボタン130を押すと、ルール展開制御部２はこの指示情報を受けてルールの抽象化を実行する。中止ボタン131を押すとルール展開は行われず、本ウィンドウは閉じられる。
【００７９】
なお、図１８のチェックボックスを図１７のルール表示画面に埋め込み、ルール表示画面からいきなりルール展開ができるようにすることも可能である。
【００８０】
図１９は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図１９の表示画面は図１８と類似しているが、一種類の文章属性にチェックボックスが２種類表示されているところが異なる。すなわち、四角いチェックボックスが付いた文章属性は詳細化可能であることを示しており、一方、丸いチェックボックスが付いた文章属性は抽象化可能であることを示している。利用者はどちらか一方のチェックボックスをチェックすることが可能である。その後、実行ボタン149を押すと、ルール展開制御部２はこの指示情報を受けて、チェックされたチェックボックスに応じたルール展開を実行する。
【００８１】
図１９に示したチェックボックスを表示するかしないかは、ルール表示処理部５において、文章属性抽出パラメータ群１２を参照することにより実現できる。すなわち、ルール２０に格納されたルールの各々を構成する各々の属性について、その属性が文章属性であるか否かを文章属性抽出パラメータ群１２を参照することにより判別し、文章属性である場合、さらにそれ以上その属性を詳細化／抽象化できるか否かを文章属性抽出パラメータ群１２に記述された現在レベル1205と解析レベルとを比較することにより判別し、詳細化できる場合は四角いチェックボックスを、抽象化できる場合は丸いチェックボックスを付加する。このように、展開できる属性を他と異なる態様で報知することにより、利用者は展開できる属性を容易に把握することが可能となる。
【００８２】
図２０は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図２０では図１８，図１９と異なり、文章属性の一覧が表示されている。ある特定のルールに関して再解析を要求する場合のほかに、ある特定の文章属性全体を再解析することを要求する場合もありうる。その場合、図２０のような画面を表示することにより、どの文章属性を詳細化／抽象化するのかに関する情報を利用者から得ることができる。図２０では、内容属性を詳細化することを要求している。もちろん、再解析対象となる文章は、電子文章データ１１に格納された文章すべてである。
【００８３】
図２１は、ルール展開制御部２の処理内容を示す図であり、図５のステップ2a02あるいはステップ2b01の判別条件を満たさない場合の処理内容を示す図である。解析対象文章決定２ａにおけるステップ2a02でルール初期生成でない、すなわちルール展開である場合、まず、利用者からの指示に基づいて、ルール展開に伴う文章再解析が全文章を対象とするものか否かを判別し（ステップ2a11）、全文章の場合、解析対象文章ＩＤ１３に文字列"ALL2"を書き込む（ステップ2a12）。この文字列は文章解析をやり直す必要はないが文章属性抽出はすべての文章を対象としていることを示す。ステップ2a11で全文章を対象としない場合、対象属性テーブル１９から解析対象の文章ＩＤを検索し、解析対象文章ＩＤ１３に書き込む（ステップ2a13）。全文章を対象としない場合というのはあるルールを満たす文章のみを再解析する場合であるので、対象属性テーブル１９から当該ルールを満たすレコードを見つけ、その文章ＩＤを抽出することにより、解析対象の文章ＩＤを検索することができる。
【００８４】
次に文章属性抽出パラメータ設定２ｂにおけるステップ2b01でルール初期生成でない、すなわちルール展開である場合、まず展開対象となる文章属性情報を利用者の指示情報から取得する（ステップ2b11）。次に利用者からの指示情報から、当該文章属性を詳細化するのか抽象化するのかを判別し（ステップ2b12）、抽象化する場合は、文章属性抽出パラメータ群１２の当該文章属性に対応する現在レベルの値を１減らす（ステップ2b13）。詳細化する場合は、文章属性パラメータ群１２の当該文章属性に対応する現在レベルの値を１増やす（ステップ2b14）。その後の処理は図５で説明した通りの方法で再解析の実行を指示する。
【００８５】
図２２は、図１８において文章属性である内容属性の詳細化を指示した後の文章属性抽出パラメータ群１２の内容を示す図である。図４の内容と異なっているのは、内容属性1208の現在レベル1205の値が０から１に変わっていることである。すなわち、内容属性の解析レベルが一段階詳細化されていることである。この状態で文章解析処理部３が起動されると、文章解析処理部３では、内容属性について解析レベルを１として解析することとなる。
【００８６】
図２３は、再解析後の文章属性テーブル１７の内容を示す図である。図１２に示す内容属性の値と比べると内容が詳細化されている。図１２では内容属性の値が同じであっても、図２３では内容が詳細化されたことにより、値がばらついているのが分かる。例えば、図１２において、顧客ＩＤが12345の顧客と34567の顧客は内容属性1706の値が同一（「接客態度（営業担当）＝悪い」）であるが、図２３においては、内容属性の解析が詳細化されたため、値が異なっている（「勧誘（営業担当）＝しつこい」と「態度（営業担当）＝悪い」）。
【００８７】
図２４は、ルール展開の結果新しく生成されたルール２０の内容を示す図である。図１６のルールと比べると確信度の値が下がっているが、これは内容属性の値がばらついたことにより、ルールの傾向の強さが弱まったことを示す。また、これまで出力されていたルールがルール展開によって出力されなくなることもあれば、逆の場合もある。
【００８８】
ルール展開結果についても図１７から図２０で示したように利用者に提示されるので、再びルール展開を行うことができる。
【００８９】
【発明の効果】
以上、図１から図２４を用いて説明したように、本実施例のシステムは、電子文章から文章属性を抽出してそれらの間の因果関係を顧客属性と対応付けて出力できるだけでなく、特定のルールを構成する文章属性に対してさらにルールの詳細化／抽象化を指示したり、特定の文章属性に対してその再解析（詳細化／抽象化）を指示したりすることができるので、利用者の要求に近いルールを出力する確率が高くなる。
【図面の簡単な説明】
【図１】本実施例の概要を示す図である。
【図２】本実施例のハードウェア構成を示す図である。
【図３】ルール初期生成指示画面の構成および内容を示す図である。
【図４】文章属性抽出パラメータ群１２の構成および内容を示す図である。
【図５】ルール展開制御部２の処理内容の一部を示す図である。
【図６】解析対象文章ＩＤ１３の構成および内容を示す図である。
【図７】顧客電子文章データ１１の構成および内容を示す図である。
【図８】用語辞書１４の構成および内容を示す図である。
【図９】文章属性抽出知識１５の構成および内容を示す図である。
【図１０】文章解析処理部３の処理内容を示す図である。
【図１１】単語テーブル１６の構成および内容を示す図である。
【図１２】文章属性テーブル１７の構成および内容を示す図である。
【図１３】顧客属性テーブル１８の構成および内容を示す図である。
【図１４】ルール生成処理部４の処理内容を示す図である。
【図１５】対象属性テーブル１９の構成および内容を示す図である。
【図１６】ルール２０の構成および内容を示す図である。
【図１７】ルール表示画面の構成および内容の一例を示す図である。
【図１８】ルール展開指示画面の構成および内容の一例を示す図である。
【図１９】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図２０】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図２１】ルール展開制御部２の処理内容の他の一部を示す図である。
【図２２】文章属性抽出パラメータ設定後の文章属性抽出パラメータ群の内容を示す図である。
【図２３】更新後の文章属性テーブルの内容を示す図である。
【図２４】更新後のルールの内容を示す図である。
【符号の説明】
１・・・入出力部，２・・・ルール展開制御部，３・・・文章解析処理部，４・・・ルール生成処理部，５・・・ルール表示処理部，１１・・・顧客電子文章データ，１２・・・文章属性抽出パラメータ群，１３・・・解析対象文章ＩＤ，１４・・・用語辞書，１５・・・文章属性抽出知識，１６・・・単語テーブル，１７・・・文章属性テーブル，１８・・・顧客属性テーブル，１９・・・対象属性テーブル，２０・・・ルール（属性間因果関係）

Claims

入力装置、電子文章を解析して文章属性データを抽出する文章解析処理部、文章属性データ間の関係を抽出するルール生成処理部、ルール展開制御部および出力装置を備えたデータ分析装置を用いたデータ分析支援方法において、
前記入力装置を介して指定した文章属性に対応する電子文章を、前記文章解析処理部によって、解析して当該文章属性データを更新し、
前記ルール生成処理部によって、前記更新された文章属性データと他の文章属性データとの間の関係を抽出し、
前記抽出された関係を前記出力装置に出力し、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを前記ルール展開制御部によって判定し、
文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を前記出力装置に出力し、
前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を、前記文章解析処理部によって、再解析して当該文章属性データを更新することを特徴とするデータ分析支援方法。
文章属性の指示を入力する入力装置と、
前記入力装置を介して指定した文章属性に対応する電子文章を解析して当該文章属性データを更新する文章解析処理部と、
前記更新された文章属性データと他の文章属性データとの間の関係を抽出するルール生成処理部と、
前記抽出された関係を出力する出力装置と、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを判定するルール展開制御部と、
前記出力装置は、文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を出力し、
前記文章解析処理部は、前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を、再解析して当該文章属性データを更新することを特徴とするデータ分析装置。
入力装置、電子文章を解析して文章属性データを抽出する文章解析処理部、文章属性データ間の関係を抽出するルール生成処理部、ルール展開制御部および出力装置を備えたデータ分析装置にデータ分析支援方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
前記入力装置を介して指定した文章属性に対応する電子文章を解析して当該文章属性データを更新する手順を前記文章解析処理部に実行させ、
前記更新された文章属性データと他の文章属性データとの間の関係を抽出する手順を前記ルール生成処理部に実行させ、
前記抽出された関係を出力する手順を前記出力装置に実行させ、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを判定する手順を前記ルール展開制御部に実行させ、
文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を出力する手順を前記出力装置に実行させ、
前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を再解析して当該文章属性データを更新する手順を前記文章解析処理部に実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。