JP3743204B2 - データ分析支援方法および装置 - Google Patents
データ分析支援方法および装置 Download PDFInfo
- Publication number
- JP3743204B2 JP3743204B2 JP10216699A JP10216699A JP3743204B2 JP 3743204 B2 JP3743204 B2 JP 3743204B2 JP 10216699 A JP10216699 A JP 10216699A JP 10216699 A JP10216699 A JP 10216699A JP 3743204 B2 JP3743204 B2 JP 3743204B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- attribute
- analysis
- data
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、複数の属性項目からなるデータ集合から属性データ間の関係を抽出するデータ分析(データマイニング)技術に関するものであり、特にテキストから抽出された複数の文章属性からなるデータ集合から文章属性データ間あるいは文章属性データと他の属性データとの間に潜在する因果関係をルールとして抽出するテキストデータ分析技術に関する。
【0002】
【従来の技術】
本発明は主に、電子文章から種々の文章属性情報を抽出する文章解析技術と、抽出された文章属性情報を分析してそれらの間に潜在する因果関係を抽出するデータ分析技術に関係している。
【0003】
計算機を用いた文章解析技術としては、多くの文書検索システムで採用されているキーワード抽出技術をはじめ,情報処理学会題52回全国大会講演論文集3-303に記載されているカテゴリ分類技術,情報処理学会論文誌Vol.30, No.10, pp.1258-1267に記載されている文章要約技術などが知られている。これらの処理精度は決して高くはないが、大量の電子文章から利用者が必要とする情報を効率良く抽出する際にはこれらの技術は非常に有効である。
【0004】
一方、計算機を用いたデータ分析技術としては、(社)計測自動制御学会発行の「計測と制御」Vol.36,N0.3(1997)p.p.198に記載されているように、ルールインダクション(帰納)と呼ばれる技術やニューラルネットワークを利用した技術が広く知られている。データマイニングでは統計的手法が最も広く用いられており、その理論的基盤も確立されている。
【0005】
【発明が解決しようとする課題】
文章解析技術とデータ分析技術とを融合する上記従来技術では以下の課題がある。
【0006】
(1)属性データ間の因果関係を抽出する場合にまず問題となるのは、対象とするデータが必ずしも用意されているとは限らないことである。属性データは表形式で記述されることが多いが、データが表形式でなく電子文章の形で用意されている場合、電子文章データから必要な文章属性データを抽出して表形式データに変換する必要がある。
【0007】
(2)次に問題となるのは、データマイニング結果として提示される因果関係が必ずしも利用者の要求を満たすものではないということである。従来のデータ分析技術では、生成されたルールが利用者の期待にそぐわない陳腐なものである場合、生成された因果関係をさらに展開することができないため、利用者はあきらめるしかなかった。
【0008】
電子文章データから文章属性データを抽出することを想定した場合、抽出される文章属性データの抽象度(文章解析のレベル)を調節することにより、さまざまな解析レベルの文章属性データを抽出することが可能である。しかし実際には、どのレベルで文章を解析すれば良いのかは、生成される属性データ間の因果関係をチェックしてみないと分からない。すなわち、文章解析のレベルが非常に低い(文章解析が比較的抽象化している)と、抽出される因果関係も非常に抽象的・一般的なものになる。逆に文章解析のレベルが非常に高い(文章解析が比較的複雑化・詳細化している)と、抽出される文章属性データが細分化されるので、抽出される因果関係も細かくなり、統計的に有意な因果関係を抽出できなくなる。従って、抽出された因果関係をチェックする段階で、利用者がある特定の因果関係を詳細化/抽象化したいという要求をシステムが受理可能であれば、利用者の要求に近い因果関係を出力できる。
【0009】
本発明の目的は、電子文章データから文章属性データを抽出する際に、抽出された因果関係をチェックする段階で、ある特定の因果関係を詳細化/抽象化したいという利用者の要求に近い因果関係を出力できるデータ分析支援方法を提供することにある。
【0010】
【課題を解決するための手段】
上記の目的を達成するために、本発明では、利用者が入力装置を介して指定した文章属性について、電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【0011】
また本発明では、利用者が入力装置を介して指定した関係を構成する文章属性について、当該関係に関連する電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【0012】
【発明の実施の形態】
本発明の実施例について、以下、図面を用いて詳細に説明する。
【0013】
本実施例は、メーカの製品やサービス企業の業務に関して顧客から寄せられた大量の意見・要求・クレーム文章を電子化し、これらの情報を分析して顧客がどんな点について不平・不満を持っているかを分析することを支援するシステムについて述べる。本システムを用いることによって得られる分析結果は、業務改善へフィードバックされる。本実施例で用いているデータは保険会社に関するものであるが、その他、銀行・証券・メーカ・通信販売・その他のサービス業における顧客意見の分析にも適用できる。一般に顧客から寄せられる意見は膨大な量であり、手作業による分析は多大なコストがかかるため、本実施例で述べるシステムは分析者の作業を支援するものとして有効である。
【0014】
図1は本実施例で述べるシステムの概要を示す図である。簡潔に言えば本システムは、大量の顧客電子文章データ11を解析して文章属性データ17を抽出し、文章属性データ17と顧客属性データ18を用いて、どんな属性を持つ顧客がどんなクレームを持っているのかを記述したルール20を出力する。具体的には、顧客電子文章データ11に格納された、「営業マンの勧誘がしつこい」、「保険プランAの保険料が高い」、「住所変更の手続きが複雑だ」など、顧客から寄せられた文章を解析して、内容・分野別の分類カテゴリ,内容を特徴付けるキーワード,内容を定式化した要約などに関する情報を文章属性データ17として抽出する。そして性別・年齢・職業・年収・趣味など顧客の属性を記述した顧客属性データ18と組み合わせてデータ分析することよって、例えば「40代の主婦は営業マンの態度が悪いと感じている」といった属性データ間の因果関係をルール20として抽出する。
【0015】
図1に示すように、本システムは大きく三つの処理部から構成され、これらの処理部は、入力装置、出力装置、および記憶装置を有する計算機を用いて実行される。すなわち、顧客から寄せられた電子文章データ11を解析して文章属性データ17を抽出する文章解析処理部3,文章解析によって生成された文章属性テーブル17および顧客の個人属性が格納された顧客属性テーブル18を参照して属性データ間に潜在する特徴的な因果関係をIF-THENルールとして抽出するルール生成処理部4,そして文章解析処理部3とルール生成処理部4に指示を送り、文章解析とルール生成との間の処理を橋渡しする役目を持つルール展開制御部2である。ルール展開制御部2は後述するように、ルール生成処理部4で生成されたルールを利用者の要求に応じて展開(詳細化あるいは抽象化)する処理を制御する。
【0016】
各処理部の処理内容および各処理部におけるデータの流れについては後に詳述するが、以下ではその概略について説明する。
【0017】
ルール展開処理部2は主に解析対象文章決定2aと文章属性抽出パラメータ設定2bと文章解析およびルール生成指示という処理からなる。解析対象文章決定2aでは、利用者からの指示内容に基づいて、文章解析処理部3で解析あるいは再解析すべき電子文章がどれであるかを認定する。まだ一度もルール生成を実行していない場合には対象としている電子文章すべてが文章解析対象となるが、一度ルール生成をした後にある特定のルールを構成するある特定の文章属性を詳細化・抽象化する場合には、当該ルールに関係のある電子文章のみを文章解析対象とすることもある。文章解析の対象となる文章IDは解析対象文章ID13に格納される。
【0018】
文章属性抽出パラメータ設定2bでは、文章をどの解析レベルで解析するのか、言い換えれば文章からどのレベルの文章属性データを抽出するのかを設定する。利用者からの指示に基づいて各文章属性データの解析レベルを決定する。解析レベルは文章属性抽出パラメータ群12に記述され、文章解析処理部3で文章から文章属性データを抽出する際に必ず参照される。
【0019】
文章解析処理部3は大きく文章解析3aと文章属性抽出3bという二つの処理からなる。文章解析3aでは、まず解析対象となる電子文章データIDを解析対象文書ID13から順次読み込んで、対応する電子文章データを顧客電子文章データから取り出す。次に、用語辞書14を参照して当該文章に含まれる単語文字列および単語属性を認定する形態素解析を行い、その結果を単語テーブル16に格納・保持する。
【0020】
文章属性抽出3bでは、文章属性データを抽出するためにさまざまな処理を行う。本実施例では、(1)キーワード、(2)カテゴリ分類、(3)内容(要約)の三つの文章属性についてのみ言及する。文章属性抽出3bを実行するために必要な知識は文章属性抽出知識15に格納されており適宜参照される。本処理の詳細については後述する。
【0021】
文章解析処理部3は、各文章に関する文章属性データからなる文章属性テーブル17を出力する。後述するように、この文章属性テーブル17のみからでもルールを生成できるが、本実施例では顧客属性を格納した顧客属性テーブル18の情報を文章属性テーブル17に結合することにより、どんなタイプの顧客がどんなクレームを言っているのかを統計的に分析する。ここで、顧客属性テーブル18に記述される顧客属性データは利用者が変更できないことに注意されたい。
【0022】
ルール生成処理部4は大きく対象属性テーブル生成4aとルール抽出4bからなる。対象属性テーブル生成4aでは、文章属性テーブル17と顧客属性テーブル18を共通の属性項目をキーにして結合し、分析対象となる対象属性テーブル19を生成する。
【0023】
ルール抽出4bでは、生成された対象属性テーブル19を統計的に分析して、属性データ間に潜在する因果関係をIF-THENルール20として抽出し、ルールの確信度とともに出力する。例えばルール20aは、「クレームを寄せて来た40代の主婦の80%が営業担当の勧誘がしつこいというクレームを寄せてきている」、あるいは確信度の計算方法によっては、「営業担当の勧誘がしつこいというクレームを寄せてきた人の80%は40代の主婦である」という内容を示す。
【0024】
ルール表示処理部5は、ルール生成処理部4で出力されたルール一覧20を入出力部1を介して利用者に報知する。
【0025】
利用者は報知されたルールの各々を見て分析に役立てるが、すべてのルールが利用者にとって有用であるとは限らない。あるルールは当たり前で一般的な漠然としたものかもしれないし、別のあるルールはあまりにも細かすぎるものかもしれない。
【0026】
本システムでは、利用者がこれらのルールにぶつかったときに、そのルールを詳細化あるいは抽象化(一般化)し、その再分析結果を利用者に報知する機能を有するのが特徴の一つである。ルールの詳細化/抽象化のためには電子文章11を再解析する必要があるかもしれない。その際、前回と同じ解析レベルで解析しても同じ内容の文章属性データが出力されるだけで意味がないので、ルールを詳細化する場合には解析レベルを上げてより詳細な文章属性データを出力する必要があるし、逆にルールを抽象化する場合には解析レベルを落としてより抽象的な文章属性データを出力する必要がある。
【0027】
例えば表示されたルール一覧20のうちのある特定のルールについて詳細化したいという要求を利用者が持った場合、入出力部1を介してその旨をシステムに伝える。すなわち、ルール20aについて、「文章属性であるカテゴリ属性を詳細化した結果が見たい」とか「営業担当の勧誘がしつこいという内容に近いものをまとめたい(抽象化したい)」といった要求を伝える。この要求をシステムが受け取ると、ルール展開制御部2で、(1)どのルールに関するルール展開要求が来たのか、(2)対象となる文章属性はどれか、(3)再解析が必要な電子文章はどれか、(4)解析レベルをどのように変更するのか、を認定・決定する処理を行い、文章解析処理部3に対して該当する電子文章の再解析を指示する。再解析の結果、文章属性テーブル17の文章属性データを更新あるいは追加した後、ルール生成処理部4でルール抽出を再度行い、更新されたルールを利用者に報知する。
【0028】
図2は、本実施例で述べるシステムのハードウェア構成を示す図である。本システムは各種の処理を実行する処理装置50、プログラムおよび各種データを格納する記憶装置60、データあるいは操作指示内容を入力するキーボード51およびマウス52、生成されたルールやシステムからのメッセージ等を利用者に報知する出力モニタ53からなる。また、本システムは計算機ネットワーク54に接続して、各種データを他の計算機から受け取ったり他の計算機に送ったりすることも可能である。処理装置50では必要に応じて記憶装置60からデータあるいはプログラムをロードし、処理演算を実行し、結果を記憶装置60に格納する。記憶装置60はワーキングエリア61、ルール展開制御部格納エリア62、文章解析処理部格納エリア63、ルール生成処理部格納エリア64、ルール表示処理部格納エリア65、顧客電子文章データ格納エリア66、文章属性抽出パラメータ群格納エリア67、解析対象文章ID格納エリア68、用語辞書格納エリア69、文章属性抽出知識格納エリア70、単語テーブル格納エリア71、文章属性テーブル格納エリア72、顧客属性テーブル格納エリア73、対象属性テーブル格納エリア74、ルール(属性間の因果関係)格納エリア75から構成される。
【0029】
本発明のデータ分析支援方法を実施するプログラムは、通常、外部記憶装置に格納され、実行時に記憶装置(メモリ)に読み込まれて実行されるが、このプログラムを計算機で読取り可能な記憶媒体に格納し、これを処理装置の記憶装置に読み込んで実行することも可能である。
【0030】
図3は、利用者がルールの初期生成(第一回目の生成)を指示する際に提示される画面の一例を示す図である。本画面はルール生成までの一連の処理で必要な各種データを利用者に設定/入力させるものである。「対象文章ディレクトリ」欄89には、文章解析の対象となる電子文章が格納されたディレクトリ名を記述する。本実施例ではディレクトリ名を入力させるが、電子文章はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「文章属性抽出パラメータ」欄90には、文章解析処理部3で用いる文章属性抽出パラメータ群12の情報が格納されたファイルの格納位置およびファイル名称を記述する。「他に結合する属性データ」欄91には、文章属性テーブル17と結合する顧客属性テーブル18があればそのファイル名称を記述する。顧客属性テーブル18はオプションであり、指定しなくても構わない。顧客属性テーブル18はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「結合するための共通属性」欄92には、文章属性テーブル17と顧客属性テーブル18を結合する際のキーとなる属性項目の名称を記述する。これらの設定データはワーキングエリア61に格納され、適宜参照される。
【0031】
「文章属性抽出パラメータの設定」ボタン93を押すと、上記欄90に記述されたファイルがオープンされ、編集可能となる。どの文章属性をどの解析レベルで抽出するのかに関する情報をこのファイルに記述する(詳細は後述)。
【0032】
実行ボタン94を押すとルールの初期生成が実行される。また中止ボタン95を押すとルール生成は行われないで、本画面はクローズする。
【0033】
図3の画面の上部にはメニューバーが配置されており、各種ボタン81〜88があるが、これらのボタンは本実施例の本質には直接関係しないので、各ボタンの詳説は省略する。
【0034】
図4は文章属性抽出パラメータ群12の構成を示す図である。文章属性抽出パラメータ群12は、文章属性テーブル17の文章属性の名称となる属性名1201、属性名1201を詳細化した詳細属性名1202、文章属性の解析レベルを示す解析レベル1203、ルール初期生成の際に適用される解析レベルを示す初期レベル1204、ルール展開の際に参照される現在レベル1205から構成される。解析レベル1203は整数値をとり、数が小さいほど解析が抽象的となる。初期レベル1204は整数値をとり、値がマイナスの場合その属性は文章解析時に抽出されないことを示す。初期レベル1204の値は書き換えが可能であり、その値に対応する解析レベル1203で文章属性の抽出は行われる。現在レベル1205は、文章の再解析の際に参照されるものであり、ルール展開処理部2の文章属性抽出パラメータ設定2bにおいて利用者の要求に応じて値を変える。
【0035】
図4では、本システムにおいて抽出可能な文章属性として、分類(カテゴリ)1206,キーワード1207,内容1208の3種類があることを示している。分類属性1206については大分類,中分類,小分類が可能であり、中分類は大分類に比べて分類が細かく、小分類は中分類に比べて分類が細かい。キーワード1207および内容1208の抽出についてはそれぞれ2段階の解析レベルがあることを示している。もちろん、これら以外の文章属性も定義可能である。例えば、文章中の5W1H(いつ、どこで、だれが、何を、どのように、なぜ)情報であるとか、内容の類似する文章同士をまとめてグループ化する(クラスタリングする)などが考えられる。
【0036】
図5は、利用者が図3においてルールの初期生成を実行指示したときの、ルール展開制御部2の処理内容を示す図である。
【0037】
まず、解析対象文章決定2aにおいて、解析対象文章ID13を初期化した後(ステップ2a01)、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し(ステップ2a02)、ルール初期生成である場合は、解析対象文章IDの先頭に文字列"ALL"を書き込む(ステップ2a03)。ルール展開の場合の処理については図21の説明の中で述べる。
【0038】
次に、文章属性抽出パラメータ設定2bにおいて、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し(ステップ2b01)、ルール初期生成である場合はステップ201に移る。ルール展開の場合の処理については図21の説明の中で述べる。
【0039】
次に、文章解析処理部3に対して解析対象文章の解析を指示する(ステップ201)。文章解析処理部3が正常に処理終了したら(ステップ202)、ルール生成処理部4に対してルールの抽出を指示する(ステップ203)。ルール生成処理部4が正常に終了したら(ステップ204)、ルール表示処理部5に対して生成されたルールの表示を指示する(ステップ205)。文章解析処理部3、ルール生成処理部4、ルール表示処理部5では、ルール展開制御部からの指示を受けてそれぞれ所定の処理を実行し、結果をそれぞれ所定の位置に出力し、リターンコードをルール展開制御部2に返す。
【0040】
図6は、解析対象文章ID13の構成および内容を示す図である。解析対象文章ID13には、文章解析処理部3で解析対象となる電子文章データ11の文章ID集合を記述する。上述したように、ルール初期生成の場合はすべての電子文章を解析対象とするので、その場合は図6(a)に示すように文字列"ALL"のみが記述される(この処理はルール展開制御部2における解析対象文章決定2a(ステップ2a03)で行われる)。図6(b)の説明については後述する。
【0041】
図7は、本システムで対象とする電子文章データ11の構成と内容を示す図である。電子文章データ11は少なくとも顧客からのクレーム内容を記述した部分はテキスト形式で格納されている必要がある。本システムでは、電子文章データ11は予め記憶装置60に格納されていることを前提としているが、その入力方法としては、キーボードを介したキー入力,ペン等による入力,OCR等を用いた文字認識による入力,音声認識装置を介した入力,計算機ネットワーク54で接続された計算機からの転送による入力などがあるが、どれでも構わない。
【0042】
図7に示すように、一つの電子文章データは、文章を識別する文章ID1101,顧客属性テーブル18のデータとリンクするために必要な顧客ID1102,顧客からのクレームを受け付けた受付月日1103,そして受付文章1104から構成される。もちろん、受付担当者など他の情報があっても構わない。また、電子文章データ11は構造化されていない普通の文章で書かれてあっても良いし、SGML(Standard General Markup Language),XML(eXtensible Markup Language)に代表されるようなマークアップ言語(タグ付き言語)で書かれてあっても良い。ただし、前者の場合はシステムが各情報の位置を正確に特定できるように記述方法を工夫・統一する必要がある。後者の場合はタグの名称を統一する必要がある。
【0043】
図8は、用語辞書14の構成と内容を示す図である。用語辞書14は、文章解析部3における文章解析3aにおいて参照されるデータであり、このデータを用いて文章を構成する単語および各々の単語の属性を認定する。
【0044】
用語辞書14は単語見出し1401,品詞1402,活用形/活用行/活用種に関する情報を記述した活用1403,複数の表記方法がある場合の代表的な表記である正表記1404,キーワードを抽出する際に明らかにキーワードとなり得ない単語(不要語)であることを示す不要語フラグ1405,単語の意味的な分類を記述する意味コード1406,感情を表す単語かを記述する感情コード1407から構成される。もちろん、これ以外の単語属性が含まれていても構わない。正表記1404とは、ほぼ同じ意味内容を表すが表記の異なる二つの単語を同一の単語として扱うためのものであり、例として「人」と「人間」などが挙げられる。また、カタカナの表記の違い(例えば、インタフェースとインターフェイス)やアルファベットの大文字/小文字の記述の違いなどもこれに含まれるがこれらについては機械的処理が可能であるので、用語辞書14に記述しなくても文章解析において表記の統一処理を行うことが可能である。
【0045】
図9は、文章属性抽出知識15の構成と内容を示す図である。文章属性抽出知識15とは、文章から種々の文章属性データ17を抽出するのに必要な知識の集合である。前述したように本システムでは、分類,キーワード,内容という三種類の文章属性を抽出するが、それぞれの文章属性を抽出するためにはそれぞれ別の知識を参照する。
【0046】
図9(a)は、各文章を予め定義された分類カテゴリに分類するためのカテゴリ分類知識15aを記述したものである。このテーブルは、分類の際に使用するキーワード見出し1501,分類カテゴリ名1502,当該キーワード見出しが当該分類カテゴリを特徴付けるキーワードとしてどのくらい重要であるのかを定量的に表す重み1503から構成される。
【0047】
分類の際に使用するキーワードの認定方法としては、ある特定の品詞の単語を使用する方法や、予め定義したキーワード集合に含まれるキーワードのみを使用する方法や、明らかにキーワードとなり得ない単語(不要語)を除いた残りの単語を使用する方法や、上記方法の組み合わせによる方法などがある。また、あるキーワードがある分類カテゴリを特徴付けるか否かを決めるために、予め既に分類済みの文章を教師データとして用意し、それらを文章解析することによって、あるキーワードがある分類カテゴリにどのくらいの頻度で出現するかを統計的に自動計算することもできる。
【0048】
さらに、重みの付与方法としては、あるキーワードが含まれる全文書数に占める、そのキーワードが含まれる「ある分類カテゴリに属する文書数」の割合を用いる方法や、あるキーワードが全文書中に含まれる総出現頻度に占める、そのキーワードが「ある分類カテゴリに属する文書中」に含まれる総出現頻度の割合を用いる方法などがあり、どれを用いても構わない。文章属性抽出3bにおいて分類カテゴリを決定する際には、分類の対象となる文章中に出現するキーワードが持つ重みを分類カテゴリ別に加算した合計値を求め、最も大きな値を持つ分類カテゴリをその文書の分類カテゴリとするなど多くの方法が知られている。
【0049】
図4に示すように、本システムでは大分類,中分類,小分類の3階層からなる分類カテゴリ体系を採用しているので、図9(a)に示すカテゴリ分類知識は各分類階層毎に作成する必要がある。
【0050】
図9(b)は、文章属性の他の一つである内容(要約)を抽出するために必要な内容抽出知識15bを記述したものである。本システムでは、文章の構文的構造および文章を構成する単語の持つ属性を手掛かりとした、IF-THENルールベースの内容抽出を行う。もちろん、これ以外の手法を用いても構わない。
【0051】
図9(b)に示すように、各ルールは、条件を記述するIF部と帰結部を記述するTHEN部からなる。最初のルール(ID=00001)は、名詞1の直後に単語「の」が続き(記号「+」はその前後の単語が直接つながることを示す)、その直後に名詞2が続き、その直後に単語「が」が続き、その後方に形容詞1が続く(記号「*」は直後の単語が直前の単語に直接つながる必要はないが後方に現れる必要があることを示す)という条件を示しており、かつ、名詞1の単語属性である意味コード1406が「人間」であり、名詞2の意味コード1406が「行為」であり、形容詞1の単語属性である感情コード1407が「悪感情」であるときに初めてこのIF部を満たすことを示している。従って、例えば「営業担当の勧誘が悪い」という文の場合、名詞1が「営業担当」、名詞2が「勧誘」、形容詞1が「悪い」と対応付けることにより、このルールを満たすことになる。従って、THEN部に記述された式に当てはめた、「勧誘(営業担当)=悪い」という結果が得られる。
【0052】
このようなIF-THENルールを用意しておくことにより、文章をある特定の構文を持った表記に置き換えることが可能となり、文章を短く表現(要約)することが可能となる。
【0053】
図9(c)は、(b)と同様、内容(要約)属性を抽出するために必要な内容抽出知識15bを記述したものである。電子文章データ11の中にある単語が含まれている場合、その単語の正表記1404は用語辞書14から抽出できるが、単語間の意味的関係(意味的階層関係)については用語辞書14には記述されていない。そこで、(c)に示すような意味シソーラスを用意することにより、類似する意味を持つ単語をまとめることが可能となる。例えば、単語「保険料」「手数料」はどちらも料金の一種であるという情報が(c)のシソーラスから得られる。この時、「保険料」「手数料」という単語をそのまま使って内容属性を抽出するよりも、「料金」という単語に置き換えて内容属性を抽出する方がその内容属性の抽象度は高くなる。従って、利用者が抽象的な解析を要求している場合には、より上位の単語に置き換えて解析し、逆に利用者が詳細な解析を要求している場合には、より下位の単語を用いて解析することにより、解析レベルの異なった解析結果を得ることができる。
【0054】
図9には記載されていないが、残る一つの文章属性であるキーワードを認定するための知識について以下簡単に説明する。キーワード抽出方法にはいろいろな手法が提案されている。すなわち、(1)出現頻度の高いものをキーワードとする方法や、(2)出現頻度の高い上位N%と下位M%の単語を除去したものをキーワードとする方法や、(3)対象とするすべての文章において各単語がどのくらいの割合で出現するかによって各文章中の出現頻度を補正する方法や、(4)単語の文章中での出現の仕方や出現位置等を考慮した重み付けによるものなどがある。本システムでは、どの手法を用いても構わないが、これらの処理は特別な知識を持たなくても処理できる類のものであるので、キーワード抽出のための知識についてはここでは特に言及しない。
【0055】
図10は、文章解析処理部3の処理内容を示す図である。文章解析処理部3はルール展開制御部2からの実行指示(ステップ201)を受けて文章を解析するもので、大きく文章解析3aと文章属性抽出3bからなる。
【0056】
文章解析3aではまず、解析対象の文章情報が格納されている解析対象文章ID13を一行読み取り(ステップ3a01)、それが文字列"ALL"であるか否かを判別する(ステップ3a02)。"ALL"の場合、顧客電子文章データ11に格納されるすべての文章が解析対象となるので、単語テーブルを初期化した後(ステップ3a03)、顧客電子文章データ11の中に未解析の文章があるか否かを判別し(ステップ3a04)、ある場合は、その未解析文章に対して以下の処理を行う。
【0057】
まず、対象文章から顧客IDおよび文章IDなどの固定属性情報を抽出する(ステップ3a05)。これら固定情報の抽出の仕方は文章の記述形式に依存するが、前述したようにXML等で記述されていれば、特定のタグ内に記述された文字列を値として抽出可能であるので、比較的容易にこれらの属性データを抽出できる。次に、対象文章から顧客のクレーム内容を表す文章部分を取り出す(ステップ3a06)。次に取り出した文章を単語に分割し、用語辞書14を参照して各単語の属性情報を取得する形態素解析を行う(ステップ3a07)。形態素解析のアルゴリズムとしては、最長一致法や最小コスト法など多くの手法が公知であるので、ここでは詳細の説明を省略する。次に取得した単語の属性情報を単語テーブル16に書き込む(ステップ3a08)。このとき、各単語および単語の属性情報を文章IDと対応させて書き込む。一般に上記単語分割は多大な解析時間を要するが、単語分割結果を単語テーブル16に保持しておくことによって、後の解析において単語テーブル16からある特定の文章IDに関する単語データを高速に取得することが可能となる。
【0058】
ステップ3a02で"ALL"でない場合、解析対象文章ID13に記述された文章IDに対応する文章のみが解析対象となるが、この場合、既に単語テーブル16に文章解析3aの結果が格納されているので、文章解析3aをスキップしてステップ3b01に進む。
【0059】
文章属性抽出3bでは、本システムで扱う三つの文章属性である、分類カテゴリ,キーワード,内容情報を抽出する。まず本処理が、利用者からの指示に基づいて、ルール初期生成かルール展開であるかをチェックし(ステップ3b01)、ルール初期生成である場合は、文章属性抽出パラメータ群12の初期レベル1204の値を取り込む(ステップ3b02)。ルール展開である場合は、文章属性抽出パラメータ群12の現在レベル1205の値を取り込む(ステップ3b03)。次に、解析対象文章ID13から先頭の一行を読み取り(ステップ3b04)、その文字列が"ALL"または"ALL2"であるかを判別し(ステップ3b05)、どちらか一方である場合は、単語テーブル16中の文章すべてを文章属性抽出対象とみなし(ステップ3b06)、どちらでもない場合は、解析対象文章ID13に格納された文章を文章属性抽出対象とみなす(ステップ3b07)。次に、文章属性を未抽出の文章があるか否かを判別し(ステップ3b08)、ある場合は、分類属性,内容属性,キーワード属性の抽出をそれぞれ行う(ステップ3b09)を行う。これらの文章属性の抽出順序については特に考慮する必要はない。
【0060】
分類属性の抽出においては、文章属性抽出パラメータ群12から取り込んだ解析レベルの値が0の場合は大分類を行うことを示し、1の場合は中分類を行うことを示し、2の場合は小分類を行うことを示し、値がマイナスである場合は分類カテゴリの抽出は行わないことを示す。もちろん、分類カテゴリが4種類以上あっても良い。ここでは、該当する分類レベルに対応する文章属性抽出知識15のカテゴリ分類知識15aを参照して分類カテゴリを決定する。具体的にはまず、単語テーブル16に格納されている、分類対象文章から抽出された単語集合から品詞が名詞である単語を抽出する。次に、各名詞についてカテゴリ分類知識15aに記述された重みの値をカテゴリ別に加算してその合計値を求める。次にこれらの合計値の最も高い分類カテゴリを求め、その分類カテゴリを当該文章の分類カテゴリとして文章属性テーブル17に保持する(ステップ3b10)。もちろん、上記値の計算方法は一例であり、上記以外の計算方法でも構わない。
【0061】
内容属性の抽出においては、図4に示すように解析レベルとして0,1を取ることができ、解析レベル1の方が詳細な解析を行う。もちろん解析レベルは3種類以上あっても構わない。以下では、2種類の内容属性の抽出方法について述べるが他の抽出方法を用いても構わない。
【0062】
一つ目の方法は、図9(c)に示したような意味シソーラスの階層情報を用いるものである。意味シソーラスは階層が高いほど意味は抽象的になっているので、ある文章中に出現する単語(の正表記)が意味シソーラスに記述されている場合でかつ、その単語が意味シソーラスの下位に位置する場合、その単語を、その単語の上位に位置する単語に置き換えることにより、単語を抽象化することができる。例えば、文章中に「保険料」という単語が出現した場合、意味シソーラスにおける上位の単語である「料金」に置き換える。一方、「手数料」という単語が出現した場合も同様に「料金」という単語に置き換える。意味シソーラスにおけるどの階層の単語に置き換えるのかが、内容属性の解析レベルに対応させることにより、意味シソーラスの階層の数だけの種類の解析ができる。
【0063】
二つ目の方法は、図9(b)に示す内容抽出知識における帰結部の記述を複数持たせる方法である。すなわち、内容属性の解析レベルに対応した帰結部をそれぞれ記述しておく。内容属性を抽出する際には、解析レベルに応じて採用する帰結部を変える。一般に解析レベルの抽象度が高い場合は、帰結部の記述も簡潔になり、逆に解析レベルの抽象度が低い場合は、帰結部の記述も複雑になる。
【0064】
キーワード属性の抽出においては、図4に示すように、解析レベルとして0,1の2種類を取ることができる。キーワード属性の抽出においても、内容属性の抽出と同様に、図9(c)に示すようなシソーラスを用いてキーワードをある階層のキーワードに置き換える方法が可能である。あるいは、あるキーワードの出現する文章数の割合が高いキーワードは一般性の強いキーワードであると仮定すると、対象とする電子文章のうち、一定割合(N%)以上の文章に出現する単語をキーワードから除外するという方法が考えられる。すなわち、上記Nの値を低くすることにより、一般的な単語がキーワードから除外されるので、より詳細なキーワードを得ることが可能となる。従って、キーワード属性における解析レベルを上記Nの値と対応付けて定義することにより、Nの値に応じた異なるキーワードを出力することが可能となる。また、一部の文章に絞って再解析を行う場合、上記Nの値が同じでも出力されるキーワードが異なるはずである。対象とする電子文章全体から見るとあまり高い割合で出現していないキーワードでも、対象を絞ることにより、その割合が急激に高くなる可能性があるので、そのようなキーワードを除去することにより、より詳細なキーワードを得ることが可能となる。
【0065】
このように、文章解析処理部3の処理は、ルール展開制御部2で決められたパラメータ設定に基づいて行われるため、パラメータの値に応じて処理方法および参照するデータが変わる。その結果、パラメータの値に応じて異なる文章属性データ17を得ることができる。
【0066】
図11は、単語テーブル16の構成と内容を示す図である。単語テーブル16は用語辞書14と似た構造をしている。図11は図7に示した文章「営業マンの勧誘が大変しつこい。」の解析結果として生成される単語テーブル16を表しており、出現単語1601,品詞1602,活用1603,正表記1604,不要語フラグ1605,意味コード1606,感情コード1607から構成される。出現単語1601の記述順序は、文章における記述順序に等しい。不要語フラグ1605は図10の文章属性抽出3bにおけるステップ3b09におけるキーワード属性抽出の際に参照可能なデータであり、この値が1の場合、キーワードとして不適当であることを示している。意味コード1606および感情コード1607は、内容属性抽出の際に参照されるデータであり、図9(b)に示されている内容抽出知識との照合を行うためのデータである。
【0067】
図12は、文章属性テーブル17の構成と内容を示す図である。文章属性テーブル17を構成する属性としては、顧客IDや文章ID等のように必ず抽出される固定の属性と、利用者によって文章属性抽出パラメータ群12において抽出することが指定され、その値が可変である文章属性とがある。図12では見やすいように表形式で記述してあるが、本システムでは文章属性テーブル17をCSV形式で記述する。すなわち、各属性がコンマで区切られ、一行に一文章の情報を記述する。これは後のデータ加工処理を容易にするためであるが、リレーショナルデータベース(RDB)のように表形式のテーブルに格納しても構わない。
【0068】
図13は、顧客属性テーブル18の構成と内容を示す図である。顧客属性テーブル18は必ずしも不可欠なデータではないが、このデータを文章属性テーブル17と結合することにより、どんなタイプの顧客がどんな内容のクレームを言っているのかという因果関係を抽出することが可能となる。顧客属性テーブル18は固定属性データであり、その属性としては、性別,年齢,職業,年収,趣味,加入保険タイプなどが挙げられる。本システムでは、顧客属性データ18もCSV形式で記述するが、RDBのように表形式のテーブルに格納しても構わない。
【0069】
図14は、ルール生成処理部4の処理内容を示す図である。ルール生成処理部4はルール展開制御部2からの実行指示(ステップ203)を受けて文章属性テーブル17および顧客属性テーブル18に格納された属性データを統計的に分析するもので、対象属性テーブル生成4aとルール抽出4bからなる。
【0070】
対象属性テーブル生成4aではルール抽出4bの処理対象となる対象属性テーブル19を作成する。まず、図3の画面から取得した「他に結合する属性データ91」および「結合するための共通属性92」に関するデータをワーキングエリア61から取得する(ステップ4a01)。次に、「他に結合する顧客属性データ91」の値が存在するか否かを判別し(ステップ4a02)、存在しない場合は文章属性テーブル17をそのまま対象属性テーブル19と認定する(ステップ4a03)。存在する場合は、「結合するための共通属性92」の値である属性項目を共通属性として文章属性テーブル17と顧客属性テーブル18とを結合し、その結果を対象属性テーブル19として格納する(ステップ4a04)。ここで、文章属性テーブル17に記述される文章が全文章データの一部である場合、顧客属性テーブル18からもこの一部の文章が持つ顧客IDに関する顧客属性データのみを用いることとし、その他の関係ない顧客IDに関する顧客属性データは用いない。すなわち、ルール初期生成時にはすべての文章が解析対象となり、すべての文章に関する文章属性データが文章属性テーブル17に格納されるので、関連する顧客属性テーブル17中の属性データはすべて対象属性テーブル19に格納されるが、ルール展開時には一部の文章のみが解析対象となることがあるので、その場合、顧客属性テーブル18に記述されている属性データのうち、一部の文章が持つ顧客IDに関係する属性データのみ(ある特定の顧客IDを持つレコードのみ)が対象属性テーブル19に格納される。
【0071】
ルール抽出4bでは、対象属性テーブル19に格納された属性データを対象として、それらの間に潜在する因果関係を統計的に解析し、特徴的な因果関係をIF-THENルールとして抽出する(ステップ4b01)。すなわち「Aという条件を満たすならば、Bである」又は「もしAならばBである」という形でルールを出力する。ここで注意したいのは、本システムは文章属性を分析するためのものであるため、帰結部Bには文章属性(分類カテゴリ,キーワード,内容)に関する内容が含まれていなければならない。もし、抽出されたルールの構成要素がすべて顧客属性テーブル18に関連するものであるならば、図7に示すようなクレーム文章を集めて文章解析をして文章属性を抽出する意味がない。上記の結論部Bに含まれるべき文章属性は文章属性抽出パラメータ群12等から認定できるので、最終的にルールを抽出する際に結論部Bを構成する属性が文章属性であるか否かを判別し、文章属性でない場合、当該ルールを削除するという処理を行うか、あるいは、ルール生成において各属性の組み合わせを考える際に、結論部Bには文章属性が含まれるようにするなどの処理が不可欠となる。
【0072】
また、従来のデータ分析システムの中には、結論部Bに相当する部分を利用者に記述させ、条件部Aに相当する部分をシステムが抽出するという形のものもある。このようなタイプのシステムにおけるルール抽出アルゴリズムを本システムに適用する場合、結論部Bに相当する文章属性名あるいは文章属性データを利用者に指定させ、ルール抽出の際に当該文章属性の属性値を一つずつ抽出し、その属性値を持つときの条件(Aの部分)を分析することになるが、技術的には十分実現可能である。
【0073】
なお、ルール抽出4bのアルゴリズムの詳細については、例えば特開平8−77010など多くの手法が既に知られているので、ここでは深く言及しない。
【0074】
図15は、対象属性テーブル19の構成と内容を示す図である。図12の文章属性テーブル17と図13の顧客属性テーブル18は属性「顧客ID」を共通属性として持っているので、これをキーとして両テーブルを結合する。同一の顧客IDを持つ属性データが一つのレコードを構成している。
【0075】
図16は、ルール(属性間因果関係)20の構成と内容を示す図である。ルールID0001は、「年齢が40代の主婦は、営業担当の接客態度が悪い」ということを示すルールであり、ID0002は、「20代の人は、「保険」カテゴリに関するクレームが多い」というルールである。条件部は属性名とその値の対が一つ以上組み合わさったものである。また、確信度はそのルールの傾向の強さを示すものであり、値が大きいほどそのルールの傾向が強いことを示す。既に知られている確信度の計算方法についての詳細は省略するが、確信度を表示することは利用者が生成されたルールを評価する一つの尺度として有効である。
【0076】
図17は、ルール20を利用者に報知するための画面の一例を示す図である。画面はルールID103,確信度106,IF−THENのIF部に相当する条件部104,THEN部に相当する帰結部105,別のルールを表示するための指示ボタン群110〜113,ルール検索用ボタン101,ルールを確信度等に基づいてソートするボタン102,各種メニューボタン81〜88,ルール展開をシステムに指示するボタン114,直前に表示した画面に戻るボタン115から構成されている。条件部104では、条件を構成する属性について、属性名と属性値を対にして「属性名=属性値」の形で表示している。
【0077】
図18は、利用者がルール展開を指示するための画面の構成と内容を示す図である。図17において、利用者があるルールを表示した状態でルール展開ボタン114を押すとこの画面が立ち上がる。図17と同様、ルールID,確信度,条件部,帰結部を表示する。図18において、文章属性であるものについては、チェックボックスが付加されている。これは、このチェックボックスの付いた文章属性の再解析が可能であることを示している。このチェックボックスをチェックすることは、表示されているルールを満たす文章を対象として、チェックされた文章属性を再解析することを要求することに等しい。図18では、帰結部123の文章属性「内容」の欄に四角いチェックボックスが表示され、利用者がこのチェックボックスをチェックした状態であることを示している。また、再解析の対象となる文章を利用者が選択できるようになっている(128)。すなわち、上記選択したルールに該当する文章のみを再解析の対象とするのか、すべての文章を再解析の対象とするのかのどちらか一方を選択できる。前者の場合は、ある特定のルールについて、そのルールを展開したい場合に選択する。後者の場合は、ある特定の属性データ全体を再解析したい場合に選択する。
【0078】
展開したい文章属性を選択した後に詳細化ボタン129を押すと、ルール展開制御部2はこの指示情報を受けてルールの詳細化を実行する。また、抽象化ボタン130を押すと、ルール展開制御部2はこの指示情報を受けてルールの抽象化を実行する。中止ボタン131を押すとルール展開は行われず、本ウィンドウは閉じられる。
【0079】
なお、図18のチェックボックスを図17のルール表示画面に埋め込み、ルール表示画面からいきなりルール展開ができるようにすることも可能である。
【0080】
図19は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図19の表示画面は図18と類似しているが、一種類の文章属性にチェックボックスが2種類表示されているところが異なる。すなわち、四角いチェックボックスが付いた文章属性は詳細化可能であることを示しており、一方、丸いチェックボックスが付いた文章属性は抽象化可能であることを示している。利用者はどちらか一方のチェックボックスをチェックすることが可能である。その後、実行ボタン149を押すと、ルール展開制御部2はこの指示情報を受けて、チェックされたチェックボックスに応じたルール展開を実行する。
【0081】
図19に示したチェックボックスを表示するかしないかは、ルール表示処理部5において、文章属性抽出パラメータ群12を参照することにより実現できる。すなわち、ルール20に格納されたルールの各々を構成する各々の属性について、その属性が文章属性であるか否かを文章属性抽出パラメータ群12を参照することにより判別し、文章属性である場合、さらにそれ以上その属性を詳細化/抽象化できるか否かを文章属性抽出パラメータ群12に記述された現在レベル1205と解析レベルとを比較することにより判別し、詳細化できる場合は四角いチェックボックスを、抽象化できる場合は丸いチェックボックスを付加する。このように、展開できる属性を他と異なる態様で報知することにより、利用者は展開できる属性を容易に把握することが可能となる。
【0082】
図20は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図20では図18,図19と異なり、文章属性の一覧が表示されている。ある特定のルールに関して再解析を要求する場合のほかに、ある特定の文章属性全体を再解析することを要求する場合もありうる。その場合、図20のような画面を表示することにより、どの文章属性を詳細化/抽象化するのかに関する情報を利用者から得ることができる。図20では、内容属性を詳細化することを要求している。もちろん、再解析対象となる文章は、電子文章データ11に格納された文章すべてである。
【0083】
図21は、ルール展開制御部2の処理内容を示す図であり、図5のステップ2a02あるいはステップ2b01の判別条件を満たさない場合の処理内容を示す図である。解析対象文章決定2aにおけるステップ2a02でルール初期生成でない、すなわちルール展開である場合、まず、利用者からの指示に基づいて、ルール展開に伴う文章再解析が全文章を対象とするものか否かを判別し(ステップ2a11)、全文章の場合、解析対象文章ID13に文字列"ALL2"を書き込む(ステップ2a12)。この文字列は文章解析をやり直す必要はないが文章属性抽出はすべての文章を対象としていることを示す。ステップ2a11で全文章を対象としない場合、対象属性テーブル19から解析対象の文章IDを検索し、解析対象文章ID13に書き込む(ステップ2a13)。全文章を対象としない場合というのはあるルールを満たす文章のみを再解析する場合であるので、対象属性テーブル19から当該ルールを満たすレコードを見つけ、その文章IDを抽出することにより、解析対象の文章IDを検索することができる。
【0084】
次に文章属性抽出パラメータ設定2bにおけるステップ2b01でルール初期生成でない、すなわちルール展開である場合、まず展開対象となる文章属性情報を利用者の指示情報から取得する(ステップ2b11)。次に利用者からの指示情報から、当該文章属性を詳細化するのか抽象化するのかを判別し(ステップ2b12)、抽象化する場合は、文章属性抽出パラメータ群12の当該文章属性に対応する現在レベルの値を1減らす(ステップ2b13)。詳細化する場合は、文章属性パラメータ群12の当該文章属性に対応する現在レベルの値を1増やす(ステップ2b14)。その後の処理は図5で説明した通りの方法で再解析の実行を指示する。
【0085】
図22は、図18において文章属性である内容属性の詳細化を指示した後の文章属性抽出パラメータ群12の内容を示す図である。図4の内容と異なっているのは、内容属性1208の現在レベル1205の値が0から1に変わっていることである。すなわち、内容属性の解析レベルが一段階詳細化されていることである。この状態で文章解析処理部3が起動されると、文章解析処理部3では、内容属性について解析レベルを1として解析することとなる。
【0086】
図23は、再解析後の文章属性テーブル17の内容を示す図である。図12に示す内容属性の値と比べると内容が詳細化されている。図12では内容属性の値が同じであっても、図23では内容が詳細化されたことにより、値がばらついているのが分かる。例えば、図12において、顧客IDが12345の顧客と34567の顧客は内容属性1706の値が同一(「接客態度(営業担当)=悪い」)であるが、図23においては、内容属性の解析が詳細化されたため、値が異なっている(「勧誘(営業担当)=しつこい」と「態度(営業担当)=悪い」)。
【0087】
図24は、ルール展開の結果新しく生成されたルール20の内容を示す図である。図16のルールと比べると確信度の値が下がっているが、これは内容属性の値がばらついたことにより、ルールの傾向の強さが弱まったことを示す。また、これまで出力されていたルールがルール展開によって出力されなくなることもあれば、逆の場合もある。
【0088】
ルール展開結果についても図17から図20で示したように利用者に提示されるので、再びルール展開を行うことができる。
【0089】
【発明の効果】
以上、図1から図24を用いて説明したように、本実施例のシステムは、電子文章から文章属性を抽出してそれらの間の因果関係を顧客属性と対応付けて出力できるだけでなく、特定のルールを構成する文章属性に対してさらにルールの詳細化/抽象化を指示したり、特定の文章属性に対してその再解析(詳細化/抽象化)を指示したりすることができるので、利用者の要求に近いルールを出力する確率が高くなる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウェア構成を示す図である。
【図3】ルール初期生成指示画面の構成および内容を示す図である。
【図4】文章属性抽出パラメータ群12の構成および内容を示す図である。
【図5】ルール展開制御部2の処理内容の一部を示す図である。
【図6】解析対象文章ID13の構成および内容を示す図である。
【図7】顧客電子文章データ11の構成および内容を示す図である。
【図8】用語辞書14の構成および内容を示す図である。
【図9】文章属性抽出知識15の構成および内容を示す図である。
【図10】文章解析処理部3の処理内容を示す図である。
【図11】単語テーブル16の構成および内容を示す図である。
【図12】文章属性テーブル17の構成および内容を示す図である。
【図13】顧客属性テーブル18の構成および内容を示す図である。
【図14】ルール生成処理部4の処理内容を示す図である。
【図15】対象属性テーブル19の構成および内容を示す図である。
【図16】ルール20の構成および内容を示す図である。
【図17】ルール表示画面の構成および内容の一例を示す図である。
【図18】ルール展開指示画面の構成および内容の一例を示す図である。
【図19】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図20】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図21】ルール展開制御部2の処理内容の他の一部を示す図である。
【図22】文章属性抽出パラメータ設定後の文章属性抽出パラメータ群の内容を示す図である。
【図23】更新後の文章属性テーブルの内容を示す図である。
【図24】更新後のルールの内容を示す図である。
【符号の説明】
1・・・入出力部,2・・・ルール展開制御部,3・・・文章解析処理部,4・・・ルール生成処理部,5・・・ルール表示処理部,11・・・顧客電子文章データ,12・・・文章属性抽出パラメータ群,13・・・解析対象文章ID,14・・・用語辞書,15・・・文章属性抽出知識,16・・・単語テーブル,17・・・文章属性テーブル,18・・・顧客属性テーブル,19・・・対象属性テーブル,20・・・ルール(属性間因果関係)
【発明の属する技術分野】
本発明は、複数の属性項目からなるデータ集合から属性データ間の関係を抽出するデータ分析(データマイニング)技術に関するものであり、特にテキストから抽出された複数の文章属性からなるデータ集合から文章属性データ間あるいは文章属性データと他の属性データとの間に潜在する因果関係をルールとして抽出するテキストデータ分析技術に関する。
【0002】
【従来の技術】
本発明は主に、電子文章から種々の文章属性情報を抽出する文章解析技術と、抽出された文章属性情報を分析してそれらの間に潜在する因果関係を抽出するデータ分析技術に関係している。
【0003】
計算機を用いた文章解析技術としては、多くの文書検索システムで採用されているキーワード抽出技術をはじめ,情報処理学会題52回全国大会講演論文集3-303に記載されているカテゴリ分類技術,情報処理学会論文誌Vol.30, No.10, pp.1258-1267に記載されている文章要約技術などが知られている。これらの処理精度は決して高くはないが、大量の電子文章から利用者が必要とする情報を効率良く抽出する際にはこれらの技術は非常に有効である。
【0004】
一方、計算機を用いたデータ分析技術としては、(社)計測自動制御学会発行の「計測と制御」Vol.36,N0.3(1997)p.p.198に記載されているように、ルールインダクション(帰納)と呼ばれる技術やニューラルネットワークを利用した技術が広く知られている。データマイニングでは統計的手法が最も広く用いられており、その理論的基盤も確立されている。
【0005】
【発明が解決しようとする課題】
文章解析技術とデータ分析技術とを融合する上記従来技術では以下の課題がある。
【0006】
(1)属性データ間の因果関係を抽出する場合にまず問題となるのは、対象とするデータが必ずしも用意されているとは限らないことである。属性データは表形式で記述されることが多いが、データが表形式でなく電子文章の形で用意されている場合、電子文章データから必要な文章属性データを抽出して表形式データに変換する必要がある。
【0007】
(2)次に問題となるのは、データマイニング結果として提示される因果関係が必ずしも利用者の要求を満たすものではないということである。従来のデータ分析技術では、生成されたルールが利用者の期待にそぐわない陳腐なものである場合、生成された因果関係をさらに展開することができないため、利用者はあきらめるしかなかった。
【0008】
電子文章データから文章属性データを抽出することを想定した場合、抽出される文章属性データの抽象度(文章解析のレベル)を調節することにより、さまざまな解析レベルの文章属性データを抽出することが可能である。しかし実際には、どのレベルで文章を解析すれば良いのかは、生成される属性データ間の因果関係をチェックしてみないと分からない。すなわち、文章解析のレベルが非常に低い(文章解析が比較的抽象化している)と、抽出される因果関係も非常に抽象的・一般的なものになる。逆に文章解析のレベルが非常に高い(文章解析が比較的複雑化・詳細化している)と、抽出される文章属性データが細分化されるので、抽出される因果関係も細かくなり、統計的に有意な因果関係を抽出できなくなる。従って、抽出された因果関係をチェックする段階で、利用者がある特定の因果関係を詳細化/抽象化したいという要求をシステムが受理可能であれば、利用者の要求に近い因果関係を出力できる。
【0009】
本発明の目的は、電子文章データから文章属性データを抽出する際に、抽出された因果関係をチェックする段階で、ある特定の因果関係を詳細化/抽象化したいという利用者の要求に近い因果関係を出力できるデータ分析支援方法を提供することにある。
【0010】
【課題を解決するための手段】
上記の目的を達成するために、本発明では、利用者が入力装置を介して指定した文章属性について、電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【0011】
また本発明では、利用者が入力装置を介して指定した関係を構成する文章属性について、当該関係に関連する電子文章を再解析して当該文章属性データを更新し、更新された文章属性データと更新されなかった他の属性データとの間に潜在する関係を抽出し、抽出された関係を出力装置を介して利用者に報知する。
【0012】
【発明の実施の形態】
本発明の実施例について、以下、図面を用いて詳細に説明する。
【0013】
本実施例は、メーカの製品やサービス企業の業務に関して顧客から寄せられた大量の意見・要求・クレーム文章を電子化し、これらの情報を分析して顧客がどんな点について不平・不満を持っているかを分析することを支援するシステムについて述べる。本システムを用いることによって得られる分析結果は、業務改善へフィードバックされる。本実施例で用いているデータは保険会社に関するものであるが、その他、銀行・証券・メーカ・通信販売・その他のサービス業における顧客意見の分析にも適用できる。一般に顧客から寄せられる意見は膨大な量であり、手作業による分析は多大なコストがかかるため、本実施例で述べるシステムは分析者の作業を支援するものとして有効である。
【0014】
図1は本実施例で述べるシステムの概要を示す図である。簡潔に言えば本システムは、大量の顧客電子文章データ11を解析して文章属性データ17を抽出し、文章属性データ17と顧客属性データ18を用いて、どんな属性を持つ顧客がどんなクレームを持っているのかを記述したルール20を出力する。具体的には、顧客電子文章データ11に格納された、「営業マンの勧誘がしつこい」、「保険プランAの保険料が高い」、「住所変更の手続きが複雑だ」など、顧客から寄せられた文章を解析して、内容・分野別の分類カテゴリ,内容を特徴付けるキーワード,内容を定式化した要約などに関する情報を文章属性データ17として抽出する。そして性別・年齢・職業・年収・趣味など顧客の属性を記述した顧客属性データ18と組み合わせてデータ分析することよって、例えば「40代の主婦は営業マンの態度が悪いと感じている」といった属性データ間の因果関係をルール20として抽出する。
【0015】
図1に示すように、本システムは大きく三つの処理部から構成され、これらの処理部は、入力装置、出力装置、および記憶装置を有する計算機を用いて実行される。すなわち、顧客から寄せられた電子文章データ11を解析して文章属性データ17を抽出する文章解析処理部3,文章解析によって生成された文章属性テーブル17および顧客の個人属性が格納された顧客属性テーブル18を参照して属性データ間に潜在する特徴的な因果関係をIF-THENルールとして抽出するルール生成処理部4,そして文章解析処理部3とルール生成処理部4に指示を送り、文章解析とルール生成との間の処理を橋渡しする役目を持つルール展開制御部2である。ルール展開制御部2は後述するように、ルール生成処理部4で生成されたルールを利用者の要求に応じて展開(詳細化あるいは抽象化)する処理を制御する。
【0016】
各処理部の処理内容および各処理部におけるデータの流れについては後に詳述するが、以下ではその概略について説明する。
【0017】
ルール展開処理部2は主に解析対象文章決定2aと文章属性抽出パラメータ設定2bと文章解析およびルール生成指示という処理からなる。解析対象文章決定2aでは、利用者からの指示内容に基づいて、文章解析処理部3で解析あるいは再解析すべき電子文章がどれであるかを認定する。まだ一度もルール生成を実行していない場合には対象としている電子文章すべてが文章解析対象となるが、一度ルール生成をした後にある特定のルールを構成するある特定の文章属性を詳細化・抽象化する場合には、当該ルールに関係のある電子文章のみを文章解析対象とすることもある。文章解析の対象となる文章IDは解析対象文章ID13に格納される。
【0018】
文章属性抽出パラメータ設定2bでは、文章をどの解析レベルで解析するのか、言い換えれば文章からどのレベルの文章属性データを抽出するのかを設定する。利用者からの指示に基づいて各文章属性データの解析レベルを決定する。解析レベルは文章属性抽出パラメータ群12に記述され、文章解析処理部3で文章から文章属性データを抽出する際に必ず参照される。
【0019】
文章解析処理部3は大きく文章解析3aと文章属性抽出3bという二つの処理からなる。文章解析3aでは、まず解析対象となる電子文章データIDを解析対象文書ID13から順次読み込んで、対応する電子文章データを顧客電子文章データから取り出す。次に、用語辞書14を参照して当該文章に含まれる単語文字列および単語属性を認定する形態素解析を行い、その結果を単語テーブル16に格納・保持する。
【0020】
文章属性抽出3bでは、文章属性データを抽出するためにさまざまな処理を行う。本実施例では、(1)キーワード、(2)カテゴリ分類、(3)内容(要約)の三つの文章属性についてのみ言及する。文章属性抽出3bを実行するために必要な知識は文章属性抽出知識15に格納されており適宜参照される。本処理の詳細については後述する。
【0021】
文章解析処理部3は、各文章に関する文章属性データからなる文章属性テーブル17を出力する。後述するように、この文章属性テーブル17のみからでもルールを生成できるが、本実施例では顧客属性を格納した顧客属性テーブル18の情報を文章属性テーブル17に結合することにより、どんなタイプの顧客がどんなクレームを言っているのかを統計的に分析する。ここで、顧客属性テーブル18に記述される顧客属性データは利用者が変更できないことに注意されたい。
【0022】
ルール生成処理部4は大きく対象属性テーブル生成4aとルール抽出4bからなる。対象属性テーブル生成4aでは、文章属性テーブル17と顧客属性テーブル18を共通の属性項目をキーにして結合し、分析対象となる対象属性テーブル19を生成する。
【0023】
ルール抽出4bでは、生成された対象属性テーブル19を統計的に分析して、属性データ間に潜在する因果関係をIF-THENルール20として抽出し、ルールの確信度とともに出力する。例えばルール20aは、「クレームを寄せて来た40代の主婦の80%が営業担当の勧誘がしつこいというクレームを寄せてきている」、あるいは確信度の計算方法によっては、「営業担当の勧誘がしつこいというクレームを寄せてきた人の80%は40代の主婦である」という内容を示す。
【0024】
ルール表示処理部5は、ルール生成処理部4で出力されたルール一覧20を入出力部1を介して利用者に報知する。
【0025】
利用者は報知されたルールの各々を見て分析に役立てるが、すべてのルールが利用者にとって有用であるとは限らない。あるルールは当たり前で一般的な漠然としたものかもしれないし、別のあるルールはあまりにも細かすぎるものかもしれない。
【0026】
本システムでは、利用者がこれらのルールにぶつかったときに、そのルールを詳細化あるいは抽象化(一般化)し、その再分析結果を利用者に報知する機能を有するのが特徴の一つである。ルールの詳細化/抽象化のためには電子文章11を再解析する必要があるかもしれない。その際、前回と同じ解析レベルで解析しても同じ内容の文章属性データが出力されるだけで意味がないので、ルールを詳細化する場合には解析レベルを上げてより詳細な文章属性データを出力する必要があるし、逆にルールを抽象化する場合には解析レベルを落としてより抽象的な文章属性データを出力する必要がある。
【0027】
例えば表示されたルール一覧20のうちのある特定のルールについて詳細化したいという要求を利用者が持った場合、入出力部1を介してその旨をシステムに伝える。すなわち、ルール20aについて、「文章属性であるカテゴリ属性を詳細化した結果が見たい」とか「営業担当の勧誘がしつこいという内容に近いものをまとめたい(抽象化したい)」といった要求を伝える。この要求をシステムが受け取ると、ルール展開制御部2で、(1)どのルールに関するルール展開要求が来たのか、(2)対象となる文章属性はどれか、(3)再解析が必要な電子文章はどれか、(4)解析レベルをどのように変更するのか、を認定・決定する処理を行い、文章解析処理部3に対して該当する電子文章の再解析を指示する。再解析の結果、文章属性テーブル17の文章属性データを更新あるいは追加した後、ルール生成処理部4でルール抽出を再度行い、更新されたルールを利用者に報知する。
【0028】
図2は、本実施例で述べるシステムのハードウェア構成を示す図である。本システムは各種の処理を実行する処理装置50、プログラムおよび各種データを格納する記憶装置60、データあるいは操作指示内容を入力するキーボード51およびマウス52、生成されたルールやシステムからのメッセージ等を利用者に報知する出力モニタ53からなる。また、本システムは計算機ネットワーク54に接続して、各種データを他の計算機から受け取ったり他の計算機に送ったりすることも可能である。処理装置50では必要に応じて記憶装置60からデータあるいはプログラムをロードし、処理演算を実行し、結果を記憶装置60に格納する。記憶装置60はワーキングエリア61、ルール展開制御部格納エリア62、文章解析処理部格納エリア63、ルール生成処理部格納エリア64、ルール表示処理部格納エリア65、顧客電子文章データ格納エリア66、文章属性抽出パラメータ群格納エリア67、解析対象文章ID格納エリア68、用語辞書格納エリア69、文章属性抽出知識格納エリア70、単語テーブル格納エリア71、文章属性テーブル格納エリア72、顧客属性テーブル格納エリア73、対象属性テーブル格納エリア74、ルール(属性間の因果関係)格納エリア75から構成される。
【0029】
本発明のデータ分析支援方法を実施するプログラムは、通常、外部記憶装置に格納され、実行時に記憶装置(メモリ)に読み込まれて実行されるが、このプログラムを計算機で読取り可能な記憶媒体に格納し、これを処理装置の記憶装置に読み込んで実行することも可能である。
【0030】
図3は、利用者がルールの初期生成(第一回目の生成)を指示する際に提示される画面の一例を示す図である。本画面はルール生成までの一連の処理で必要な各種データを利用者に設定/入力させるものである。「対象文章ディレクトリ」欄89には、文章解析の対象となる電子文章が格納されたディレクトリ名を記述する。本実施例ではディレクトリ名を入力させるが、電子文章はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「文章属性抽出パラメータ」欄90には、文章解析処理部3で用いる文章属性抽出パラメータ群12の情報が格納されたファイルの格納位置およびファイル名称を記述する。「他に結合する属性データ」欄91には、文章属性テーブル17と結合する顧客属性テーブル18があればそのファイル名称を記述する。顧客属性テーブル18はオプションであり、指定しなくても構わない。顧客属性テーブル18はデータベースシステムによって管理されていても、フロッピーディスク等の記憶媒体に格納されていても構わない。「結合するための共通属性」欄92には、文章属性テーブル17と顧客属性テーブル18を結合する際のキーとなる属性項目の名称を記述する。これらの設定データはワーキングエリア61に格納され、適宜参照される。
【0031】
「文章属性抽出パラメータの設定」ボタン93を押すと、上記欄90に記述されたファイルがオープンされ、編集可能となる。どの文章属性をどの解析レベルで抽出するのかに関する情報をこのファイルに記述する(詳細は後述)。
【0032】
実行ボタン94を押すとルールの初期生成が実行される。また中止ボタン95を押すとルール生成は行われないで、本画面はクローズする。
【0033】
図3の画面の上部にはメニューバーが配置されており、各種ボタン81〜88があるが、これらのボタンは本実施例の本質には直接関係しないので、各ボタンの詳説は省略する。
【0034】
図4は文章属性抽出パラメータ群12の構成を示す図である。文章属性抽出パラメータ群12は、文章属性テーブル17の文章属性の名称となる属性名1201、属性名1201を詳細化した詳細属性名1202、文章属性の解析レベルを示す解析レベル1203、ルール初期生成の際に適用される解析レベルを示す初期レベル1204、ルール展開の際に参照される現在レベル1205から構成される。解析レベル1203は整数値をとり、数が小さいほど解析が抽象的となる。初期レベル1204は整数値をとり、値がマイナスの場合その属性は文章解析時に抽出されないことを示す。初期レベル1204の値は書き換えが可能であり、その値に対応する解析レベル1203で文章属性の抽出は行われる。現在レベル1205は、文章の再解析の際に参照されるものであり、ルール展開処理部2の文章属性抽出パラメータ設定2bにおいて利用者の要求に応じて値を変える。
【0035】
図4では、本システムにおいて抽出可能な文章属性として、分類(カテゴリ)1206,キーワード1207,内容1208の3種類があることを示している。分類属性1206については大分類,中分類,小分類が可能であり、中分類は大分類に比べて分類が細かく、小分類は中分類に比べて分類が細かい。キーワード1207および内容1208の抽出についてはそれぞれ2段階の解析レベルがあることを示している。もちろん、これら以外の文章属性も定義可能である。例えば、文章中の5W1H(いつ、どこで、だれが、何を、どのように、なぜ)情報であるとか、内容の類似する文章同士をまとめてグループ化する(クラスタリングする)などが考えられる。
【0036】
図5は、利用者が図3においてルールの初期生成を実行指示したときの、ルール展開制御部2の処理内容を示す図である。
【0037】
まず、解析対象文章決定2aにおいて、解析対象文章ID13を初期化した後(ステップ2a01)、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し(ステップ2a02)、ルール初期生成である場合は、解析対象文章IDの先頭に文字列"ALL"を書き込む(ステップ2a03)。ルール展開の場合の処理については図21の説明の中で述べる。
【0038】
次に、文章属性抽出パラメータ設定2bにおいて、利用者からの指示がルール初期生成であるかルールの展開であるかを判別し(ステップ2b01)、ルール初期生成である場合はステップ201に移る。ルール展開の場合の処理については図21の説明の中で述べる。
【0039】
次に、文章解析処理部3に対して解析対象文章の解析を指示する(ステップ201)。文章解析処理部3が正常に処理終了したら(ステップ202)、ルール生成処理部4に対してルールの抽出を指示する(ステップ203)。ルール生成処理部4が正常に終了したら(ステップ204)、ルール表示処理部5に対して生成されたルールの表示を指示する(ステップ205)。文章解析処理部3、ルール生成処理部4、ルール表示処理部5では、ルール展開制御部からの指示を受けてそれぞれ所定の処理を実行し、結果をそれぞれ所定の位置に出力し、リターンコードをルール展開制御部2に返す。
【0040】
図6は、解析対象文章ID13の構成および内容を示す図である。解析対象文章ID13には、文章解析処理部3で解析対象となる電子文章データ11の文章ID集合を記述する。上述したように、ルール初期生成の場合はすべての電子文章を解析対象とするので、その場合は図6(a)に示すように文字列"ALL"のみが記述される(この処理はルール展開制御部2における解析対象文章決定2a(ステップ2a03)で行われる)。図6(b)の説明については後述する。
【0041】
図7は、本システムで対象とする電子文章データ11の構成と内容を示す図である。電子文章データ11は少なくとも顧客からのクレーム内容を記述した部分はテキスト形式で格納されている必要がある。本システムでは、電子文章データ11は予め記憶装置60に格納されていることを前提としているが、その入力方法としては、キーボードを介したキー入力,ペン等による入力,OCR等を用いた文字認識による入力,音声認識装置を介した入力,計算機ネットワーク54で接続された計算機からの転送による入力などがあるが、どれでも構わない。
【0042】
図7に示すように、一つの電子文章データは、文章を識別する文章ID1101,顧客属性テーブル18のデータとリンクするために必要な顧客ID1102,顧客からのクレームを受け付けた受付月日1103,そして受付文章1104から構成される。もちろん、受付担当者など他の情報があっても構わない。また、電子文章データ11は構造化されていない普通の文章で書かれてあっても良いし、SGML(Standard General Markup Language),XML(eXtensible Markup Language)に代表されるようなマークアップ言語(タグ付き言語)で書かれてあっても良い。ただし、前者の場合はシステムが各情報の位置を正確に特定できるように記述方法を工夫・統一する必要がある。後者の場合はタグの名称を統一する必要がある。
【0043】
図8は、用語辞書14の構成と内容を示す図である。用語辞書14は、文章解析部3における文章解析3aにおいて参照されるデータであり、このデータを用いて文章を構成する単語および各々の単語の属性を認定する。
【0044】
用語辞書14は単語見出し1401,品詞1402,活用形/活用行/活用種に関する情報を記述した活用1403,複数の表記方法がある場合の代表的な表記である正表記1404,キーワードを抽出する際に明らかにキーワードとなり得ない単語(不要語)であることを示す不要語フラグ1405,単語の意味的な分類を記述する意味コード1406,感情を表す単語かを記述する感情コード1407から構成される。もちろん、これ以外の単語属性が含まれていても構わない。正表記1404とは、ほぼ同じ意味内容を表すが表記の異なる二つの単語を同一の単語として扱うためのものであり、例として「人」と「人間」などが挙げられる。また、カタカナの表記の違い(例えば、インタフェースとインターフェイス)やアルファベットの大文字/小文字の記述の違いなどもこれに含まれるがこれらについては機械的処理が可能であるので、用語辞書14に記述しなくても文章解析において表記の統一処理を行うことが可能である。
【0045】
図9は、文章属性抽出知識15の構成と内容を示す図である。文章属性抽出知識15とは、文章から種々の文章属性データ17を抽出するのに必要な知識の集合である。前述したように本システムでは、分類,キーワード,内容という三種類の文章属性を抽出するが、それぞれの文章属性を抽出するためにはそれぞれ別の知識を参照する。
【0046】
図9(a)は、各文章を予め定義された分類カテゴリに分類するためのカテゴリ分類知識15aを記述したものである。このテーブルは、分類の際に使用するキーワード見出し1501,分類カテゴリ名1502,当該キーワード見出しが当該分類カテゴリを特徴付けるキーワードとしてどのくらい重要であるのかを定量的に表す重み1503から構成される。
【0047】
分類の際に使用するキーワードの認定方法としては、ある特定の品詞の単語を使用する方法や、予め定義したキーワード集合に含まれるキーワードのみを使用する方法や、明らかにキーワードとなり得ない単語(不要語)を除いた残りの単語を使用する方法や、上記方法の組み合わせによる方法などがある。また、あるキーワードがある分類カテゴリを特徴付けるか否かを決めるために、予め既に分類済みの文章を教師データとして用意し、それらを文章解析することによって、あるキーワードがある分類カテゴリにどのくらいの頻度で出現するかを統計的に自動計算することもできる。
【0048】
さらに、重みの付与方法としては、あるキーワードが含まれる全文書数に占める、そのキーワードが含まれる「ある分類カテゴリに属する文書数」の割合を用いる方法や、あるキーワードが全文書中に含まれる総出現頻度に占める、そのキーワードが「ある分類カテゴリに属する文書中」に含まれる総出現頻度の割合を用いる方法などがあり、どれを用いても構わない。文章属性抽出3bにおいて分類カテゴリを決定する際には、分類の対象となる文章中に出現するキーワードが持つ重みを分類カテゴリ別に加算した合計値を求め、最も大きな値を持つ分類カテゴリをその文書の分類カテゴリとするなど多くの方法が知られている。
【0049】
図4に示すように、本システムでは大分類,中分類,小分類の3階層からなる分類カテゴリ体系を採用しているので、図9(a)に示すカテゴリ分類知識は各分類階層毎に作成する必要がある。
【0050】
図9(b)は、文章属性の他の一つである内容(要約)を抽出するために必要な内容抽出知識15bを記述したものである。本システムでは、文章の構文的構造および文章を構成する単語の持つ属性を手掛かりとした、IF-THENルールベースの内容抽出を行う。もちろん、これ以外の手法を用いても構わない。
【0051】
図9(b)に示すように、各ルールは、条件を記述するIF部と帰結部を記述するTHEN部からなる。最初のルール(ID=00001)は、名詞1の直後に単語「の」が続き(記号「+」はその前後の単語が直接つながることを示す)、その直後に名詞2が続き、その直後に単語「が」が続き、その後方に形容詞1が続く(記号「*」は直後の単語が直前の単語に直接つながる必要はないが後方に現れる必要があることを示す)という条件を示しており、かつ、名詞1の単語属性である意味コード1406が「人間」であり、名詞2の意味コード1406が「行為」であり、形容詞1の単語属性である感情コード1407が「悪感情」であるときに初めてこのIF部を満たすことを示している。従って、例えば「営業担当の勧誘が悪い」という文の場合、名詞1が「営業担当」、名詞2が「勧誘」、形容詞1が「悪い」と対応付けることにより、このルールを満たすことになる。従って、THEN部に記述された式に当てはめた、「勧誘(営業担当)=悪い」という結果が得られる。
【0052】
このようなIF-THENルールを用意しておくことにより、文章をある特定の構文を持った表記に置き換えることが可能となり、文章を短く表現(要約)することが可能となる。
【0053】
図9(c)は、(b)と同様、内容(要約)属性を抽出するために必要な内容抽出知識15bを記述したものである。電子文章データ11の中にある単語が含まれている場合、その単語の正表記1404は用語辞書14から抽出できるが、単語間の意味的関係(意味的階層関係)については用語辞書14には記述されていない。そこで、(c)に示すような意味シソーラスを用意することにより、類似する意味を持つ単語をまとめることが可能となる。例えば、単語「保険料」「手数料」はどちらも料金の一種であるという情報が(c)のシソーラスから得られる。この時、「保険料」「手数料」という単語をそのまま使って内容属性を抽出するよりも、「料金」という単語に置き換えて内容属性を抽出する方がその内容属性の抽象度は高くなる。従って、利用者が抽象的な解析を要求している場合には、より上位の単語に置き換えて解析し、逆に利用者が詳細な解析を要求している場合には、より下位の単語を用いて解析することにより、解析レベルの異なった解析結果を得ることができる。
【0054】
図9には記載されていないが、残る一つの文章属性であるキーワードを認定するための知識について以下簡単に説明する。キーワード抽出方法にはいろいろな手法が提案されている。すなわち、(1)出現頻度の高いものをキーワードとする方法や、(2)出現頻度の高い上位N%と下位M%の単語を除去したものをキーワードとする方法や、(3)対象とするすべての文章において各単語がどのくらいの割合で出現するかによって各文章中の出現頻度を補正する方法や、(4)単語の文章中での出現の仕方や出現位置等を考慮した重み付けによるものなどがある。本システムでは、どの手法を用いても構わないが、これらの処理は特別な知識を持たなくても処理できる類のものであるので、キーワード抽出のための知識についてはここでは特に言及しない。
【0055】
図10は、文章解析処理部3の処理内容を示す図である。文章解析処理部3はルール展開制御部2からの実行指示(ステップ201)を受けて文章を解析するもので、大きく文章解析3aと文章属性抽出3bからなる。
【0056】
文章解析3aではまず、解析対象の文章情報が格納されている解析対象文章ID13を一行読み取り(ステップ3a01)、それが文字列"ALL"であるか否かを判別する(ステップ3a02)。"ALL"の場合、顧客電子文章データ11に格納されるすべての文章が解析対象となるので、単語テーブルを初期化した後(ステップ3a03)、顧客電子文章データ11の中に未解析の文章があるか否かを判別し(ステップ3a04)、ある場合は、その未解析文章に対して以下の処理を行う。
【0057】
まず、対象文章から顧客IDおよび文章IDなどの固定属性情報を抽出する(ステップ3a05)。これら固定情報の抽出の仕方は文章の記述形式に依存するが、前述したようにXML等で記述されていれば、特定のタグ内に記述された文字列を値として抽出可能であるので、比較的容易にこれらの属性データを抽出できる。次に、対象文章から顧客のクレーム内容を表す文章部分を取り出す(ステップ3a06)。次に取り出した文章を単語に分割し、用語辞書14を参照して各単語の属性情報を取得する形態素解析を行う(ステップ3a07)。形態素解析のアルゴリズムとしては、最長一致法や最小コスト法など多くの手法が公知であるので、ここでは詳細の説明を省略する。次に取得した単語の属性情報を単語テーブル16に書き込む(ステップ3a08)。このとき、各単語および単語の属性情報を文章IDと対応させて書き込む。一般に上記単語分割は多大な解析時間を要するが、単語分割結果を単語テーブル16に保持しておくことによって、後の解析において単語テーブル16からある特定の文章IDに関する単語データを高速に取得することが可能となる。
【0058】
ステップ3a02で"ALL"でない場合、解析対象文章ID13に記述された文章IDに対応する文章のみが解析対象となるが、この場合、既に単語テーブル16に文章解析3aの結果が格納されているので、文章解析3aをスキップしてステップ3b01に進む。
【0059】
文章属性抽出3bでは、本システムで扱う三つの文章属性である、分類カテゴリ,キーワード,内容情報を抽出する。まず本処理が、利用者からの指示に基づいて、ルール初期生成かルール展開であるかをチェックし(ステップ3b01)、ルール初期生成である場合は、文章属性抽出パラメータ群12の初期レベル1204の値を取り込む(ステップ3b02)。ルール展開である場合は、文章属性抽出パラメータ群12の現在レベル1205の値を取り込む(ステップ3b03)。次に、解析対象文章ID13から先頭の一行を読み取り(ステップ3b04)、その文字列が"ALL"または"ALL2"であるかを判別し(ステップ3b05)、どちらか一方である場合は、単語テーブル16中の文章すべてを文章属性抽出対象とみなし(ステップ3b06)、どちらでもない場合は、解析対象文章ID13に格納された文章を文章属性抽出対象とみなす(ステップ3b07)。次に、文章属性を未抽出の文章があるか否かを判別し(ステップ3b08)、ある場合は、分類属性,内容属性,キーワード属性の抽出をそれぞれ行う(ステップ3b09)を行う。これらの文章属性の抽出順序については特に考慮する必要はない。
【0060】
分類属性の抽出においては、文章属性抽出パラメータ群12から取り込んだ解析レベルの値が0の場合は大分類を行うことを示し、1の場合は中分類を行うことを示し、2の場合は小分類を行うことを示し、値がマイナスである場合は分類カテゴリの抽出は行わないことを示す。もちろん、分類カテゴリが4種類以上あっても良い。ここでは、該当する分類レベルに対応する文章属性抽出知識15のカテゴリ分類知識15aを参照して分類カテゴリを決定する。具体的にはまず、単語テーブル16に格納されている、分類対象文章から抽出された単語集合から品詞が名詞である単語を抽出する。次に、各名詞についてカテゴリ分類知識15aに記述された重みの値をカテゴリ別に加算してその合計値を求める。次にこれらの合計値の最も高い分類カテゴリを求め、その分類カテゴリを当該文章の分類カテゴリとして文章属性テーブル17に保持する(ステップ3b10)。もちろん、上記値の計算方法は一例であり、上記以外の計算方法でも構わない。
【0061】
内容属性の抽出においては、図4に示すように解析レベルとして0,1を取ることができ、解析レベル1の方が詳細な解析を行う。もちろん解析レベルは3種類以上あっても構わない。以下では、2種類の内容属性の抽出方法について述べるが他の抽出方法を用いても構わない。
【0062】
一つ目の方法は、図9(c)に示したような意味シソーラスの階層情報を用いるものである。意味シソーラスは階層が高いほど意味は抽象的になっているので、ある文章中に出現する単語(の正表記)が意味シソーラスに記述されている場合でかつ、その単語が意味シソーラスの下位に位置する場合、その単語を、その単語の上位に位置する単語に置き換えることにより、単語を抽象化することができる。例えば、文章中に「保険料」という単語が出現した場合、意味シソーラスにおける上位の単語である「料金」に置き換える。一方、「手数料」という単語が出現した場合も同様に「料金」という単語に置き換える。意味シソーラスにおけるどの階層の単語に置き換えるのかが、内容属性の解析レベルに対応させることにより、意味シソーラスの階層の数だけの種類の解析ができる。
【0063】
二つ目の方法は、図9(b)に示す内容抽出知識における帰結部の記述を複数持たせる方法である。すなわち、内容属性の解析レベルに対応した帰結部をそれぞれ記述しておく。内容属性を抽出する際には、解析レベルに応じて採用する帰結部を変える。一般に解析レベルの抽象度が高い場合は、帰結部の記述も簡潔になり、逆に解析レベルの抽象度が低い場合は、帰結部の記述も複雑になる。
【0064】
キーワード属性の抽出においては、図4に示すように、解析レベルとして0,1の2種類を取ることができる。キーワード属性の抽出においても、内容属性の抽出と同様に、図9(c)に示すようなシソーラスを用いてキーワードをある階層のキーワードに置き換える方法が可能である。あるいは、あるキーワードの出現する文章数の割合が高いキーワードは一般性の強いキーワードであると仮定すると、対象とする電子文章のうち、一定割合(N%)以上の文章に出現する単語をキーワードから除外するという方法が考えられる。すなわち、上記Nの値を低くすることにより、一般的な単語がキーワードから除外されるので、より詳細なキーワードを得ることが可能となる。従って、キーワード属性における解析レベルを上記Nの値と対応付けて定義することにより、Nの値に応じた異なるキーワードを出力することが可能となる。また、一部の文章に絞って再解析を行う場合、上記Nの値が同じでも出力されるキーワードが異なるはずである。対象とする電子文章全体から見るとあまり高い割合で出現していないキーワードでも、対象を絞ることにより、その割合が急激に高くなる可能性があるので、そのようなキーワードを除去することにより、より詳細なキーワードを得ることが可能となる。
【0065】
このように、文章解析処理部3の処理は、ルール展開制御部2で決められたパラメータ設定に基づいて行われるため、パラメータの値に応じて処理方法および参照するデータが変わる。その結果、パラメータの値に応じて異なる文章属性データ17を得ることができる。
【0066】
図11は、単語テーブル16の構成と内容を示す図である。単語テーブル16は用語辞書14と似た構造をしている。図11は図7に示した文章「営業マンの勧誘が大変しつこい。」の解析結果として生成される単語テーブル16を表しており、出現単語1601,品詞1602,活用1603,正表記1604,不要語フラグ1605,意味コード1606,感情コード1607から構成される。出現単語1601の記述順序は、文章における記述順序に等しい。不要語フラグ1605は図10の文章属性抽出3bにおけるステップ3b09におけるキーワード属性抽出の際に参照可能なデータであり、この値が1の場合、キーワードとして不適当であることを示している。意味コード1606および感情コード1607は、内容属性抽出の際に参照されるデータであり、図9(b)に示されている内容抽出知識との照合を行うためのデータである。
【0067】
図12は、文章属性テーブル17の構成と内容を示す図である。文章属性テーブル17を構成する属性としては、顧客IDや文章ID等のように必ず抽出される固定の属性と、利用者によって文章属性抽出パラメータ群12において抽出することが指定され、その値が可変である文章属性とがある。図12では見やすいように表形式で記述してあるが、本システムでは文章属性テーブル17をCSV形式で記述する。すなわち、各属性がコンマで区切られ、一行に一文章の情報を記述する。これは後のデータ加工処理を容易にするためであるが、リレーショナルデータベース(RDB)のように表形式のテーブルに格納しても構わない。
【0068】
図13は、顧客属性テーブル18の構成と内容を示す図である。顧客属性テーブル18は必ずしも不可欠なデータではないが、このデータを文章属性テーブル17と結合することにより、どんなタイプの顧客がどんな内容のクレームを言っているのかという因果関係を抽出することが可能となる。顧客属性テーブル18は固定属性データであり、その属性としては、性別,年齢,職業,年収,趣味,加入保険タイプなどが挙げられる。本システムでは、顧客属性データ18もCSV形式で記述するが、RDBのように表形式のテーブルに格納しても構わない。
【0069】
図14は、ルール生成処理部4の処理内容を示す図である。ルール生成処理部4はルール展開制御部2からの実行指示(ステップ203)を受けて文章属性テーブル17および顧客属性テーブル18に格納された属性データを統計的に分析するもので、対象属性テーブル生成4aとルール抽出4bからなる。
【0070】
対象属性テーブル生成4aではルール抽出4bの処理対象となる対象属性テーブル19を作成する。まず、図3の画面から取得した「他に結合する属性データ91」および「結合するための共通属性92」に関するデータをワーキングエリア61から取得する(ステップ4a01)。次に、「他に結合する顧客属性データ91」の値が存在するか否かを判別し(ステップ4a02)、存在しない場合は文章属性テーブル17をそのまま対象属性テーブル19と認定する(ステップ4a03)。存在する場合は、「結合するための共通属性92」の値である属性項目を共通属性として文章属性テーブル17と顧客属性テーブル18とを結合し、その結果を対象属性テーブル19として格納する(ステップ4a04)。ここで、文章属性テーブル17に記述される文章が全文章データの一部である場合、顧客属性テーブル18からもこの一部の文章が持つ顧客IDに関する顧客属性データのみを用いることとし、その他の関係ない顧客IDに関する顧客属性データは用いない。すなわち、ルール初期生成時にはすべての文章が解析対象となり、すべての文章に関する文章属性データが文章属性テーブル17に格納されるので、関連する顧客属性テーブル17中の属性データはすべて対象属性テーブル19に格納されるが、ルール展開時には一部の文章のみが解析対象となることがあるので、その場合、顧客属性テーブル18に記述されている属性データのうち、一部の文章が持つ顧客IDに関係する属性データのみ(ある特定の顧客IDを持つレコードのみ)が対象属性テーブル19に格納される。
【0071】
ルール抽出4bでは、対象属性テーブル19に格納された属性データを対象として、それらの間に潜在する因果関係を統計的に解析し、特徴的な因果関係をIF-THENルールとして抽出する(ステップ4b01)。すなわち「Aという条件を満たすならば、Bである」又は「もしAならばBである」という形でルールを出力する。ここで注意したいのは、本システムは文章属性を分析するためのものであるため、帰結部Bには文章属性(分類カテゴリ,キーワード,内容)に関する内容が含まれていなければならない。もし、抽出されたルールの構成要素がすべて顧客属性テーブル18に関連するものであるならば、図7に示すようなクレーム文章を集めて文章解析をして文章属性を抽出する意味がない。上記の結論部Bに含まれるべき文章属性は文章属性抽出パラメータ群12等から認定できるので、最終的にルールを抽出する際に結論部Bを構成する属性が文章属性であるか否かを判別し、文章属性でない場合、当該ルールを削除するという処理を行うか、あるいは、ルール生成において各属性の組み合わせを考える際に、結論部Bには文章属性が含まれるようにするなどの処理が不可欠となる。
【0072】
また、従来のデータ分析システムの中には、結論部Bに相当する部分を利用者に記述させ、条件部Aに相当する部分をシステムが抽出するという形のものもある。このようなタイプのシステムにおけるルール抽出アルゴリズムを本システムに適用する場合、結論部Bに相当する文章属性名あるいは文章属性データを利用者に指定させ、ルール抽出の際に当該文章属性の属性値を一つずつ抽出し、その属性値を持つときの条件(Aの部分)を分析することになるが、技術的には十分実現可能である。
【0073】
なお、ルール抽出4bのアルゴリズムの詳細については、例えば特開平8−77010など多くの手法が既に知られているので、ここでは深く言及しない。
【0074】
図15は、対象属性テーブル19の構成と内容を示す図である。図12の文章属性テーブル17と図13の顧客属性テーブル18は属性「顧客ID」を共通属性として持っているので、これをキーとして両テーブルを結合する。同一の顧客IDを持つ属性データが一つのレコードを構成している。
【0075】
図16は、ルール(属性間因果関係)20の構成と内容を示す図である。ルールID0001は、「年齢が40代の主婦は、営業担当の接客態度が悪い」ということを示すルールであり、ID0002は、「20代の人は、「保険」カテゴリに関するクレームが多い」というルールである。条件部は属性名とその値の対が一つ以上組み合わさったものである。また、確信度はそのルールの傾向の強さを示すものであり、値が大きいほどそのルールの傾向が強いことを示す。既に知られている確信度の計算方法についての詳細は省略するが、確信度を表示することは利用者が生成されたルールを評価する一つの尺度として有効である。
【0076】
図17は、ルール20を利用者に報知するための画面の一例を示す図である。画面はルールID103,確信度106,IF−THENのIF部に相当する条件部104,THEN部に相当する帰結部105,別のルールを表示するための指示ボタン群110〜113,ルール検索用ボタン101,ルールを確信度等に基づいてソートするボタン102,各種メニューボタン81〜88,ルール展開をシステムに指示するボタン114,直前に表示した画面に戻るボタン115から構成されている。条件部104では、条件を構成する属性について、属性名と属性値を対にして「属性名=属性値」の形で表示している。
【0077】
図18は、利用者がルール展開を指示するための画面の構成と内容を示す図である。図17において、利用者があるルールを表示した状態でルール展開ボタン114を押すとこの画面が立ち上がる。図17と同様、ルールID,確信度,条件部,帰結部を表示する。図18において、文章属性であるものについては、チェックボックスが付加されている。これは、このチェックボックスの付いた文章属性の再解析が可能であることを示している。このチェックボックスをチェックすることは、表示されているルールを満たす文章を対象として、チェックされた文章属性を再解析することを要求することに等しい。図18では、帰結部123の文章属性「内容」の欄に四角いチェックボックスが表示され、利用者がこのチェックボックスをチェックした状態であることを示している。また、再解析の対象となる文章を利用者が選択できるようになっている(128)。すなわち、上記選択したルールに該当する文章のみを再解析の対象とするのか、すべての文章を再解析の対象とするのかのどちらか一方を選択できる。前者の場合は、ある特定のルールについて、そのルールを展開したい場合に選択する。後者の場合は、ある特定の属性データ全体を再解析したい場合に選択する。
【0078】
展開したい文章属性を選択した後に詳細化ボタン129を押すと、ルール展開制御部2はこの指示情報を受けてルールの詳細化を実行する。また、抽象化ボタン130を押すと、ルール展開制御部2はこの指示情報を受けてルールの抽象化を実行する。中止ボタン131を押すとルール展開は行われず、本ウィンドウは閉じられる。
【0079】
なお、図18のチェックボックスを図17のルール表示画面に埋め込み、ルール表示画面からいきなりルール展開ができるようにすることも可能である。
【0080】
図19は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図19の表示画面は図18と類似しているが、一種類の文章属性にチェックボックスが2種類表示されているところが異なる。すなわち、四角いチェックボックスが付いた文章属性は詳細化可能であることを示しており、一方、丸いチェックボックスが付いた文章属性は抽象化可能であることを示している。利用者はどちらか一方のチェックボックスをチェックすることが可能である。その後、実行ボタン149を押すと、ルール展開制御部2はこの指示情報を受けて、チェックされたチェックボックスに応じたルール展開を実行する。
【0081】
図19に示したチェックボックスを表示するかしないかは、ルール表示処理部5において、文章属性抽出パラメータ群12を参照することにより実現できる。すなわち、ルール20に格納されたルールの各々を構成する各々の属性について、その属性が文章属性であるか否かを文章属性抽出パラメータ群12を参照することにより判別し、文章属性である場合、さらにそれ以上その属性を詳細化/抽象化できるか否かを文章属性抽出パラメータ群12に記述された現在レベル1205と解析レベルとを比較することにより判別し、詳細化できる場合は四角いチェックボックスを、抽象化できる場合は丸いチェックボックスを付加する。このように、展開できる属性を他と異なる態様で報知することにより、利用者は展開できる属性を容易に把握することが可能となる。
【0082】
図20は、利用者がルール展開を指示するための画面の構成と内容の他の一例を示す図である。図20では図18,図19と異なり、文章属性の一覧が表示されている。ある特定のルールに関して再解析を要求する場合のほかに、ある特定の文章属性全体を再解析することを要求する場合もありうる。その場合、図20のような画面を表示することにより、どの文章属性を詳細化/抽象化するのかに関する情報を利用者から得ることができる。図20では、内容属性を詳細化することを要求している。もちろん、再解析対象となる文章は、電子文章データ11に格納された文章すべてである。
【0083】
図21は、ルール展開制御部2の処理内容を示す図であり、図5のステップ2a02あるいはステップ2b01の判別条件を満たさない場合の処理内容を示す図である。解析対象文章決定2aにおけるステップ2a02でルール初期生成でない、すなわちルール展開である場合、まず、利用者からの指示に基づいて、ルール展開に伴う文章再解析が全文章を対象とするものか否かを判別し(ステップ2a11)、全文章の場合、解析対象文章ID13に文字列"ALL2"を書き込む(ステップ2a12)。この文字列は文章解析をやり直す必要はないが文章属性抽出はすべての文章を対象としていることを示す。ステップ2a11で全文章を対象としない場合、対象属性テーブル19から解析対象の文章IDを検索し、解析対象文章ID13に書き込む(ステップ2a13)。全文章を対象としない場合というのはあるルールを満たす文章のみを再解析する場合であるので、対象属性テーブル19から当該ルールを満たすレコードを見つけ、その文章IDを抽出することにより、解析対象の文章IDを検索することができる。
【0084】
次に文章属性抽出パラメータ設定2bにおけるステップ2b01でルール初期生成でない、すなわちルール展開である場合、まず展開対象となる文章属性情報を利用者の指示情報から取得する(ステップ2b11)。次に利用者からの指示情報から、当該文章属性を詳細化するのか抽象化するのかを判別し(ステップ2b12)、抽象化する場合は、文章属性抽出パラメータ群12の当該文章属性に対応する現在レベルの値を1減らす(ステップ2b13)。詳細化する場合は、文章属性パラメータ群12の当該文章属性に対応する現在レベルの値を1増やす(ステップ2b14)。その後の処理は図5で説明した通りの方法で再解析の実行を指示する。
【0085】
図22は、図18において文章属性である内容属性の詳細化を指示した後の文章属性抽出パラメータ群12の内容を示す図である。図4の内容と異なっているのは、内容属性1208の現在レベル1205の値が0から1に変わっていることである。すなわち、内容属性の解析レベルが一段階詳細化されていることである。この状態で文章解析処理部3が起動されると、文章解析処理部3では、内容属性について解析レベルを1として解析することとなる。
【0086】
図23は、再解析後の文章属性テーブル17の内容を示す図である。図12に示す内容属性の値と比べると内容が詳細化されている。図12では内容属性の値が同じであっても、図23では内容が詳細化されたことにより、値がばらついているのが分かる。例えば、図12において、顧客IDが12345の顧客と34567の顧客は内容属性1706の値が同一(「接客態度(営業担当)=悪い」)であるが、図23においては、内容属性の解析が詳細化されたため、値が異なっている(「勧誘(営業担当)=しつこい」と「態度(営業担当)=悪い」)。
【0087】
図24は、ルール展開の結果新しく生成されたルール20の内容を示す図である。図16のルールと比べると確信度の値が下がっているが、これは内容属性の値がばらついたことにより、ルールの傾向の強さが弱まったことを示す。また、これまで出力されていたルールがルール展開によって出力されなくなることもあれば、逆の場合もある。
【0088】
ルール展開結果についても図17から図20で示したように利用者に提示されるので、再びルール展開を行うことができる。
【0089】
【発明の効果】
以上、図1から図24を用いて説明したように、本実施例のシステムは、電子文章から文章属性を抽出してそれらの間の因果関係を顧客属性と対応付けて出力できるだけでなく、特定のルールを構成する文章属性に対してさらにルールの詳細化/抽象化を指示したり、特定の文章属性に対してその再解析(詳細化/抽象化)を指示したりすることができるので、利用者の要求に近いルールを出力する確率が高くなる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウェア構成を示す図である。
【図3】ルール初期生成指示画面の構成および内容を示す図である。
【図4】文章属性抽出パラメータ群12の構成および内容を示す図である。
【図5】ルール展開制御部2の処理内容の一部を示す図である。
【図6】解析対象文章ID13の構成および内容を示す図である。
【図7】顧客電子文章データ11の構成および内容を示す図である。
【図8】用語辞書14の構成および内容を示す図である。
【図9】文章属性抽出知識15の構成および内容を示す図である。
【図10】文章解析処理部3の処理内容を示す図である。
【図11】単語テーブル16の構成および内容を示す図である。
【図12】文章属性テーブル17の構成および内容を示す図である。
【図13】顧客属性テーブル18の構成および内容を示す図である。
【図14】ルール生成処理部4の処理内容を示す図である。
【図15】対象属性テーブル19の構成および内容を示す図である。
【図16】ルール20の構成および内容を示す図である。
【図17】ルール表示画面の構成および内容の一例を示す図である。
【図18】ルール展開指示画面の構成および内容の一例を示す図である。
【図19】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図20】ルール展開指示画面の構成および内容の他の一例を示す図である。
【図21】ルール展開制御部2の処理内容の他の一部を示す図である。
【図22】文章属性抽出パラメータ設定後の文章属性抽出パラメータ群の内容を示す図である。
【図23】更新後の文章属性テーブルの内容を示す図である。
【図24】更新後のルールの内容を示す図である。
【符号の説明】
1・・・入出力部,2・・・ルール展開制御部,3・・・文章解析処理部,4・・・ルール生成処理部,5・・・ルール表示処理部,11・・・顧客電子文章データ,12・・・文章属性抽出パラメータ群,13・・・解析対象文章ID,14・・・用語辞書,15・・・文章属性抽出知識,16・・・単語テーブル,17・・・文章属性テーブル,18・・・顧客属性テーブル,19・・・対象属性テーブル,20・・・ルール(属性間因果関係)
Claims (3)
- 入力装置、電子文章を解析して文章属性データを抽出する文章解析処理部、文章属性データ間の関係を抽出するルール生成処理部、ルール展開制御部および出力装置を備えたデータ分析装置を用いたデータ分析支援方法において、
前記入力装置を介して指定した文章属性に対応する電子文章を、前記文章解析処理部によって、解析して当該文章属性データを更新し、
前記ルール生成処理部によって、前記更新された文章属性データと他の文章属性データとの間の関係を抽出し、
前記抽出された関係を前記出力装置に出力し、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを前記ルール展開制御部によって判定し、
文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を前記出力装置に出力し、
前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を、前記文章解析処理部によって、再解析して当該文章属性データを更新することを特徴とするデータ分析支援方法。 - 文章属性の指示を入力する入力装置と、
前記入力装置を介して指定した文章属性に対応する電子文章を解析して当該文章属性データを更新する文章解析処理部と、
前記更新された文章属性データと他の文章属性データとの間の関係を抽出するルール生成処理部と、
前記抽出された関係を出力する出力装置と、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを判定するルール展開制御部と、
前記出力装置は、文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を出力し、
前記文章解析処理部は、前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を、再解析して当該文章属性データを更新することを特徴とするデータ分析装置。 - 入力装置、電子文章を解析して文章属性データを抽出する文章解析処理部、文章属性データ間の関係を抽出するルール生成処理部、ルール展開制御部および出力装置を備えたデータ分析装置にデータ分析支援方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
前記入力装置を介して指定した文章属性に対応する電子文章を解析して当該文章属性データを更新する手順を前記文章解析処理部に実行させ、
前記更新された文章属性データと他の文章属性データとの間の関係を抽出する手順を前記ルール生成処理部に実行させ、
前記抽出された関係を出力する手順を前記出力装置に実行させ、
電子文書の分類、キーワード、内容の各文章属性について、前記各文書属性に対して予め定義された複数の解析レベルと前記文章解析処理部で用いられた解析レベルを比較して、前記各文書属性について詳細化及び抽象化が可能か否かを判定する手順を前記ルール展 開制御部に実行させ、
文章属性の一覧と共に、前記各文書属性について詳細化及び抽象化が可能であること示す情報を出力する手順を前記出力装置に実行させ、
前記入力装置を介して指定した前記各文章属性に対する詳細化又は抽象化の情報に基づいて前記各文章属性の解析レベルを決定し、前記各文章属性の解析レベルに対応する電子文章を再解析して当該文章属性データを更新する手順を前記文章解析処理部に実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10216699A JP3743204B2 (ja) | 1999-04-09 | 1999-04-09 | データ分析支援方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10216699A JP3743204B2 (ja) | 1999-04-09 | 1999-04-09 | データ分析支援方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000293537A JP2000293537A (ja) | 2000-10-20 |
JP3743204B2 true JP3743204B2 (ja) | 2006-02-08 |
Family
ID=14320135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10216699A Expired - Fee Related JP3743204B2 (ja) | 1999-04-09 | 1999-04-09 | データ分析支援方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3743204B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766328B2 (en) * | 2000-11-07 | 2004-07-20 | Ascriptus, Inc. | System for the creation of database and structured information from verbal input |
JP2002288091A (ja) * | 2001-03-28 | 2002-10-04 | Seiko Epson Corp | メール、データの表示 |
JP3677006B2 (ja) * | 2002-02-22 | 2005-07-27 | 日本ユニシス株式会社 | 情報処理装置およびその方法 |
US20090112583A1 (en) * | 2006-03-07 | 2009-04-30 | Yousuke Sakao | Language Processing System, Language Processing Method and Program |
JP4954674B2 (ja) * | 2006-11-01 | 2012-06-20 | 株式会社日立製作所 | ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム |
JP5498101B2 (ja) * | 2009-08-31 | 2014-05-21 | 株式会社東芝 | 文書処理装置および文書処理プログラム |
JP7305566B2 (ja) * | 2020-01-21 | 2023-07-10 | 株式会社東芝 | 情報処理装置、情報処理システム、および情報処理プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4038255B2 (ja) * | 1997-06-11 | 2008-01-23 | 株式会社日立製作所 | 大規模データ分析方法 |
-
1999
- 1999-04-09 JP JP10216699A patent/JP3743204B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000293537A (ja) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6697799B1 (en) | Automated classification of items using cascade searches | |
JP5512489B2 (ja) | ファイル管理装置及びファイル管理方法 | |
US20180060306A1 (en) | Extracting facts from natural language texts | |
US20090182723A1 (en) | Ranking search results using author extraction | |
US20060288275A1 (en) | Method for classifying sub-trees in semi-structured documents | |
JP2000511671A (ja) | 自動文書分類システム | |
US20200342059A1 (en) | Document classification by confidentiality levels | |
CN105378731A (zh) | 从被回答问题关联语料库/语料值 | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
KR101933953B1 (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
Banerjee et al. | Bengali question classification: Towards developing qa system | |
Rahate et al. | Feature selection for sentiment analysis by using svm | |
JP5836893B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN112307336A (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
JP3743204B2 (ja) | データ分析支援方法および装置 | |
JP2006323517A (ja) | テキスト分類装置およびプログラム | |
Higuchi | KH Coder 2. x reference manual | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Sun et al. | A scenario model aggregation approach for mobile app requirements evolution based on user comments | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
US8195458B2 (en) | Open class noun classification | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2022050011A (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050510 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051107 |
|
LAPS | Cancellation because of no payment of annual fees |