JP2000293537A - データ分析支援方法および装置 - Google Patents

データ分析支援方法および装置

Info

Publication number
JP2000293537A
JP2000293537A JP11102166A JP10216699A JP2000293537A JP 2000293537 A JP2000293537 A JP 2000293537A JP 11102166 A JP11102166 A JP 11102166A JP 10216699 A JP10216699 A JP 10216699A JP 2000293537 A JP2000293537 A JP 2000293537A
Authority
JP
Japan
Prior art keywords
sentence
attribute
data
text
attribute data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11102166A
Other languages
English (en)
Other versions
JP3743204B2 (ja
Inventor
Hisao Mase
久雄 間瀬
Hirotaka Mizuno
浩孝 水野
Yukiyasu Ito
幸康 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10216699A priority Critical patent/JP3743204B2/ja
Publication of JP2000293537A publication Critical patent/JP2000293537A/ja
Application granted granted Critical
Publication of JP3743204B2 publication Critical patent/JP3743204B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】従来技術では、出力される属性データ間の関係
が利用者の要求を満たさない場合、その関係を展開して
新たな関係を出力ことができない。 【解決手段】出力された因果関係の中から利用者が指定
したある特定の因果関係に関連する電子文章を再解析し
て属性データを更新し、属性データ間の関係を再抽出
し、その結果を利用者に報知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の属性項目か
らなるデータ集合から属性データ間の関係を抽出するデ
ータ分析(データマイニング)技術に関するものであ
り、特にテキストから抽出された複数の文章属性からな
るデータ集合から文章属性データ間あるいは文章属性デ
ータと他の属性データとの間に潜在する因果関係をルー
ルとして抽出するテキストデータ分析技術に関する。
【0002】
【従来の技術】本発明は主に、電子文章から種々の文章
属性情報を抽出する文章解析技術と、抽出された文章属
性情報を分析してそれらの間に潜在する因果関係を抽出
するデータ分析技術に関係している。
【0003】計算機を用いた文章解析技術としては、多
くの文書検索システムで採用されているキーワード抽出
技術をはじめ,情報処理学会題52回全国大会講演論文
集3-303に記載されているカテゴリ分類技術,情報処理
学会論文誌Vol.30, No.10, pp.1258-1267に記載されて
いる文章要約技術などが知られている。これらの処理精
度は決して高くはないが、大量の電子文章から利用者が
必要とする情報を効率良く抽出する際にはこれらの技術
は非常に有効である。
【0004】一方、計算機を用いたデータ分析技術とし
ては、(社)計測自動制御学会発行の「計測と制御」Vo
l.36,N0.3(1997)p.p.198に記載されているように、ル
ールインダクション(帰納)と呼ばれる技術やニューラ
ルネットワークを利用した技術が広く知られている。デ
ータマイニングでは統計的手法が最も広く用いられてお
り、その理論的基盤も確立されている。
【0005】
【発明が解決しようとする課題】文章解析技術とデータ
分析技術とを融合する上記従来技術では以下の課題があ
る。
【0006】(1)属性データ間の因果関係を抽出する
場合にまず問題となるのは、対象とするデータが必ずし
も用意されているとは限らないことである。属性データ
は表形式で記述されることが多いが、データが表形式で
なく電子文章の形で用意されている場合、電子文章デー
タから必要な文章属性データを抽出して表形式データに
変換する必要がある。
【0007】(2)次に問題となるのは、データマイニ
ング結果として提示される因果関係が必ずしも利用者の
要求を満たすものではないということである。従来のデ
ータ分析技術では、生成されたルールが利用者の期待に
そぐわない陳腐なものである場合、生成された因果関係
をさらに展開することができないため、利用者はあきら
めるしかなかった。
【0008】電子文章データから文章属性データを抽出
することを想定した場合、抽出される文章属性データの
抽象度(文章解析のレベル)を調節することにより、さ
まざまな解析レベルの文章属性データを抽出することが
可能である。しかし実際には、どのレベルで文章を解析
すれば良いのかは、生成される属性データ間の因果関係
をチェックしてみないと分からない。すなわち、文章解
析のレベルが非常に低い(文章解析が比較的抽象化して
いる)と、抽出される因果関係も非常に抽象的・一般的
なものになる。逆に文章解析のレベルが非常に高い(文
章解析が比較的複雑化・詳細化している)と、抽出され
る文章属性データが細分化されるので、抽出される因果
関係も細かくなり、統計的に有意な因果関係を抽出でき
なくなる。従って、抽出された因果関係をチェックする
段階で、利用者がある特定の因果関係を詳細化/抽象化
したいという要求をシステムが受理可能であれば、利用
者の要求に近い因果関係を出力できる。
【0009】本発明の目的は、電子文章データから文章
属性データを抽出する際に、抽出された因果関係をチェ
ックする段階で、ある特定の因果関係を詳細化/抽象化
したいという利用者の要求に近い因果関係を出力できる
データ分析支援方法を提供することにある。
【0010】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明では、利用者が入力装置を介して指定した
文章属性について、電子文章を再解析して当該文章属性
データを更新し、更新された文章属性データと更新され
なかった他の属性データとの間に潜在する関係を抽出
し、抽出された関係を出力装置を介して利用者に報知す
る。
【0011】また本発明では、利用者が入力装置を介し
て指定した関係を構成する文章属性について、当該関係
に関連する電子文章を再解析して当該文章属性データを
更新し、更新された文章属性データと更新されなかった
他の属性データとの間に潜在する関係を抽出し、抽出さ
れた関係を出力装置を介して利用者に報知する。
【0012】
【発明の実施の形態】本発明の実施例について、以下、
図面を用いて詳細に説明する。
【0013】本実施例は、メーカの製品やサービス企業
の業務に関して顧客から寄せられた大量の意見・要求・
クレーム文章を電子化し、これらの情報を分析して顧客
がどんな点について不平・不満を持っているかを分析す
ることを支援するシステムについて述べる。本システム
を用いることによって得られる分析結果は、業務改善へ
フィードバックされる。本実施例で用いているデータは
保険会社に関するものであるが、その他、銀行・証券・
メーカ・通信販売・その他のサービス業における顧客意
見の分析にも適用できる。一般に顧客から寄せられる意
見は膨大な量であり、手作業による分析は多大なコスト
がかかるため、本実施例で述べるシステムは分析者の作
業を支援するものとして有効である。
【0014】図1は本実施例で述べるシステムの概要を
示す図である。簡潔に言えば本システムは、大量の顧客
電子文章データ11を解析して文章属性データ17を抽
出し、文章属性データ17と顧客属性データ18を用い
て、どんな属性を持つ顧客がどんなクレームを持ってい
るのかを記述したルール20を出力する。具体的には、
顧客電子文章データ11に格納された、「営業マンの勧
誘がしつこい」、「保険プランAの保険料が高い」、
「住所変更の手続きが複雑だ」など、顧客から寄せられ
た文章を解析して、内容・分野別の分類カテゴリ,内容
を特徴付けるキーワード,内容を定式化した要約などに
関する情報を文章属性データ17として抽出する。そし
て性別・年齢・職業・年収・趣味など顧客の属性を記述
した顧客属性データ18と組み合わせてデータ分析する
ことよって、例えば「40代の主婦は営業マンの態度が
悪いと感じている」といった属性データ間の因果関係を
ルール20として抽出する。
【0015】図1に示すように、本システムは大きく三
つの処理部から構成され、これらの処理部は、入力装
置、出力装置、および記憶装置を有する計算機を用いて
実行される。すなわち、顧客から寄せられた電子文章デ
ータ11を解析して文章属性データ17を抽出する文章
解析処理部3,文章解析によって生成された文章属性テ
ーブル17および顧客の個人属性が格納された顧客属性
テーブル18を参照して属性データ間に潜在する特徴的
な因果関係をIF-THENルールとして抽出するルール生成
処理部4,そして文章解析処理部3とルール生成処理部
4に指示を送り、文章解析とルール生成との間の処理を
橋渡しする役目を持つルール展開制御部2である。ルー
ル展開制御部2は後述するように、ルール生成処理部4
で生成されたルールを利用者の要求に応じて展開(詳細
化あるいは抽象化)する処理を制御する。
【0016】各処理部の処理内容および各処理部におけ
るデータの流れについては後に詳述するが、以下ではそ
の概略について説明する。
【0017】ルール展開処理部2は主に解析対象文章決
定2aと文章属性抽出パラメータ設定2bと文章解析お
よびルール生成指示という処理からなる。解析対象文章
決定2aでは、利用者からの指示内容に基づいて、文章
解析処理部3で解析あるいは再解析すべき電子文章がど
れであるかを認定する。まだ一度もルール生成を実行し
ていない場合には対象としている電子文章すべてが文章
解析対象となるが、一度ルール生成をした後にある特定
のルールを構成するある特定の文章属性を詳細化・抽象
化する場合には、当該ルールに関係のある電子文章のみ
を文章解析対象とすることもある。文章解析の対象とな
る文章IDは解析対象文章ID13に格納される。
【0018】文章属性抽出パラメータ設定2bでは、文
章をどの解析レベルで解析するのか、言い換えれば文章
からどのレベルの文章属性データを抽出するのかを設定
する。利用者からの指示に基づいて各文章属性データの
解析レベルを決定する。解析レベルは文章属性抽出パラ
メータ群12に記述され、文章解析処理部3で文章から
文章属性データを抽出する際に必ず参照される。
【0019】文章解析処理部3は大きく文章解析3aと
文章属性抽出3bという二つの処理からなる。文章解析
3aでは、まず解析対象となる電子文章データIDを解
析対象文書ID13から順次読み込んで、対応する電子
文章データを顧客電子文章データから取り出す。次に、
用語辞書14を参照して当該文章に含まれる単語文字列
および単語属性を認定する形態素解析を行い、その結果
を単語テーブル16に格納・保持する。
【0020】文章属性抽出3bでは、文章属性データを
抽出するためにさまざまな処理を行う。本実施例では、
(1)キーワード、(2)カテゴリ分類、(3)内容
(要約)の三つの文章属性についてのみ言及する。文章
属性抽出3bを実行するために必要な知識は文章属性抽
出知識15に格納されており適宜参照される。本処理の
詳細については後述する。
【0021】文章解析処理部3は、各文章に関する文章
属性データからなる文章属性テーブル17を出力する。
後述するように、この文章属性テーブル17のみからで
もルールを生成できるが、本実施例では顧客属性を格納
した顧客属性テーブル18の情報を文章属性テーブル1
7に結合することにより、どんなタイプの顧客がどんな
クレームを言っているのかを統計的に分析する。ここ
で、顧客属性テーブル18に記述される顧客属性データ
は利用者が変更できないことに注意されたい。
【0022】ルール生成処理部4は大きく対象属性テー
ブル生成4aとルール抽出4bからなる。対象属性テー
ブル生成4aでは、文章属性テーブル17と顧客属性テ
ーブル18を共通の属性項目をキーにして結合し、分析
対象となる対象属性テーブル19を生成する。
【0023】ルール抽出4bでは、生成された対象属性
テーブル19を統計的に分析して、属性データ間に潜在
する因果関係をIF-THENルール20として抽出し、ルー
ルの確信度とともに出力する。例えばルール20aは、
「クレームを寄せて来た40代の主婦の80%が営業担
当の勧誘がしつこいというクレームを寄せてきてい
る」、あるいは確信度の計算方法によっては、「営業担
当の勧誘がしつこいというクレームを寄せてきた人の8
0%は40代の主婦である」という内容を示す。
【0024】ルール表示処理部5は、ルール生成処理部
4で出力されたルール一覧20を入出力部1を介して利
用者に報知する。
【0025】利用者は報知されたルールの各々を見て分
析に役立てるが、すべてのルールが利用者にとって有用
であるとは限らない。あるルールは当たり前で一般的な
漠然としたものかもしれないし、別のあるルールはあま
りにも細かすぎるものかもしれない。
【0026】本システムでは、利用者がこれらのルール
にぶつかったときに、そのルールを詳細化あるいは抽象
化(一般化)し、その再分析結果を利用者に報知する機
能を有するのが特徴の一つである。ルールの詳細化/抽
象化のためには電子文章11を再解析する必要があるか
もしれない。その際、前回と同じ解析レベルで解析して
も同じ内容の文章属性データが出力されるだけで意味が
ないので、ルールを詳細化する場合には解析レベルを上
げてより詳細な文章属性データを出力する必要がある
し、逆にルールを抽象化する場合には解析レベルを落と
してより抽象的な文章属性データを出力する必要があ
る。
【0027】例えば表示されたルール一覧20のうちの
ある特定のルールについて詳細化したいという要求を利
用者が持った場合、入出力部1を介してその旨をシステ
ムに伝える。すなわち、ルール20aについて、「文章
属性であるカテゴリ属性を詳細化した結果が見たい」と
か「営業担当の勧誘がしつこいという内容に近いものを
まとめたい(抽象化したい)」といった要求を伝える。
この要求をシステムが受け取ると、ルール展開制御部2
で、(1)どのルールに関するルール展開要求が来たの
か、(2)対象となる文章属性はどれか、(3)再解析
が必要な電子文章はどれか、(4)解析レベルをどのよ
うに変更するのか、を認定・決定する処理を行い、文章
解析処理部3に対して該当する電子文章の再解析を指示
する。再解析の結果、文章属性テーブル17の文章属性
データを更新あるいは追加した後、ルール生成処理部4
でルール抽出を再度行い、更新されたルールを利用者に
報知する。
【0028】図2は、本実施例で述べるシステムのハー
ドウェア構成を示す図である。本システムは各種の処理
を実行する処理装置50、プログラムおよび各種データ
を格納する記憶装置60、データあるいは操作指示内容
を入力するキーボード51およびマウス52、生成され
たルールやシステムからのメッセージ等を利用者に報知
する出力モニタ53からなる。また、本システムは計算
機ネットワーク54に接続して、各種データを他の計算
機から受け取ったり他の計算機に送ったりすることも可
能である。処理装置50では必要に応じて記憶装置60
からデータあるいはプログラムをロードし、処理演算を
実行し、結果を記憶装置60に格納する。記憶装置60
はワーキングエリア61、ルール展開制御部格納エリア
62、文章解析処理部格納エリア63、ルール生成処理
部格納エリア64、ルール表示処理部格納エリア65、
顧客電子文章データ格納エリア66、文章属性抽出パラ
メータ群格納エリア67、解析対象文章ID格納エリア
68、用語辞書格納エリア69、文章属性抽出知識格納
エリア70、単語テーブル格納エリア71、文章属性テ
ーブル格納エリア72、顧客属性テーブル格納エリア7
3、対象属性テーブル格納エリア74、ルール(属性間
の因果関係)格納エリア75から構成される。
【0029】本発明のデータ分析支援方法を実施するプ
ログラムは、通常、外部記憶装置に格納され、実行時に
記憶装置(メモリ)に読み込まれて実行されるが、この
プログラムを計算機で読取り可能な記憶媒体に格納し、
これを処理装置の記憶装置に読み込んで実行することも
可能である。
【0030】図3は、利用者がルールの初期生成(第一
回目の生成)を指示する際に提示される画面の一例を示
す図である。本画面はルール生成までの一連の処理で必
要な各種データを利用者に設定/入力させるものであ
る。「対象文章ディレクトリ」欄89には、文章解析の
対象となる電子文章が格納されたディレクトリ名を記述
する。本実施例ではディレクトリ名を入力させるが、電
子文章はデータベースシステムによって管理されていて
も、フロッピーディスク等の記憶媒体に格納されていて
も構わない。「文章属性抽出パラメータ」欄90には、
文章解析処理部3で用いる文章属性抽出パラメータ群1
2の情報が格納されたファイルの格納位置およびファイ
ル名称を記述する。「他に結合する属性データ」欄91
には、文章属性テーブル17と結合する顧客属性テーブ
ル18があればそのファイル名称を記述する。顧客属性
テーブル18はオプションであり、指定しなくても構わ
ない。顧客属性テーブル18はデータベースシステムに
よって管理されていても、フロッピーディスク等の記憶
媒体に格納されていても構わない。「結合するための共
通属性」欄92には、文章属性テーブル17と顧客属性
テーブル18を結合する際のキーとなる属性項目の名称
を記述する。これらの設定データはワーキングエリア6
1に格納され、適宜参照される。
【0031】「文章属性抽出パラメータの設定」ボタン
93を押すと、上記欄90に記述されたファイルがオー
プンされ、編集可能となる。どの文章属性をどの解析レ
ベルで抽出するのかに関する情報をこのファイルに記述
する(詳細は後述)。
【0032】実行ボタン94を押すとルールの初期生成
が実行される。また中止ボタン95を押すとルール生成
は行われないで、本画面はクローズする。
【0033】図3の画面の上部にはメニューバーが配置
されており、各種ボタン81〜88があるが、これらの
ボタンは本実施例の本質には直接関係しないので、各ボ
タンの詳説は省略する。
【0034】図4は文章属性抽出パラメータ群12の構
成を示す図である。文章属性抽出パラメータ群12は、
文章属性テーブル17の文章属性の名称となる属性名12
01、属性名1201を詳細化した詳細属性名1202、文章属性
の解析レベルを示す解析レベル1203、ルール初期生成の
際に適用される解析レベルを示す初期レベル1204、ルー
ル展開の際に参照される現在レベル1205から構成され
る。解析レベル1203は整数値をとり、数が小さいほど解
析が抽象的となる。初期レベル1204は整数値をとり、値
がマイナスの場合その属性は文章解析時に抽出されない
ことを示す。初期レベル1204の値は書き換えが可能であ
り、その値に対応する解析レベル1203で文章属性の抽出
は行われる。現在レベル1205は、文章の再解析の際に参
照されるものであり、ルール展開処理部2の文章属性抽
出パラメータ設定2bにおいて利用者の要求に応じて値
を変える。
【0035】図4では、本システムにおいて抽出可能な
文章属性として、分類(カテゴリ)1206,キーワード12
07,内容1208の3種類があることを示している。分類属
性1206については大分類,中分類,小分類が可能であ
り、中分類は大分類に比べて分類が細かく、小分類は中
分類に比べて分類が細かい。キーワード1207および内容
1208の抽出についてはそれぞれ2段階の解析レベルがあ
ることを示している。もちろん、これら以外の文章属性
も定義可能である。例えば、文章中の5W1H(いつ、
どこで、だれが、何を、どのように、なぜ)情報である
とか、内容の類似する文章同士をまとめてグループ化す
る(クラスタリングする)などが考えられる。
【0036】図5は、利用者が図3においてルールの初
期生成を実行指示したときの、ルール展開制御部2の処
理内容を示す図である。
【0037】まず、解析対象文章決定2aにおいて、解
析対象文章ID13を初期化した後(ステップ2a01)、
利用者からの指示がルール初期生成であるかルールの展
開であるかを判別し(ステップ2a02)、ルール初期生成
である場合は、解析対象文章IDの先頭に文字列"ALL"
を書き込む(ステップ2a03)。ルール展開の場合の処理
については図21の説明の中で述べる。
【0038】次に、文章属性抽出パラメータ設定2bに
おいて、利用者からの指示がルール初期生成であるかル
ールの展開であるかを判別し(ステップ2b01)、ルール
初期生成である場合はステップ201に移る。ルール展開
の場合の処理については図21の説明の中で述べる。
【0039】次に、文章解析処理部3に対して解析対象
文章の解析を指示する(ステップ201)。文章解析処理
部3が正常に処理終了したら(ステップ202)、ルール
生成処理部4に対してルールの抽出を指示する(ステッ
プ203)。ルール生成処理部4が正常に終了したら(ス
テップ204)、ルール表示処理部5に対して生成された
ルールの表示を指示する(ステップ205)。文章解析処
理部3、ルール生成処理部4、ルール表示処理部5で
は、ルール展開制御部からの指示を受けてそれぞれ所定
の処理を実行し、結果をそれぞれ所定の位置に出力し、
リターンコードをルール展開制御部2に返す。
【0040】図6は、解析対象文章ID13の構成およ
び内容を示す図である。解析対象文章ID13には、文
章解析処理部3で解析対象となる電子文章データ11の
文章ID集合を記述する。上述したように、ルール初期
生成の場合はすべての電子文章を解析対象とするので、
その場合は図6(a)に示すように文字列"ALL"のみが
記述される(この処理はルール展開制御部2における解
析対象文章決定2a(ステップ2a03)で行われる)。図
6(b)の説明については後述する。
【0041】図7は、本システムで対象とする電子文章
データ11の構成と内容を示す図である。電子文章デー
タ11は少なくとも顧客からのクレーム内容を記述した
部分はテキスト形式で格納されている必要がある。本シ
ステムでは、電子文章データ11は予め記憶装置60に
格納されていることを前提としているが、その入力方法
としては、キーボードを介したキー入力,ペン等による
入力,OCR等を用いた文字認識による入力,音声認識
装置を介した入力,計算機ネットワーク54で接続され
た計算機からの転送による入力などがあるが、どれでも
構わない。
【0042】図7に示すように、一つの電子文章データ
は、文章を識別する文章ID1101,顧客属性テーブル1
8のデータとリンクするために必要な顧客ID1102,顧
客からのクレームを受け付けた受付月日1103,そして受
付文章1104から構成される。もちろん、受付担当者など
他の情報があっても構わない。また、電子文章データ1
1は構造化されていない普通の文章で書かれてあっても
良いし、SGML(Standard General Markup Languag
e),XML(eXtensible Markup Language)に代表さ
れるようなマークアップ言語(タグ付き言語)で書かれ
てあっても良い。ただし、前者の場合はシステムが各情
報の位置を正確に特定できるように記述方法を工夫・統
一する必要がある。後者の場合はタグの名称を統一する
必要がある。
【0043】図8は、用語辞書14の構成と内容を示す
図である。用語辞書14は、文章解析部3における文章
解析3aにおいて参照されるデータであり、このデータ
を用いて文章を構成する単語および各々の単語の属性を
認定する。
【0044】用語辞書14は単語見出し1401,品詞140
2,活用形/活用行/活用種に関する情報を記述した活
用1403,複数の表記方法がある場合の代表的な表記であ
る正表記1404,キーワードを抽出する際に明らかにキー
ワードとなり得ない単語(不要語)であることを示す不
要語フラグ1405,単語の意味的な分類を記述する意味コ
ード1406,感情を表す単語かを記述する感情コード1407
から構成される。もちろん、これ以外の単語属性が含ま
れていても構わない。正表記1404とは、ほぼ同じ意味内
容を表すが表記の異なる二つの単語を同一の単語として
扱うためのものであり、例として「人」と「人間」など
が挙げられる。また、カタカナの表記の違い(例えば、
インタフェースとインターフェイス)やアルファベット
の大文字/小文字の記述の違いなどもこれに含まれるが
これらについては機械的処理が可能であるので、用語辞
書14に記述しなくても文章解析において表記の統一処
理を行うことが可能である。
【0045】図9は、文章属性抽出知識15の構成と内
容を示す図である。文章属性抽出知識15とは、文章か
ら種々の文章属性データ17を抽出するのに必要な知識
の集合である。前述したように本システムでは、分類,
キーワード,内容という三種類の文章属性を抽出する
が、それぞれの文章属性を抽出するためにはそれぞれ別
の知識を参照する。
【0046】図9(a)は、各文章を予め定義された分
類カテゴリに分類するためのカテゴリ分類知識15aを
記述したものである。このテーブルは、分類の際に使用
するキーワード見出し1501,分類カテゴリ名1502,当該
キーワード見出しが当該分類カテゴリを特徴付けるキー
ワードとしてどのくらい重要であるのかを定量的に表す
重み1503から構成される。
【0047】分類の際に使用するキーワードの認定方法
としては、ある特定の品詞の単語を使用する方法や、予
め定義したキーワード集合に含まれるキーワードのみを
使用する方法や、明らかにキーワードとなり得ない単語
(不要語)を除いた残りの単語を使用する方法や、上記
方法の組み合わせによる方法などがある。また、あるキ
ーワードがある分類カテゴリを特徴付けるか否かを決め
るために、予め既に分類済みの文章を教師データとして
用意し、それらを文章解析することによって、あるキー
ワードがある分類カテゴリにどのくらいの頻度で出現す
るかを統計的に自動計算することもできる。
【0048】さらに、重みの付与方法としては、あるキ
ーワードが含まれる全文書数に占める、そのキーワード
が含まれる「ある分類カテゴリに属する文書数」の割合
を用いる方法や、あるキーワードが全文書中に含まれる
総出現頻度に占める、そのキーワードが「ある分類カテ
ゴリに属する文書中」に含まれる総出現頻度の割合を用
いる方法などがあり、どれを用いても構わない。文章属
性抽出3bにおいて分類カテゴリを決定する際には、分
類の対象となる文章中に出現するキーワードが持つ重み
を分類カテゴリ別に加算した合計値を求め、最も大きな
値を持つ分類カテゴリをその文書の分類カテゴリとする
など多くの方法が知られている。
【0049】図4に示すように、本システムでは大分
類,中分類,小分類の3階層からなる分類カテゴリ体系
を採用しているので、図9(a)に示すカテゴリ分類知
識は各分類階層毎に作成する必要がある。
【0050】図9(b)は、文章属性の他の一つである
内容(要約)を抽出するために必要な内容抽出知識15
bを記述したものである。本システムでは、文章の構文
的構造および文章を構成する単語の持つ属性を手掛かり
とした、IF-THENルールベースの内容抽出を行う。もち
ろん、これ以外の手法を用いても構わない。
【0051】図9(b)に示すように、各ルールは、条
件を記述するIF部と帰結部を記述するTHEN部から
なる。最初のルール(ID=00001)は、名詞1の直後
に単語「の」が続き(記号「+」はその前後の単語が直
接つながることを示す)、その直後に名詞2が続き、そ
の直後に単語「が」が続き、その後方に形容詞1が続く
(記号「*」は直後の単語が直前の単語に直接つながる
必要はないが後方に現れる必要があることを示す)とい
う条件を示しており、かつ、名詞1の単語属性である意
味コード1406が「人間」であり、名詞2の意味コード14
06が「行為」であり、形容詞1の単語属性である感情コ
ード1407が「悪感情」であるときに初めてこのIF部を
満たすことを示している。従って、例えば「営業担当の
勧誘が悪い」という文の場合、名詞1が「営業担当」、
名詞2が「勧誘」、形容詞1が「悪い」と対応付けるこ
とにより、このルールを満たすことになる。従って、T
HEN部に記述された式に当てはめた、「勧誘(営業担
当)=悪い」という結果が得られる。
【0052】このようなIF-THENルールを用意しておく
ことにより、文章をある特定の構文を持った表記に置き
換えることが可能となり、文章を短く表現(要約)する
ことが可能となる。
【0053】図9(c)は、(b)と同様、内容(要
約)属性を抽出するために必要な内容抽出知識15bを
記述したものである。電子文章データ11の中にある単
語が含まれている場合、その単語の正表記1404は用語辞
書14から抽出できるが、単語間の意味的関係(意味的
階層関係)については用語辞書14には記述されていな
い。そこで、(c)に示すような意味シソーラスを用意
することにより、類似する意味を持つ単語をまとめるこ
とが可能となる。例えば、単語「保険料」「手数料」は
どちらも料金の一種であるという情報が(c)のシソー
ラスから得られる。この時、「保険料」「手数料」とい
う単語をそのまま使って内容属性を抽出するよりも、
「料金」という単語に置き換えて内容属性を抽出する方
がその内容属性の抽象度は高くなる。従って、利用者が
抽象的な解析を要求している場合には、より上位の単語
に置き換えて解析し、逆に利用者が詳細な解析を要求し
ている場合には、より下位の単語を用いて解析すること
により、解析レベルの異なった解析結果を得ることがで
きる。
【0054】図9には記載されていないが、残る一つの
文章属性であるキーワードを認定するための知識につい
て以下簡単に説明する。キーワード抽出方法にはいろい
ろな手法が提案されている。すなわち、(1)出現頻度
の高いものをキーワードとする方法や、(2)出現頻度
の高い上位N%と下位M%の単語を除去したものをキー
ワードとする方法や、(3)対象とするすべての文章に
おいて各単語がどのくらいの割合で出現するかによって
各文章中の出現頻度を補正する方法や、(4)単語の文
章中での出現の仕方や出現位置等を考慮した重み付けに
よるものなどがある。本システムでは、どの手法を用い
ても構わないが、これらの処理は特別な知識を持たなく
ても処理できる類のものであるので、キーワード抽出の
ための知識についてはここでは特に言及しない。
【0055】図10は、文章解析処理部3の処理内容を
示す図である。文章解析処理部3はルール展開制御部2
からの実行指示(ステップ201)を受けて文章を解析す
るもので、大きく文章解析3aと文章属性抽出3bから
なる。
【0056】文章解析3aではまず、解析対象の文章情
報が格納されている解析対象文章ID13を一行読み取
り(ステップ3a01)、それが文字列"ALL"であるか否か
を判別する(ステップ3a02)。"ALL"の場合、顧客電子
文章データ11に格納されるすべての文章が解析対象と
なるので、単語テーブルを初期化した後(ステップ3a0
3)、顧客電子文章データ11の中に未解析の文章があ
るか否かを判別し(ステップ3a04)、ある場合は、その
未解析文章に対して以下の処理を行う。
【0057】まず、対象文章から顧客IDおよび文章I
Dなどの固定属性情報を抽出する(ステップ3a05)。こ
れら固定情報の抽出の仕方は文章の記述形式に依存する
が、前述したようにXML等で記述されていれば、特定の
タグ内に記述された文字列を値として抽出可能であるの
で、比較的容易にこれらの属性データを抽出できる。次
に、対象文章から顧客のクレーム内容を表す文章部分を
取り出す(ステップ3a06)。次に取り出した文章を単語
に分割し、用語辞書14を参照して各単語の属性情報を
取得する形態素解析を行う(ステップ3a07)。形態素解
析のアルゴリズムとしては、最長一致法や最小コスト法
など多くの手法が公知であるので、ここでは詳細の説明
を省略する。次に取得した単語の属性情報を単語テーブ
ル16に書き込む(ステップ3a08)。このとき、各単語
および単語の属性情報を文章IDと対応させて書き込
む。一般に上記単語分割は多大な解析時間を要するが、
単語分割結果を単語テーブル16に保持しておくことに
よって、後の解析において単語テーブル16からある特
定の文章IDに関する単語データを高速に取得すること
が可能となる。
【0058】ステップ3a02で"ALL"でない場合、解析対
象文章ID13に記述された文章IDに対応する文章の
みが解析対象となるが、この場合、既に単語テーブル1
6に文章解析3aの結果が格納されているので、文章解
析3aをスキップしてステップ3b01に進む。
【0059】文章属性抽出3bでは、本システムで扱う
三つの文章属性である、分類カテゴリ,キーワード,内
容情報を抽出する。まず本処理が、利用者からの指示に
基づいて、ルール初期生成かルール展開であるかをチェ
ックし(ステップ3b01)、ルール初期生成である場合
は、文章属性抽出パラメータ群12の初期レベル1204の
値を取り込む(ステップ3b02)。ルール展開である場合
は、文章属性抽出パラメータ群12の現在レベル1205の
値を取り込む(ステップ3b03)。次に、解析対象文章I
D13から先頭の一行を読み取り(ステップ3b04)、そ
の文字列が"ALL"または"ALL2"であるかを判別し(ステ
ップ3b05)、どちらか一方である場合は、単語テーブル
16中の文章すべてを文章属性抽出対象とみなし(ステ
ップ3b06)、どちらでもない場合は、解析対象文章ID
13に格納された文章を文章属性抽出対象とみなす(ス
テップ3b07)。次に、文章属性を未抽出の文章があるか
否かを判別し(ステップ3b08)、ある場合は、分類属
性,内容属性,キーワード属性の抽出をそれぞれ行う
(ステップ3b09)を行う。これらの文章属性の抽出順序
については特に考慮する必要はない。
【0060】分類属性の抽出においては、文章属性抽出
パラメータ群12から取り込んだ解析レベルの値が0の
場合は大分類を行うことを示し、1の場合は中分類を行
うことを示し、2の場合は小分類を行うことを示し、値
がマイナスである場合は分類カテゴリの抽出は行わない
ことを示す。もちろん、分類カテゴリが4種類以上あっ
ても良い。ここでは、該当する分類レベルに対応する文
章属性抽出知識15のカテゴリ分類知識15aを参照し
て分類カテゴリを決定する。具体的にはまず、単語テー
ブル16に格納されている、分類対象文章から抽出され
た単語集合から品詞が名詞である単語を抽出する。次
に、各名詞についてカテゴリ分類知識15aに記述され
た重みの値をカテゴリ別に加算してその合計値を求め
る。次にこれらの合計値の最も高い分類カテゴリを求
め、その分類カテゴリを当該文章の分類カテゴリとして
文章属性テーブル17に保持する(ステップ3b10)。も
ちろん、上記値の計算方法は一例であり、上記以外の計
算方法でも構わない。
【0061】内容属性の抽出においては、図4に示すよ
うに解析レベルとして0,1を取ることができ、解析レ
ベル1の方が詳細な解析を行う。もちろん解析レベルは
3種類以上あっても構わない。以下では、2種類の内容
属性の抽出方法について述べるが他の抽出方法を用いて
も構わない。
【0062】一つ目の方法は、図9(c)に示したよう
な意味シソーラスの階層情報を用いるものである。意味
シソーラスは階層が高いほど意味は抽象的になっている
ので、ある文章中に出現する単語(の正表記)が意味シ
ソーラスに記述されている場合でかつ、その単語が意味
シソーラスの下位に位置する場合、その単語を、その単
語の上位に位置する単語に置き換えることにより、単語
を抽象化することができる。例えば、文章中に「保険
料」という単語が出現した場合、意味シソーラスにおけ
る上位の単語である「料金」に置き換える。一方、「手
数料」という単語が出現した場合も同様に「料金」とい
う単語に置き換える。意味シソーラスにおけるどの階層
の単語に置き換えるのかが、内容属性の解析レベルに対
応させることにより、意味シソーラスの階層の数だけの
種類の解析ができる。
【0063】二つ目の方法は、図9(b)に示す内容抽
出知識における帰結部の記述を複数持たせる方法であ
る。すなわち、内容属性の解析レベルに対応した帰結部
をそれぞれ記述しておく。内容属性を抽出する際には、
解析レベルに応じて採用する帰結部を変える。一般に解
析レベルの抽象度が高い場合は、帰結部の記述も簡潔に
なり、逆に解析レベルの抽象度が低い場合は、帰結部の
記述も複雑になる。
【0064】キーワード属性の抽出においては、図4に
示すように、解析レベルとして0,1の2種類を取るこ
とができる。キーワード属性の抽出においても、内容属
性の抽出と同様に、図9(c)に示すようなシソーラス
を用いてキーワードをある階層のキーワードに置き換え
る方法が可能である。あるいは、あるキーワードの出現
する文章数の割合が高いキーワードは一般性の強いキー
ワードであると仮定すると、対象とする電子文章のう
ち、一定割合(N%)以上の文章に出現する単語をキー
ワードから除外するという方法が考えられる。すなわ
ち、上記Nの値を低くすることにより、一般的な単語が
キーワードから除外されるので、より詳細なキーワード
を得ることが可能となる。従って、キーワード属性にお
ける解析レベルを上記Nの値と対応付けて定義すること
により、Nの値に応じた異なるキーワードを出力するこ
とが可能となる。また、一部の文章に絞って再解析を行
う場合、上記Nの値が同じでも出力されるキーワードが
異なるはずである。対象とする電子文章全体から見ると
あまり高い割合で出現していないキーワードでも、対象
を絞ることにより、その割合が急激に高くなる可能性が
あるので、そのようなキーワードを除去することによ
り、より詳細なキーワードを得ることが可能となる。
【0065】このように、文章解析処理部3の処理は、
ルール展開制御部2で決められたパラメータ設定に基づ
いて行われるため、パラメータの値に応じて処理方法お
よび参照するデータが変わる。その結果、パラメータの
値に応じて異なる文章属性データ17を得ることができ
る。
【0066】図11は、単語テーブル16の構成と内容
を示す図である。単語テーブル16は用語辞書14と似
た構造をしている。図11は図7に示した文章「営業マ
ンの勧誘が大変しつこい。」の解析結果として生成され
る単語テーブル16を表しており、出現単語1601,品詞
1602,活用1603,正表記1604,不要語フラグ1605,意味
コード1606,感情コード1607から構成される。出現単語
1601の記述順序は、文章における記述順序に等しい。不
要語フラグ1605は図10の文章属性抽出3bにおけるス
テップ3b09におけるキーワード属性抽出の際に参照可能
なデータであり、この値が1の場合、キーワードとして
不適当であることを示している。意味コード1606および
感情コード1607は、内容属性抽出の際に参照されるデー
タであり、図9(b)に示されている内容抽出知識との
照合を行うためのデータである。
【0067】図12は、文章属性テーブル17の構成と
内容を示す図である。文章属性テーブル17を構成する
属性としては、顧客IDや文章ID等のように必ず抽出
される固定の属性と、利用者によって文章属性抽出パラ
メータ群12において抽出することが指定され、その値
が可変である文章属性とがある。図12では見やすいよ
うに表形式で記述してあるが、本システムでは文章属性
テーブル17をCSV形式で記述する。すなわち、各属
性がコンマで区切られ、一行に一文章の情報を記述す
る。これは後のデータ加工処理を容易にするためである
が、リレーショナルデータベース(RDB)のように表
形式のテーブルに格納しても構わない。
【0068】図13は、顧客属性テーブル18の構成と
内容を示す図である。顧客属性テーブル18は必ずしも
不可欠なデータではないが、このデータを文章属性テー
ブル17と結合することにより、どんなタイプの顧客が
どんな内容のクレームを言っているのかという因果関係
を抽出することが可能となる。顧客属性テーブル18は
固定属性データであり、その属性としては、性別,年
齢,職業,年収,趣味,加入保険タイプなどが挙げられ
る。本システムでは、顧客属性データ18もCSV形式
で記述するが、RDBのように表形式のテーブルに格納
しても構わない。
【0069】図14は、ルール生成処理部4の処理内容
を示す図である。ルール生成処理部4はルール展開制御
部2からの実行指示(ステップ203)を受けて文章属性
テーブル17および顧客属性テーブル18に格納された
属性データを統計的に分析するもので、対象属性テーブ
ル生成4aとルール抽出4bからなる。
【0070】対象属性テーブル生成4aではルール抽出
4bの処理対象となる対象属性テーブル19を作成す
る。まず、図3の画面から取得した「他に結合する属性
データ91」および「結合するための共通属性92」に
関するデータをワーキングエリア61から取得する(ス
テップ4a01)。次に、「他に結合する顧客属性データ9
1」の値が存在するか否かを判別し(ステップ4a02)、
存在しない場合は文章属性テーブル17をそのまま対象
属性テーブル19と認定する(ステップ4a03)。存在す
る場合は、「結合するための共通属性92」の値である
属性項目を共通属性として文章属性テーブル17と顧客
属性テーブル18とを結合し、その結果を対象属性テー
ブル19として格納する(ステップ4a04)。ここで、文
章属性テーブル17に記述される文章が全文章データの
一部である場合、顧客属性テーブル18からもこの一部
の文章が持つ顧客IDに関する顧客属性データのみを用
いることとし、その他の関係ない顧客IDに関する顧客
属性データは用いない。すなわち、ルール初期生成時に
はすべての文章が解析対象となり、すべての文章に関す
る文章属性データが文章属性テーブル17に格納される
ので、関連する顧客属性テーブル17中の属性データは
すべて対象属性テーブル19に格納されるが、ルール展
開時には一部の文章のみが解析対象となることがあるの
で、その場合、顧客属性テーブル18に記述されている
属性データのうち、一部の文章が持つ顧客IDに関係す
る属性データのみ(ある特定の顧客IDを持つレコード
のみ)が対象属性テーブル19に格納される。
【0071】ルール抽出4bでは、対象属性テーブル1
9に格納された属性データを対象として、それらの間に
潜在する因果関係を統計的に解析し、特徴的な因果関係
をIF-THENルールとして抽出する(ステップ4b01)。す
なわち「Aという条件を満たすならば、Bである」又は
「もしAならばBである」という形でルールを出力す
る。ここで注意したいのは、本システムは文章属性を分
析するためのものであるため、帰結部Bには文章属性
(分類カテゴリ,キーワード,内容)に関する内容が含
まれていなければならない。もし、抽出されたルールの
構成要素がすべて顧客属性テーブル18に関連するもの
であるならば、図7に示すようなクレーム文章を集めて
文章解析をして文章属性を抽出する意味がない。上記の
結論部Bに含まれるべき文章属性は文章属性抽出パラメ
ータ群12等から認定できるので、最終的にルールを抽
出する際に結論部Bを構成する属性が文章属性であるか
否かを判別し、文章属性でない場合、当該ルールを削除
するという処理を行うか、あるいは、ルール生成におい
て各属性の組み合わせを考える際に、結論部Bには文章
属性が含まれるようにするなどの処理が不可欠となる。
【0072】また、従来のデータ分析システムの中に
は、結論部Bに相当する部分を利用者に記述させ、条件
部Aに相当する部分をシステムが抽出するという形のも
のもある。このようなタイプのシステムにおけるルール
抽出アルゴリズムを本システムに適用する場合、結論部
Bに相当する文章属性名あるいは文章属性データを利用
者に指定させ、ルール抽出の際に当該文章属性の属性値
を一つずつ抽出し、その属性値を持つときの条件(Aの
部分)を分析することになるが、技術的には十分実現可
能である。
【0073】なお、ルール抽出4bのアルゴリズムの詳
細については、例えば特開平8−77010など多くの
手法が既に知られているので、ここでは深く言及しな
い。
【0074】図15は、対象属性テーブル19の構成と
内容を示す図である。図12の文章属性テーブル17と
図13の顧客属性テーブル18は属性「顧客ID」を共
通属性として持っているので、これをキーとして両テー
ブルを結合する。同一の顧客IDを持つ属性データが一
つのレコードを構成している。
【0075】図16は、ルール(属性間因果関係)20
の構成と内容を示す図である。ルールID0001は、「年
齢が40代の主婦は、営業担当の接客態度が悪い」とい
うことを示すルールであり、ID0002は、「20代の人
は、「保険」カテゴリに関するクレームが多い」という
ルールである。条件部は属性名とその値の対が一つ以上
組み合わさったものである。また、確信度はそのルール
の傾向の強さを示すものであり、値が大きいほどそのル
ールの傾向が強いことを示す。既に知られている確信度
の計算方法についての詳細は省略するが、確信度を表示
することは利用者が生成されたルールを評価する一つの
尺度として有効である。
【0076】図17は、ルール20を利用者に報知する
ための画面の一例を示す図である。画面はルールID10
3,確信度106,IF−THENのIF部に相当する条件部104,T
HEN部に相当する帰結部105,別のルールを表示するため
の指示ボタン群110〜113,ルール検索用ボタン101,ル
ールを確信度等に基づいてソートするボタン102,各種
メニューボタン81〜88,ルール展開をシステムに指示す
るボタン114,直前に表示した画面に戻るボタン115から
構成されている。条件部104では、条件を構成する属性
について、属性名と属性値を対にして「属性名=属性
値」の形で表示している。
【0077】図18は、利用者がルール展開を指示する
ための画面の構成と内容を示す図である。図17におい
て、利用者があるルールを表示した状態でルール展開ボ
タン114を押すとこの画面が立ち上がる。図17と同
様、ルールID,確信度,条件部,帰結部を表示する。
図18において、文章属性であるものについては、チェ
ックボックスが付加されている。これは、このチェック
ボックスの付いた文章属性の再解析が可能であることを
示している。このチェックボックスをチェックすること
は、表示されているルールを満たす文章を対象として、
チェックされた文章属性を再解析することを要求するこ
とに等しい。図18では、帰結部123の文章属性「内
容」の欄に四角いチェックボックスが表示され、利用者
がこのチェックボックスをチェックした状態であること
を示している。また、再解析の対象となる文章を利用者
が選択できるようになっている(128)。すなわち、上
記選択したルールに該当する文章のみを再解析の対象と
するのか、すべての文章を再解析の対象とするのかのど
ちらか一方を選択できる。前者の場合は、ある特定のル
ールについて、そのルールを展開したい場合に選択す
る。後者の場合は、ある特定の属性データ全体を再解析
したい場合に選択する。
【0078】展開したい文章属性を選択した後に詳細化
ボタン129を押すと、ルール展開制御部2はこの指示情
報を受けてルールの詳細化を実行する。また、抽象化ボ
タン130を押すと、ルール展開制御部2はこの指示情報
を受けてルールの抽象化を実行する。中止ボタン131を
押すとルール展開は行われず、本ウィンドウは閉じられ
る。
【0079】なお、図18のチェックボックスを図17
のルール表示画面に埋め込み、ルール表示画面からいき
なりルール展開ができるようにすることも可能である。
【0080】図19は、利用者がルール展開を指示する
ための画面の構成と内容の他の一例を示す図である。図
19の表示画面は図18と類似しているが、一種類の文
章属性にチェックボックスが2種類表示されているとこ
ろが異なる。すなわち、四角いチェックボックスが付い
た文章属性は詳細化可能であることを示しており、一
方、丸いチェックボックスが付いた文章属性は抽象化可
能であることを示している。利用者はどちらか一方のチ
ェックボックスをチェックすることが可能である。その
後、実行ボタン149を押すと、ルール展開制御部2はこ
の指示情報を受けて、チェックされたチェックボックス
に応じたルール展開を実行する。
【0081】図19に示したチェックボックスを表示す
るかしないかは、ルール表示処理部5において、文章属
性抽出パラメータ群12を参照することにより実現でき
る。すなわち、ルール20に格納されたルールの各々を
構成する各々の属性について、その属性が文章属性であ
るか否かを文章属性抽出パラメータ群12を参照するこ
とにより判別し、文章属性である場合、さらにそれ以上
その属性を詳細化/抽象化できるか否かを文章属性抽出
パラメータ群12に記述された現在レベル1205と解析レ
ベルとを比較することにより判別し、詳細化できる場合
は四角いチェックボックスを、抽象化できる場合は丸い
チェックボックスを付加する。このように、展開できる
属性を他と異なる態様で報知することにより、利用者は
展開できる属性を容易に把握することが可能となる。
【0082】図20は、利用者がルール展開を指示する
ための画面の構成と内容の他の一例を示す図である。図
20では図18,図19と異なり、文章属性の一覧が表
示されている。ある特定のルールに関して再解析を要求
する場合のほかに、ある特定の文章属性全体を再解析す
ることを要求する場合もありうる。その場合、図20の
ような画面を表示することにより、どの文章属性を詳細
化/抽象化するのかに関する情報を利用者から得ること
ができる。図20では、内容属性を詳細化することを要
求している。もちろん、再解析対象となる文章は、電子
文章データ11に格納された文章すべてである。
【0083】図21は、ルール展開制御部2の処理内容
を示す図であり、図5のステップ2a02あるいはステップ
2b01の判別条件を満たさない場合の処理内容を示す図で
ある。解析対象文章決定2aにおけるステップ2a02でル
ール初期生成でない、すなわちルール展開である場合、
まず、利用者からの指示に基づいて、ルール展開に伴う
文章再解析が全文章を対象とするものか否かを判別し
(ステップ2a11)、全文章の場合、解析対象文章ID1
3に文字列"ALL2"を書き込む(ステップ2a12)。この文
字列は文章解析をやり直す必要はないが文章属性抽出は
すべての文章を対象としていることを示す。ステップ2a
11で全文章を対象としない場合、対象属性テーブル19
から解析対象の文章IDを検索し、解析対象文章ID1
3に書き込む(ステップ2a13)。全文章を対象としない
場合というのはあるルールを満たす文章のみを再解析す
る場合であるので、対象属性テーブル19から当該ルー
ルを満たすレコードを見つけ、その文章IDを抽出する
ことにより、解析対象の文章IDを検索することができ
る。
【0084】次に文章属性抽出パラメータ設定2bにお
けるステップ2b01でルール初期生成でない、すなわちル
ール展開である場合、まず展開対象となる文章属性情報
を利用者の指示情報から取得する(ステップ2b11)。次
に利用者からの指示情報から、当該文章属性を詳細化す
るのか抽象化するのかを判別し(ステップ2b12)、抽象
化する場合は、文章属性抽出パラメータ群12の当該文
章属性に対応する現在レベルの値を1減らす(ステップ
2b13)。詳細化する場合は、文章属性パラメータ群12
の当該文章属性に対応する現在レベルの値を1増やす
(ステップ2b14)。その後の処理は図5で説明した通り
の方法で再解析の実行を指示する。
【0085】図22は、図18において文章属性である
内容属性の詳細化を指示した後の文章属性抽出パラメー
タ群12の内容を示す図である。図4の内容と異なって
いるのは、内容属性1208の現在レベル1205の値が0から
1に変わっていることである。すなわち、内容属性の解
析レベルが一段階詳細化されていることである。この状
態で文章解析処理部3が起動されると、文章解析処理部
3では、内容属性について解析レベルを1として解析す
ることとなる。
【0086】図23は、再解析後の文章属性テーブル1
7の内容を示す図である。図12に示す内容属性の値と
比べると内容が詳細化されている。図12では内容属性
の値が同じであっても、図23では内容が詳細化された
ことにより、値がばらついているのが分かる。例えば、
図12において、顧客IDが12345の顧客と34567の顧客
は内容属性1706の値が同一(「接客態度(営業担当)=
悪い」)であるが、図23においては、内容属性の解析
が詳細化されたため、値が異なっている(「勧誘(営業
担当)=しつこい」と「態度(営業担当)=悪い」)。
【0087】図24は、ルール展開の結果新しく生成さ
れたルール20の内容を示す図である。図16のルール
と比べると確信度の値が下がっているが、これは内容属
性の値がばらついたことにより、ルールの傾向の強さが
弱まったことを示す。また、これまで出力されていたル
ールがルール展開によって出力されなくなることもあれ
ば、逆の場合もある。
【0088】ルール展開結果についても図17から図2
0で示したように利用者に提示されるので、再びルール
展開を行うことができる。
【0089】
【発明の効果】以上、図1から図24を用いて説明した
ように、本実施例のシステムは、電子文章から文章属性
を抽出してそれらの間の因果関係を顧客属性と対応付け
て出力できるだけでなく、特定のルールを構成する文章
属性に対してさらにルールの詳細化/抽象化を指示した
り、特定の文章属性に対してその再解析(詳細化/抽象
化)を指示したりすることができるので、利用者の要求
に近いルールを出力する確率が高くなる。
【図面の簡単な説明】
【図1】本実施例の概要を示す図である。
【図2】本実施例のハードウェア構成を示す図である。
【図3】ルール初期生成指示画面の構成および内容を示
す図である。
【図4】文章属性抽出パラメータ群12の構成および内
容を示す図である。
【図5】ルール展開制御部2の処理内容の一部を示す図
である。
【図6】解析対象文章ID13の構成および内容を示す
図である。
【図7】顧客電子文章データ11の構成および内容を示
す図である。
【図8】用語辞書14の構成および内容を示す図であ
る。
【図9】文章属性抽出知識15の構成および内容を示す
図である。
【図10】文章解析処理部3の処理内容を示す図であ
る。
【図11】単語テーブル16の構成および内容を示す図
である。
【図12】文章属性テーブル17の構成および内容を示
す図である。
【図13】顧客属性テーブル18の構成および内容を示
す図である。
【図14】ルール生成処理部4の処理内容を示す図であ
る。
【図15】対象属性テーブル19の構成および内容を示
す図である。
【図16】ルール20の構成および内容を示す図であ
る。
【図17】ルール表示画面の構成および内容の一例を示
す図である。
【図18】ルール展開指示画面の構成および内容の一例
を示す図である。
【図19】ルール展開指示画面の構成および内容の他の
一例を示す図である。
【図20】ルール展開指示画面の構成および内容の他の
一例を示す図である。
【図21】ルール展開制御部2の処理内容の他の一部を
示す図である。
【図22】文章属性抽出パラメータ設定後の文章属性抽
出パラメータ群の内容を示す図である。
【図23】更新後の文章属性テーブルの内容を示す図で
ある。
【図24】更新後のルールの内容を示す図である。
【符号の説明】
1・・・入出力部,2・・・ルール展開制御部,3・・
・文章解析処理部,4・・・ルール生成処理部,5・・
・ルール表示処理部,11・・・顧客電子文章データ,
12・・・文章属性抽出パラメータ群,13・・・解析
対象文章ID,14・・・用語辞書,15・・・文章属
性抽出知識,16・・・単語テーブル,17・・・文章
属性テーブル,18・・・顧客属性テーブル,19・・
・対象属性テーブル,20・・・ルール(属性間因果関
係)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 幸康 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B009 QA04 QA05 QA12 5B075 ND03 NK32 NR03 NR12 NS01 PQ02 QP03 UU40

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】入力装置、電子文章を解析して文章属性デ
    ータを抽出する文章解析処理部、文章属性データ間の関
    係を抽出するルール生成処理部、および出力装置を備え
    たデータ分析装置を用いたデータ分析支援方法におい
    て、 前記入力装置を介して指定した文章属性に対応する電子
    文章を、前記文章解析処理部によって、解析して当該文
    章属性データを更新し、 前記ルール生成処理部によって、前記更新された文章属
    性データと他の文章属性データとの間の関係を抽出し、 前記抽出された関係を前記出力装置に出力することを特
    徴とするデータ分析支援方法。
  2. 【請求項2】入力装置、電子文章を解析して文章属性デ
    ータを抽出する文章解析処理部、文章属性データ間の関
    係を抽出するルール生成処理部、および出力装置を備え
    たデータ分析装置を用いたデータ分析支援方法におい
    て、 前記入力装置を介して指定した関係を構成する文章属性
    に対応する電子文章を、前記文章解析処理部によって、
    解析して当該文章属性データを更新し、 前記ルール生成処理部によって、前記更新された文章属
    性データと他の文章属性データとの間の関係を抽出し、 前記抽出された関係を前記出力装置に出力することを特
    徴とするデータ分析支援方法。
  3. 【請求項3】入力装置、文章属性データ間の関係を抽出
    するルール生成処理部、および出力装置を備えたデータ
    分析装置を用いたデータ分析支援方法において、 電子文章を解析して当該文章属性データを抽出し、 前記ルール生成処理部によって、前記抽出された文章属
    性データ間、あるいは他の属性データとの間の関係を抽
    出し、 前記抽出された関係を前記出力装置に出力することを特
    徴とするデータ分析支援方法。
  4. 【請求項4】請求項1から3記載の電子文章の解析にお
    いて、前記入力装置からの指示に基づいて、既に抽出さ
    れている文章属性データよりも詳細化あるいは抽象化さ
    れた文章属性データを抽出することを特徴とするデータ
    分析支援方法。
  5. 【請求項5】請求項1から3記載の関係を前記出力装置
    を出力する際に、再度解析が可能な関係あるいは関係を
    構成する文章属性を、他の関係あるいは文章属性と異な
    る態様で出力することを特徴とするデータ分析支援方
    法。
  6. 【請求項6】請求項1から3記載の関係を前記出力装置
    に出力する際に、詳細化が可能な関係あるいは関係を構
    成する文章属性を、他の関係あるいは関係を構成する文
    章属性と異なる態様で出力することを特徴とするデータ
    分析支援方法。
  7. 【請求項7】請求項1から3のデータ分析支援方法にお
    いて、前記電子文章を最初に解析する際に前記電子文章
    を構成する語句に関する語句データを予め保持し、前記
    語句データに基づいて、前記入力装置を介して指定した
    文章属性に対応する電子文章を解析して当該文章属性デ
    ータを更新することを特徴とするデータ分析支援方法。
  8. 【請求項8】請求項2記載の関係に関連する前記電子文
    章は、前記入力装置からの指示に基づいて、前記関係を
    満たす電子文章のみ、あるいは全電子文章のいずれかを
    選択することを特徴とするデータ分析支援方法。
  9. 【請求項9】入力装置、電子文章を解析して文章属性デ
    ータを抽出する文章解析手段、文章属性データ間の関係
    を抽出するルール生成手段、および出力装置を備えたデ
    ータ分析装置は、 前記入力装置を介して指定した文章属性に対応する電子
    文章を解析して当該文章属性データを更新することを、
    前記文章解析処理部に指示し、 前記更新された文章属性データと他の文章属性データと
    の間の関係を抽出して前記出力装置に出力することを、
    前記ルール生成手段に指示するルール展開制御手段を備
    えたことを特徴とするデータ分析支援装置。
  10. 【請求項10】入力装置、電子文章を解析して文章属性
    データを抽出する文章解析処理部、文章属性データ間の
    関係を抽出するルール生成処理部、および出力装置を備
    えたデータ分析装置を用いたデータ分析支援方法を実行
    するためのプログラムを格納したコンピュータ読み取り
    可能な記録媒体であって、前記方法は、 前記入力装置を介して指定した文章属性に対応する電子
    文章を、前記文章解析処理部によって、解析して当該文
    章属性データを更新し、 前記ルール生成処理部によって、前記更新された文章属
    性データと他の文章属性データとの間の関係を抽出し、 前記抽出された関係を前記電子文章と対応させて記録す
    ることを特徴とするコンピュータ読み取り可能な記録媒
    体。
JP10216699A 1999-04-09 1999-04-09 データ分析支援方法および装置 Expired - Fee Related JP3743204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10216699A JP3743204B2 (ja) 1999-04-09 1999-04-09 データ分析支援方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10216699A JP3743204B2 (ja) 1999-04-09 1999-04-09 データ分析支援方法および装置

Publications (2)

Publication Number Publication Date
JP2000293537A true JP2000293537A (ja) 2000-10-20
JP3743204B2 JP3743204B2 (ja) 2006-02-08

Family

ID=14320135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10216699A Expired - Fee Related JP3743204B2 (ja) 1999-04-09 1999-04-09 データ分析支援方法および装置

Country Status (1)

Country Link
JP (1) JP3743204B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
WO2007102320A1 (ja) * 2006-03-07 2007-09-13 Nec Corporation 言語処理システム
JP2008117066A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP2008123533A (ja) * 2000-11-07 2008-05-29 Ascriptus Inc バーバル入力からデータベースおよび構造化情報を生成するためのシステム
JP2011053840A (ja) * 2009-08-31 2011-03-17 Toshiba Corp 文書処理装置および文書処理プログラム
JP2021114234A (ja) * 2020-01-21 2021-08-05 株式会社東芝 情報処理装置、情報処理システム、および情報処理プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113360A (ja) * 1997-06-11 1999-01-06 Hitachi Ltd 大規模データ分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113360A (ja) * 1997-06-11 1999-01-06 Hitachi Ltd 大規模データ分析方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123533A (ja) * 2000-11-07 2008-05-29 Ascriptus Inc バーバル入力からデータベースおよび構造化情報を生成するためのシステム
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP2003248687A (ja) * 2002-02-22 2003-09-05 Nippon Yunishisu Kk 情報処理装置およびその方法
WO2007102320A1 (ja) * 2006-03-07 2007-09-13 Nec Corporation 言語処理システム
JP2008117066A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
JP2011053840A (ja) * 2009-08-31 2011-03-17 Toshiba Corp 文書処理装置および文書処理プログラム
JP2021114234A (ja) * 2020-01-21 2021-08-05 株式会社東芝 情報処理装置、情報処理システム、および情報処理プログラム
JP7305566B2 (ja) 2020-01-21 2023-07-10 株式会社東芝 情報処理装置、情報処理システム、および情報処理プログラム

Also Published As

Publication number Publication date
JP3743204B2 (ja) 2006-02-08

Similar Documents

Publication Publication Date Title
US9971974B2 (en) Methods and systems for knowledge discovery
US7174507B2 (en) System method and computer program product for obtaining structured data from text
US7028250B2 (en) System and method for automatically classifying text
US6697799B1 (en) Automated classification of items using cascade searches
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
US20060161560A1 (en) Method and system to compare data objects
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP2000511671A (ja) 自動文書分類システム
Banerjee et al. Bengali question classification: Towards developing qa system
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20140089246A1 (en) Methods and systems for knowledge discovery
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
KR102563539B1 (ko) 우려거래자 정보 수집 및 관리 시스템과 그 방법
JP2006323517A (ja) テキスト分類装置およびプログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
JP3743204B2 (ja) データ分析支援方法および装置
US11922326B2 (en) Data management suggestions from knowledge graph actions
Hwang et al. System for extracting domain topic using link analysis and searching for relevant features
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
US20120047128A1 (en) Open class noun classification
JP2022050011A (ja) 情報処理装置及びプログラム
CN116595192B (zh) 科技前沿信息获取方法、装置、电子设备和可读存储介质
JP7312841B2 (ja) 法律分析装置、及び法律分析方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051107

LAPS Cancellation because of no payment of annual fees