JP2010205077A - データ統合装置及びデータ統合プログラム及び記録媒体 - Google Patents

データ統合装置及びデータ統合プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010205077A
JP2010205077A JP2009051251A JP2009051251A JP2010205077A JP 2010205077 A JP2010205077 A JP 2010205077A JP 2009051251 A JP2009051251 A JP 2009051251A JP 2009051251 A JP2009051251 A JP 2009051251A JP 2010205077 A JP2010205077 A JP 2010205077A
Authority
JP
Japan
Prior art keywords
data
unit
text
analysis
hierarchical structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009051251A
Other languages
English (en)
Other versions
JP5312102B2 (ja
Inventor
Shigenobu Takayama
茂伸 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009051251A priority Critical patent/JP5312102B2/ja
Publication of JP2010205077A publication Critical patent/JP2010205077A/ja
Application granted granted Critical
Publication of JP5312102B2 publication Critical patent/JP5312102B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合する装置を提供する。
【解決手段】非構造データ・構造化データ統合分析装置1001はテキストデータベース110のテキストデータからキーワードを抽出するテキスト解析部40、キーワードから重要キーワードを抽出し、構造化データベース130の構造化データから分析用階層構造を生成し、分析用階層構造の中から重要キーワードに基づき分析用階層構造を集計キー150として選択する集計キー抽出部20、集計キー150とキーワードから共起表160を作成する共起関係生成部50、共起表160に基づきテキストデータを集計する非構造データ集計部70、集計キー150に基づき構造化データを集計する構造化データ集計部80、集計されたテキストデータ及び構造化データを統合し、統合データベース140を作成する統合化データベース作成部140を備えた。
【選択図】図1

Description

この発明は、非構造データと構造化データとを結合するデータ統合装置及びデータ統合プログラムに関する。
近年データ量が爆発的に増加している。その中でも特に、非構造データと呼ばれる文書、メール、ログなどのデータが増加しており、企業内の全データのうち80%を占めるといわれている。上記非構造データの使い方として、非構造データをテキスト解析して得られたキーワードを構造化データと結びつけることで、サービスの向上などに役立てることが可能である。例えば構造化データの特定のレコードと関係のある非構造データのテキスト(例えばコメント)を結びつける例として、飛行機のフライト情報のレコード(x月x日、フライト番号 YY)と乗客のコメントを結びつける、また、構造化データの集計レコードと関係のある非構造データのテキスト(例えばコメント)を結びつけ例として、売上げデータベースの製品別集計レコード(製品A、売上げ合計B、売上げ数C)とその商品に対するコメント(安い、高い、使いやすいなど)を結びつけるなどである。
また、別の非構造データの使い方として、大量の文書データの集合を分析して傾向をつかむために、多次元データベースを用いたオンライン分析処理(Online Analytical Processing: OLAP)の手法が提案されている。
テキストファイルからキーワードを抽出し、抽出したキーワードの共起関係と出現するドキュメントの回数をOLAP分析するというものである。
特表2006−509307号公報、混合データ統合サービスの提供システムおよび提供方法
猪口明博,武田浩一,"テキスト分析のためのOLAPシステム",情報処理学会論文誌.Vol.48,No.SIG 11(TOD 34)pp.58−68
非構造データをテキスト解析して得られたキーワードを構造化データと結びつける上記手法は、構造化データのレコード単位にキーワードを結びつけるものであり、構造化データのOLAP分析(CUBE)の各セルに対して、キーワードを結びつけることはできない。例えば、非構造データから抽出した共起関係(例えば、鎌倉店・パソコン・対応良し)などを用いて、店舗別・製品別の2軸によるOLAP分析との結びつけなど、より複雑な分析結果と構造化データを結びつけることはできない。非構造データのOLAP分析の手法では、任意のキーワードの組合せ(共起関係)と対象となる文献数の集計は可能であるが、構造化データと紐付けて両データを統合した分析を行なうことはできない。
メールや文書ファイルなどの非構造データと構造化データである社内データベース・データウェアハウスを共通の分析軸でOLAPの手法を用いて分析することで、非構造データの分析結果によりデータウェアハウスなどの構造化データの分析結果の精度向上や分析の裏づけの補強をするなどの効果が期待できる。
しかしながら、一般に非構造データのOLAP分析では、非構造データから抽出したキーワードの数が多い、キーワードの共起関係が複雑であるなどの課題があり、非構造データの共起関係などの分析結果を、構造化データと結びつけることは困難である。
この発明は、非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合して分析する装置の提供を目的とする。
この発明のデータ統合装置は、
非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部と、
前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部と、
前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部と、
前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部と、
前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部と、
前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部と
を備えたことを特徴とする。
この発明により、非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合するデータ統合装置を提供できる。
実施の形態1における非構造データ・構造化データ統合分析装置1001の構成図。 実施の形態1における非構造データ・構造化データ統合分析装置1001の動作のフローチャート。 実施の形態1における集計キー抽出部20の構成図。 実施の形態1における出現キーワード表31を示す図。 実施の形態1における重要キーワードを示す図。 実施の形態1におけるマスタテーブル131〜134を示す図。 実施の形態1における分析用階層構造35−aを示す図。 実施の形態1における分析用階層構造35−bを示す図。 実施の形態1におけるテーブル135を示す図。 実施の形態1における集計キーとして抽出される分析用階層構造35を示す図。 実施の形態1における共起表160−aを示す図。 実施の形態1における共起表160−bを示す図。 実施の形態1における共起表160−cを示す図。 実施の形態1における非構造データ集計部70の動作のフローチャート。 実施の形態1における集計用テーブル165−aを示す図。 実施の形態1における集計用テーブル165−bを示す図。 実施の形態1における非構造テーブル集計結果を示す図。 実施の形態1における非構造テーブル集計結果を示す図。 実施の形態1における非構造テーブル集計結果を示す図。 実施の形態1における集計結果136を示す図。 実施の形態1における集計結果137を示す図。 実施の形態1におけるJOIN後のテーブルを示す図。 実施の形態1におけるJOIN後のテーブルを示す図。 実施の形態2における非構造データ・構造化データ統合分析装置1002の構成図。 実施の形態2におけるマスタテーブル181〜183を示す図。 実施の形態2における分析用階層構造35−cを示す図。 実施の形態2における分析用階層構造35−dを示す図。 実施の形態2における共起表160−dを示す図。 実施の形態2における共起表160−eを示す図。 実施の形態3における非構造データ・構造化データ統合分析装置の外観の一例を示す図。 実施の形態3における非構造データ・構造化データ統合分析装置のハードウェア構成の一例を示す図。
実施の形態1.
図1〜図23を参照して実施の形態1における非構造データ・構造化データ統合分析装置1001を説明する。
(非構造データ・構造化データ統合分析装置1001の構成)
図1は、非構造データ・構造化データ統合分析装置を示す。図1において、非構造データ・構造化データ統合分析装置1001は、企業内に存在するメールや文書などの非構造データおよびリレーショナルデータベースやデータウェアハウスで管理されている構造化データを統合して分析する。
非構造データ・構造化データ統合分析装置1001は、集計キー抽出部20、テキスト解析部40、共起関係生成部50、非構造データ集計部70、構造化データ集計部80、非構造データ・構造化データ統合部90、分析部95を備えている。
(1)集計キー抽出部20は、非構造データと構造化データを統合して分析するための分析キーワードを抽出する。
(2)テキスト解析部40は、文書・メールなどのテキストデータからキーワードを抽出する。
(3)共起関係生成部50は、抽出したキーワードと集計キーを元に共起表を作成する。
(4)非構造データ集計部70は、共起表と集計キーを用いて非構造データを集計する。
(5)構造化データ集計部80は、構造化データに対して集計キーを用いて集計する。
(6)非構造データ・構造化データ統合部90は、非構造データと構造化データとを統合した統合データベースを作成する。
(7)分析部95は統合データベースを用いて分析を行なう。
図2は非構造データ・構造化データ統合分析装置1001の動作を示すフローチャートである。図2を参照して、非構造データ・構造化データ統合分析装置1001の動作を説明する。
(ステップS10:テキスト解析部40)
テキスト解析部40は、メールや文書などのテキストを格納したテキストデータベース110からテキストを抽出し、形態素解析や文字種区切りなどのテキスト解析を行い、キーワードを切り出してキーワードデータベース120に格納する。
(テキストデータベース110)
テキストデータベース110は、テキストを管理するマルチメディアデーターベース、もしくは単なるメールサーバやファイル共用サーバなどでも良い。
(キーワードデータベース120)
また、キーワードデータベース120は、リレーショナルデータベース、もしくは単なるCSVファイルなどでも良い。
(ステップS20:集計キー抽出部20)
図3は、集計キー抽出部20の構成図である。集計キー抽出部20は、出現率計算部21、重要キーワード抽出部22、分析用階層構造生成部23、カラムカバー率計算部24、テキストカバー率計算部25、集計キー決定部26を備える。
(1)出現率計算部21は、キーワードTが対象とする全文書Mのうちで幾つの文書に出現するかを計算する。
(2)重要キーワード抽出部22は、出現率をもとにキーワードから重要キーワード34を切り出す。
(3)分析用階層構造生成部23は、分析用階層構造35を生成する。
(4)カラムカバー率計算部24は、重要キーワードが構造化データベースの対応するカラムの全データ種類のどれくらいをカバーしているかを計算する。
(5)テキストカバー率計算部25は、構造化データベースの対応するカラムの全データ種類で、全文書Mのうちで幾つの文書をカバーしているかを計算する。
(6)集計キー決定部26は、カラムカバー率とテキストカバー率から集計キーを決定する。
(ステップS20:出現率計算部21)
図4は出現率計算部21が作成する出現キーワード表31を示している。出現率計算部21は、出現キーワード表31の作成において、一つの文書に出現したキーワードTを列挙し、2回以上出現したかどうかは考慮しない。全ての文書について出現したキーワードを列挙することで、図4の出現キーワード表31が作成される。
(ステップS30:重要キーワード抽出部22)
図5は、重要キーワード抽出部22によって抽出される重要キーワードを示す。重要キーワード抽出部22には、あらかじめ最高出現率32および最低出現率33が定義されている。最高出現率32が0%、最低出現率33が1%と定義された場合、重要キーワード抽出部22は図4に示すように、出現率が50%以下かつ1%以上のキーワードを重要キーワード34として抽出する。
(ステップS40:分析用階層構造生成部23)
分析用階層構造生成部23は、次のように分析用階層構造35を生成する。
(マスタテーブル)
図6は、構造化データベース130に格納されている各マスタテーブルを示す。構造化データベース130には、製品分類マスタテーブル131、製品マスタテーブル132、部品分類マスタテーブル133、部品マスタテーブル134の4つのテーブルが存在する。分析用階層構造生成部23は、それぞれのテーブルの外部キーの参照関係から階層構造を作成する。
(分析用階層構造)
図7は、製品分類マスタテーブル131と製品マスタテーブル132とから作成した分析用階層構造(35−a)を示す。
図8は、製品分類マスタテーブル131と部品分類マスタテーブル133と部品マスタテーブル134から作成した分析用階層構造(35−b)を示す。
分析用階層構造生成部23が生成する分析用階層構造は、構造化データの分析用階層構造とすべての値が同一である必要はないが、上位の階層の値は同一である必要がある。
(テーブル135)
図9は、構造化データベース130に格納された製品売上げデータウェアハウスのテーブル135を示す。テーブル135の分析に用いる階層構造としては、製品分類別、日付別、店舗別などが考えられる。例えば製品分類別に分析する場合には、分析用階層構造(35−a)を用いることができる。一方、分析用階層構造(35−b)であれば、製品分類コードは製品売上げデータウェアハウスのテーブル135に格納されているが、部品分類コードや部品型名は構造化データの集計とは異なることになる。このように全ての階層の値が同一である必要はなく、分析用階層構造生成部23は、上位の階層が構造化データの分析軸と同一となるように分析用階層構造35を生成する。
(ステップS50:カラムカバー率計算部24)
カラムカバー率計算部24は、次のように2つの方法でカラムカバー率を決定する。
(第1の方法)
第1の方法としては、カラムカバー率計算部24は、直接テーブルのカラムカバー率を次のように計算する。カラムカバー率計算部24は、図6に示す、構造化データベース130のマスタテーブルもしくは次元テーブルの主キーもしくは主キーにより一意に識別されるカラム(製品マスタテーブルであれば、主キーである製品型名および主キーにより一意に識別される製品名や原価など)を対象として、カラムの全値のどれだけの値が、テキストに出現したかを計算する。例えば、カラムカバー率計算部24は、製品分類マスタテーブル131に対しては、製品分類名のカラムに出現する値(液晶テレビ、DVDレコーダー、洗濯機、冷蔵庫など)、もしくは対応する製品分類コードの値の何パーセントが重要キーワードに出現したかを計算する。製品マスタテーブル132に対しては、カラムカバー率計算部24は、製品型名もしくは製品名もしくは原価の何パーセントが重要キーワードに出現したかを計算する。
(第2の方法)
第2の方法として、カラムカバー率計算部24は、分析用階層構造生成部23が作成した分析用階層構造35に従い、外部キーを用いて、親子関係にあるテーブルの子テーブルのカラムの出現率から親テーブルのカラムカバー率を計算する。例えば、製品分類マスタテーブル131に対しては、親子関係で子テーブルに該当する製品マスタテーブル132の外部キーである製品分類コードの単位でカラムカバー率を計算する。製品分類マスタテーブル131の製品分類名であれば、製品分類LCD−TV−001(液晶テレビ)に該当する製品型名が重要キーワードに含まれるかどうかでカラムカバー率を計算する。
(ステップS60:テキストカバー率計算部25)
テキストカバー率計算部25は、次のようにテキストカバー率を計算する。図6に示す、構造化データベース130のマスタテーブルもしくは次元テーブルの主キーもしくは主キーにより一意に識別されるカラムを対象として、テキストカバー率計算部25は、カラムに出現するいずれかの値が出現する文書が、全文書Mに占める割合を計算する。例えば、テキストカバー率計算部25は、製品分類マスタテーブル131に対しては、製品分類名のカラムに出現する値(液晶テレビ、DVDレコーダー、洗濯機、冷蔵庫など)、もしくは対応する製品分類コードのいずれかの値が出現する文書が全文書の何パーセントあるかを計算する。製品マスタテーブル132に対しては、製品型名もしくは製品名もしくは原価に出現する値を含む文書が全文書の何パーセントあるかを計算する。
(ステップS70:集計キー決定部26)
集計キー決定部26は、予め設定されている
適正カラムカバー率36、
最低カラムカバー率37、
適正テキストカバー率38、
最低テキストカバー率39
に基づいて、適正カラムカバー率以上のカラム、適正テキストカバー率以上のカラム、および最低カラムカバー率以上且つ最低テキストカバー率以上のカラムを含む分析用階層構造35を、集計キーとして抽出する。
図10は、集計キーとして抽出される分析用階層構造35を示し図である。
適正カラムカバー率36を75%、
最低カラムカバー率37を50%、
適正テキストカバー率38を75%、
最低テキストカバー率39を50%
とした設定の場合には、集計キー決定部26は、図10に示すようなカラムを含む分析用階層構造35を集計キー150として抽出する。
この際、構造化データ分析用と異なる集計キーが選ばれた場合には、集計キー決定部26は、階層構造の上位が同一の構造化用の集計キーも抽出する。例えば、集計キーとして分析用階層構造(35−b)が抽出された場合を考える。構造化データベースが製品売上げデータウェアハウスのテーブル135であれば、部品型名を持つ階層構造ではなく、製品型名を持つ階層構造が必要となるため、分析用階層構造(35−a)も同時に集計キーとして抽出する。
(ステップS50:共起関係生成部50)
図11は、共起関係生成部50によって生成される共起表160を示す図である。共起関係生成部50は、集計キー150およびキーワードデータベース120を入力として、図11に示すような共起表160を作成する。共起表160には、集計キーとして抽出された分析用階層構造の各カラム用の領域を用意する。次に、重要キーワード34に抽出されて構造化データに含まれないキーワード用の領域をN個分用意する。図11では、集計キーとして製品マスタテーブルに基づく分析用階層構造(35−a)を抽出する例を示す。重要キーワードとしては、1つの領域を用意する。
図12は、集計キーとして部品マスタテーブルに基づく分析用階層構造(35−b)を抽出する例を示す。この場合は、構造化データの分析で必要となる分析用階層構造(35−a)も同時に集計キーとして抽出する。また、集計キーとして、分析用階層構造(35−a)と分析用階層構造(35−b)の両方が集計キー決定部26によって抽出された場合も同様となる。重要キーワードとしては、1つの領域を用意する。
(集計キー)
図13は、共起表160cを示す図である。集計キーは、一般には複数選ばれる。図13では、集計キーとして部品マスタテーブルに基づく分析用階層構造(35−b)と店舗別分析用階層構造が集計キーとして抽出された場合を示す。この場合も、構造化データの分析で必要となる分析用階層構造(35−a)も同時に集計キーとして抽出する。重要キーワードとしては、2つの領域を用意する。例えばK1が名詞、K2に形容詞など品詞による分類を行なうことができる。また、重要キーワードをあらかじめポジティブなキーワードとネガティブなキーワードに分類しておき、一つの領域K1には、ポジティブなキーワード、もう一つの領域K2にはネガティブなキーワードを格納することもできる。
共起関係生成部50は文書ごとに共起関係を抽出して、S通りの共起関係があれば共起表のS個のレコードに値を入力する。その際、分析用階層構造のカラムは、いずれか一つのキーワードを含む場合でも記述する。例えば図12の共起表160aでは、文書IDがD0001の文書は、(液晶テレビ、リモコン、RC08001、簡単)というキーワードを含み、D0002は(液晶テレビ、高画質)のみを含み、D0003は、(40インチ液晶ディスプレイ、大画面)のみを含むなどである。また、同一の文書に2つの値(例えばリモコンと40インチ液晶ディスプレイ)が含まれていれば別々のレコードとして共起表には格納する。
(ステップS90:非構造データ集計部70)
非構造データ集計部70は、共起表160に対して、キーワードで集計を行なうための、集計用テーブル165を作成する。集計用テーブル165は、共起表160の階層構造の空白項を埋めることで作成する。
図14は、非構造データ集計部70が図12の共起表160−bに対して、分析用階層構造(35−b)の空白項をうめて集計用テーブル165−a(図15)を生成するフローチャートである。
以下のSTEP1〜STEP6は非構造データ集計部70による動作である。
(STEP1)
部品型名が空白のレコードには、“その他”と記載する。
(STEP2)
部品型名がその他以外のレコードについては、部品マスタテーブルに基づく分析用階層構造を用いて、製品分類コードおよび部品分類コードが空白であれば埋める。上記のステップを全ての行に対して繰り返す。
(STEP3)
部品分類コードおよび部品分類名の両方が空白のレコードについては、部品分類コードに“その他”と記載する。
(STEP4)
部品分類名が記載されているレコードについては、部品分類名に対応する部品分類コードの値を記載する。製品分類コードが空白であれば、部品マスタテーブルに基づく分析用階層構造を用いて埋める。上記のステップを全ての行に対して繰り返す。
(STEP5)
製品分類コードが空白の行については、製品分類名が記載されているので、対応する値を記載する。
(STEP6)
部品型名が空白の行については、“その他“と記載する。
非構造データ集計部70は、図13の共起表160−cに対して、分析用階層構造(35−b)の空白項を埋めることにより、集計用テーブル165−b(図16)を生成する。
(1)図17は、図11の共起表160−aを元に集計テーブルを作成して集計した結果である。非構造データ集計部70は、集計用テーブル165を用いて図17に示す集計を行なう。
(2)図18は、図12の共起表160−bを元に作成した集計用テーブル165−a(図15)を元に集計テーブルを作成して集計した結果を示す。
(3)図19は、図13の共起表160−cを元に作成した集計用テーブル165−b(図16)を元に集計テーブルを作成して集計した結果を示す。
(ステップS100:構造化データ集計部80)
構造化データ集計部80は、リレーショナルデータベースやデータウェアハウスで管理されている構造化データベース130に対して、集計キー150で集計を行う。
図20は、図9の製品売上げデータウェアハウスのテーブル135を分析用階層構造(35−a)で集計した例を示す。構造化データベースを集計するための集計キーは、非構造データ集計用のキーと同一である場合と同一でない場合があるが、同一でない場合でも上位階層での分類は同一となる。例えば、非構造データの集計用テーブルが図15の集計用テーブル165−aの場合には、集計キーは階層構造(35−b)であるが、構造化テーブルは、階層構造(35−b)では集計できないため、上位階層の分類が同一となる分析用階層構造(35−a)で集計を行なう。
図21は、図9の製品売上げデータウェアハウスのテーブル135を分析用階層構造(35−a)と店舗別分析用階層構造で集計した例を示す。
(ステップS110:非構造データ・構造化データ統合部90)
非構造データ・構造化データ統合部90は、非構造データ集計部70が作成した集計表と構造化データ集計部80が作成した集計表に対し、集計キーを用いてJOINすることにより、統合データベース140を作成する。
図22は、図17の非構造テーブル集計結果と図20の製品売上げデータウェアハウスの集計結果を分析用階層構造(35−a)にてJOINしたテーブルを示す。
図23は、図18の非構造テーブル集計結果と図20の製品売上げデータウェアハウスの集計結果を分析用階層構造(35−a)にてJOINしたテーブルを示す。
分析部95は、ユーザの要求に応じて、統合データベース140にアクセスして分析処理を実行し、分析結果を出力する。
以上の実施の形態1の非構造データ・構造化データ統合分析装置1001は、集計キー150に基づき、非構造データと構造化データとをそれぞれ集計し、両方の集計結果から非構造データと構造化データとを統合した統合データベースを作成する。そして、分析部95が、統合データベースを対象に分析するので、非構造化データを構造化データに柔軟に結びつけることができる。
実施の形態2.
図24〜図29を参照して実施の形態2を説明する。実施の形態2は、実施の形態1で説明したシステムを電子メールに適用した実施形態である。
図24は、実施の形態2における、電子メールを対象とした非構造データ・構造化データ統合分析装置1002を示す図である。
各構成要素、各データベースは実施の形態1と同様であるが、具体的には、次の様である。
(1)テキストデータベース110には、メールを格納する。
(2)テキスト解析部40は、メールを格納したテキストデータベース110からヘッダ情報(送信日付、送信者、受信者、タイトルなど)およびメール本文を抽出し、形態素解析や文字種区切りなどのテキスト解析を行い、キーワードを切り出してキーワードデータベース120に格納する。キーワードは、ヘッダ情報とメール本文を分けて抽出する。
図25は、構造化データベース130に格納されたマスタテーブルの例として、顧客マスタテーブル181、自社の組織分類マスタテーブル182および社員マスタテーブル183を示す。
図26は、分析用階層構造として、自社の組織分類マスタテーブルおよび社員マスタテーブルから作成した分析用階層構造35−c(分類階層)を示す。
図27は、顧客の職業別の分析用階層構造35−d(分類階層)を示す。
メールでは、送受信者のメールアドレスから、自社内で送受信されたメール、自社から外部に送信されたメール、外部から自社に送信されたメールに分けて分析することができる。
図28は、顧客の職業別の分析用階層構造35−d(分類階層)を用いて、顧客から送信されたメールを製品ごとに分析する場合の共起表を示す。メールのヘッダ情報には、必ず送信者メールアドレスが含まれるため、共起表に送受信者のメールアドレスが含めることで、上記階層構造のそれ以外の情報は不要である。
図29は、自社内で送受信されるメールを自社の組織分類マスタテーブルおよび社員マスタテーブルから作成した分析用階層構造35−c(分類階層)を用いて分析する場合の共起表を示す。これらの分類階層を用いて、メールの集計が可能となる。
以上のように、実施の形態2の非構造データ・構造化データ統合分析装置1002は、電子メールを対象として、非構造データと構造化データとを柔軟に結びつけることができる。
実施の形態3.
次に図30、図31を参照して実施の形態3を説明する。
実施の形態3は、実施の形態1の非構造データ・構造化データ統合分析装置1001、実施の形態2の非構造データ・構造化データ統合分析装置1002をコンピュータで実現する具体的な実施形態を示す。以下では非構造データ・構造化データ統合分析装置1001を例に説明する。
図30は、非構造データ・構造化データ統合分析装置1001の外観の一例を示す図である。図30において、非構造データ・構造化データ統合分析装置1001は、システムユニット830、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置813、キーボード814(Key・Board:K/B)、マウス815、FDD817(Flexible・Disk・ Drive)、コンパクトディスク装置818(CDD:Compact Disk Drive)、プリンタ装置819などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
図31は、コンピュータで実現される非構造データ・構造化データ統合分析装置1001のハードウェア資源の一例を示す図である。図31において、非構造データ・構造化データ統合分析装置1001は、プログラムを実行するCPU810(Central Processing Unit)を備えている。CPU810は、バス825を介してROM(Read Only Memory)811、RAM(Random Access Memory)812、表示装置813、キーボード814、マウス815、通信ボード816、FDD817、CDD818、プリンタ装置819、磁気ディスク装置820と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置820の代わりに、光ディスク装置、フラッシュメモリなどの記憶装置でもよい。
RAM812は、揮発性メモリの一例である。ROM811、FDD817、CDD818、磁気ディスク装置820等の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部、格納部、バッファの一例である。通信ボード816、キーボード814、FDD817などは、入力部、入力装置の一例である。また、通信ボード816、表示装置813、プリンタ装置819などは、出力部、出力装置の一例である。
通信ボード816は、ネットワーク(LAN等)に接続されている。通信ボード816は、LANに限らず、インターネット、ISDN等のWAN(ワイドエリアネットワーク)などに接続されていても構わない。
磁気ディスク装置820には、オペレーティングシステム821(OS)、ウィンドウシステム822、プログラム群823、ファイル群824が記憶されている。プログラム群823のプログラムは、CPU810、オペレーティングシステム821、ウィンドウシステム822により実行される。
上記プログラム群823には、以上の実施の形態の説明において「〜部」として説明した機能を実行するプログラムが記憶されている。プログラムは、CPU810により読み出され実行される。
ファイル群824には、以上の実施の形態の説明において、「テキストデータベース」、「キーワードデータベース」、「構造化データベース」、「統合データベース」、「共起表」、「集計用テーブル」として説明したデータや、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明した情報や、データや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU810によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以上に述べた実施の形態の説明において、データや信号値は、RAM812のメモリ、FDD817のフレキシブルディスク、CDD818のコンパクトディスク、磁気ディスク装置820の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス825や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、以上の実施の形態の説明において、「〜部」として説明したものは、「〜手段」、「〜回路」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明したものは、ROM811に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU810により読み出され、CPU810により実行される。すなわち、プログラムは、以上に述べた「〜部」としてコンピュータを機能させるものである。あるいは、以上に述べた「〜部」の手順や方法をコンピュータに実行させるものである。
以上の実施の形態1〜2では、非構造データ・構造化データ統合分析装置1001、1002として、装置を説明したが、実施の形態3のように、非構造データ・構造化データ統合分析装置1001、1002の動作を、コンピュータに実行させるプログラムとして把握することも可能である。あるいはプログラムを記録したコンピュータ読み取り可能な記録媒体として把握することも可能である。さらに、非構造データ・構造化データ統合分析装置1001、1002が行う非構造データ・構造化データ統合方法として把握することも可能である。
以上の実施の形態では、
文書・メールなどのテキストデータからキーワードを抽出するテキスト解析部40と、
非構造データと構造化データを統合して分析するための分析キーワードを抽出する集計キー抽出部20と、
抽出したキーワードと集計キーを元に共起表を作成する共起関係生成部50と、
共起表と集計キーを用いて非構造データを集計する非構造データ集計部70と、
構造化データに対して集計キーを用いて集計する構造化データ集計部80と、
非構造データと構造化データを統合した統合データベースを作成する非構造データ・構造化データ統合部90と、
および統合データベースを用いて分析を行なう分析部95と
を備え、
非構造データと構造化データを集計してから統合することを特徴とする非構造データ・構造化データ統合分析装置を説明した。
以上の実施の形態では、
上記集計キー抽出部20が、
テキストファイルに出現するキーワードの出現率を計算する出現率計算部21、
最高出現率以下かつ最低出現率以上の出現頻度のキーワードを重要キーワードとして抽出する重要キーワード抽出部22、
分析用の階層構造を生成する分析用階層構造生成部23、
テキストファイルに出現するキーワードが構造化データのカラムに含まれるキーワードのどの程度をカバーしているかを計算するカラムカバー率計算部24、
構造化データのカラムに含まれる単語がテキストのどの程度をカバーしているかを計算するテキストカバー率計算部25、
カラムカバー率とテキストカバー率から集計キーを決定する集計キー決定部26
を備え、
構造化データのマスタテーブルに含まれるカラムのカラムカバー率または、テキストカバー率を元に、マスタテーブルを組み合わせて分析用の階層構造を生成することを特徴とする非構造データ・構造化データ統合分析装置を説明した。
以上の実施の形態では、
テキスト解析部が抽出したキーワードを集計キーおよびその他のキーに分類し、集計キーのキーワードについては、集計キー抽出部が作成した階層構造に基づき共起表を作成し非構造化データを集計することを特徴とする非構造データ・構造化データ統合分析装置を説明した。
以上の実施の形態では、
集計キーが非構造データ用の階層構造および構造化データ用の階層構造を持ち、上位のレベルで両階層構造が共通となることを特徴とする非構造データ・構造化データ統合分析装置を説明した。
以上の実施の形態では、
メールの発信者、受信者、タイトルなどのヘッダ情報およびメール本文から、それぞれキーワードを抽出し、送受信者の属性に応じた階層構造により、送信メール、受信メールを分離して集計することを特徴とする非構造データ・構造化データ統合分析装置を説明した。
20 集計キー抽出部、21 出現率計算部、22 重要キーワード抽出部、23 分析用階層構造生成部、24 カラムカバー率計算部、25 テキストカバー率計算部、26 集計キー決定部、31 出現キーワード表、34 重要キーワード、35,35−a,35−b,35−c,35−d 分析用階層構造、36 適正カラムカバー率、37 最低カラムカバー率、38 適正テキストカバー率、39 最低テキストカバー率、40 テキスト解析部、50 共起関係生成部、70 非構造データ集計部、80 構造化データ集計部、90 非構造データ・構造化データ統合部、95 分析部、110 テキストデータベース、120 キーワードデータベース、130 構造化データベース、131〜134 マスタテーブル、135 テーブル、136,137 集計結果、140 統合データベース、150 集計キー、160,160−a,160−b,160−c 共起表、165,165−a,165−b 集計用テーブル、181〜183 マスタテーブル、1001,1002 非構造データ・構造化データ統合分析装置。

Claims (7)

  1. 非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部と、
    前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部と、
    前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部と、
    前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部と、
    前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部と、
    前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部と
    を備えたことを特徴とするデータ統合装置。
  2. 前記データ統合装置は、さらに、
    前記統合化データベース作成部によって作成された統合データベースを対象として分析を実行する分析部を備えたことを特徴とする請求項1記載のデータ統合装置。
  3. 前記集計キー抽出部は、
    テキストファイルに出現するキーワードの出現率を計算する出現率計算部と、
    予め設定された最高出現率と最低出現率に対して最高出現率以下かつ最低出現率以上の出現率のキーワードを重要キーワードとして抽出する重要キーワード抽出部と、
    分析用の階層構造を生成する分析用階層構造生成部と、
    テキストファイルに出現するキーワードが構造化データのカラムに含まれるキーワードをどの程度をカバーしているかを示すカラムカバー率を計算するカラムカバー率計算部と、
    構造化データのカラムに含まれる単語がテキストをどの程度をカバーしているかを示すテキストカバー率を計算するテキストカバー率計算部と、
    構造化データベースに格納される複数のマスタテーブルに含まれるカラムのカラムカバー率とテキストカバー率とに基づきマスタテーブルを組み合わせることにより、前記分析用階層構造生成部によって生成された前記階層構造の中から集計キーとするべき前記階層構造を選択する集計キー決定部と
    を備えたことを特徴とする請求項1または2のいずれかに記載のデータ統合装置。
  4. 前記集計キー抽出部は、
    非構造データであるテキストデータ用の階層構造及び構造化データ用の階層構造であって、上位のレベルで両階層構造が共通となる階層構造を前記集計キーとして抽出することを特徴とする請求項1〜3のいずれかに記載のデータ統合装置。
  5. 前記テキスト解析部は、
    電子メールのテキストデータを格納したテキストデータベースを対象として、前記キーワードを抽出し、
    前記共起関係生成部は、
    電子メールの送信者及び受信者の属性に応じた階層構造を集計キーとして用いて、送信メールと受信メールと共起表を生成することを特徴とする請求項1〜4のいずれかに記載のデータ統合装置。
  6. コンピュータを、
    非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部、
    前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部、
    前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部、
    前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部、
    前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部、
    前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部、
    として機能させるデータ統合プログラム。
  7. 請求項6記載のデータ統合プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009051251A 2009-03-04 2009-03-04 データ統合装置及びデータ統合プログラム及び記録媒体 Expired - Fee Related JP5312102B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009051251A JP5312102B2 (ja) 2009-03-04 2009-03-04 データ統合装置及びデータ統合プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009051251A JP5312102B2 (ja) 2009-03-04 2009-03-04 データ統合装置及びデータ統合プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010205077A true JP2010205077A (ja) 2010-09-16
JP5312102B2 JP5312102B2 (ja) 2013-10-09

Family

ID=42966473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009051251A Expired - Fee Related JP5312102B2 (ja) 2009-03-04 2009-03-04 データ統合装置及びデータ統合プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5312102B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2750052A2 (en) 2012-12-28 2014-07-02 Fujitsu Limited Information processing device, node extraction program, and node extraction method

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161287A (ja) * 1994-12-09 1996-06-21 Hitachi Ltd データ分析支援システム
JP2000259666A (ja) * 1999-03-11 2000-09-22 Nippon Hoso Kyokai <Nhk> トピック抽出装置
JP2000305937A (ja) * 1999-04-21 2000-11-02 Mitsubishi Electric Corp 業務分析方法及び業務分析システム
JP2004252946A (ja) * 2003-01-27 2004-09-09 Fuji Xerox Co Ltd 評価装置およびその方法
JP2005135167A (ja) * 2003-10-30 2005-05-26 Toppan Printing Co Ltd データ分析装置、データ分析方法及びデータ分析プログラム
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2006171931A (ja) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161287A (ja) * 1994-12-09 1996-06-21 Hitachi Ltd データ分析支援システム
JP2000259666A (ja) * 1999-03-11 2000-09-22 Nippon Hoso Kyokai <Nhk> トピック抽出装置
JP2000305937A (ja) * 1999-04-21 2000-11-02 Mitsubishi Electric Corp 業務分析方法及び業務分析システム
JP2004252946A (ja) * 2003-01-27 2004-09-09 Fuji Xerox Co Ltd 評価装置およびその方法
JP2005135167A (ja) * 2003-10-30 2005-05-26 Toppan Printing Co Ltd データ分析装置、データ分析方法及びデータ分析プログラム
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
JP2006171931A (ja) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSND200800156003; Jennifer McAdams 外3名: '"ビジネス・インテリジェンス [戦略的活用ガイド] Part 3 構造化/非構造化を問わず、あらゆる' COMPUTERWORLD Get Technology Right 第5巻,第4号, 20080401, p.52-59, (株)IDGジャパン *
CSNJ199800003001; 林 杉 外2名: '"WebNR/SD異種情報源統合利用環境の研究-視覚的ユーザインタフェースを用いた統合利用支援-"' 第56回(平成10年前期)全国大会講演論文集(3) データベースとメディア ネットワーク , 19980319, p.3-254〜3-255, 社団法人情報処理学会 *
JPN6013014103; Jennifer McAdams 外3名: '"ビジネス・インテリジェンス [戦略的活用ガイド] Part 3 構造化/非構造化を問わず、あらゆる' COMPUTERWORLD Get Technology Right 第5巻,第4号, 20080401, p.52-59, (株)IDGジャパン *
JPN6013014106; 林 杉 外2名: '"WebNR/SD異種情報源統合利用環境の研究-視覚的ユーザインタフェースを用いた統合利用支援-"' 第56回(平成10年前期)全国大会講演論文集(3) データベースとメディア ネットワーク , 19980319, p.3-254〜3-255, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2750052A2 (en) 2012-12-28 2014-07-02 Fujitsu Limited Information processing device, node extraction program, and node extraction method
US9189530B2 (en) 2012-12-28 2015-11-17 Fujitsu Limited Information processing device, computer-readable recording medium, and node extraction method

Also Published As

Publication number Publication date
JP5312102B2 (ja) 2013-10-09

Similar Documents

Publication Publication Date Title
US8719308B2 (en) Method and system to process unstructured data
KR101369020B1 (ko) 보고명세로부터 olap 질의 생성시 불균형 계층에 대한 보상
JP4482602B2 (ja) データサマリテーブルにおけるフィールドの自動配置
US8626702B2 (en) Method and system for validation of data extraction
JP5313337B2 (ja) モバイル・コンピューティング装置に対する検索結果の提供
JP2013513144A (ja) ビュー内でデータ項目の注釈を取り出すための方法、装置、およびコンピュータ・プログラム
US9922383B2 (en) Patent claims analysis system and method
CN102959578B (zh) 取证系统、取证方法及取证程序
US8316026B2 (en) Method and system for keyword management
US20130124957A1 (en) Structured modeling of data in a spreadsheet
US20200097483A1 (en) Novel olap pre-calculation model and method for generating pre-calculation result
CN102456071A (zh) 文件管理装置以及文件管理方法
CN111125266A (zh) 数据处理方法、装置、设备及存储介质
WO2012060152A1 (ja) 数値集約計算における文字列集約方法
Yu et al. Piclean: A probabilistic and interactive data cleaning system
JP2005018778A (ja) ディメンジョン属性およびディメンジョン当たり複数の階層を使用するオンライン分析処理のためのシステムおよび方法
CN113553491A (zh) 一种基于倒排索引的工业大数据搜索优化方法
JP5312102B2 (ja) データ統合装置及びデータ統合プログラム及び記録媒体
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
JP5845961B2 (ja) 情報処理装置及び情報処理プログラム
Rahman et al. NOAH: interactive spreadsheet exploration with dynamic hierarchical overviews
US8577862B2 (en) Answer-augmented query suggestion
US11403654B2 (en) Identifying competitors of companies
US20160042022A1 (en) Data coordination support apparatus and data coordination support method
JP2010128870A (ja) データ処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees