JP2010205077A

JP2010205077A - データ統合装置及びデータ統合プログラム及び記録媒体

Info

Publication number: JP2010205077A
Application number: JP2009051251A
Authority: JP
Inventors: Shigenobu Takayama; 茂伸高山
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2010-09-16
Anticipated expiration: 2029-03-04
Also published as: JP5312102B2

Abstract

【課題】非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合する装置を提供する。
【解決手段】非構造データ・構造化データ統合分析装置１００１はテキストデータベース１１０のテキストデータからキーワードを抽出するテキスト解析部４０、キーワードから重要キーワードを抽出し、構造化データベース１３０の構造化データから分析用階層構造を生成し、分析用階層構造の中から重要キーワードに基づき分析用階層構造を集計キー１５０として選択する集計キー抽出部２０、集計キー１５０とキーワードから共起表１６０を作成する共起関係生成部５０、共起表１６０に基づきテキストデータを集計する非構造データ集計部７０、集計キー１５０に基づき構造化データを集計する構造化データ集計部８０、集計されたテキストデータ及び構造化データを統合し、統合データベース１４０を作成する統合化データベース作成部１４０を備えた。
【選択図】図１

Description

この発明は、非構造データと構造化データとを結合するデータ統合装置及びデータ統合プログラムに関する。

近年データ量が爆発的に増加している。その中でも特に、非構造データと呼ばれる文書、メール、ログなどのデータが増加しており、企業内の全データのうち８０％を占めるといわれている。上記非構造データの使い方として、非構造データをテキスト解析して得られたキーワードを構造化データと結びつけることで、サービスの向上などに役立てることが可能である。例えば構造化データの特定のレコードと関係のある非構造データのテキスト（例えばコメント）を結びつける例として、飛行機のフライト情報のレコード（ｘ月ｘ日、フライト番号ＹＹ）と乗客のコメントを結びつける、また、構造化データの集計レコードと関係のある非構造データのテキスト（例えばコメント）を結びつけ例として、売上げデータベースの製品別集計レコード（製品Ａ、売上げ合計Ｂ、売上げ数Ｃ）とその商品に対するコメント（安い、高い、使いやすいなど）を結びつけるなどである。

また、別の非構造データの使い方として、大量の文書データの集合を分析して傾向をつかむために、多次元データベースを用いたオンライン分析処理（ＯｎｌｉｎｅＡｎａｌｙｔｉｃａｌＰｒｏｃｅｓｓｉｎｇ：ＯＬＡＰ）の手法が提案されている。

テキストファイルからキーワードを抽出し、抽出したキーワードの共起関係と出現するドキュメントの回数をＯＬＡＰ分析するというものである。

特表２００６−５０９３０７号公報、混合データ統合サービスの提供システムおよび提供方法

猪口明博，武田浩一，"テキスト分析のためのＯＬＡＰシステム"，情報処理学会論文誌．Ｖｏｌ．４８，Ｎｏ．ＳＩＧ１１（ＴＯＤ３４）ｐｐ．５８−６８

非構造データをテキスト解析して得られたキーワードを構造化データと結びつける上記手法は、構造化データのレコード単位にキーワードを結びつけるものであり、構造化データのＯＬＡＰ分析（ＣＵＢＥ）の各セルに対して、キーワードを結びつけることはできない。例えば、非構造データから抽出した共起関係（例えば、鎌倉店・パソコン・対応良し）などを用いて、店舗別・製品別の２軸によるＯＬＡＰ分析との結びつけなど、より複雑な分析結果と構造化データを結びつけることはできない。非構造データのＯＬＡＰ分析の手法では、任意のキーワードの組合せ（共起関係）と対象となる文献数の集計は可能であるが、構造化データと紐付けて両データを統合した分析を行なうことはできない。

メールや文書ファイルなどの非構造データと構造化データである社内データベース・データウェアハウスを共通の分析軸でＯＬＡＰの手法を用いて分析することで、非構造データの分析結果によりデータウェアハウスなどの構造化データの分析結果の精度向上や分析の裏づけの補強をするなどの効果が期待できる。

しかしながら、一般に非構造データのＯＬＡＰ分析では、非構造データから抽出したキーワードの数が多い、キーワードの共起関係が複雑であるなどの課題があり、非構造データの共起関係などの分析結果を、構造化データと結びつけることは困難である。

この発明は、非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合して分析する装置の提供を目的とする。

この発明のデータ統合装置は、
非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部と、
前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部と、
前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部と、
前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部と、
前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部と、
前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部と
を備えたことを特徴とする。

この発明により、非構造データを構造化データに柔軟に結びつけ、非構造データと構造化データとを統合するデータ統合装置を提供できる。

実施の形態１における非構造データ・構造化データ統合分析装置１００１の構成図。実施の形態１における非構造データ・構造化データ統合分析装置１００１の動作のフローチャート。実施の形態１における集計キー抽出部２０の構成図。実施の形態１における出現キーワード表３１を示す図。実施の形態１における重要キーワードを示す図。実施の形態１におけるマスタテーブル１３１〜１３４を示す図。実施の形態１における分析用階層構造３５−ａを示す図。実施の形態１における分析用階層構造３５−ｂを示す図。実施の形態１におけるテーブル１３５を示す図。実施の形態１における集計キーとして抽出される分析用階層構造３５を示す図。実施の形態１における共起表１６０−ａを示す図。実施の形態１における共起表１６０−ｂを示す図。実施の形態１における共起表１６０−ｃを示す図。実施の形態１における非構造データ集計部７０の動作のフローチャート。実施の形態１における集計用テーブル１６５−ａを示す図。実施の形態１における集計用テーブル１６５−ｂを示す図。実施の形態１における非構造テーブル集計結果を示す図。実施の形態１における非構造テーブル集計結果を示す図。実施の形態１における非構造テーブル集計結果を示す図。実施の形態１における集計結果１３６を示す図。実施の形態１における集計結果１３７を示す図。実施の形態１におけるＪＯＩＮ後のテーブルを示す図。実施の形態１におけるＪＯＩＮ後のテーブルを示す図。実施の形態２における非構造データ・構造化データ統合分析装置１００２の構成図。実施の形態２におけるマスタテーブル１８１〜１８３を示す図。実施の形態２における分析用階層構造３５−ｃを示す図。実施の形態２における分析用階層構造３５−ｄを示す図。実施の形態２における共起表１６０−ｄを示す図。実施の形態２における共起表１６０−ｅを示す図。実施の形態３における非構造データ・構造化データ統合分析装置の外観の一例を示す図。実施の形態３における非構造データ・構造化データ統合分析装置のハードウェア構成の一例を示す図。

実施の形態１．
図１〜図２３を参照して実施の形態１における非構造データ・構造化データ統合分析装置１００１を説明する。

（非構造データ・構造化データ統合分析装置１００１の構成）
図１は、非構造データ・構造化データ統合分析装置を示す。図１において、非構造データ・構造化データ統合分析装置１００１は、企業内に存在するメールや文書などの非構造データおよびリレーショナルデータベースやデータウェアハウスで管理されている構造化データを統合して分析する。

非構造データ・構造化データ統合分析装置１００１は、集計キー抽出部２０、テキスト解析部４０、共起関係生成部５０、非構造データ集計部７０、構造化データ集計部８０、非構造データ・構造化データ統合部９０、分析部９５を備えている。

（１）集計キー抽出部２０は、非構造データと構造化データを統合して分析するための分析キーワードを抽出する。
（２）テキスト解析部４０は、文書・メールなどのテキストデータからキーワードを抽出する。
（３）共起関係生成部５０は、抽出したキーワードと集計キーを元に共起表を作成する。
（４）非構造データ集計部７０は、共起表と集計キーを用いて非構造データを集計する。
（５）構造化データ集計部８０は、構造化データに対して集計キーを用いて集計する。
（６）非構造データ・構造化データ統合部９０は、非構造データと構造化データとを統合した統合データベースを作成する。
（７）分析部９５は統合データベースを用いて分析を行なう。

図２は非構造データ・構造化データ統合分析装置１００１の動作を示すフローチャートである。図２を参照して、非構造データ・構造化データ統合分析装置１００１の動作を説明する。

（ステップＳ１０：テキスト解析部４０）
テキスト解析部４０は、メールや文書などのテキストを格納したテキストデータベース１１０からテキストを抽出し、形態素解析や文字種区切りなどのテキスト解析を行い、キーワードを切り出してキーワードデータベース１２０に格納する。

（テキストデータベース１１０）
テキストデータベース１１０は、テキストを管理するマルチメディアデーターベース、もしくは単なるメールサーバやファイル共用サーバなどでも良い。

（キーワードデータベース１２０）
また、キーワードデータベース１２０は、リレーショナルデータベース、もしくは単なるＣＳＶファイルなどでも良い。

（ステップＳ２０：集計キー抽出部２０）
図３は、集計キー抽出部２０の構成図である。集計キー抽出部２０は、出現率計算部２１、重要キーワード抽出部２２、分析用階層構造生成部２３、カラムカバー率計算部２４、テキストカバー率計算部２５、集計キー決定部２６を備える。
（１）出現率計算部２１は、キーワードＴが対象とする全文書Ｍのうちで幾つの文書に出現するかを計算する。
（２）重要キーワード抽出部２２は、出現率をもとにキーワードから重要キーワード３４を切り出す。
（３）分析用階層構造生成部２３は、分析用階層構造３５を生成する。
（４）カラムカバー率計算部２４は、重要キーワードが構造化データベースの対応するカラムの全データ種類のどれくらいをカバーしているかを計算する。
（５）テキストカバー率計算部２５は、構造化データベースの対応するカラムの全データ種類で、全文書Ｍのうちで幾つの文書をカバーしているかを計算する。
（６）集計キー決定部２６は、カラムカバー率とテキストカバー率から集計キーを決定する。

（ステップＳ２０：出現率計算部２１）
図４は出現率計算部２１が作成する出現キーワード表３１を示している。出現率計算部２１は、出現キーワード表３１の作成において、一つの文書に出現したキーワードＴを列挙し、２回以上出現したかどうかは考慮しない。全ての文書について出現したキーワードを列挙することで、図４の出現キーワード表３１が作成される。

（ステップＳ３０：重要キーワード抽出部２２）
図５は、重要キーワード抽出部２２によって抽出される重要キーワードを示す。重要キーワード抽出部２２には、あらかじめ最高出現率３２および最低出現率３３が定義されている。最高出現率３２が０％、最低出現率３３が１％と定義された場合、重要キーワード抽出部２２は図４に示すように、出現率が５０％以下かつ１％以上のキーワードを重要キーワード３４として抽出する。

（ステップＳ４０：分析用階層構造生成部２３）
分析用階層構造生成部２３は、次のように分析用階層構造３５を生成する。

（マスタテーブル）
図６は、構造化データベース１３０に格納されている各マスタテーブルを示す。構造化データベース１３０には、製品分類マスタテーブル１３１、製品マスタテーブル１３２、部品分類マスタテーブル１３３、部品マスタテーブル１３４の４つのテーブルが存在する。分析用階層構造生成部２３は、それぞれのテーブルの外部キーの参照関係から階層構造を作成する。

（分析用階層構造）
図７は、製品分類マスタテーブル１３１と製品マスタテーブル１３２とから作成した分析用階層構造（３５−ａ）を示す。
図８は、製品分類マスタテーブル１３１と部品分類マスタテーブル１３３と部品マスタテーブル１３４から作成した分析用階層構造（３５−ｂ）を示す。

分析用階層構造生成部２３が生成する分析用階層構造は、構造化データの分析用階層構造とすべての値が同一である必要はないが、上位の階層の値は同一である必要がある。

（テーブル１３５）
図９は、構造化データベース１３０に格納された製品売上げデータウェアハウスのテーブル１３５を示す。テーブル１３５の分析に用いる階層構造としては、製品分類別、日付別、店舗別などが考えられる。例えば製品分類別に分析する場合には、分析用階層構造（３５−ａ）を用いることができる。一方、分析用階層構造（３５−ｂ）であれば、製品分類コードは製品売上げデータウェアハウスのテーブル１３５に格納されているが、部品分類コードや部品型名は構造化データの集計とは異なることになる。このように全ての階層の値が同一である必要はなく、分析用階層構造生成部２３は、上位の階層が構造化データの分析軸と同一となるように分析用階層構造３５を生成する。

（ステップＳ５０：カラムカバー率計算部２４）
カラムカバー率計算部２４は、次のように２つの方法でカラムカバー率を決定する。

（第１の方法）
第１の方法としては、カラムカバー率計算部２４は、直接テーブルのカラムカバー率を次のように計算する。カラムカバー率計算部２４は、図６に示す、構造化データベース１３０のマスタテーブルもしくは次元テーブルの主キーもしくは主キーにより一意に識別されるカラム（製品マスタテーブルであれば、主キーである製品型名および主キーにより一意に識別される製品名や原価など）を対象として、カラムの全値のどれだけの値が、テキストに出現したかを計算する。例えば、カラムカバー率計算部２４は、製品分類マスタテーブル１３１に対しては、製品分類名のカラムに出現する値（液晶テレビ、ＤＶＤレコーダー、洗濯機、冷蔵庫など）、もしくは対応する製品分類コードの値の何パーセントが重要キーワードに出現したかを計算する。製品マスタテーブル１３２に対しては、カラムカバー率計算部２４は、製品型名もしくは製品名もしくは原価の何パーセントが重要キーワードに出現したかを計算する。

（第２の方法）
第２の方法として、カラムカバー率計算部２４は、分析用階層構造生成部２３が作成した分析用階層構造３５に従い、外部キーを用いて、親子関係にあるテーブルの子テーブルのカラムの出現率から親テーブルのカラムカバー率を計算する。例えば、製品分類マスタテーブル１３１に対しては、親子関係で子テーブルに該当する製品マスタテーブル１３２の外部キーである製品分類コードの単位でカラムカバー率を計算する。製品分類マスタテーブル１３１の製品分類名であれば、製品分類ＬＣＤ−ＴＶ−００１（液晶テレビ）に該当する製品型名が重要キーワードに含まれるかどうかでカラムカバー率を計算する。

（ステップＳ６０：テキストカバー率計算部２５）
テキストカバー率計算部２５は、次のようにテキストカバー率を計算する。図６に示す、構造化データベース１３０のマスタテーブルもしくは次元テーブルの主キーもしくは主キーにより一意に識別されるカラムを対象として、テキストカバー率計算部２５は、カラムに出現するいずれかの値が出現する文書が、全文書Ｍに占める割合を計算する。例えば、テキストカバー率計算部２５は、製品分類マスタテーブル１３１に対しては、製品分類名のカラムに出現する値（液晶テレビ、ＤＶＤレコーダー、洗濯機、冷蔵庫など）、もしくは対応する製品分類コードのいずれかの値が出現する文書が全文書の何パーセントあるかを計算する。製品マスタテーブル１３２に対しては、製品型名もしくは製品名もしくは原価に出現する値を含む文書が全文書の何パーセントあるかを計算する。

（ステップＳ７０：集計キー決定部２６）
集計キー決定部２６は、予め設定されている
適正カラムカバー率３６、
最低カラムカバー率３７、
適正テキストカバー率３８、
最低テキストカバー率３９
に基づいて、適正カラムカバー率以上のカラム、適正テキストカバー率以上のカラム、および最低カラムカバー率以上且つ最低テキストカバー率以上のカラムを含む分析用階層構造３５を、集計キーとして抽出する。

図１０は、集計キーとして抽出される分析用階層構造３５を示し図である。
適正カラムカバー率３６を７５％、
最低カラムカバー率３７を５０％、
適正テキストカバー率３８を７５％、
最低テキストカバー率３９を５０％
とした設定の場合には、集計キー決定部２６は、図１０に示すようなカラムを含む分析用階層構造３５を集計キー１５０として抽出する。

この際、構造化データ分析用と異なる集計キーが選ばれた場合には、集計キー決定部２６は、階層構造の上位が同一の構造化用の集計キーも抽出する。例えば、集計キーとして分析用階層構造（３５−ｂ）が抽出された場合を考える。構造化データベースが製品売上げデータウェアハウスのテーブル１３５であれば、部品型名を持つ階層構造ではなく、製品型名を持つ階層構造が必要となるため、分析用階層構造（３５−ａ）も同時に集計キーとして抽出する。

（ステップＳ５０：共起関係生成部５０）
図１１は、共起関係生成部５０によって生成される共起表１６０を示す図である。共起関係生成部５０は、集計キー１５０およびキーワードデータベース１２０を入力として、図１１に示すような共起表１６０を作成する。共起表１６０には、集計キーとして抽出された分析用階層構造の各カラム用の領域を用意する。次に、重要キーワード３４に抽出されて構造化データに含まれないキーワード用の領域をＮ個分用意する。図１１では、集計キーとして製品マスタテーブルに基づく分析用階層構造（３５−ａ）を抽出する例を示す。重要キーワードとしては、１つの領域を用意する。

図１２は、集計キーとして部品マスタテーブルに基づく分析用階層構造（３５−ｂ）を抽出する例を示す。この場合は、構造化データの分析で必要となる分析用階層構造（３５−ａ）も同時に集計キーとして抽出する。また、集計キーとして、分析用階層構造（３５−ａ）と分析用階層構造（３５−ｂ）の両方が集計キー決定部２６によって抽出された場合も同様となる。重要キーワードとしては、１つの領域を用意する。

（集計キー）
図１３は、共起表１６０ｃを示す図である。集計キーは、一般には複数選ばれる。図１３では、集計キーとして部品マスタテーブルに基づく分析用階層構造（３５−ｂ）と店舗別分析用階層構造が集計キーとして抽出された場合を示す。この場合も、構造化データの分析で必要となる分析用階層構造（３５−ａ）も同時に集計キーとして抽出する。重要キーワードとしては、２つの領域を用意する。例えばＫ１が名詞、Ｋ２に形容詞など品詞による分類を行なうことができる。また、重要キーワードをあらかじめポジティブなキーワードとネガティブなキーワードに分類しておき、一つの領域Ｋ１には、ポジティブなキーワード、もう一つの領域Ｋ２にはネガティブなキーワードを格納することもできる。

共起関係生成部５０は文書ごとに共起関係を抽出して、Ｓ通りの共起関係があれば共起表のＳ個のレコードに値を入力する。その際、分析用階層構造のカラムは、いずれか一つのキーワードを含む場合でも記述する。例えば図１２の共起表１６０ａでは、文書ＩＤがＤ０００１の文書は、（液晶テレビ、リモコン、ＲＣ０８００１、簡単）というキーワードを含み、Ｄ０００２は（液晶テレビ、高画質）のみを含み、Ｄ０００３は、（４０インチ液晶ディスプレイ、大画面）のみを含むなどである。また、同一の文書に２つの値（例えばリモコンと４０インチ液晶ディスプレイ）が含まれていれば別々のレコードとして共起表には格納する。

（ステップＳ９０：非構造データ集計部７０）
非構造データ集計部７０は、共起表１６０に対して、キーワードで集計を行なうための、集計用テーブル１６５を作成する。集計用テーブル１６５は、共起表１６０の階層構造の空白項を埋めることで作成する。

図１４は、非構造データ集計部７０が図１２の共起表１６０−ｂに対して、分析用階層構造（３５−ｂ）の空白項をうめて集計用テーブル１６５−ａ（図１５）を生成するフローチャートである。

以下のＳＴＥＰ１〜ＳＴＥＰ６は非構造データ集計部７０による動作である。

（ＳＴＥＰ１）
部品型名が空白のレコードには、“その他”と記載する。

（ＳＴＥＰ２）
部品型名がその他以外のレコードについては、部品マスタテーブルに基づく分析用階層構造を用いて、製品分類コードおよび部品分類コードが空白であれば埋める。上記のステップを全ての行に対して繰り返す。

（ＳＴＥＰ３）
部品分類コードおよび部品分類名の両方が空白のレコードについては、部品分類コードに“その他”と記載する。

（ＳＴＥＰ４）
部品分類名が記載されているレコードについては、部品分類名に対応する部品分類コードの値を記載する。製品分類コードが空白であれば、部品マスタテーブルに基づく分析用階層構造を用いて埋める。上記のステップを全ての行に対して繰り返す。

（ＳＴＥＰ５）
製品分類コードが空白の行については、製品分類名が記載されているので、対応する値を記載する。

（ＳＴＥＰ６）
部品型名が空白の行については、“その他“と記載する。

非構造データ集計部７０は、図１３の共起表１６０−ｃに対して、分析用階層構造（３５−ｂ）の空白項を埋めることにより、集計用テーブル１６５−ｂ（図１６）を生成する。

（１）図１７は、図１１の共起表１６０−ａを元に集計テーブルを作成して集計した結果である。非構造データ集計部７０は、集計用テーブル１６５を用いて図１７に示す集計を行なう。
（２）図１８は、図１２の共起表１６０−ｂを元に作成した集計用テーブル１６５−ａ（図１５）を元に集計テーブルを作成して集計した結果を示す。
（３）図１９は、図１３の共起表１６０−ｃを元に作成した集計用テーブル１６５−ｂ（図１６）を元に集計テーブルを作成して集計した結果を示す。

（ステップＳ１００：構造化データ集計部８０）
構造化データ集計部８０は、リレーショナルデータベースやデータウェアハウスで管理されている構造化データベース１３０に対して、集計キー１５０で集計を行う。
図２０は、図９の製品売上げデータウェアハウスのテーブル１３５を分析用階層構造（３５−ａ）で集計した例を示す。構造化データベースを集計するための集計キーは、非構造データ集計用のキーと同一である場合と同一でない場合があるが、同一でない場合でも上位階層での分類は同一となる。例えば、非構造データの集計用テーブルが図１５の集計用テーブル１６５−ａの場合には、集計キーは階層構造（３５−ｂ）であるが、構造化テーブルは、階層構造（３５−ｂ）では集計できないため、上位階層の分類が同一となる分析用階層構造（３５−ａ）で集計を行なう。
図２１は、図９の製品売上げデータウェアハウスのテーブル１３５を分析用階層構造（３５−ａ）と店舗別分析用階層構造で集計した例を示す。

（ステップＳ１１０：非構造データ・構造化データ統合部９０）
非構造データ・構造化データ統合部９０は、非構造データ集計部７０が作成した集計表と構造化データ集計部８０が作成した集計表に対し、集計キーを用いてＪＯＩＮすることにより、統合データベース１４０を作成する。

図２２は、図１７の非構造テーブル集計結果と図２０の製品売上げデータウェアハウスの集計結果を分析用階層構造（３５−ａ）にてＪＯＩＮしたテーブルを示す。

図２３は、図１８の非構造テーブル集計結果と図２０の製品売上げデータウェアハウスの集計結果を分析用階層構造（３５−ａ）にてＪＯＩＮしたテーブルを示す。

分析部９５は、ユーザの要求に応じて、統合データベース１４０にアクセスして分析処理を実行し、分析結果を出力する。

以上の実施の形態１の非構造データ・構造化データ統合分析装置１００１は、集計キー１５０に基づき、非構造データと構造化データとをそれぞれ集計し、両方の集計結果から非構造データと構造化データとを統合した統合データベースを作成する。そして、分析部９５が、統合データベースを対象に分析するので、非構造化データを構造化データに柔軟に結びつけることができる。

実施の形態２．
図２４〜図２９を参照して実施の形態２を説明する。実施の形態２は、実施の形態１で説明したシステムを電子メールに適用した実施形態である。

図２４は、実施の形態２における、電子メールを対象とした非構造データ・構造化データ統合分析装置１００２を示す図である。

各構成要素、各データベースは実施の形態１と同様であるが、具体的には、次の様である。
（１）テキストデータベース１１０には、メールを格納する。
（２）テキスト解析部４０は、メールを格納したテキストデータベース１１０からヘッダ情報（送信日付、送信者、受信者、タイトルなど）およびメール本文を抽出し、形態素解析や文字種区切りなどのテキスト解析を行い、キーワードを切り出してキーワードデータベース１２０に格納する。キーワードは、ヘッダ情報とメール本文を分けて抽出する。

図２５は、構造化データベース１３０に格納されたマスタテーブルの例として、顧客マスタテーブル１８１、自社の組織分類マスタテーブル１８２および社員マスタテーブル１８３を示す。

図２６は、分析用階層構造として、自社の組織分類マスタテーブルおよび社員マスタテーブルから作成した分析用階層構造３５−ｃ（分類階層）を示す。

図２７は、顧客の職業別の分析用階層構造３５−ｄ（分類階層）を示す。

メールでは、送受信者のメールアドレスから、自社内で送受信されたメール、自社から外部に送信されたメール、外部から自社に送信されたメールに分けて分析することができる。

図２８は、顧客の職業別の分析用階層構造３５−ｄ（分類階層）を用いて、顧客から送信されたメールを製品ごとに分析する場合の共起表を示す。メールのヘッダ情報には、必ず送信者メールアドレスが含まれるため、共起表に送受信者のメールアドレスが含めることで、上記階層構造のそれ以外の情報は不要である。

図２９は、自社内で送受信されるメールを自社の組織分類マスタテーブルおよび社員マスタテーブルから作成した分析用階層構造３５−ｃ（分類階層）を用いて分析する場合の共起表を示す。これらの分類階層を用いて、メールの集計が可能となる。

以上のように、実施の形態２の非構造データ・構造化データ統合分析装置１００２は、電子メールを対象として、非構造データと構造化データとを柔軟に結びつけることができる。

実施の形態３．
次に図３０、図３１を参照して実施の形態３を説明する。

実施の形態３は、実施の形態１の非構造データ・構造化データ統合分析装置１００１、実施の形態２の非構造データ・構造化データ統合分析装置１００２をコンピュータで実現する具体的な実施形態を示す。以下では非構造データ・構造化データ統合分析装置１００１を例に説明する。

図３０は、非構造データ・構造化データ統合分析装置１００１の外観の一例を示す図である。図３０において、非構造データ・構造化データ統合分析装置１００１は、システムユニット８３０、ＣＲＴ（Ｃａｔｈｏｄｅ・Ｒａｙ・Ｔｕｂｅ）やＬＣＤ（液晶）の表示画面を有する表示装置８１３、キーボード８１４（Ｋｅｙ・Ｂｏａｒｄ：Ｋ／Ｂ）、マウス８１５、ＦＤＤ８１７（Ｆｌｅｘｉｂｌｅ・Ｄｉｓｋ・Ｄｒｉｖｅ）、コンパクトディスク装置８１８（ＣＤＤ：ＣｏｍｐａｃｔＤｉｓｋＤｒｉｖｅ）、プリンタ装置８１９などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。

図３１は、コンピュータで実現される非構造データ・構造化データ統合分析装置１００１のハードウェア資源の一例を示す図である。図３１において、非構造データ・構造化データ統合分析装置１００１は、プログラムを実行するＣＰＵ８１０（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備えている。ＣＰＵ８１０は、バス８２５を介してＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８１２、表示装置８１３、キーボード８１４、マウス８１５、通信ボード８１６、ＦＤＤ８１７、ＣＤＤ８１８、プリンタ装置８１９、磁気ディスク装置８２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置８２０の代わりに、光ディスク装置、フラッシュメモリなどの記憶装置でもよい。

ＲＡＭ８１２は、揮発性メモリの一例である。ＲＯＭ８１１、ＦＤＤ８１７、ＣＤＤ８１８、磁気ディスク装置８２０等の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部、格納部、バッファの一例である。通信ボード８１６、キーボード８１４、ＦＤＤ８１７などは、入力部、入力装置の一例である。また、通信ボード８１６、表示装置８１３、プリンタ装置８１９などは、出力部、出力装置の一例である。

通信ボード８１６は、ネットワーク（ＬＡＮ等）に接続されている。通信ボード８１６は、ＬＡＮに限らず、インターネット、ＩＳＤＮ等のＷＡＮ（ワイドエリアネットワーク）などに接続されていても構わない。

磁気ディスク装置８２０には、オペレーティングシステム８２１（ＯＳ）、ウィンドウシステム８２２、プログラム群８２３、ファイル群８２４が記憶されている。プログラム群８２３のプログラムは、ＣＰＵ８１０、オペレーティングシステム８２１、ウィンドウシステム８２２により実行される。

上記プログラム群８２３には、以上の実施の形態の説明において「〜部」として説明した機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ８１０により読み出され実行される。

ファイル群８２４には、以上の実施の形態の説明において、「テキストデータベース」、「キーワードデータベース」、「構造化データベース」、「統合データベース」、「共起表」、「集計用テーブル」として説明したデータや、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明した情報や、データや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ８１０によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。

また、以上に述べた実施の形態の説明において、データや信号値は、ＲＡＭ８１２のメモリ、ＦＤＤ８１７のフレキシブルディスク、ＣＤＤ８１８のコンパクトディスク、磁気ディスク装置８２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｋ）等の記録媒体に記録される。また、データや信号は、バス８２５や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、以上の実施の形態の説明において、「〜部」として説明したものは、「〜手段」、「〜回路」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明したものは、ＲＯＭ８１１に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ８１０により読み出され、ＣＰＵ８１０により実行される。すなわち、プログラムは、以上に述べた「〜部」としてコンピュータを機能させるものである。あるいは、以上に述べた「〜部」の手順や方法をコンピュータに実行させるものである。

以上の実施の形態１〜２では、非構造データ・構造化データ統合分析装置１００１、１００２として、装置を説明したが、実施の形態３のように、非構造データ・構造化データ統合分析装置１００１、１００２の動作を、コンピュータに実行させるプログラムとして把握することも可能である。あるいはプログラムを記録したコンピュータ読み取り可能な記録媒体として把握することも可能である。さらに、非構造データ・構造化データ統合分析装置１００１、１００２が行う非構造データ・構造化データ統合方法として把握することも可能である。

以上の実施の形態では、
文書・メールなどのテキストデータからキーワードを抽出するテキスト解析部４０と、
非構造データと構造化データを統合して分析するための分析キーワードを抽出する集計キー抽出部２０と、
抽出したキーワードと集計キーを元に共起表を作成する共起関係生成部５０と、
共起表と集計キーを用いて非構造データを集計する非構造データ集計部７０と、
構造化データに対して集計キーを用いて集計する構造化データ集計部８０と、
非構造データと構造化データを統合した統合データベースを作成する非構造データ・構造化データ統合部９０と、
および統合データベースを用いて分析を行なう分析部９５と
を備え、
非構造データと構造化データを集計してから統合することを特徴とする非構造データ・構造化データ統合分析装置を説明した。

以上の実施の形態では、
上記集計キー抽出部２０が、
テキストファイルに出現するキーワードの出現率を計算する出現率計算部２１、
最高出現率以下かつ最低出現率以上の出現頻度のキーワードを重要キーワードとして抽出する重要キーワード抽出部２２、
分析用の階層構造を生成する分析用階層構造生成部２３、
テキストファイルに出現するキーワードが構造化データのカラムに含まれるキーワードのどの程度をカバーしているかを計算するカラムカバー率計算部２４、
構造化データのカラムに含まれる単語がテキストのどの程度をカバーしているかを計算するテキストカバー率計算部２５、
カラムカバー率とテキストカバー率から集計キーを決定する集計キー決定部２６
を備え、
構造化データのマスタテーブルに含まれるカラムのカラムカバー率または、テキストカバー率を元に、マスタテーブルを組み合わせて分析用の階層構造を生成することを特徴とする非構造データ・構造化データ統合分析装置を説明した。

以上の実施の形態では、
テキスト解析部が抽出したキーワードを集計キーおよびその他のキーに分類し、集計キーのキーワードについては、集計キー抽出部が作成した階層構造に基づき共起表を作成し非構造化データを集計することを特徴とする非構造データ・構造化データ統合分析装置を説明した。

以上の実施の形態では、
集計キーが非構造データ用の階層構造および構造化データ用の階層構造を持ち、上位のレベルで両階層構造が共通となることを特徴とする非構造データ・構造化データ統合分析装置を説明した。

以上の実施の形態では、
メールの発信者、受信者、タイトルなどのヘッダ情報およびメール本文から、それぞれキーワードを抽出し、送受信者の属性に応じた階層構造により、送信メール、受信メールを分離して集計することを特徴とする非構造データ・構造化データ統合分析装置を説明した。

２０集計キー抽出部、２１出現率計算部、２２重要キーワード抽出部、２３分析用階層構造生成部、２４カラムカバー率計算部、２５テキストカバー率計算部、２６集計キー決定部、３１出現キーワード表、３４重要キーワード、３５，３５−ａ，３５−ｂ，３５−ｃ，３５−ｄ分析用階層構造、３６適正カラムカバー率、３７最低カラムカバー率、３８適正テキストカバー率、３９最低テキストカバー率、４０テキスト解析部、５０共起関係生成部、７０非構造データ集計部、８０構造化データ集計部、９０非構造データ・構造化データ統合部、９５分析部、１１０テキストデータベース、１２０キーワードデータベース、１３０構造化データベース、１３１〜１３４マスタテーブル、１３５テーブル、１３６，１３７集計結果、１４０統合データベース、１５０集計キー、１６０，１６０−ａ，１６０−ｂ，１６０−ｃ共起表、１６５，１６５−ａ，１６５−ｂ集計用テーブル、１８１〜１８３マスタテーブル、１００１，１００２非構造データ・構造化データ統合分析装置。

Claims

非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部と、
前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部と、
前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部と、
前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部と、
前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部と、
前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部と
を備えたことを特徴とするデータ統合装置。
前記データ統合装置は、さらに、
前記統合化データベース作成部によって作成された統合データベースを対象として分析を実行する分析部を備えたことを特徴とする請求項１記載のデータ統合装置。
前記集計キー抽出部は、
テキストファイルに出現するキーワードの出現率を計算する出現率計算部と、
予め設定された最高出現率と最低出現率に対して最高出現率以下かつ最低出現率以上の出現率のキーワードを重要キーワードとして抽出する重要キーワード抽出部と、
分析用の階層構造を生成する分析用階層構造生成部と、
テキストファイルに出現するキーワードが構造化データのカラムに含まれるキーワードをどの程度をカバーしているかを示すカラムカバー率を計算するカラムカバー率計算部と、
構造化データのカラムに含まれる単語がテキストをどの程度をカバーしているかを示すテキストカバー率を計算するテキストカバー率計算部と、
構造化データベースに格納される複数のマスタテーブルに含まれるカラムのカラムカバー率とテキストカバー率とに基づきマスタテーブルを組み合わせることにより、前記分析用階層構造生成部によって生成された前記階層構造の中から集計キーとするべき前記階層構造を選択する集計キー決定部と
を備えたことを特徴とする請求項１または２のいずれかに記載のデータ統合装置。
前記集計キー抽出部は、
非構造データであるテキストデータ用の階層構造及び構造化データ用の階層構造であって、上位のレベルで両階層構造が共通となる階層構造を前記集計キーとして抽出することを特徴とする請求項１〜３のいずれかに記載のデータ統合装置。
前記テキスト解析部は、
電子メールのテキストデータを格納したテキストデータベースを対象として、前記キーワードを抽出し、
前記共起関係生成部は、
電子メールの送信者及び受信者の属性に応じた階層構造を集計キーとして用いて、送信メールと受信メールと共起表を生成することを特徴とする請求項１〜４のいずれかに記載のデータ統合装置。
コンピュータを、
非構造化データのテキストデータを格納したテキストデータベースの前記テキストデータからキーワードを抽出するテキスト解析部、
前記テキスト解析部によって抽出されたキーワードの中から重要キーワードを抽出すると共に、構造化データを格納する構造化データベースの前記構造化データから少なくとも一つの階層構造を生成し、生成された前記階層構造の中から前記重要キーワードに基づいて、少なくとも一つの前記階層構造を集計キーとして選択する集計キー抽出部、
前記集計キー抽出部によって選択された集計キーと、前記テキスト解析部によって抽出されたキーワードとから共起表を作成する共起関係生成部、
前記共起関係生成部によって生成された前記共起表に基づいて、前記テキストデータベースに格納された前記テキストデータを集計する非構造データ集計部、
前記集計キー抽出部によって選択された集計キーに基づいて、前記構造化データベースに格納された前記構造化データを集計する構造化データ集計部、
前記非構造データ集計部により集計されたデータと、前記構造化データ集計部により集計されたデータとを統合することにより、統合化データベースを作成する統合化データベース作成部、
として機能させるデータ統合プログラム。
請求項６記載のデータ統合プログラムを記録したコンピュータ読み取り可能な記録媒体。