JP6081609B2

JP6081609B2 - データ分析システム及びその方法

Info

Publication number: JP6081609B2
Application number: JP2015540326A
Authority: JP
Inventors: 実佳高田; 児玉　昇司; 昇司児玉; 康志宮田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-10-03
Filing date: 2013-10-03
Publication date: 2017-02-15
Anticipated expiration: 2033-10-03
Also published as: WO2015049769A1; JPWO2015049769A1

Description

本発明は、データ分析システム及びその方法に関し、特に非構造データを構造データと組み合わせたデータ分析システム及びその方法に関する。

構造データに関連する非構造データを用いてデータ分析する技術が、特許文献1に記載されている。特許文献1の記載は、非構造データであるテキストデータから重要キーワードを抽出し、構造データから生成した階層構造の中から重要キーワードに基づいて、少なくとも一つの階層構造を集計キーとして選択し、選択された集計キーとキーワードとから作成した共起表に基づいて、テキストデータを集計し、集計キーに基づいて構造データを集計し、集計された構造データと集計されたテキストデータとを統合することにより、統合化データベースを作成する技術である。

特開2010-205077号公報

従来から多様なデータが電子データとして管理されており、このような電子データは収集され、分析に用いられることが有用である。電子データには、構造情報をもつ構造データと、形式が定まらない非構造データがある。

特許文献1の技術は、共起関係を用いて、構造データと非構造データ（テキストファイル）を対応付けているが、対応付けた結果が持つ意味の分析には至っていない。

データ分析では、何を目的に、どの程度の分析精度が求められるかが重要である。さもないと、分析結果が何を意味するかが不明になるからである。また、分析結果が意味するところを明確にするためには、より単純な（明快な）分析結果を得ることが必要である。

開示するデータ分析システムは、入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、非構造データ取得部が取得した非構造データからメタデータを抽出し、抽出したメタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、入力した分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、階層管理メタデータを参照して分析用データを段階的に作成し、作成した分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、分析精度の向上に寄与したメタデータを含む重要カラムリストを作成するデータ分析部、および、データ分析部が作成した分析用データを参照し、分析精度を求める分析精度評価部を有する。

本発明によれば、データ分析システムは、より単純な（明快な）分析結果を出力することができる。

分析システムの構成例を示す図である。分析システムに入力される分析入力情報の例である。構造データの例である。非構造データ取得部の処理フローチャートである。要約辞書の一例である。ポジティブ基準辞書の一例である。解析・信頼度計算ルールの一例である。メタデータ抽出部の処理フローチャートである。第１階層メタデータの抽出例である。信頼度計算表である。階層管理メタデータの例である。階層管理メタデータをトリ―状に図示した例である。データ分析部の処理フローチャートである。分析用データの変化例である。精度向上率管理テーブルの一例である。重要カラムリストの一例である。分析精度評価部の処理フローチャートである。入出力装置に表示する画面例である。

以下、図面を用いて本発明の実施形態を説明する。

図１に、データ分析システム（以下、分析システム）の構成例を示す。分析システムは、入力した分析入力情報10に指定された構造データ16に対応する非構造データを取得する非構造データ取得部11、非構造データ取得部11が取得した非構造データから、各種辞書などを用いてメタデータを抽出し、抽出したメタデータ間の階層構造を作成し、階層管理メタデータ17を作成するメタデータ抽出部12、構造データ16や階層管理メタデータ17を入力し、階層管理メタデータ17を参照し、分析用データ18を段階的に作成しながら、入力した分析入力情報10に指定された目的軸及び分析精度に対応する分析結果として精度向上率管理テーブル19及び重要カラムリスト20を作成するデータ分析部13、データ分析部13が作成した分析用データ18を参照し、分析精度を評価する分析精度評価部15を有する。

分析システムは、非構造データ取得部11、メタデータ抽出部12、データ分析部13及び分析精度評価部15などの処理部を実行するＣＰＵ、及び、分析入力情報10、構造データ16、階層管理メタデータ17、分析用データ18、精度向上率管理テーブル19及び重要カラムリスト20などを格納するメモリを備え、分析入力情報10を入力し、分析結果を出力する入出力装置と接続するコンピュータにより動作する。

図１では、図示を省略している、各処理部が用いるワークエリア、各種辞書やファイルなどは、メモリまたは外部に接続する記憶装置に格納されている。

図２に、入出力装置（図示略）から分析システムに入力される分析入力情報10の例を示す。分析入力情報10は、分析対象の構造データを一意に識別する構造データのテーブルＩＤ101、分析対象の構造データと後述するメタデータとの関連性の強さを示す分析目標精度102、分析目標精度102に到達するために、分析を繰り返す場合にメタデータの階層をたどる回数の上限を指定する認識レベル限界値103、および、分析対象の構造データのカラムを示す目的軸カラム104を含む。認識レベルは、具体的に後述するが、階層構造をなすメタデータの階層レベルである。

図３に、構造データの例を示す。図３に示す構造データは、分析入力情報10のテーブルＩＤ101で特定される構造データTable-1（16）の例である。構造データ16は、ここでは患者名161、治療費162、病名163及び年齢164を含む。この構造データを基に、分析システムは、分析入力情報10の目的軸カラム104が示す治療費162に関する分析を実行する。

図４に、非構造データ取得部11の処理フローチャートを示す。非構造データ取得部11は、入力装置から分析入力情報10を入力する（S110）。分析入力情報10のテーブルＩＤ101に対応する構造データ16を取得し、記憶する（S111）。取得する構造データは、図３に示すような構造データ16であり、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム（ここでは、病院の会計システム）に格納されていてもよい。

非構造データ取得部11は、構造データ16の各レコードと対応する非構造データを検索し、対応付ける（S112）。非構造データ取得部11が検索する非構造データは、テキストファイル、音声ファイル、映像ファイルのような、一般にファイルとしてファイル管理システムにより管理されるデータ（以下、ファイルと呼ぶ。）である。検索するファイルは、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム（ここの例では、病院のカルテ管理システム）に格納されていてもよい。検索するためのキーは、構造データ16の各レコードのカラムの内容である。図３に示す構造データ16の例では、患者名161、病名163または年齢164であり（各カラムの内容のＯＲ検索）、第１番目（＃1）のレコードでは、患者名161がＡ、病名163がインフルエンザ、年齢164が30歳である。治療費162を検索キーとしてもよいが、治療費162は分析対象のカラムであるので除外してもよく、ここでは除外している。検索するためのキーとして、構造データ16のレコードを識別するＩＤ（図３では、＃）を含めてもよい。なぜならば、検索対象のファイルに、構造データを識別するＩＤ（＃）を含んでいることがあるからである。

構造データ16の各レコードと検索したファイルとの対応付けについて説明する。分り易い方法としては、検索したファイルを分析システム内に読み込み、検索キーを含む構造データ16のレコードと、対応表などを用いて検索したファイルをリンクさせる。簡単には、構造データ16の各レコードと、検索したファイルを特定できる、ファイル名を含むパス名との対応表を作成すればよい。対応付け方法は、他にも種々あるが、システム構築や運用の容易さなどにより選択されればよい。

非構造データ取得部11は、構造データ16の各レコード対応に、検索したファイルからメタデータを抽出するためにメタデータ抽出部12を起動する（S113）。メタデータ抽出部12を起動する際のパラメータは、構造データ16の各レコードと検索したファイルとの対応表である。

メタデータ抽出部12の処理を説明する前に、メタデータ抽出部12が使用するデータやルールなどを説明する。メタデータ抽出部12が抽出するメタデータは、階層構造を持つ。最下位の階層のメタデータを第１階層メタデータと呼び、その上の階層のメタデータを順次第２階層メタデータ、第３階層メタデータ、・・・と呼ぶことにする。なお、後述する認識レベルはメタデータの階層に対応し、たとえば、認識レベル１は第１階層メタデータに対応する。

第１階層メタデータは、いわゆるキーワードである。分析システムは、図示を省略するがキーワード辞書を持っている。キーワード辞書は、医療などの分野の用語辞書を基に予め作成しておく。医療などの分野に限らず用語辞書は、その分野の用語として病名などの名詞は網羅されているが、その分野で多用される形容詞や副詞が網羅されていることは少ない。そこで、分析システムによる分析に足りる用語を含むキーワード辞書を予め用意する。

図５に、要約辞書500の一例を示す。要約辞書500は、ある階層のメタデータからその上位の階層のメタデータを取得するために用いられる。ここでは、第１階層メタデータ501から第２階層メタデータ502を取得するために用いるものとして説明する。第１階層メタデータ501は、前述のようにキーワード辞書に含まれる用語である。第２階層メタデータ502は、キーワード辞書に含まれる用語であってもよいが、キーワード辞書に含まれる用語よりも抽象的概念、キーワード辞書に含まれる用語を包含する概念などの、キーワード辞書に含まれる用語の上位概念を表す用語である。他の観点では、第２階層メタデータ502は、第１階層メタデータ501の要約や組み合わせた意味をもつ用語でもよい。ここでは、図５の要約辞書500では、「解熱」、「早い」、「効く」、「医者」、「処置」の上位概念は「効果」である。同様に、「吐き気」「頭痛」の上位概念は「副作用」である。

図６に、ポジティブ基準辞書600の一例を示す。ポジティブ基準辞書600は、用語601とポジティブ度点数602の対応表であり、ポジティブ度点数602は用語601の肯定的な意味を正数、否定的な意味を負数で示し、肯定・否定の意味合いの強さをその値で表す。ポジティブ基準辞書の使い方は後述する。ポジティブ基準辞書に記載されていない用語のポジティブ度点数はゼロとする。なお、ポジティブ度基準辞書は、事前に分析システムに保持させ、分析システムの運用に伴い学習した結果を反映する。学習した結果の反映とは、ポジティブ度点数の変更、用語の追加/削除などである。

図７に、解析・信頼度計算ルールの一例を示す。図７(A)に示すルールAは、第２階層メタデータを解析するためのルール例であり、図７(B)に示すルールBは、第３階層メタデータを解析するためのルール例である。ルールAは、ある階層メタデータ名とそのメタデータが抽出されたファイルにおける出現回数を入力とし、計算ルールA-1を適用して、その階層の上位階層メタデータ、上位階層メタデータ値を求め、計算ルールA-2を適用して、上位階層メタデータの信頼度を算出することを表している。

図７(B)に示すルールBは、第２階層メタデータ値を入力とし、計算ルールB-1を適用して、第３階層メタデータと第３階層メタデータ値を求め、計算ルールB-2を適用して、第３階層メタデータ値の信頼度を計算するルール例である。解析・信頼度計算ルールの適用については、メタデータ抽出部12の処理の中で説明する。

図８に、メタデータ抽出部12の処理フローチャートを示す。メタデータ抽出部12は、S120〜S122を繰り返し実行するが、分り易くするために、繰り返しに関して図示を省略する。繰り返しとは、構造データ16の各レコード（＃1〜＃４）に関して、S112で対応付けられたファイル（非構造データ）について繰り返すことである。たとえば、構造データ16の＃1のレコードに複数ファイルが対応付けられていれば、複数ファイルの各々に関して繰り返し、これらの複数ファイルに関する繰り返しを各レコード（＃1〜＃４）に関して繰り返す。図８のS120〜S122は、構造データ16のあるレコードに対応付けられたあるファイルに関する処理を示している。

メタデータ抽出部12は、構造データ１６の処理対象レコードの各カラムの内容とキーワード辞書を用いて、対応付けられているファイルから第１階層メタデータを抽出し、抽出した各第１階層メタデータの出現数を第１階層メタデータ値とする（S120）。なお、第１階層メタデータを抽出に当たっては、所定の値（閾値）を超える出現数のキーワード又は、出現数の上位から所定数のキーワードを選択する。構造データ16の処理対象レコードの各カラムの内容もキーワード辞書の各キーワードと同様に扱う。この場合は、目的軸カラム104が示す治療費162をキーワードとして含めた方が、目的軸カラム104の内容と他のキーワード（第１階層メタデータ）の関係が明らかになる。

図９に、第１階層メタデータの抽出例を示す。図９(A)は、構造データ16の＃1のレコードに対応付けられた、患者名Ａのカルテがファイル＃１として示してあり、図９(B)は、構造データ16の＃2のレコードに対応付けられた、患者名Ｂのカルテがファイル＃２として示してある。ファイル＃１やファイル＃２から、図中下線で示すキーワードが、自然言語処理を用いて抽出される。この段階では、形態素解析によりキーワードとなり得る名詞、動詞、形容詞、副詞などの、意味を持つ用語が抽出される。意味を持たない、助詞や助動詞などは抽出の対象外である。図９の例は、ファイル＃１やファイル＃２がテキストファイルであるカルテであるので、自然言語処理が使用されるが、音声ファイルや映像ファイルの場合は、特徴抽出技術を用い、音声をテキストに変換したり、映像を対応する（映像の内容を表す）テキストに変換することにより、テキストファイルの場合と同様に処理する。

図９(A)は、ファイル＃１（患者Ａのカルテ）からは患者Ａの発熱やＸ薬に関するキーワード、図９(B)は、ファイル＃２（患者Ｂのカルテ）から患者Ｂの経過情報に関するキーワードが抽出されている。これら抽出されたキーワードから、さらに構造データ１６の処理対象レコードの各カラムの内容とキーワード辞書を参照して、第１階層メタデータを抽出する。抽出結果の例を、図９の下部に示す。

第１階層メタデータ値について説明する。図１０に、信頼度計算表1000を示す。信頼度計算表1000は分析システムのメモリのワークエリアに作成される。信頼度計算表1000は、第１階層メタデータと第１階層メタデータ値の対応表1001と第２階層メタデータ、第２階層メタデータ値とその信頼度1002を含む。第２階層メタデータ、第２階層メタデータ値とその信頼度1002に関しては、後述する。第１階層メタデータ値は、第１階層メタデータの出現回数である。図１０では、対応表1001として、図９(A)に対応して、ファイル＃１（患者名Ａのカルテ）から抽出された第１階層メタデータと第１階層メタデータ値を示している。たとえば、第１階層メタデータ「解熱」はファイル＃１に20回出現したことを示している。

メタデータ抽出部12は、信頼度計算表1000の第１階層メタデータと第１階層メタデータ値の対応表1001に基づいて、第２階層メタデータとその値及びその信頼度1002を算出し、信頼度計算表1000に格納する（S121）。メタデータ抽出部12は、図７(A)に示した解析・信頼度計算ルールに基づいて、要約辞書500を用いて、第１階層メタデータと第１階層メタデータ値の対応表1001から、要約辞書500の上位階層メタデータ502に含まれる第２階層メタデータ／値1002を算出する。

具体例を説明する。第１階層メタデータと第１階層メタデータ値の対応表1001の内容に図７(A)に示した解析・信頼度計算ルールのルールAを適用する。計算ルールA‐1は、入力の第１階層メタデータの中で、出現回数が最大の第１階層メタデータを、その第１階層メタデータが属する第２階層メタデータとし、第１階層メタデータから第２階層メタデータ値を求めるルールを示している。対応表1001の第１階層メタデータ値である出現回数が最大の第１階層メタデータは「早い」である。要約辞書500を参照すると、第１階層メタデータ「早い」は第２階層メタデータ「効果」に属するので、出力する第２階層メタデータを「効果」とする。また、出現回数が最大の第１階層メタデータの「早い」を第２階層メタデータ値（ここでのメタデータ値は、数値ではなく、文字列である。）とする。

第２階層メタデータ値「早い」の信頼度を算出するために、図７(A)に示した解析・信頼度計算ルールの計算ルールA‐2を用いる。計算ルールA‐2は、計算ルールA‐1で求めた第２階層メタデータ値に指定した第１階層メタデータの出現回数を、第２階層メタデータに属する第１階層メタデータの出現回数の和で割った値を信頼度とすることを表している。第１階層メタデータと第１階層メタデータ値の対応表1001を参照すると、第２階層メタデータ「効果」に属する第１階層メタデータの出現回数の合計（第１階層メタデータ値の合計）は111である。したがって、第２階層メタデータ値「早い」の信頼度は80/111≒0.7となる。

以上のようにして求めた、第２階層メタデータ、第２階層メタデータ値、第２階層メタデータ値の信頼度を、信頼度計算表1000の第２階層メタデータ／値1002に格納する。

図７(A)に示した解析・信頼度計算ルールに基づいて、抽出した第１階層メタデータ名であるキーワードとその出現数である第１階層メタデータ値から、要約辞書500を用いて、認識レベル２であるメタデータの第２階層メタデータ及び第２階層メタデータ値の決定と信頼度を算出することを説明した。算出結果を、後述する階層管理メタデータモデルに適用し階層管理メタデータを作成する。ここで、第２階層メタデータは、前述のように、階層直下の第１階層メタデータの要約や組み合わせた意味をもつ用語となり、その値（上記の例では、「早い」）が第２階層メタデータ値である。信頼度は、各階層メタデータがそのメタデータ値を持つ確からしさを意味する数値である。上記の例では、第２階層メタデータ「効果」において、信頼度は第２階層メタデータ値「早い」の確からしさを表す。

次に、メタデータ抽出部12は、第２階層メタデータ、第２階層メタデータ値、信頼度を導出したのと同様に、認識レベル３であるメタデータの第３階層メタデータ、第３階層メタデータ値、及び信頼度を導出する（S122）。導出結果をメタデータ管理階層モデルに適用して階層管理メタデータとしてデータを保持する。

第３階層メタデータも第２階層メタデータと同様に、第２階層メタデータを要約した意味をもつ用語であり、その値が第３階層メタデータ値である。メタデータは階層により抽象化レベルが異なるので、要約辞書500を各階層間に関して用意する。このように要約辞書500を用意することにより、認識レベル及びメタデータの階層を多階層にできる。階層数は、分析システムを適用する分野に依存して決められる。また、キーワード辞書や要約辞書500の内容を、分析システムを適用する分野の特性に合わせて用意しておくことにより、各階層のメタデータとしての用語の特徴を、分析システムを適用する分野に適合するものにできる。分析システムを適用する分野に適合させた一例として、第３階層メタデータ値について説明する。

第３階層メタデータ値は、第２階層メタデータ値と同様に、第３階層メタデータに属する第２階層メタデータとしてもよいが、ここでは、第３階層メタデータ値は、観点を変えて、良い意味か悪い意味かを示す「ポジティブ」と「ネガティブ」とする。信頼度は、第２階層メタデータ値と同様に、第３階層メタデータ値の確からしさを表す。観点を変えてとは、分析システムを適用する分野に依存して、望ましい観点があるからである。

図７(B)に示した解析・信頼度計算ルールを適用した、第３階層メタデータ、第３階層メタデータ値、及び信頼度の導出について説明する。図７(B)に示す計算ルールB-1は、図６に示したポジティブ基準辞書を参照し、第２階層メタデータ値（図６の用語601）に対応するポジティブ度点数602を取得し、全ての第２階層メタデータ値のポジティブ度点数の合計が正の数ならばポジティブ、負の数ならばネガティブを、第３階層メタデータ値に設定する。なお、第３階層メタデータは、要約辞書500を使用して設定してもよいが、任意に設定してもよい。ここでは、第３階層メタデータを要約と呼び、最上位階層であるとする。

図７(B)に示す計算ルールB-2は、第３階層メタデータ値がポジティブならば、全ての第２階層メタデータ中のポジティブ度点数が正である第２階層メタデータの割合、ネガティブならば、全ての第２階層メタデータ中のポジティブ度点が負である第２階層メタデータの割合を信頼度とすることを表している。なお、計算ルールB-2に、ポジティブ度点数の総和の絶対値または平均値を信頼度とするように設定してもよい。具体的な数値による計算例の説明を省略するが、次に説明する図１１の階層管理メタデータ17に示す数値になったものとして、説明を続ける。

次に、メタデータ抽出部12は、第1階層、第２階層及び第３階層のメタデータ及びそれらの信頼度を入力した階層管理メタデータ17を生成する（S123）。図１１に、階層管理メタデータ17の一例を示す。階層管理メタデータ17は、構造データ16の各レコードに対応付けたファイル（170）Ｆ１、Ｆ２、Ｆ３、Ｆ４の各ファイル対応に、S120〜S122の処理により抽出又は算出した第1階層171、第２階層172及び第３階層173のメタデータ及びそれらの信頼度を示す。なお、図１１では、第1階層メタデータ171と第２階層メタデータ172との対応関係が分かるように、第1階層メタデータ171を第２階層メタデータ172（たとえば、患者名）対応にまとめてある。

図１２は、階層管理メタデータ17をツリー状に図示した例である。図１２の＃３として示す図は、図１１のファイル（170）Ｆ３に対応した、第３階層メタデータ値がネガティブの例である。図１２の＃4として示す図は、図１１のファイル（170）Ｆ４に対応した、第３階層メタデータ値がポジティブの例である。図１１及び図１２の数値に関する説明は省略する。

なお、ここまで第１階層メタデータとその出現回数である第１階層メタデータ値から第２階層メタデータ、第２階層メタデータから第３階層メタデータを導出する例を示した。一般には、メタデータ管理階層モデルの階層の数は任意である。任意のメタデータ群を元に、その任意のメタデータ群から他のメタデータ群(上位のメタデータ群)を生成することを繰り返すことで、メタデータ群間で階層構造を持つ階層管理メタデータ17を生成できる。分析システムが分析対象とする分野や望まれる分析精度に応じて、階層数が決定される。

以上のように、階層管理メタデータ17を出力として、メタデータ抽出部12は処理を終了する。

図４の非構造データ取得部11の説明に戻る。非構造データ取得部11は、入力分析情報10、構造データ１６、及びメタデータ抽出部12が生成した階層管理メタデータ17をデータ分析部13へ出力し(S114)、データ分析部13を起動して処理を終了する。

図１３に、データ分析部13の処理フローチャートを示す。データ分析部13は、非構造データ取得部11からの起動に応答して、分析入力情報１０、構造データ16及び階層管理メタデータ17を入力する。構造データ16を分析用データ18として格納する。分析用データ18については後述する。

データ分析部13は、認識レベルの最大値を認識レベルの変数ｎに設定する（S130）。認識レベル１、２、・・・は、図１１に示す階層管理メタデータ17の第１階層メタデータ、第２階層メタデータ、・・・に対応する。本実施形態は、図１１に示すように第３階層メタデータまでの例であるので、認識レベル最大値を３とする。

データ分析部13は、認識レベルｎに対応するメタデータ名を階層管理メタデータ17から取得し、メタデータ名リストを作成する（S131）。データ分析部13は、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、分析用データ18にその値を新しいカラムとして追加する（S132）。

図１４に、分析用データ18の変化例を示す。図１４では、図が見にくくなるのを避けるために符号を省略する。図１４(A)は、データ分析部13の起動に伴って入力された構造データ16の内容が分析用データ18として格納されている。認識レベルｎ＝3のとき、分析用データ18に新しいカラムとして追加される値は第3階層メタデータの値であり、分析用データ18の最右欄に追加された結果を、図１４(B)に示す。

データ分析部13は、分析用データ18をパラメータとして分析精度評価部15を実行する（S133）。分析精度評価部15は、分析用データ18の分析精度を出力する。分析精度評価部15の処理については後述する。

データ分析部13は、前回の（S131〜S140のループにおける前回のループの）分析精度からの精度向上率を算出する（S134）。認識レベルｎが認識レベル最大値のときは、前回の分析精度がないので、前回の分析精度を0として精度向上率を算出する。データ分析部13は、算出した精度向上率を精度向上率管理テーブルに格納する（S135）。後述する分析精度評価部15は、分析用データ18として図１４(B)をパラメータとすると、分析精度を50％として出力する。

図１５に、精度向上率管理テーブル19の一例を示す。精度向上率管理テーブル19は、認識レベル1501、追加メタデータ1502、分析精度1503および精度向上率1504の対応表である。データ分析部13は、分析精度評価部15が出力した分析精度と共に、そのときの認識レベル、分析用データ18への追加メタデータと共に精度向上率を、精度向上率管理テーブル19の対応する欄に格納する。

データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102を比較する（S136）。分析目標精度102が、分析精度評価部15が出力した分析精度より低くければ（分析精度が分析目標精度102を達成したならば）、S142へ進む。分析目標精度102が分析精度より低ければ、S137へ進む。

データ分析部13は、認識レベルｎが分析入力情報10の認識レベル限界値103以上ならばS138へ進む。認識レベルｎが認識レベル限界値103より低い場合、分析不可（141）として処理を終了する。たとえば、認識レベルｎが3で、認識レベル限界値は1のときは、S138へ進む。

データ分析部13は、分析用データ18に追加した各メタデータの中で、信頼度の一番低いメタデータを決定する（S138）。分析用データ18が図１４(B)の場合、追加したメタデータは第3階層メタデータ（要約）の一つであるので、その第3階層メタデータ（要約）を信頼度の一番低いメタデータとする。信頼度は、図７に示した解析、信頼度計算ルールを適用した値であり、図１４(B)では追加した第3階層メタデータ（要約）のカッコ内の値（図中、0.9）である。

データ分析部13は、S138で決定したメタデータの直下の認識レベルのメタデータがあるかを判定し（S139）、ある場合は、認識レベルの変数ｎにｎ-1を設定し（S140）、S131へ戻る。ない場合は、分析不可（S141）として処理を終了する。決定したメタデータの直下の認識レベルのメタデータがあるかの判定は、階層管理メタデータ17を参照してもよいが、認識レベル（整数）の最小値を1としているので、ｎが2以上（1より大）であるかを判定してもよい。

データ分析部13のS131からのループ（繰り返し）について、説明を加える。データ分析部13は、S140でｎ=2としたとき、S131において、階層管理メタデータ17の第2階層メタデータを参照して、新たなメタデータ名リスト｛薬名、患者名、効果、副作用｝を作成する。新たなメタデータ名リスト｛薬名、患者名、効果、副作用｝に対応して、S132において、認識レベルｎ＝2のとき、分析用データ18に新しいカラムとして第2階層メタデータの値が追加された結果を、図１４(C)に示す。図１４(C)に示すように、患者名がメタデータ名リストに含まれるが、患者名は構造データ16の一つとして分析用データ18に含まれているので、重複を避けるために追加しない。

後述する分析精度評価部15は、分析用データ18として図１４(C)をパラメータとすると、分析精度を、「薬名」に関して５０％、「効果」に関して75％、「副作用」に関して50％として出力する。したがって、図１５の精度向上率管理テーブル19の分析精度1503に、分析精度評価部15が出力した各々の分析精度を格納すると共に、認識レベルｎ=1のときの分析精度50％からの各々の精度向上率を精度向上率1504に格納する。

データ分析部13は、認識レベルｎ=2のとき、最高の分析精度が75％であり、S136において、分析精度評価部15が出力した分析精度75％が、分析入力情報10の分析目標精度102である80％を達成していないので、S138において、メタデータ名リスト｛薬名、患者名、効果、副作用｝の中で信頼度が最も低い（数値例を省略）メタデータとして「効果」が決定される。データ分析部13は、ループ処理によりS131において、「効果」の直下の第1階層メタデータ名リストとして｛解熱、早い、効く、医者、処置｝を作成し、分析データ18に、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、その値を新しいカラムとして追加する。図１４(D)が第1階層メタデータを追加した例である。ただし、一部の第1階層メタデータ「解熱」を追加した例を図示している。

データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102の比較の結果、分析精度が分析目標精度102を達成したならば、精度向上率管理テーブル19を参照して、精度向上率が高いカラムを重要カラムリストに入力する（S142）。図１６に、重要カラムリストの一例を示す。重要カラムリスト20は、分析精度が分析目標精度102を達成したときの、精度向上率テーブル19の追加メタデータ1502及び精度向上率1504を、重要メタデータ1601及び精度向上率1602に格納するテーブルであり、後述する分析システムとしての分析結果出力の準備のためのテーブルである。重要メタデータ1601は、分析精度向上に基も寄与したメタデータである。分析入力情報10の分析目標精度102は80％であり、第1階層メタデータ「解熱」に関する分析精度は100％であるので、このときの分析精度評価結果が重要カラムリスト20に反映される。

データ分析部13は、重要カラムリスト20および分析用データ18を、出力装置を介して出力し（S143）、処理を終了する。出力する分析用データ１８は、説明した例では、図１４(D)になるが、分析精度が分析目標精度102を認識レベル2で達成した場合は、図１４(C)になる。同様に、認識レベル3で達成した場合は、図１４(B)になる。

図１７に、分析精度評価部15の処理フローチャートを示す。分析精度評価部15は、データ分析部13から起動され、分析入力情報10および分析用データ18を入力とし、純度を算出し、その算出結果を分析精度として出力する。

分析精度評価部15は、分析入力情報10の目的軸カラム104の内容を正解データとする（S150）。図２に示す分析入力情報10の目的軸カラム104の内容は「治療費」であるので、この「治療費」を正解データとする。

分析精度評価部15は、入力した分析用データ18を対象として、正解データをＮ個のグループに分類するクラスタリングを実行し、その結果を正解パターンとして記憶する（S151）。入力した分析用データ18が、図１４(C)の状態（データ分析部13が分析用データ18に第２階層メタデータを追加した状態）として、具体例を説明する。「治療費」が正解データであるので、＄10の患者名Ａ及びＢと＄1000の患者名Ｃ及びＤの２グループに分類する。分類基準としての閾値は、２グループの場合、（最大値＋最小値）／２としてもよいし、入出力装置を介して入力してもよい。一般にＮグループに分類する場合、入出力装置を介して入力する。

分析精度評価部15は、分析精度評価対象データである分析用データ18のメタデータの各々に関してクラスタリングを実行し、各々を分類パターンとして記憶する（S152）。たとえば、メタデータ「効果」に関してクラスタリングを実行し、「早い」のグループの患者名Ａ、Ｂ及びＤと「処置」のグループの患者名Ｃの２グループに分類する。

分析精度評価部15は、正解データを対象とした正解パターンと、メタデータの分類パターンの一致率を算出し、その算出結果を分析精度として（S153）、データ分析部13へ処理を戻す。一致率とは、正解パターンにおける１グループに属するデータと、分類パターンにおける１グループのデータの数の割合である。この割合を求めるために純度を用いる。上述の例では、「治療費」を正解データとする正解パターンは、患者名Ａ及びＢのグループ１と患者名Ｃ及びＤのグループ２である。分析精度評価対象データをメタデータ「効果」とする分類パターンは、「早い」の患者名Ａ、Ｂ及びＤのグループ３と「処置」の患者名Ｃのグループ４である。患者名Ａ及びＢは、正解パターンのグループ１と分類パターンのグループ３に属し、グループ１ならば１００％の確率でグループ３という関係が成り立つ。一方、グループ２に属する、患者名Ｃはグループ３に属し、患者名Ｄグループ４に属し、グループ２ならば、５０％の確率でグループ３又はグループ４に属するという関係が成り立つ。この正解パターンを前提として、分析精度評価対象データである「効果」を分類したグループに属する確率が最大となる組み合わせは、グループ１と３、グループ２と４として求めることができる。このときのそれぞれの生起確率１００％と５０％を加算し、その加算したグループ数２で割った数値である７５％が純度として計算される。このようにして求めた純度を分析精度とする。

図１８に、分析システムを使用するための、入出力装置（図示略）に表示する画面例を示す。画面は、ユーザが分析入力情報10の各項目を入力するための入力画面「入力」、分析システムによる分析を実行するための「実行」ボタン1805、及び分析結果を表示する出力画面「２.出力」を含む。

入力画面「入力」は、構造データのテーブルＩＤ101を入力する構造データ1801、分析目標精度102を入力する分析目標精度1802、認識レベル限界値103を入力する認識レベル限界値1803、および目的軸カラム104を入力する目的軸指定1804の各欄を有する。構造データ1801は、「参照」を指定入力し、表示される構造データを選択入力する欄である。分析目標精度1802及び認識レベル限界値1803は、図示するように、数値入力する欄である。目的軸指定1804は、構造データ1801の欄の構造データの選択入力に応答して表示される構造データのカラムを選択入力する。

ユーザによる分析入力情報10の各項目の入力、さらに「実行」ボタン1805の押下に応答して、分析システムは実行を開始し、実行が終了すると、出力画面「２.出力」を入出力装置に表示する。分析システムは出力画面に、分析用データ1806及び重要カラムリスト1807である。分析用データ1806は、図１４に示した、分析システムによる分析精度が分析目標精度102を超えた段階の分析用データ18の内容である。図１８では、図１４（D）の分析用データ18の内容を表示している。重要カラムリスト1807は、図１６に示した重要カラムリスト20の内容である。

本実施形態によれば、分析システムは、より単純な（明快な）分析結果を出力することができる。構造データに関連する可能性が高いメタデータを優先的に分析するので、データ分析にかかる時間を短縮できる。

10：分析入力情報、11：非構造データ取得部、12：メタデータ抽出部、13：データ分析部、15：分析精度評価部、16：構造データ、17：階層管理メタデータ、18：分析用データ、19：精度向上率管理テーブル、20重要カラムリスト。

Claims

入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、
前記非構造データ取得部が取得した前記非構造データから、メタデータを抽出し、抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、
入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成するデータ分析部、および
前記データ分析部が作成した前記分析用データを参照し、前記分析精度を求める分析精度評価部を有することを特徴とするデータ分析システム。
前記分析入力情報は、前記構造データ、前記目標分析精度、前記データ分析部が前記分析用データを作成する段階の限界を示す認識レベル限界値、及び、前記構造データの分析対象項目を示す前記目的軸を含むことを特徴とする請求項１記載のデータ分析システム。
前記メタデータ抽出部は、前記非構造データから、分析対象の分野のキーワード辞書を用いて前記メタデータを第1階層メタデータとして抽出し、前記第1階層メタデータと前記第1階層メタデータの上位概念を表す用語との対応関係を示す辞書を用いて、抽出した前記第1階層メタデータに対応する、前記辞書に含まれる用語を第2階層メタデータとして抽出し、さらに前記第2階層メタデータと前記第2階層メタデータの上位概念を表す用語の対応関係を示す他の辞書を用いて、抽出した前記第2階層メタデータに対応する、前記他の辞書に含まれる用語を第3階層メタデータとして抽出し、抽出した前記第1階層メタデータ、前記第2階層メタデータ及び前記第3階層メタデータの間の前記階層構造を示す前記階層管理メタデータを作成することを特徴とする請求項２記載のデータ分析システム。
前記メタデータ抽出部は、前記非構造データから、所定の値を超える出現数のキーワード及び出現数の上位から所定数のキーワードのいずれか一方のキーワードであり、前記キーワード辞書に含まれる前記メタデータを前記第1階層メタデータとして抽出することを特徴とする請求項３記載のデータ分析システム。
前記データ分析部は、前記階層管理メタデータに含まれる最上位階層のメタデータから前記分析用データを段階的に作成し、作成した前記分析用データに基づいて、前記分析精度が前記目標分析精度を超えたかを判定することを特徴とする請求項４記載のデータ分析システム。
前記データ分析部は、前記分析用データの段階的な作成が、前記認識レベル限界値に達したとき、分析不可であるとすることを特徴とする請求項５記載のデータ分析システム。
データ分析システムにおけるデータ分析方法であって、前記データ分析システムは、
入力した分析入力情報に指定された構造データに対応する非構造データを取得し、
取得した前記非構造データからメタデータを抽出し、
抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成し、
入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、
作成した前記分析用データを参照し、前記分析精度を求め、
作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成することを特徴とするデータ分析方法。
前記データ分析システムは、
前記分析入力情報は、前記構造データ、前記目標分析精度、前記分析用データを作成する段階の限界を示す認識レベル限界値、及び、前記構造データの分析対象項目を示す前記目的軸を含むことを特徴とする請求項７記載のデータ分析方法。
前記データ分析システムは、
前記非構造データから、分析対象の分野のキーワード辞書を用いて前記メタデータを第1階層メタデータとして抽出し、
前記第1階層メタデータと前記第1階層メタデータの上位概念を表す用語との対応関係を示す辞書を用いて、抽出した前記第1階層メタデータに対応する、前記辞書に含まれる用語を第2階層メタデータとして抽出し、
さらに前記第2階層メタデータと前記第2階層メタデータの上位概念を表す用語の対応関係を示す他の辞書を用いて、抽出した前記第2階層メタデータに対応する、前記他の辞書に含まれる用語を第3階層メタデータとして抽出し、
抽出した前記第1階層メタデータ、前記第2階層メタデータ及び前記第3階層メタデータの間の前記階層構造を示す前記階層管理メタデータを作成することを特徴とする請求項８記載のデータ分析方法。
前記データ分析システムは、
前記非構造データから、所定の値を超える出現数のキーワード及び出現数の上位から所定数のキーワードのいずれか一方のキーワードであり、前記キーワード辞書に含まれる前記メタデータを前記第1階層メタデータとして抽出することを特徴とする請求項９記載のデータ分析方法。
前記データ分析システムは、
前記階層管理メタデータに含まれる最上位階層のメタデータから前記分析用データを段階的に作成し、作成した前記分析用データに基づいて、前記分析精度が前記目標分析精度を超えたかを判定することを特徴とする請求項１０記載のデータ分析方法。
前記データ分析システムは、
前記分析用データの段階的な作成が、前記認識レベル限界値に達したとき、分析不可であるとすることを特徴とする請求項１１記載のデータ分析方法。