JP6081609B2 - データ分析システム及びその方法 - Google Patents

データ分析システム及びその方法 Download PDF

Info

Publication number
JP6081609B2
JP6081609B2 JP2015540326A JP2015540326A JP6081609B2 JP 6081609 B2 JP6081609 B2 JP 6081609B2 JP 2015540326 A JP2015540326 A JP 2015540326A JP 2015540326 A JP2015540326 A JP 2015540326A JP 6081609 B2 JP6081609 B2 JP 6081609B2
Authority
JP
Japan
Prior art keywords
metadata
analysis
data
hierarchy
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015540326A
Other languages
English (en)
Other versions
JPWO2015049769A1 (ja
Inventor
実佳 高田
実佳 高田
児玉 昇司
昇司 児玉
康志 宮田
康志 宮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP6081609B2 publication Critical patent/JP6081609B2/ja
Publication of JPWO2015049769A1 publication Critical patent/JPWO2015049769A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分析システム及びその方法に関し、特に非構造データを構造データと組み合わせたデータ分析システム及びその方法に関する。
構造データに関連する非構造データを用いてデータ分析する技術が、特許文献1に記載されている。特許文献1の記載は、非構造データであるテキストデータから重要キーワードを抽出し、構造データから生成した階層構造の中から重要キーワードに基づいて、少なくとも一つの階層構造を集計キーとして選択し、選択された集計キーとキーワードとから作成した共起表に基づいて、テキストデータを集計し、集計キーに基づいて構造データを集計し、集計された構造データと集計されたテキストデータとを統合することにより、統合化データベースを作成する技術である。
特開2010-205077号公報
従来から多様なデータが電子データとして管理されており、このような電子データは収集され、分析に用いられることが有用である。電子データには、構造情報をもつ構造データと、形式が定まらない非構造データがある。
特許文献1の技術は、共起関係を用いて、構造データと非構造データ(テキストファイル)を対応付けているが、対応付けた結果が持つ意味の分析には至っていない。
データ分析では、何を目的に、どの程度の分析精度が求められるかが重要である。さもないと、分析結果が何を意味するかが不明になるからである。また、分析結果が意味するところを明確にするためには、より単純な(明快な)分析結果を得ることが必要である。
開示するデータ分析システムは、入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、非構造データ取得部が取得した非構造データからメタデータを抽出し、抽出したメタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、入力した分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、階層管理メタデータを参照して分析用データを段階的に作成し、作成した分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、分析精度の向上に寄与したメタデータを含む重要カラムリストを作成するデータ分析部、および、データ分析部が作成した分析用データを参照し、分析精度を求める分析精度評価部を有する。
本発明によれば、データ分析システムは、より単純な(明快な)分析結果を出力することができる。
分析システムの構成例を示す図である。 分析システムに入力される分析入力情報の例である。 構造データの例である。 非構造データ取得部の処理フローチャートである。 要約辞書の一例である。 ポジティブ基準辞書の一例である。 解析・信頼度計算ルールの一例である。 メタデータ抽出部の処理フローチャートである。 第1階層メタデータの抽出例である。 信頼度計算表である。 階層管理メタデータの例である。 階層管理メタデータをトリ―状に図示した例である。 データ分析部の処理フローチャートである。 分析用データの変化例である。 精度向上率管理テーブルの一例である。 重要カラムリストの一例である。 分析精度評価部の処理フローチャートである。 入出力装置に表示する画面例である。
以下、図面を用いて本発明の実施形態を説明する。
図1に、データ分析システム(以下、分析システム)の構成例を示す。分析システムは、入力した分析入力情報10に指定された構造データ16に対応する非構造データを取得する非構造データ取得部11、非構造データ取得部11が取得した非構造データから、各種辞書などを用いてメタデータを抽出し、抽出したメタデータ間の階層構造を作成し、階層管理メタデータ17を作成するメタデータ抽出部12、構造データ16や階層管理メタデータ17を入力し、階層管理メタデータ17を参照し、分析用データ18を段階的に作成しながら、入力した分析入力情報10に指定された目的軸及び分析精度に対応する分析結果として精度向上率管理テーブル19及び重要カラムリスト20を作成するデータ分析部13、データ分析部13が作成した分析用データ18を参照し、分析精度を評価する分析精度評価部15を有する。
分析システムは、非構造データ取得部11、メタデータ抽出部12、データ分析部13及び分析精度評価部15などの処理部を実行するCPU、及び、分析入力情報10、構造データ16、階層管理メタデータ17、分析用データ18、精度向上率管理テーブル19及び重要カラムリスト20などを格納するメモリを備え、分析入力情報10を入力し、分析結果を出力する入出力装置と接続するコンピュータにより動作する。
図1では、図示を省略している、各処理部が用いるワークエリア、各種辞書やファイルなどは、メモリまたは外部に接続する記憶装置に格納されている。
図2に、入出力装置(図示略)から分析システムに入力される分析入力情報10の例を示す。分析入力情報10は、分析対象の構造データを一意に識別する構造データのテーブルID101、分析対象の構造データと後述するメタデータとの関連性の強さを示す分析目標精度102、分析目標精度102に到達するために、分析を繰り返す場合にメタデータの階層をたどる回数の上限を指定する認識レベル限界値103、および、分析対象の構造データのカラムを示す目的軸カラム104を含む。認識レベルは、具体的に後述するが、階層構造をなすメタデータの階層レベルである。
図3に、構造データの例を示す。図3に示す構造データは、分析入力情報10のテーブルID101で特定される構造データTable-1(16)の例である。構造データ16は、ここでは患者名161、治療費162、病名163及び年齢164を含む。この構造データを基に、分析システムは、分析入力情報10の目的軸カラム104が示す治療費162に関する分析を実行する。
図4に、非構造データ取得部11の処理フローチャートを示す。非構造データ取得部11は、入力装置から分析入力情報10を入力する(S110)。分析入力情報10のテーブルID101に対応する構造データ16を取得し、記憶する(S111)。取得する構造データは、図3に示すような構造データ16であり、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム(ここでは、病院の会計システム)に格納されていてもよい。
非構造データ取得部11は、構造データ16の各レコードと対応する非構造データを検索し、対応付ける(S112)。非構造データ取得部11が検索する非構造データは、テキストファイル、音声ファイル、映像ファイルのような、一般にファイルとしてファイル管理システムにより管理されるデータ(以下、ファイルと呼ぶ。)である。検索するファイルは、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム(ここの例では、病院のカルテ管理システム)に格納されていてもよい。検索するためのキーは、構造データ16の各レコードのカラムの内容である。図3に示す構造データ16の例では、患者名161、病名163または年齢164であり(各カラムの内容のOR検索)、第1番目(#1)のレコードでは、患者名161がA、病名163がインフルエンザ、年齢164が30歳である。治療費162を検索キーとしてもよいが、治療費162は分析対象のカラムであるので除外してもよく、ここでは除外している。検索するためのキーとして、構造データ16のレコードを識別するID(図3では、#)を含めてもよい。なぜならば、検索対象のファイルに、構造データを識別するID(#)を含んでいることがあるからである。
構造データ16の各レコードと検索したファイルとの対応付けについて説明する。分り易い方法としては、検索したファイルを分析システム内に読み込み、検索キーを含む構造データ16のレコードと、対応表などを用いて検索したファイルをリンクさせる。簡単には、構造データ16の各レコードと、検索したファイルを特定できる、ファイル名を含むパス名との対応表を作成すればよい。対応付け方法は、他にも種々あるが、システム構築や運用の容易さなどにより選択されればよい。
非構造データ取得部11は、構造データ16の各レコード対応に、検索したファイルからメタデータを抽出するためにメタデータ抽出部12を起動する(S113)。メタデータ抽出部12を起動する際のパラメータは、構造データ16の各レコードと検索したファイルとの対応表である。
メタデータ抽出部12の処理を説明する前に、メタデータ抽出部12が使用するデータやルールなどを説明する。メタデータ抽出部12が抽出するメタデータは、階層構造を持つ。最下位の階層のメタデータを第1階層メタデータと呼び、その上の階層のメタデータを順次第2階層メタデータ、第3階層メタデータ、・・・と呼ぶことにする。なお、後述する認識レベルはメタデータの階層に対応し、たとえば、認識レベル1は第1階層メタデータに対応する。
第1階層メタデータは、いわゆるキーワードである。分析システムは、図示を省略するがキーワード辞書を持っている。キーワード辞書は、医療などの分野の用語辞書を基に予め作成しておく。医療などの分野に限らず用語辞書は、その分野の用語として病名などの名詞は網羅されているが、その分野で多用される形容詞や副詞が網羅されていることは少ない。そこで、分析システムによる分析に足りる用語を含むキーワード辞書を予め用意する。
図5に、要約辞書500の一例を示す。要約辞書500は、ある階層のメタデータからその上位の階層のメタデータを取得するために用いられる。ここでは、第1階層メタデータ501から第2階層メタデータ502を取得するために用いるものとして説明する。第1階層メタデータ501は、前述のようにキーワード辞書に含まれる用語である。第2階層メタデータ502は、キーワード辞書に含まれる用語であってもよいが、キーワード辞書に含まれる用語よりも抽象的概念、キーワード辞書に含まれる用語を包含する概念などの、キーワード辞書に含まれる用語の上位概念を表す用語である。他の観点では、第2階層メタデータ502は、第1階層メタデータ501の要約や組み合わせた意味をもつ用語でもよい。ここでは、図5の要約辞書500では、「解熱」、「早い」、「効く」、「医者」、「処置」の上位概念は「効果」である。同様に、「吐き気」「頭痛」の上位概念は「副作用」である。
図6に、ポジティブ基準辞書600の一例を示す。ポジティブ基準辞書600は、用語601とポジティブ度点数602の対応表であり、ポジティブ度点数602は用語601の肯定的な意味を正数、否定的な意味を負数で示し、肯定・否定の意味合いの強さをその値で表す。ポジティブ基準辞書の使い方は後述する。ポジティブ基準辞書に記載されていない用語のポジティブ度点数はゼロとする。なお、ポジティブ度基準辞書は、事前に分析システムに保持させ、分析システムの運用に伴い学習した結果を反映する。学習した結果の反映とは、ポジティブ度点数の変更、用語の追加/削除などである。
図7に、解析・信頼度計算ルールの一例を示す。図7(A)に示すルールAは、第2階層メタデータを解析するためのルール例であり、図7(B)に示すルールBは、第3階層メタデータを解析するためのルール例である。ルールAは、ある階層メタデータ名とそのメタデータが抽出されたファイルにおける出現回数を入力とし、計算ルールA-1を適用して、その階層の上位階層メタデータ、上位階層メタデータ値を求め、計算ルールA-2を適用して、上位階層メタデータの信頼度を算出することを表している。
図7(B)に示すルールBは、第2階層メタデータ値を入力とし、計算ルールB-1を適用して、第3階層メタデータと第3階層メタデータ値を求め、計算ルールB-2を適用して、第3階層メタデータ値の信頼度を計算するルール例である。解析・信頼度計算ルールの適用については、メタデータ抽出部12の処理の中で説明する。
図8に、メタデータ抽出部12の処理フローチャートを示す。メタデータ抽出部12は、S120〜S122を繰り返し実行するが、分り易くするために、繰り返しに関して図示を省略する。繰り返しとは、構造データ16の各レコード(#1〜#4)に関して、S112で対応付けられたファイル(非構造データ)について繰り返すことである。たとえば、構造データ16の#1のレコードに複数ファイルが対応付けられていれば、複数ファイルの各々に関して繰り返し、これらの複数ファイルに関する繰り返しを各レコード(#1〜#4)に関して繰り返す。図8のS120〜S122は、構造データ16のあるレコードに対応付けられたあるファイルに関する処理を示している。
メタデータ抽出部12は、構造データ16の処理対象レコードの各カラムの内容とキーワード辞書を用いて、対応付けられているファイルから第1階層メタデータを抽出し、抽出した各第1階層メタデータの出現数を第1階層メタデータ値とする(S120)。なお、第1階層メタデータを抽出に当たっては、所定の値(閾値)を超える出現数のキーワード又は、出現数の上位から所定数のキーワードを選択する。構造データ16の処理対象レコードの各カラムの内容もキーワード辞書の各キーワードと同様に扱う。この場合は、目的軸カラム104が示す治療費162をキーワードとして含めた方が、目的軸カラム104の内容と他のキーワード(第1階層メタデータ)の関係が明らかになる。
図9に、第1階層メタデータの抽出例を示す。図9(A)は、構造データ16の#1のレコードに対応付けられた、患者名Aのカルテがファイル#1として示してあり、図9(B)は、構造データ16の#2のレコードに対応付けられた、患者名Bのカルテがファイル#2として示してある。ファイル#1やファイル#2から、図中下線で示すキーワードが、自然言語処理を用いて抽出される。この段階では、形態素解析によりキーワードとなり得る名詞、動詞、形容詞、副詞などの、意味を持つ用語が抽出される。意味を持たない、助詞や助動詞などは抽出の対象外である。図9の例は、ファイル#1やファイル#2がテキストファイルであるカルテであるので、自然言語処理が使用されるが、音声ファイルや映像ファイルの場合は、特徴抽出技術を用い、音声をテキストに変換したり、映像を対応する(映像の内容を表す)テキストに変換することにより、テキストファイルの場合と同様に処理する。
図9(A)は、ファイル#1(患者Aのカルテ)からは患者Aの発熱やX薬に関するキーワード、図9(B)は、ファイル#2(患者Bのカルテ)から患者Bの経過情報に関するキーワードが抽出されている。これら抽出されたキーワードから、さらに構造データ16の処理対象レコードの各カラムの内容とキーワード辞書を参照して、第1階層メタデータを抽出する。抽出結果の例を、図9の下部に示す。
第1階層メタデータ値について説明する。図10に、信頼度計算表1000を示す。信頼度計算表1000は分析システムのメモリのワークエリアに作成される。信頼度計算表1000は、第1階層メタデータと第1階層メタデータ値の対応表1001と第2階層メタデータ、第2階層メタデータ値とその信頼度1002を含む。第2階層メタデータ、第2階層メタデータ値とその信頼度1002に関しては、後述する。第1階層メタデータ値は、第1階層メタデータの出現回数である。図10では、対応表1001として、図9(A)に対応して、ファイル#1(患者名Aのカルテ)から抽出された第1階層メタデータと第1階層メタデータ値を示している。たとえば、第1階層メタデータ「解熱」はファイル#1に20回出現したことを示している。
メタデータ抽出部12は、信頼度計算表1000の第1階層メタデータと第1階層メタデータ値の対応表1001に基づいて、第2階層メタデータとその値及びその信頼度1002を算出し、信頼度計算表1000に格納する(S121)。メタデータ抽出部12は、図7(A)に示した解析・信頼度計算ルールに基づいて、要約辞書500を用いて、第1階層メタデータと第1階層メタデータ値の対応表1001から、要約辞書500の上位階層メタデータ502に含まれる第2階層メタデータ/値1002を算出する。
具体例を説明する。第1階層メタデータと第1階層メタデータ値の対応表1001の内容に図7(A)に示した解析・信頼度計算ルールのルールAを適用する。計算ルールA‐1は、入力の第1階層メタデータの中で、出現回数が最大の第1階層メタデータを、その第1階層メタデータが属する第2階層メタデータとし、第1階層メタデータから第2階層メタデータ値を求めるルールを示している。対応表1001の第1階層メタデータ値である出現回数が最大の第1階層メタデータは「早い」である。要約辞書500を参照すると、第1階層メタデータ「早い」は第2階層メタデータ「効果」に属するので、出力する第2階層メタデータを「効果」とする。また、出現回数が最大の第1階層メタデータの「早い」を第2階層メタデータ値(ここでのメタデータ値は、数値ではなく、文字列である。)とする。
第2階層メタデータ値「早い」の信頼度を算出するために、図7(A)に示した解析・信頼度計算ルールの計算ルールA‐2を用いる。計算ルールA‐2は、計算ルールA‐1で求めた第2階層メタデータ値に指定した第1階層メタデータの出現回数を、第2階層メタデータに属する第1階層メタデータの出現回数の和で割った値を信頼度とすることを表している。第1階層メタデータと第1階層メタデータ値の対応表1001を参照すると、第2階層メタデータ「効果」に属する第1階層メタデータの出現回数の合計(第1階層メタデータ値の合計)は111である。したがって、第2階層メタデータ値「早い」の信頼度は80/111≒0.7となる。
以上のようにして求めた、第2階層メタデータ、第2階層メタデータ値、第2階層メタデータ値の信頼度を、信頼度計算表1000の第2階層メタデータ/値1002に格納する。
図7(A)に示した解析・信頼度計算ルールに基づいて、抽出した第1階層メタデータ名であるキーワードとその出現数である第1階層メタデータ値から、要約辞書500を用いて、認識レベル2であるメタデータの第2階層メタデータ及び第2階層メタデータ値の決定と信頼度を算出することを説明した。算出結果を、後述する階層管理メタデータモデルに適用し階層管理メタデータを作成する。ここで、第2階層メタデータは、前述のように、階層直下の第1階層メタデータの要約や組み合わせた意味をもつ用語となり、その値(上記の例では、「早い」)が第2階層メタデータ値である。信頼度は、各階層メタデータがそのメタデータ値を持つ確からしさを意味する数値である。上記の例では、第2階層メタデータ「効果」において、信頼度は第2階層メタデータ値「早い」の確からしさを表す。
次に、メタデータ抽出部12は、第2階層メタデータ、第2階層メタデータ値、信頼度を導出したのと同様に、認識レベル3であるメタデータの第3階層メタデータ、第3階層メタデータ値、及び信頼度を導出する(S122)。導出結果をメタデータ管理階層モデルに適用して階層管理メタデータとしてデータを保持する。
第3階層メタデータも第2階層メタデータと同様に、第2階層メタデータを要約した意味をもつ用語であり、その値が第3階層メタデータ値である。メタデータは階層により抽象化レベルが異なるので、要約辞書500を各階層間に関して用意する。このように要約辞書500を用意することにより、認識レベル及びメタデータの階層を多階層にできる。階層数は、分析システムを適用する分野に依存して決められる。また、キーワード辞書や要約辞書500の内容を、分析システムを適用する分野の特性に合わせて用意しておくことにより、各階層のメタデータとしての用語の特徴を、分析システムを適用する分野に適合するものにできる。分析システムを適用する分野に適合させた一例として、第3階層メタデータ値について説明する。
第3階層メタデータ値は、第2階層メタデータ値と同様に、第3階層メタデータに属する第2階層メタデータとしてもよいが、ここでは、第3階層メタデータ値は、観点を変えて、良い意味か悪い意味かを示す「ポジティブ」と「ネガティブ」とする。信頼度は、第2階層メタデータ値と同様に、第3階層メタデータ値の確からしさを表す。観点を変えてとは、分析システムを適用する分野に依存して、望ましい観点があるからである。
図7(B)に示した解析・信頼度計算ルールを適用した、第3階層メタデータ、第3階層メタデータ値、及び信頼度の導出について説明する。図7(B)に示す計算ルールB-1は、図6に示したポジティブ基準辞書を参照し、第2階層メタデータ値(図6の用語601)に対応するポジティブ度点数602を取得し、全ての第2階層メタデータ値のポジティブ度点数の合計が正の数ならばポジティブ、負の数ならばネガティブを、第3階層メタデータ値に設定する。なお、第3階層メタデータは、要約辞書500を使用して設定してもよいが、任意に設定してもよい。ここでは、第3階層メタデータを要約と呼び、最上位階層であるとする。
図7(B)に示す計算ルールB-2は、第3階層メタデータ値がポジティブならば、全ての第2階層メタデータ中のポジティブ度点数が正である第2階層メタデータの割合、ネガティブならば、全ての第2階層メタデータ中のポジティブ度点が負である第2階層メタデータの割合を信頼度とすることを表している。なお、計算ルールB-2に、ポジティブ度点数の総和の絶対値または平均値を信頼度とするように設定してもよい。具体的な数値による計算例の説明を省略するが、次に説明する図11の階層管理メタデータ17に示す数値になったものとして、説明を続ける。
次に、メタデータ抽出部12は、第1階層、第2階層及び第3階層のメタデータ及びそれらの信頼度を入力した階層管理メタデータ17を生成する(S123)。図11に、階層管理メタデータ17の一例を示す。階層管理メタデータ17は、構造データ16の各レコードに対応付けたファイル(170)F1、F2、F3、F4の各ファイル対応に、S120〜S122の処理により抽出又は算出した第1階層171、第2階層172及び第3階層173のメタデータ及びそれらの信頼度を示す。なお、図11では、第1階層メタデータ171と第2階層メタデータ172との対応関係が分かるように、第1階層メタデータ171を第2階層メタデータ172(たとえば、患者名)対応にまとめてある。
図12は、階層管理メタデータ17をツリー状に図示した例である。図12の#3として示す図は、図11のファイル(170)F3に対応した、第3階層メタデータ値がネガティブの例である。図12の#4として示す図は、図11のファイル(170)F4に対応した、第3階層メタデータ値がポジティブの例である。図11及び図12の数値に関する説明は省略する。
なお、ここまで第1階層メタデータとその出現回数である第1階層メタデータ値から第2階層メタデータ、第2階層メタデータから第3階層メタデータを導出する例を示した。一般には、メタデータ管理階層モデルの階層の数は任意である。任意のメタデータ群を元に、その任意のメタデータ群から他のメタデータ群(上位のメタデータ群)を生成することを繰り返すことで、メタデータ群間で階層構造を持つ階層管理メタデータ17を生成できる。分析システムが分析対象とする分野や望まれる分析精度に応じて、階層数が決定される。
以上のように、階層管理メタデータ17を出力として、メタデータ抽出部12は処理を終了する。
図4の非構造データ取得部11の説明に戻る。非構造データ取得部11は、入力分析情報10、構造データ16、及びメタデータ抽出部12が生成した階層管理メタデータ17をデータ分析部13へ出力し(S114)、データ分析部13を起動して処理を終了する。
図13に、データ分析部13の処理フローチャートを示す。データ分析部13は、非構造データ取得部11からの起動に応答して、分析入力情報10、構造データ16及び階層管理メタデータ17を入力する。構造データ16を分析用データ18として格納する。分析用データ18については後述する。
データ分析部13は、認識レベルの最大値を認識レベルの変数nに設定する(S130)。認識レベル1、2、・・・は、図11に示す階層管理メタデータ17の第1階層メタデータ、第2階層メタデータ、・・・に対応する。本実施形態は、図11に示すように第3階層メタデータまでの例であるので、認識レベル最大値を3とする。
データ分析部13は、認識レベルnに対応するメタデータ名を階層管理メタデータ17から取得し、メタデータ名リストを作成する(S131)。データ分析部13は、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、分析用データ18にその値を新しいカラムとして追加する(S132)。
図14に、分析用データ18の変化例を示す。図14では、図が見にくくなるのを避けるために符号を省略する。図14(A)は、データ分析部13の起動に伴って入力された構造データ16の内容が分析用データ18として格納されている。認識レベルn=3のとき、分析用データ18に新しいカラムとして追加される値は第3階層メタデータの値であり、分析用データ18の最右欄に追加された結果を、図14(B)に示す。
データ分析部13は、分析用データ18をパラメータとして分析精度評価部15を実行する(S133)。分析精度評価部15は、分析用データ18の分析精度を出力する。分析精度評価部15の処理については後述する。
データ分析部13は、前回の(S131〜S140のループにおける前回のループの)分析精度からの精度向上率を算出する(S134)。認識レベルnが認識レベル最大値のときは、前回の分析精度がないので、前回の分析精度を0として精度向上率を算出する。データ分析部13は、算出した精度向上率を精度向上率管理テーブルに格納する(S135)。後述する分析精度評価部15は、分析用データ18として図14(B)をパラメータとすると、分析精度を50%として出力する。
図15に、精度向上率管理テーブル19の一例を示す。精度向上率管理テーブル19は、認識レベル1501、追加メタデータ1502、分析精度1503および精度向上率1504の対応表である。データ分析部13は、分析精度評価部15が出力した分析精度と共に、そのときの認識レベル、分析用データ18への追加メタデータと共に精度向上率を、精度向上率管理テーブル19の対応する欄に格納する。
データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102を比較する(S136)。分析目標精度102が、分析精度評価部15が出力した分析精度より低くければ(分析精度が分析目標精度102を達成したならば)、S142へ進む。分析目標精度102が分析精度より低ければ、S137へ進む。
データ分析部13は、認識レベルnが分析入力情報10の認識レベル限界値103以上ならばS138へ進む。認識レベルnが認識レベル限界値103より低い場合、分析不可(141)として処理を終了する。たとえば、認識レベルnが3で、認識レベル限界値は1のときは、S138へ進む。
データ分析部13は、分析用データ18に追加した各メタデータの中で、信頼度の一番低いメタデータを決定する(S138)。分析用データ18が図14(B)の場合、追加したメタデータは第3階層メタデータ(要約)の一つであるので、その第3階層メタデータ(要約)を信頼度の一番低いメタデータとする。信頼度は、図7に示した解析、信頼度計算ルールを適用した値であり、図14(B)では追加した第3階層メタデータ(要約)のカッコ内の値(図中、0.9)である。
データ分析部13は、S138で決定したメタデータの直下の認識レベルのメタデータがあるかを判定し(S139)、ある場合は、認識レベルの変数nにn-1を設定し(S140)、S131へ戻る。ない場合は、分析不可(S141)として処理を終了する。決定したメタデータの直下の認識レベルのメタデータがあるかの判定は、階層管理メタデータ17を参照してもよいが、認識レベル(整数)の最小値を1としているので、nが2以上(1より大)であるかを判定してもよい。
データ分析部13のS131からのループ(繰り返し)について、説明を加える。データ分析部13は、S140でn=2としたとき、S131において、階層管理メタデータ17の第2階層メタデータを参照して、新たなメタデータ名リスト{薬名、患者名、効果、副作用}を作成する。新たなメタデータ名リスト{薬名、患者名、効果、副作用}に対応して、S132において、認識レベルn=2のとき、分析用データ18に新しいカラムとして第2階層メタデータの値が追加された結果を、図14(C)に示す。図14(C)に示すように、患者名がメタデータ名リストに含まれるが、患者名は構造データ16の一つとして分析用データ18に含まれているので、重複を避けるために追加しない。
後述する分析精度評価部15は、分析用データ18として図14(C)をパラメータとすると、分析精度を、「薬名」に関して50%、「効果」に関して75%、「副作用」に関して50%として出力する。したがって、図15の精度向上率管理テーブル19の分析精度1503に、分析精度評価部15が出力した各々の分析精度を格納すると共に、認識レベルn=1のときの分析精度50%からの各々の精度向上率を精度向上率1504に格納する。
データ分析部13は、認識レベルn=2のとき、最高の分析精度が75%であり、S136において、分析精度評価部15が出力した分析精度75%が、分析入力情報10の分析目標精度102である80%を達成していないので、S138において、メタデータ名リスト{薬名、患者名、効果、副作用}の中で信頼度が最も低い(数値例を省略)メタデータとして「効果」が決定される。データ分析部13は、ループ処理によりS131において、「効果」の直下の第1階層メタデータ名リストとして{解熱、早い、効く、医者、処置}を作成し、分析データ18に、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、その値を新しいカラムとして追加する。図14(D)が第1階層メタデータを追加した例である。ただし、一部の第1階層メタデータ「解熱」を追加した例を図示している。
データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102の比較の結果、分析精度が分析目標精度102を達成したならば、精度向上率管理テーブル19を参照して、精度向上率が高いカラムを重要カラムリストに入力する(S142)。図16に、重要カラムリストの一例を示す。重要カラムリスト20は、分析精度が分析目標精度102を達成したときの、精度向上率テーブル19の追加メタデータ1502及び精度向上率1504を、重要メタデータ1601及び精度向上率1602に格納するテーブルであり、後述する分析システムとしての分析結果出力の準備のためのテーブルである。重要メタデータ1601は、分析精度向上に基も寄与したメタデータである。分析入力情報10の分析目標精度102は80%であり、第1階層メタデータ「解熱」に関する分析精度は100%であるので、このときの分析精度評価結果が重要カラムリスト20に反映される。
データ分析部13は、重要カラムリスト20および分析用データ18を、出力装置を介して出力し(S143)、処理を終了する。出力する分析用データ18は、説明した例では、図14(D)になるが、分析精度が分析目標精度102を認識レベル2で達成した場合は、図14(C)になる。同様に、認識レベル3で達成した場合は、図14(B)になる。
図17に、分析精度評価部15の処理フローチャートを示す。分析精度評価部15は、データ分析部13から起動され、分析入力情報10および分析用データ18を入力とし、純度を算出し、その算出結果を分析精度として出力する。
分析精度評価部15は、分析入力情報10の目的軸カラム104の内容を正解データとする(S150)。図2に示す分析入力情報10の目的軸カラム104の内容は「治療費」であるので、この「治療費」を正解データとする。
分析精度評価部15は、入力した分析用データ18を対象として、正解データをN個のグループに分類するクラスタリングを実行し、その結果を正解パターンとして記憶する(S151)。入力した分析用データ18が、図14(C)の状態(データ分析部13が分析用データ18に第2階層メタデータを追加した状態)として、具体例を説明する。「治療費」が正解データであるので、$10の患者名A及びBと$1000の患者名C及びDの2グループに分類する。分類基準としての閾値は、2グループの場合、(最大値+最小値)/2としてもよいし、入出力装置を介して入力してもよい。一般にNグループに分類する場合、入出力装置を介して入力する。
分析精度評価部15は、分析精度評価対象データである分析用データ18のメタデータの各々に関してクラスタリングを実行し、各々を分類パターンとして記憶する(S152)。たとえば、メタデータ「効果」に関してクラスタリングを実行し、「早い」のグループの患者名A、B及びDと「処置」のグループの患者名Cの2グループに分類する。
分析精度評価部15は、正解データを対象とした正解パターンと、メタデータの分類パターンの一致率を算出し、その算出結果を分析精度として(S153)、データ分析部13へ処理を戻す。一致率とは、正解パターンにおける1グループに属するデータと、分類パターンにおける1グループのデータの数の割合である。この割合を求めるために純度を用いる。上述の例では、「治療費」を正解データとする正解パターンは、患者名A及びBのグループ1と患者名C及びDのグループ2である。分析精度評価対象データをメタデータ「効果」とする分類パターンは、「早い」の患者名A、B及びDのグループ3と「処置」の患者名Cのグループ4である。患者名A及びBは、正解パターンのグループ1と分類パターンのグループ3に属し、グループ1ならば100%の確率でグループ3という関係が成り立つ。一方、グループ2に属する、患者名Cはグループ3に属し、患者名Dグループ4に属し、グループ2ならば、50%の確率でグループ3又はグループ4に属するという関係が成り立つ。この正解パターンを前提として、分析精度評価対象データである「効果」を分類したグループに属する確率が最大となる組み合わせは、グループ1と3、グループ2と4として求めることができる。このときのそれぞれの生起確率100%と50%を加算し、その加算したグループ数2で割った数値である75%が純度として計算される。このようにして求めた純度を分析精度とする。
図18に、分析システムを使用するための、入出力装置(図示略)に表示する画面例を示す。画面は、ユーザが分析入力情報10の各項目を入力するための入力画面「入力」、分析システムによる分析を実行するための「実行」ボタン1805、及び分析結果を表示する出力画面「2.出力」を含む。
入力画面「入力」は、構造データのテーブルID101を入力する構造データ1801、分析目標精度102を入力する分析目標精度1802、認識レベル限界値103を入力する認識レベル限界値1803、および目的軸カラム104を入力する目的軸指定1804の各欄を有する。構造データ1801は、「参照」を指定入力し、表示される構造データを選択入力する欄である。分析目標精度1802及び認識レベル限界値1803は、図示するように、数値入力する欄である。目的軸指定1804は、構造データ1801の欄の構造データの選択入力に応答して表示される構造データのカラムを選択入力する。
ユーザによる分析入力情報10の各項目の入力、さらに「実行」ボタン1805の押下に応答して、分析システムは実行を開始し、実行が終了すると、出力画面「2.出力」を入出力装置に表示する。分析システムは出力画面に、分析用データ1806及び重要カラムリスト1807である。分析用データ1806は、図14に示した、分析システムによる分析精度が分析目標精度102を超えた段階の分析用データ18の内容である。図18では、図14(D)の分析用データ18の内容を表示している。重要カラムリスト1807は、図16に示した重要カラムリスト20の内容である。
本実施形態によれば、分析システムは、より単純な(明快な)分析結果を出力することができる。構造データに関連する可能性が高いメタデータを優先的に分析するので、データ分析にかかる時間を短縮できる。
10:分析入力情報、11:非構造データ取得部、12:メタデータ抽出部、13:データ分析部、15:分析精度評価部、16:構造データ、17:階層管理メタデータ、18:分析用データ、19:精度向上率管理テーブル、20重要カラムリスト。

Claims (12)

  1. 入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、
    前記非構造データ取得部が取得した前記非構造データから、メタデータを抽出し、抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、
    入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成するデータ分析部、および
    前記データ分析部が作成した前記分析用データを参照し、前記分析精度を求める分析精度評価部を有することを特徴とするデータ分析システム。
  2. 前記分析入力情報は、前記構造データ、前記目標分析精度、前記データ分析部が前記分析用データを作成する段階の限界を示す認識レベル限界値、及び、前記構造データの分析対象項目を示す前記目的軸を含むことを特徴とする請求項1記載のデータ分析システム。
  3. 前記メタデータ抽出部は、前記非構造データから、分析対象の分野のキーワード辞書を用いて前記メタデータを第1階層メタデータとして抽出し、前記第1階層メタデータと前記第1階層メタデータの上位概念を表す用語との対応関係を示す辞書を用いて、抽出した前記第1階層メタデータに対応する、前記辞書に含まれる用語を第2階層メタデータとして抽出し、さらに前記第2階層メタデータと前記第2階層メタデータの上位概念を表す用語の対応関係を示す他の辞書を用いて、抽出した前記第2階層メタデータに対応する、前記他の辞書に含まれる用語を第3階層メタデータとして抽出し、抽出した前記第1階層メタデータ、前記第2階層メタデータ及び前記第3階層メタデータの間の前記階層構造を示す前記階層管理メタデータを作成することを特徴とする請求項2記載のデータ分析システム。
  4. 前記メタデータ抽出部は、前記非構造データから、所定の値を超える出現数のキーワード及び出現数の上位から所定数のキーワードのいずれか一方のキーワードであり、前記キーワード辞書に含まれる前記メタデータを前記第1階層メタデータとして抽出することを特徴とする請求項3記載のデータ分析システム。
  5. 前記データ分析部は、前記階層管理メタデータに含まれる最上位階層のメタデータから前記分析用データを段階的に作成し、作成した前記分析用データに基づいて、前記分析精度が前記目標分析精度を超えたかを判定することを特徴とする請求項4記載のデータ分析システム。
  6. 前記データ分析部は、前記分析用データの段階的な作成が、前記認識レベル限界値に達したとき、分析不可であるとすることを特徴とする請求項5記載のデータ分析システム。
  7. データ分析システムにおけるデータ分析方法であって、前記データ分析システムは、
    入力した分析入力情報に指定された構造データに対応する非構造データを取得し、
    取得した前記非構造データからメタデータを抽出し、
    抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成し、
    入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、
    作成した前記分析用データを参照し、前記分析精度を求め、
    作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成することを特徴とするデータ分析方法。
  8. 前記データ分析システムは、
    前記分析入力情報は、前記構造データ、前記目標分析精度、前記分析用データを作成する段階の限界を示す認識レベル限界値、及び、前記構造データの分析対象項目を示す前記目的軸を含むことを特徴とする請求項7記載のデータ分析方法。
  9. 前記データ分析システムは、
    前記非構造データから、分析対象の分野のキーワード辞書を用いて前記メタデータを第1階層メタデータとして抽出し、
    前記第1階層メタデータと前記第1階層メタデータの上位概念を表す用語との対応関係を示す辞書を用いて、抽出した前記第1階層メタデータに対応する、前記辞書に含まれる用語を第2階層メタデータとして抽出し、
    さらに前記第2階層メタデータと前記第2階層メタデータの上位概念を表す用語の対応関係を示す他の辞書を用いて、抽出した前記第2階層メタデータに対応する、前記他の辞書に含まれる用語を第3階層メタデータとして抽出し、
    抽出した前記第1階層メタデータ、前記第2階層メタデータ及び前記第3階層メタデータの間の前記階層構造を示す前記階層管理メタデータを作成することを特徴とする請求項8記載のデータ分析方法。
  10. 前記データ分析システムは、
    前記非構造データから、所定の値を超える出現数のキーワード及び出現数の上位から所定数のキーワードのいずれか一方のキーワードであり、前記キーワード辞書に含まれる前記メタデータを前記第1階層メタデータとして抽出することを特徴とする請求項9記載のデータ分析方法。
  11. 前記データ分析システムは、
    前記階層管理メタデータに含まれる最上位階層のメタデータから前記分析用データを段階的に作成し、作成した前記分析用データに基づいて、前記分析精度が前記目標分析精度を超えたかを判定することを特徴とする請求項10記載のデータ分析方法。
  12. 前記データ分析システムは、
    前記分析用データの段階的な作成が、前記認識レベル限界値に達したとき、分析不可であるとすることを特徴とする請求項11記載のデータ分析方法。
JP2015540326A 2013-10-03 2013-10-03 データ分析システム及びその方法 Active JP6081609B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/076992 WO2015049769A1 (ja) 2013-10-03 2013-10-03 データ分析システム及びその方法

Publications (2)

Publication Number Publication Date
JP6081609B2 true JP6081609B2 (ja) 2017-02-15
JPWO2015049769A1 JPWO2015049769A1 (ja) 2017-03-09

Family

ID=52778379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015540326A Active JP6081609B2 (ja) 2013-10-03 2013-10-03 データ分析システム及びその方法

Country Status (2)

Country Link
JP (1) JP6081609B2 (ja)
WO (1) WO2015049769A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020225925A1 (ja) * 2019-05-09 2020-11-12 富士通株式会社 情報処理装置、情報処理システムおよび情報処理プログラム
CN111063446B (zh) * 2019-12-17 2023-06-16 医渡云(北京)技术有限公司 用于标准化医疗文本数据的方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226705A (ja) * 2011-04-22 2012-11-15 Nippon Telegr & Teleph Corp <Ntt> 非構造型データの構造化処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226705A (ja) * 2011-04-22 2012-11-15 Nippon Telegr & Teleph Corp <Ntt> 非構造型データの構造化処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013054992; 及川道雄、外7名: 'ヘルスケア情報利活用サービスの検討' 電気学会研究会資料(情報システム研究会 IS-13-001〜011) , 20130329, p.11-14, 一般社団法人電気学会 *
JPN6013054994; 児玉昇司、外3名: '大量・多種多様な非構造化データを扱う情報処理基盤-データ再目的化時代の到来-' 日立評論 第93巻 第7号, 20110701, p.56-59, 日立評論社 *

Also Published As

Publication number Publication date
WO2015049769A1 (ja) 2015-04-09
JPWO2015049769A1 (ja) 2017-03-09

Similar Documents

Publication Publication Date Title
US9720944B2 (en) Method for facet searching and search suggestions
De Carvalho et al. A genetic programming approach to record deduplication
US11157550B2 (en) Image search based on feature values
US11194797B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction
US9799040B2 (en) Method and apparatus for computer assisted innovation
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US11194798B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US11308083B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies
CN111581949A (zh) 学者人名的消歧方法、装置、存储介质及终端
JP2024502730A (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
CN107924417B (zh) 数据库管理装置及其方法
Consoli et al. A quartet method based on variable neighborhood search for biomedical literature extraction and clustering
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
JP6081609B2 (ja) データ分析システム及びその方法
WO2023246849A1 (zh) 回馈数据图谱生成方法及冰箱
Babur et al. Towards statistical comparison and analysis of models
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2014089646A (ja) 電子データ処理装置、及び電子データ処理方法
JP5954742B2 (ja) 文書を検索する装置及び方法
Szymczak et al. Coreference detection in XML metadata
JP6983105B2 (ja) データ蓄積システム及びデータ検索方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170118

R150 Certificate of patent or registration of utility model

Ref document number: 6081609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150