JP4890806B2 - 予測プログラムおよび予測装置 - Google Patents

予測プログラムおよび予測装置 Download PDF

Info

Publication number
JP4890806B2
JP4890806B2 JP2005217451A JP2005217451A JP4890806B2 JP 4890806 B2 JP4890806 B2 JP 4890806B2 JP 2005217451 A JP2005217451 A JP 2005217451A JP 2005217451 A JP2005217451 A JP 2005217451A JP 4890806 B2 JP4890806 B2 JP 4890806B2
Authority
JP
Japan
Prior art keywords
data
prediction
index
risk
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005217451A
Other languages
English (en)
Other versions
JP2007034700A (ja
Inventor
賢 渡辺
秀樹 花岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Fujitsu Ltd
Original Assignee
BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC., Fujitsu Ltd filed Critical BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Priority to JP2005217451A priority Critical patent/JP4890806B2/ja
Priority to US11/447,145 priority patent/US7668826B2/en
Publication of JP2007034700A publication Critical patent/JP2007034700A/ja
Application granted granted Critical
Publication of JP4890806B2 publication Critical patent/JP4890806B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/941Human sciences
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムおよび予測装置に関し、特に、評価対象に応じて精度の高い予測をおこなうことができ、その予測の根拠も示すことができる予測プログラムおよび予測装置に関するものである。
近年、ニューラルネットワークやSVM(Support Vector Machine)といった非線形分析手法をもちいた予測システムの研究が進んでいる。これらの非線形分析手法をもちいた予測システムは、従来の単純な線形手法をもちいた予測システムと異なり、学習に基づいて予測をおこなうため、非線形性を有する事象に対しても適用することができる。
非線形分析手法を応用した予測システムの例として、遺伝子の組合せから疾患の発生リスクを予測するリスク予測システムがある。遺伝子の組合せパターンは膨大であり、集団の階層化に代表される非線形効果が存在する。このため、単純な線形手法をもちいた予測システムよりも、非線形分析手法をもちいた予測システムの方が適切な予測結果を得ることができる。
非線形分析手法をもちいて遺伝子の組合せから疾患の発生リスクを予測する技術については、たとえば、特許文献1において開示されている。
特開2003−4739号公報
しかしながら、非線形分析手法をもちいた予測システムは、学習順序や学習の程度によって予測精度が左右されるため、予測の信頼性が学習過程に依存してしまうという問題がある。また、予測の根拠が曖昧であり、予測結果に関して明確な根拠を示すのが難しいという問題もある。
疾患の発生リスクの予測は、場合によっては生命にも影響を与えるため、予測結果には高い精度と明確な根拠がともなっていることが非常に重要である。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、評価対象に応じて精度の高い予測をおこなうことができ、その予測の根拠も示すことができる予測プログラムおよび予測装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、前記評価対象データの属性値を組み合わせて属性値の組合せパターンを生成する構造化手順と、前記集積データから前記組合せパターンに対応する結果を抽出し、抽出した前記結果を基に前記組合せパターンに対応する統計情報を算出し、前記組合せパターンと算出した統計情報との対応を表す部分集合データを生成する再構成手順と、前記再構成手順により生成された部分集合データの統計情報から統計量を算出し、前記統計量を基に有効な統計情報を抽出し、前記部分集合の内包関係を基に前記評価対象データとの関係における前記有効な統計情報それぞれの優位性を表す指標を求め、求めた指標を対応する前記部分集合データに設定する指標設定手順と、前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順とをコンピュータに実行させることを特徴とする。
また、本発明は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、前記評価対象データの属性値を組み合わせて属性値の組合せパターンを生成する構造化手段と、前記集積データから前記組合せパターンに対応する結果を抽出し、抽出した前記結果を基に前記組合せパターンに対応する統計情報を算出し、前記組合せパターンと算出した統計情報との対応を表す部分集合データを生成する再構成手段と、前記再構成手段により生成された部分集合データの統計情報から統計量を算出し、前記統計量を基に有効な統計情報を抽出し、前記部分集合の内包関係を基に前記評価対象データとの関係における前記有効な統計情報それぞれの優位性を表す指標を求め、求めた指標を対応する前記部分集合データに設定する指標設定手段と、前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段とを備えたことを特徴とする。
これらの発明によれば、集積データから評価対象データに応じた複数の部分集合データを導出し、これらの部分集合データのうち、評価対象データにとって重要性が高いものに基づいて予測処理をおこなうように構成したので、評価対象データに適合した精度の高い予測をおこなうことができる。
また、本発明は、上記の発明において、前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする。
また、本発明は、上記の発明において、前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする。
また、本発明は、上記の発明において、前記指標設定手順は、第1の部分集合データが第2の部分集合データに内包されている場合に、前記第1の部分集合データが前記第2の部分集合データよりも優位になるように指標を設定することを特徴とする。
これらの発明によれば、部分集合データ毎に評価対象データに対する重要性を評価するように構成したので、集積データ全体としては隠れていたデータの関連性が部分集合データにおいて明確になり、非線形手法のような高度な手法をもちいることなく一般的な手法で予測処理をおこなうことができ、また、予測の根拠も明確となる。
本発明によれば、集積データから評価対象データに応じた複数の部分集合データを導出し、これらの部分集合データのうち、評価対象データにとって重要性が高いものに基づいて予測処理をおこなうように構成したので、評価対象データに適合した精度の高い予測をおこなうことができるという効果を奏する。
また、本発明によれば、部分集合データ毎に評価対象データに対する重要性を評価するように構成したので、集積データ全体としては隠れていたデータの関連性が部分集合データにおいて明確になり、非線形手法のような高度な手法をもちいることなく一般的な手法で予測処理をおこなうことができ、また、予測の根拠も明確となるという効果を奏する。
以下に添付図面を参照して、本発明に係る予測プログラムおよび予測装置の好適な実施の形態を詳細に説明する。なお、以下の実施例では、本発明に係る予測プログラムおよび予測装置を疾患リスクの予測にもちいる場合を例にして説明するが、本発明の用途は、疾患リスクの予測に限定されるものではなく、たとえば、金融、マーケティングおよび保険などの分野におけるリスク評価に適用することができる。
まず、本実施例に係る予測方式の概要について説明する。本実施例に係る予測方式では、遺伝子情報と疾患情報とを集積した疫学データに基づいて特定の個体の疾患リスクの予測をおこなう。遺伝子は、複数の塩基の配列からなるが、この配列にはゆらぎがあり、個体ごとに塩基の配列の一部が異なることが知られている。そして、この塩基の配列の違いが疾患リスクと関連していると考えられている。
遺伝子上の一塩基の違いを意味するSNP(Single Nucleotide Polymorphism)において、一つのSNPについて2通りのパターンをとりうる場合、SNP100個の組合せの総数は、2の100乗となる。これは、10の30乗程度の桁であり、100個程度の組合せでも単純な数え上げの手法で分析することは困難である。なお、遺伝子が2倍体以上となる生物では、単純に2の乗数ではない。たとえば、2倍体である人間においては、SNPが2パターンである場合(例:A/C)、2倍体なので、ホモ(AA,CC)、ヘテロ(AC)の3パターンとなり、3の乗数になる。このような場合であっても、本手法は、扱うことが可能である。
一般に、人間1人あたり、遺伝子上にSNPが数百万程度あると予測されている上、通常、こうした分析においては、SNPだけでなく、多種多様な付加情報(年齢、性別、体重、地域、既往症等)を組み合わせて分析をおこなう必要がある。このため、調べるべき組合せは膨大なものとなり、全ての組合せについて疾患リスクを事前に分析しておくことは、設備コストや、処理時間の観点から、非常に困難である。
また、遺伝子の組合せパターンと疾患の関連には、非線形性があるため、単純な数え上げの手法のような線形手法では、有効な分析結果を得ることが難しい。ニューラルネットワークのような非線形手法をもちいて分析をおこなうことも可能であるが、非線形手法では、一般に、分析結果について明快な根拠を示すことができない。
疾患リスクの予測の用途としては、たとえば、顧客の依頼を受けてその顧客の遺伝子情報を取得し、取得した遺伝子情報と集積データから疾患リスクを予測し、予測結果を基にして診断やアドバイスをおこなうというモデルが考えられる。このような場合において、顧客に対して予測結果の根拠を示すことは、顧客に対して予測結果の信頼性を保証する上で重要である。
本実施例に係る予測方式では、評価対象のデータに応じて、動的に集積データの再構成をおこない、部分集合データを構成する。そして、構成した部分集合データに対して統計情報等を付与し、評価対象のデータとの適合性を求め、適合性の高い部分集合データを基にして予測をおこなう。
このように、評価対象のデータに応じて、動的に集積データの再構成をおこなうことにより、全ての組合せパターンを分析する場合と比較して、データの処理量が大きく減少し、処理時間の短縮を図ることができる。また、評価対象のデータと適合性の高い部分集合データに基づいて予測をおこなうことにより、集約データのもつ非線形特性を排除しながら、根拠が明確な予測をおこなうことができる。
次に、本実施例に係る予測装置の構成について説明する。図1は、本実施例に係る予測装置の構成を示すブロック図である。同図に示すように、本実施例に係る予測装置10は、集積データベース11と、個データベース12と、設定条件データベース13と、リスク予測部14と、関係構造データベース15と、再構成結果データベース16と、リスク指標データベース17と、リスク予測結果データベース18と、入出力部19とを有する。
集積データベース11は、遺伝子情報を含む疫学データを記憶する。個データベース12は、評価対象のデータを記憶する。設定条件データベース13は、各種の設定条件を記憶する。
リスク予測部14は、設定条件データベース13に記憶された設定条件に従って、集積データベース11に記憶された集積データと個データベース12に記憶された評価対象データに基づいてリスク予測をおこなう処理部である。
リスク予測部14は、データの再構成とデータの構造化、および統計・数学的手法等のデータマイニングを組み合わせることによりリスク判定指標を算出する。そして、各処理の結果を、関係構造データベース15、再構成結果データベース16、リスク指標データベース17およびリスク予測結果データベース18へ出力する。これらの結果は、評価対象のデータに対するリスク評価として入出力部19から出力することで、ユーザからのデータの取得、閲覧が可能となる。
入出力部19は、データの入出力するための処理部であり、データ入力用のキーボードやマウス、データ出力用のモニタや印刷装置などからなる。
次に、図1に示したリスク予測部14の構成について説明する。図2は、図1に示したリスク予測部14の構成を示すブロック図である。同図に示すように、リスク予測部14は、構造化部21と、再構成部22と、リスク判定指標処理部23と、リスク判定部24と、シミュレーション部25とを有する。
構造化部21は、所定のルールに従って、集積データベース11の各属性値の組合せを生成する処理部である。ここで、構造化部21の処理内容について具体例を示して説明する。
図3は、集積データベース11のデータ構成の一例を示すサンプル図である。同図に示すように、集積データベース11は、各データを識別するためのIDと、複数の項目からなる属性情報から構成される。図3の例では、遺伝子Aのタイプ、遺伝子Bのタイプ、遺伝子Cのタイプ、病気Aの発症の有無、病気Bの発症の有無、病気Cの発症の有無という属性情報が存在しているが、これら以外にも、多種多様の属性情報(たとえば、年齢、体重等)が存在してもよい。また、図3では単純に、各遺伝子が最大2パターンの例で示しているが、各属性情報の値が2パターン以上であってもよい。実際に、人間の場合、遺伝子のパターンは3パターン以上になる(塩基の種類は4種類あり、2倍体であるため)。
図4は、個データベース12のデータ構成の一例を示すサンプル図である。同図に示すように、個データベース12は、各データを識別するためのIDと、複数の項目からなる属性情報から構成される。図4の例では、遺伝子Aのタイプ、遺伝子Bのタイプおよび遺伝子Cのタイプという属性情報が存在しているが、これら以外にも、多種多様の属性情報(たとえば、年齢、体重等)が存在してもよい。また、各属性情報のパターンが2以上であってもよく、個データベース12と、集積データベース11の属性情報が全て一致している必要もない。
なお、図4の例では、個データベース12にデータが1件しか存在しないが、データは複数件存在してもよく、その場合、データごとに予測処理が実行される。
図5は、構造化部21の処理手順を示すフローチャートである。同図に示すように、構造化部21は、所定の初期処理をおこなった後(ステップS101)、設定条件データベース13や入出力部19から、構造化の手法とパラメータを取得する(ステップS102)。そして、個データベース12から評価対象のデータを取得し(ステップS103)、集積データベース11から属性情報の項目情報を取得する(ステップS104)。
続いて、取得した手法とパラメータに従って、集積データベース11の項目の組合せを生成し(ステップS105)、結果を関係構造データベース15に出力する(ステップS106)。なお、処理結果については、関係構造データベース15に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
図6は、構造化部21の出力結果の一例を示すサンプル図である。この例は、構造化の手法として、適合する属性数を評価した数(以降、「評価数」という)を使って関係構造情報を表現する旨が指定され、パラメータとして、遺伝子A、遺伝子Bおよび遺伝子Cの3つの項目を組み合わせるように指定された場合を示している。
この例では、構造化部21の処理結果は、名称と、評価数と、組み合わせる項目とからなる。組み合わせる項目は、指定されたパラメータにより変化し、この例では、遺伝子A、遺伝子Bおよび遺伝子Cである。
名称は、構造化部21により作成された各データを識別するための識別名である。評価数は、組み合わせる項目のうち、評価対象データと値が一致する項目の数を示す。たとえば、1行目のデータは、遺伝子Aの値が「A1」であり、遺伝子Bの値が「B2」であり、遺伝子Cの値が「C2」であることを求めているので、評価数は3となる。また、2行目のデータは、遺伝子Aの値が任意であり、遺伝子Bの値が「B2」であり、遺伝子Cの値が「C2」であることを求めているので、評価数は2となる。
組み合わせる項目には、評価対象データの同一項目の値、もしくは、属性値の関連が未評価であることを示す「*」が設定される。これらのデータは、後続の再構成処理において部分集合データを生成する際の検索条件となり、「*」は、任意の値にマッチする、いわゆる、ワイルドカードとして機能する。この例では、評価数が0〜3の全て組合せを生成し、評価対象データの値と全く適合しない組合せから、完全に適合している組合せまで作成している。
なお、構造化の手法は、リスク予測の処理の目的に応じて、各種統計や数学的表現、名称付与等の適切な方法を利用可能である。
図7に、評価数を使って関係構造を示した意味を示す。n次元(例では3次元)の立方体上の各頂点がそれぞれの評価属性の組合せパターンを示しており、各辺は、各頂点間の関係構造を示している。たとえば、(a1,a2,a3)=(A1,B2,C2)とした場合、(a1,a2,a3)は最も評価数が多いパターンであり、(a1,a2,0),(0,a2,a3),(a1,0,a3)は、一つだけ評価数が少ないパターンを示している。なお、図6における「*」は、図7では「0」に対応している。
この構造化により、評価対象の属性情報の値との一致の程度や、各属性値の組合せパターンの間の関連が明確にされる。また、属性情報の評価対象データへの関連性が明確になるので、未評価の属性値間の詳細な分析をおこなう必要がなくなり、計算量を節約することが可能になる。
なお、リスク判定部24で使用する処理方法(集計数をカウントするなど)によっては、再構成結果データベース16から、存在している(部分集合が空集合でない)集合の一致パターンを取得して、空集合以外の処理のみ行うことで、計算量を節約することもできる。
図2に戻って、再構成部22は、構造化部21が生成した属性値の組合せに従って部分集合データを生成し、これに統計データを付加する処理部である。ここで、再構成部22の処理内容について具体例を示して説明する。
図8は、再構成部22の処理手順を示すフローチャートである。同図に示すように、再構成部22は、所定の初期処理をおこなった後(ステップS201)、関係構造データベース15等から、属性値の組合せ情報(構造化部21の処理結果)を取得し(ステップS202)、設定条件データベース13や入出力部19から、再構成の手法とパラメータを取得する(ステップS203)。
そして、取得した組合せ情報に従って集積データベース11からデータを検索して部分集合データを生成し、取得した手法とパラメータに従って統計情報を付与し(ステップS204)、結果を再構成結果データベース16に出力する(ステップS205)。なお、処理結果については、再構成結果データベース16に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
図9は、再構成部22の出力結果の一例を示すサンプル図である。この例では、関係構造データベース15の、すべての属性値の組合せに対して処理を行った結果を示している。一度にすべての組合せを処理する必要がない場合は、リスク判定指標処理部23、もしくは、リスク判定部24からの要求に応じて、個別の組合せパターンに対して、その都度、必要な再構成処理をおこなってもよい。
属性情報のうち、利用する属性情報や具体的な条件、再構成時に付加する統計情報等は、入出力部19を介してユーザから受け付けるか、設定条件データベース13から読み込むか、もしくは、リスク判定部24等他の処理部からの指定に応じて処理される。
図9の例では、図6に示した組合せごとに「病気A」の発症のあるデータと発症のないデータとを集計し、統計量Yを求めている。この統計量Yは、たとえば、データ件数や、値の合計や平均値等であり、後続のリスク判定指標処理部23がもちいる手法において必要とされる情報である。この例では、統計情報として統計量Yのみを付加しているが、複数の統計量を付加してもよい。
図2に戻って、リスク判定指標処理部23は、再構成部22が生成した部分集合データと評価対象データとの適合性を判断する処理部である。ここで、リスク判定指標処理部23の処理内容について具体例を示して説明する。
図10は、リスク判定指標処理部23の処理手順を示すフローチャートである。同図に示すように、リスク判定指標処理部23は、所定の初期処理をおこなった後(ステップS301)、設定条件データベース13や入出力部19から、リスク判定指標の設定手法とパラメータを取得する(ステップS302)。
そして、再構成結果データベース16等から部分集合データを取得し(ステップS303)、取得した手法とパラメータに従って統計量Zを算出し、統計的に有効かどうかの判定結果を設定する(ステップS304)。この統計量Zは、当該の部分集合データにおける属性値の組合せと予測対象の事象(この例では「病気A」)との因果関係の有無を判定するための統計データであり、たとえば、オッズ比がもちいられる。前述のように、どのような統計手法をもちいて統計量Zを求めるかによって統計量Yとして必要とされる統計データの種類も変化するが、オッズ比をもちいて統計量Zを求める場合、統計量Yは該当パターンを有するデータの件数等になる。
続いて、後述するリスク判定指標付与処理をおこなって各部分集合データにリスク判定指標を付与し(ステップS305)、結果をリスク指標データベース17に出力する(ステップS306)。リスク判定指標は、当該の部分集合データと評価対象のデータとの適合性を判定するための統計データである。なお、処理結果については、リスク指標データベース17に出力せずに、次工程となる処理部に直接引き渡すように構成してもよい。
図11は、リスク判定指標処理部23の出力結果の一例を示すサンプル図である。この例では、因果関係の有効性判定のための統計量Zと、それを元にしておこなった有効性の判定結果と、部分集合データが評価対象のデータに対して重要かを示すリスク判定指標を付与した結果を示している。図11では、リスク判定指標が0以外で小さい数字ほど評価対象のデータに近い組合せパターンであることを示し、そのうち、判定結果が有効であるものが、評価対象のデータにより重要であることを示す。
図12は、統計量Zとして、疫学でよく利用されるオッズ比をもちいた例を示している。この例では、「処理を行う値の組合せパターンとそれ以外のパターン」と「リスク評価を行いたい属性のとりうる2つの値」で2×2のクロス表を作成し、統計量Zを算出している。個々のクロス表の値は、条件に該当するデータ件数であり、統計量Yより得て計算をおこなっている。
具体的には、処理を行う組合せパターンでリスク評価の属性毎に再構成した統計量Y(図9の例では図Y3HおよびY3P)と、同様に全く評価を行わない組合せパターンの場合の統計量Y(図9の例では、Y0H、Y0P)を再構成結果データベース16より取得する。この結果、図12に示す2×2のクロス表{=A、B、C、D}が得られ、統計量Zが算出される。この例では、統計量Zは、オッズ比(Z3o)や、信頼区間(Z3r+、Z3r−)とすることができる。
オッズ比以外の統計手法では、集積データベース11のデータ以外のデータを必要とする場合がある。この場合は、必要に応じて設定条件データベース13等にそのデータを記録しておき、取得することとすればよい。たとえば、ベイズ統計の場合は、事前分布の情報を必要とするので、これを外部データとして設定条件データベース13や、入出力部19から取得する必要がある。
次に、図10に示したリスク判定指標付与処理について説明する。本処理で付与するリスク判定指標は、統計的に有効と判定され、かつ、属性の値の適合状況が高いパターンに対して優位になるように設定されるのが特徴である。
図13−1は、リスク判定指標付与処理の概念を説明するための概念図である。この図では、図7と同様に属性値の各組合せパターンをn次元(この例では3次元)の立方体の各頂点とし、さらに、図11に示した統計的な有効性/無効性を各頂点に追記したものである。
リスク判定指標は、統計的に無効な組合せパターンについては常に0となる。また、統計的に有効な組合せパターンについては、他の有効な組合せパターンを内包しないパターンほど小さな値となる。すなわち、リスク判定指標が1以上であって小さいものほど組合せパターンの適合状況が高いことを示す。さらに、判定結果が有効(統計的に優位)であれば、評価対象のデータにとって、有効かつ重要な要素の組合せパターンであることを示す。
たとえば、(A1,0,C2)という有効なパターンは、他の有効な組合せパターンを内包しないため、リスク判定指標は1となる。同様に、(0,B2,0)という有効なパターンも、リスク判定指標は1となる。(A1,0,0)という有効なパターンは、(A1,0,C2)という有効なパターンを内包しているため、属性の適合状況が低くなり、リスク判定指標は2となる。これは、0という座標値は、「*」を示し、とりうる全ての値を含むためである。
(0,B2,0)と(A1,0,0)は、どちらも有効なパターンであり、評価数も1で共通しているが、他の有効なパターンを内包していない(0,B2,0)の方がリスク判定指標の値が小さくなり、評価対象のデータに対してより適合性が高いと判断される。
他の有効な組合せパターンを内包しているか否かは、図13−1に示した図において、評価対象のパターンと完全に一意する頂点までの経路上に他の有効なパターンを示す頂点が存在するか否かで判断することができる。(A1,0,C2)と(0,B2,0)は、(A1,B2,C2)に到達するまでの経路上に他の有効なパターンを示す頂点が存在しないが、(A1,0,0)は経路上に(A1,0,C2)が存在している。
図13−2は、リスク判定指標付与処理の処理手順を示すフローチャートである。同図に示すように、まず、全てのデータのリスク判定指標を0でクリアする(ステップS401)。
そして、再構成データを1件取得する(ステップS402)。このデータの統計的な有効性の判定結果が有効でない場合は(ステップS403否定)、ステップS402で取得していないデータがあるか否かを確認し、存在すれば(ステップS411肯定)、ステップS402へ復帰し、ステップS402で全てのデータを取得済みであれば(ステップS411否定)、処理を終了する。
ステップS402で取得したデータの統計的な有効性の判定結果が有効である場合は(ステップS403肯定)、当該のデータのリスク判定指標を1だけ加算する(ステップS404)。
そして、再構成データを1件取得する(ステップS405)。ここで、ステップS405で取得したデータが、ステップS402で取得したデータと同一データでなく(ステップS406否定)、かつ、統計的に有効であり(ステップS407肯定)、かつ、ステップS402で取得したデータを内包している場合は(ステップS408肯定)、ステップS405で取得したデータのリスク判定指標を1だけ加算する(ステップS409)。
ステップS406〜S409の後、ステップS405で取得していないデータがあるか否かを確認し、存在すれば(ステップS410肯定)、ステップS405へ復帰する。ステップS405で全てのデータを取得済みの場合は(ステップS410否定)、ステップS411へ進む。
ステップS411へ進んだ場合は、ステップS402で取得していないデータがあるか否かを確認し、存在すれば(ステップS411肯定)、ステップS402へ復帰する。ステップS402で全てのデータを取得済みの場合は(ステップS411否定)、処理を終了する。
図13−3は、リスク判定指標付与処理のもう一つの処理手順を示すサンプル図である。同図に示すように、リスク判定指標付与処理においては、関係構造に従って、評価数の大きい層から順にリスク判定処理をおこなうこととしてもよい。
本例では、リスク判定指標の算出方法として、(対象データも含む)経路上にある上流の有効数と対象データの有効性から算出した例を示した。算出方法は、対象データの有効数の算出を算出し、有効数から、リスク判定指標の算出をおこなう。具体的には、処理を行うデータの上位にある、起点(患者の状態ベクトル:図7参照)からの複数の経路のうち、最大の有効状態がある経路上の有効数を取得する。
この有効数に対して、対象データ自身が有効である場合は、1を加算する処理をおこない、無効である場合は、何も加算しない。こうして得られた処理結果を、処理対象データの有効数とする。次に、処理対象データが有効である場合は有効数に1を掛け、無効である場合は0を掛け、その結果をリスク判定指標とする。
同じ評価数の組合せパターンがない場合、もしくは、リスク判定指標が付与済みである場合は、評価数が一つ少ない下位の層の組合せパターン群を取得し、同様の判定処理をおこなう。リスク判定部24に必要なパターンが得られるまで、この処理を繰り返しおこなう。この方式で処理をおこなった場合のリスク判定指標付与処理の処理結果の一例を図13−4に示す。
たとえば、リスク判定部24の処理において、リスク判定指標が1までのデータしか利用しない場合は、全ての経路が0でなくなった時点で処理を終了すれば、リスク判定指標が1の組合せを得ることができる。この結果、全ての組合せを処理する必要が無くなり、コンピュータの処理の量をさらに減らすことも可能である。
リスク判定指標付与処理には、関係構造の表現方法や、属性要素のデータの性質(連続量/離散量等)、リスク判定方法、組み合わせる統計・数学的手法に応じて、多様なアルゴリズムがありうるが、本実施例に係る予測装置においてもちいる場合は、属性情報の組合せパターンが評価対象データに近く、かつ、因果関係が統計的に有効なデータほどリスク判定指標が優位になるようにすればよい。この際、有効な組合せパターン間で、属性要素の組合せに包含関係がある場合は、評価数の大きい大きな集合の組合せを優位とする必要がある。
実際、図13−2と、図13−3に示した処理例では、処理対象データが内包する組合せに対してリスク判定指標の値が異なる。図13−2の場合は、処理対象データ内のある組み合わせパターンが内包する全ての有効な組合せパターンの数(有効数)に対して+1のリスク判定指標が与えられ、図13−3の場合の例は、状態ベクトルが示す起点から、ある組合せパターンまでの、複数の経路上に内包される有効な組合せパターンに対して、最大の有効数である経路の有効数(最大有効数)に+1となる。いずれの場合も、対象データの属性の組合せに対して、最も近い有効な例は1となる。
なお、リスク判定指標処理部23で使用する統計手法を、設定条件データベース13より取得することができるようにし、統計手法を目的に応じてユーザが選択することができるようにしてもよい。本手法で用いたオッズ比以外にも、χ二乗検定などの統計検定法や、ベイズ統計等の一般的手法を組み合わせて有効性の判定を行うことができる。
図2に戻って、リスク判定部24は、構造化部21と再構成部22とリスク判定指標処理部23の処理結果に基づいて、評価対象データのリスク評価をおこなう処理部である。ここで、リスク判定部24の処理内容について具体例を示して説明する。
図14は、リスク判定部24の処理手順を示すフローチャートである。同図に示すように、リスク判定部24は、所定の初期処理をおこなった後(ステップS501)、設定条件データベース13や入出力部19から、リスク判定の手法とパラメータを取得する(ステップS502)。
そして、関係構造データベース15、再構成結果データベース16、リスク指標データベース17等から必要なデータを取得し(ステップS503)、それを基にしてリスクの予測をおこない(ステップS504)、結果をリスク予測結果データベース18に出力する(ステップS505)。なお、処理結果については、予測結果データベース18に出力せずに、入出力部19に出力したり、他の処理部に引き渡したりするように構成してもよい。
図15は、リスク判定部24の出力結果の一例を示すサンプル図である。この例では、予測結果を識別するためのIDと予測結果とが対で出力されている。出力結果には、予測の根拠となった部分集合データ等を含めてもよい。
上記のステップS504でおこなう予測処理の手法は、ステップS502で取得した手法により決定されるが、この手法はいかなるものであってもよい。図16にリスク予測処理の例を示す。
この例では、リスク判定指標が1(最も重要)であり、かつ、信頼区間が設定された条件を満たすデータをもちいて予測をおこなっている。また、予測は、所定の判定ルールに基づいておこなっている。具体的には、安全側に有効なデータが1件でもあれば、「安全」と判断する。安全側に有効なデータが1件もなく、危険側に有効なデータが1件でもあれば、「危険」と判断する。安全側に有効なデータも、危険側に有効なデータも存在しなければ、「判定不可」と判断する。なお、この判定ルールは、予測の対象や目的に応じて変更してよい。
本例は、最も単純な判定例を示したが、判定対象によっては、リスク判定指標が2以下の状態を考慮した複雑な判定ルールを設定してもよい。この際、上述したように、判定指標付与処理の処理手順によって、2以上のリスク判定指標の値が異なるため、判定ルールを判定指標付与処理に応じて変更してもよい。
このように本実施例に係る予測方式では、再構成をおこなって生成した部分集合データのうち、評価対象データと類似性が高く、さらに、属性値の組合せが統計的に有効であると判断されたデータに基づいて予測をおこなうため、非線形手法のような高度な手法をもちいなくても、一般的な手法を利用して予測をおこなうことができる。また、予測にもちいた部分集合データ等や、解析結果を提示することで、予測の明快な根拠を示すこともできる。
上記の例では、リスク判定指標処理部23が求めたオッズ比をもちいて予測をおこなっているが、新たに、ベイズ統計、多変量解析法等の手法をもちいてリスクの傾向を把握し、リスク予測をおこなうこともできる。また、本実施例では、リスク判定指標処理部23、リスク判定部24、ともにオッズ比単体で、有効性とリスクの傾向(危険率)を処理しているが、処理を行う集団データの特性に応じて複数の手法を組み合わせて処理をおこなってもよい。
なお、上記実施例において説明した構造化部21、再構成部22およびリスク判定指標処理部23の処理順序は、必ずこの例の通りである必要はなく、処理目的等に応じて変更することもできる。
図2に戻って、シミュレーション部25は、リスク予測結果や、得られた統計情報が指定された条件になるまで、設定条件を変更し、予測処理を繰り返す等のシミュレーションをおこなう処理部である。
図17は、シミュレーション部25の処理手順を示すフローチャートである。同図に示すように、シミュレーション部25は、所定の初期処理をおこなった後(ステップS601)、設定条件データベース13や入出力部19から、各処理部の処理手法とパラメータを取得する(ステップS602)。
そして、取得した手法とパラメータをもちいて構造化部21と、再構成部22と、リスク判定指標処理部23と、リスク判定部24に処理をおこなわせ、予測結果を得る(ステップS603)。この処理結果がステップS602で取得した条件に適合する場合は(ステップS604肯定)、結果を出力して処理を終了する(ステップS605)。
処理結果がステップS602で取得した条件に適合しない場合は(ステップS604否定)、ステップS602で取得した情報に基づいてパラメータを再設定し(ステップS606)、ステップS603に復帰して予測処理を再実行する。
ステップS604で判定する条件は、たとえば、予測結果が「判定不可」でないことといった条件や、リスク判定指標の値が1で、かつ、有効と判定されたデータが全て危険方向もしくは安全方向の一方で有効であることといった条件を設定することができる。また、ステップS606でパラメータの再設定では、たとえば、有効性の判断基準を厳しくしたり、緩めたりといった変更をおこなう。
このように、指定された条件に適合するまで予測を繰り返し実施することで、パラメータを試行錯誤しながら設定することなく、自動的に適切な判定処理をおこなうことができる。この結果、品質のよい予測結果を得ることが可能になる。
次に、ユーザが各種設定をおこなったり、リスク予測結果等を参照したりするための入出力部19のユーザインターフェースの例を示す。
図18は、画面の全体構成とビュー画面に登録データの一覧結果を示した例を示すサンプル図である。ビュー画面には、リスク予測をおこないたい評価対象データのIDと、リスク予測結果(病名リスク該当数、病名)と各詳細データや、登録した検査データ等へのリンクボタンが表示されている。また、設定値を変更して再予測をおこなう場合の再評価対象先が示してある。この画面を参照することで、リスクがある病気等をユーザが把握することができる。また、マウス等を用いての操作が可能である。
なお、この画面に表示されている処理結果は、複数の評価対象データごと、かつ、リスクを予測したい病気ごとに予測処理を繰り返し実行した結果である。
また、画面には、ID単位で詳細表示をおこなう「詳細表示ボタン」、データをデジタルファイルとして取得する「詳細データ取得ボタン」、新しいデータを登録する「新規データの登録ボタン」、リスク予測をおこないたい病気等を設定する「リスク評価対象の病名の設定」ボタン、リスク判定をおこなう手法を設定する「リスク判定法の設定」ボタン、リスク判定結果から、リスク予測をおこなう条件を設定する「リスク予測法の設定」ボタン、ユーザの設定に基づいてリスク予測を開始する「予測開始」ボタンがある。また、現在の設定状態の一部(リスク評価対象の病気の設定結果、リスク判定法の設定結果、リスク予測法の設定結果)を表示し、ユーザの利便性を図ることができる。
図19は、ID単位でリスク予測結果の詳細表示をおこなう画面の一例を示すサンプル図である。詳細表示のリンクか、マウスフォーカスと詳細表示ボタンをもちいて、この画面を表示させることができる。この例では、IDと、IDが示す評価対象データの各種属性値(身長、体重、体脂肪率、性別等)などが上部に示される。また、リスクを予測する病気の名称と、それを示す証拠となる属性の組合せパターン、予測結果、付加情報(参考文献)等が中央に一覧表示され、ユーザがリスク予測の根拠等を詳細に把握することができる。
また、評価対象データの氏名、年齢、国籍、居住場所等も表示設定できる。これらのデータは画面上で直接変更可能であり、データを更新/編集することができる。加えて各種検査データや、遺伝子データなどを表示するリンクボタンがあり、使用したデータを直ちに呼び足すことができる。他のリスク等を予測する場合、例えばマーケティングであれば、「リスクの病気の名称」が、「購入可能性のある商品/サービス」に変わり、組合せパターンが、アンケートや購入履歴等の組合せに置き換わる。
図20は、ID単位での検査データを表示する画面の一例を示すサンプル図である。これらは、いわゆる生理学的な検査の例を示しており、各種の検査項目、検査機関、検査日付等を記録できる。また、画面上で表示項目の編集/更新等をおこなうことができる。病気のリスク予測でなく、他のリスクを予測する場合、例えばマーケティングなどであれば、個人情報等などを記録することができる。
図21は、ID単位での遺伝子データを表示する画面の一例を示すサンプル図である。本ビュー画面では、検査遺伝子名称と、その検査結果と、参考データ(該当遺伝子とSNPsの名称)を示している。また、該当遺伝子や、SNPsは公開ネットワーク上に存在するデータのリンク等を示してもよい。
本ビュー画面で、検査遺伝子の編集/更新等もおこなうことができる。この例では、遺伝子情報と、検査データを別項目としたが、遺伝子情報は膨大なデータ量があるため、便宜的に分けただけであり、共有化することも可能である。
図22は、リスク評価対象の病気の設定をおこなう画面の一例を示すサンプル図である。本画面には、リスク予測をおこなう病気をすべて選択状態とする「すべて選択」ボタン、すべてを非選択状態とする「すべて解除」ボタン、各項目単位でリスク予測をおこなうかどうかを設定する「設定」ボタンおよび「解除」ボタンがある。
また、「リスク予測可能な病名」と、予測をおこなうか否かの設定状態を示す「予測設定」と、各種付加情報を示す「備考:関連参考資料」からなる一覧表を表示する。リスク予測可能なデータはシステム上にある疫学データに依存するため、リスク予測可能な病名をシステム側が自動的に表示可能である。この例では、リスク予測可能な病気すべてについて予測をおこなうように設定した例を示している。マーケティング等で使用する場合は、病名を購入予測可能な商品/サービス等に置き換えればよい。
図23は、リスク予測をおこなう際に必要なリスク判定手法を設定するための画面の一例を示すサンプル図である。画面上には、リスク判定法を選択する選択エリアと、リスク判定法毎の各種設定項目を示すサブウインドウがある。サブウインドウ内は、選択エリアの選択内容によって表示が切り替わるようになっている。
この例では、選択エリアにおいてオッズ比が選択されており、サブウインドウには、有効性の判定をおこなう手法、判定の条件、データの構成方法等を示している。本インターフェースを利用して、ユーザは、リスク判定で使用するデータ分析/解析手法を選択することができ、判定条件、手法等を設定することができる。これにより、本手法では、汎用的な統計・数学的なデータ分析/解析手法をユーザの選択に基づいて組み合わせてリスク判定をおこなうことが可能になっている。
図24は、リスク予測をおこなう際の条件を設定する画面の一例を示すサンプル図である。この画面では、リスク予測をおこなう際に必要な統計手法と、その手法の適用結果から得られるリスク分析パターンとリスク予測の対応関係を指定することができる。図に示したように、設定条件に数式等を利用して判定を設定することも可能である。
注意すべきは、図23に示したリスク判定法とはまったく同じでないことである。オッズ比や、ベイズ統計などは、リスクの割合や確率等でリスクの傾向を示すことができ、同時に信頼性も示すことができる。リスク判定では、信頼性を調べることが重要であり、リスク予測では、リスクの傾向を示すことが重要である。このため、χ二乗検定のように、信頼性のみに適応した手法はリスク予測では利用できない。また、オッズ比や、ベイズ統計のようにいずれにも利用できる場合でも、データによっては手法を使い分けたほうがよい場合もあるので、本実施例では、別々に設定できるようになっている。
上記実施例で説明した予測装置10の各種の処理は、あらかじめ用意された予測プログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図25をもちいて、予測プログラムを実行するコンピュータの一例を説明する。
図25は、予測プログラムを実行するコンピュータを示す機能ブロック図である。このコンピュータ100は、ユーザからのデータの入力を受け付ける入力装置101、モニタ102、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取り装置103、各種情報を一時記憶するRAM(Random Access Memory)104、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース装置105、HDD(Hard Disk Drive)106およびCPU(Central Processing Unit)107をバス108で接続して構成される。
そして、HDD106には、予測装置10の機能と同様の機能を発揮するプログラムである予測プログラム106bが記憶されている。HDD106には、図1の集積データベース11〜リスク予測結果データベース18に対応する予測用データベース106aも記憶される。
なお、予測用データベース106aについては、適宜統合または分散して配置することとしてもよい。
そして、CPU107が、予測プログラム106bをHDD106から読み出して実行することにより、同プログラムは、予測プロセス107aとして機能するようになる。この予測プロセス107aは、図1に示したリスク予測部14に対応する。
また、CPU107は、HDD106の予測用データベース106aから適宜必要な情報を読み出してRAM104に予測用データ104aとして格納し、このRAM104に格納された予測用データ104aに基づいて各種データ処理を実行する。
なお、上記の予測プログラム106bについては、必ずしもHDD106に格納されている必要はなく、CD−ROM等の記憶媒体に記憶された予測プログラム106bを、コンピュータ100が読み出して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WAN等を介してコンピュータ100に接続される他のコンピュータ(またはサーバ)などに予測プログラム106bを記憶させておき、コンピュータ100がこれらからプログラムを読み出して実行するようにしてもよい。
上述してきたように、本実施例に係る予測方式では、予測の基礎となる集積データが、多数の組合せパターンが内包し、事前に法則抽出が困難であっても、適切な予測結果をえることができる。集積データに埋もれている特殊な関係を、評価対象データの属性情報と少なくとも一部が一致する部分集合を生成することにより抽出することができる。
また、評価対象データの属性情報の内容に応じて、集積データを再構成して分析するので、個々の評価対象データに適応した予測結果を得ることができる。同一のアルゴリズムと集積データをもちいて予測をおこなう場合であっても、評価対象データのデータパターン毎に構造化結果が異なるため、各種統計量やリスク判定指標、要素の値の組合せパターンなどが評価対象データ毎に異なったものとなり、集積データに応じて適切な評価をおこなうことができる。
また、構造化によって部分集合の組合せを生成し、これ対象として予測処理をおこない、さらに、各組合せに優先順位を付け、集積データの大部分が属する組合せである、評価対象データと適合性の低い組合せの優先順位を下げて予測処理をおこなうことで、集積データ全体を詳細に分析する場合と比べて、計算機資源を大幅に節約することができる。
また、シミュレーションをおこなうことで、予測処理のパラメータ設定の適正化を自動化することができ、高度な分析・予測を自動的におこなうことができる。
またSVMや、ニューラルネットワーク等の解析手法と異なり、リスク判定指標処理部23や、リスク判定部24において使用するデータマイニング/分析手法や、予測の判定条件に、一般的な統計・数学的手法を採用することができる。この結果、リスクの判定基準や予測基準としてデータの特性に応じた手法を採用することができ、判断根拠も採用した統計手法に基づいて示すことができる。
(付記1)属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手順と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手順と、
前記再構成手順により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手順と、
前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順と
をコンピュータに実行させることを特徴とする予測プログラム。
(付記2)前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする付記1に記載の予測プログラム。
(付記3)前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする付記1または2に記載の予測プログラム。
(付記4)前記指標設定手順は、第1の部分集合データが第2の部分集合データに内包されている場合に、前記第1の部分集合データが前記第2の部分集合データよりも優位になるように指標を設定することを特徴とする付記1〜3のいずれか一つに記載の予測プログラム。
(付記5)前記判定手順は、部分集合データを基にして予測結果を判定する手法を複数備え、切り替えて実行することができることを特徴とする付記2〜4のいずれか一つに記載の予測プログラム。
(付記6)前記指標設定手順は、組合せの統計的な有効性を判定する手法を複数備え、切り替えて実行することができることを特徴とする付記1〜5のいずれか一つに記載の予測プログラム。
(付記7)所定の条件が満足されるまで、パラメータを変動させて他の手順を繰り返し実行するシミュレーション手順をさらにコンピュータに実行させることを特徴とする付記1〜6のいずれか一つに記載の予測プログラム。
(付記8)前記予測プログラムは、各手順が処理に使用した情報を表示可能なユーザインターフェースを備えたことを特徴とする付記1〜7のいずれかひとつに記載の予測プログラム。
(付記9)属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化手段と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成手段と、
前記再構成手段により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定手段と、
前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段と
を備えたことを特徴とする予測装置。
(付記10)属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測方法であって、
前記評価対象データの属性値と不特定の値を意味する属性値とを組み合わせて属性値の組合せパターンを生成する構造化工程と、
前記組合せパターンと一致するデータを前記集積データより検索し、部分集合データを生成する再構成工程と、
前記再構成工程により生成された各部分集合データに対して、評価データとの関連の重要性を示す指標を設定する指標設定工程と、
前記指標設定工程により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定工程と
を含んだことを特徴とする予測方法。
以上のように、本発明に係る予測プログラムおよび予測装置は、属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する場合に有用であり、特に、評価対象に応じて精度の高い予測をおこない、その予測の根拠も示すことが必要な場合に適している。
本実施例に係る予測装置の構成を示すブロック図である。 図1に示したリスク予測部の構成を示すブロック図である。 集積データベースのデータ構成の一例を示すサンプル図である。 個データベースのデータ構成の一例を示すサンプル図である。 構造化部の処理手順を示すフローチャートである。 構造化部の出力結果の一例を示すサンプル図である。 構造化の数学的意味を説明するためのサンプル図である。 再構成部の処理手順を示すフローチャートである。 再構成部の出力結果の一例を示すサンプル図である。 リスク判定指標処理部の処理手順を示すフローチャートである。 リスク判定指標処理部の出力結果の一例を示すサンプル図である。 統計量Zの一例を示すサンプル図である。 リスク判定指標付与処理の概念を説明するための概念図である。 リスク判定指標付与処理の処理手順を示すフローチャートである。 リスク判定指標付与処理のもう一つの処理手順を示すサンプル図である。 リスク判定指標処理部の出力結果の一例を示すサンプル図である。 リスク判定部の処理手順を示すフローチャートである。 リスク判定部の出力結果の一例を示すサンプル図である。 リスク予測処理の一例を示すサンプル図である。 シミュレーション部の処理手順を示すフローチャートである。 画面の全体構成とビュー画面に登録データの一覧結果を示した例を示すサンプル図である。 ID単位でリスク予測結果の詳細表示をおこなう画面の一例を示すサンプル図である。 ID単位での検査データを表示する画面の一例を示すサンプル図である。 ID単位での遺伝子データを表示する画面の一例を示すサンプル図である。 リスク評価対象の病気の設定をおこなう画面の一例を示すサンプル図である。 リスク予測をおこなう際に必要なリスク判定手法を設定するための画面の一例を示すサンプル図である。 リスク予測をおこなう際の条件を設定する画面の一例を示すサンプル図である。 予測プログラムを実行するコンピュータを示す機能ブロック図である。
符号の説明
11 集積データベース
12 個データベース
13 設定条件データベース
14 リスク予測部
15 関係構造データベース
16 再構成結果データベース
17 リスク指標データベース
18 リスク予測結果データベース
19 入出力部
21 構造化部
22 再構成部
23 リスク判定指標処理部
24 リスク判定部
25 シミュレーション部
100 コンピュータ
101 入力装置
102 モニタ
103 媒体読取り装置
104 RAM
104a 予測用データ
105 ネットワークインターフェース装置
106 HDD
106a 予測用データベース
106b 予測プログラム
107 CPU
107a 予測プロセス
108 バス

Claims (6)

  1. 属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測プログラムであって、
    前記評価対象データの属性値を組み合わせて属性値の組合せパターンを生成する構造化手順と、
    前記集積データから前記組合せパターンに対応する結果を抽出し、抽出した前記結果を基に前記組合せパターンに対応する統計情報を算出し、前記組合せパターンと算出した統計情報との対応を表す部分集合データを生成する再構成手順と、
    前記再構成手順により生成された部分集合データの統計情報から統計量を算出し、前記統計量を基に有効な統計情報を抽出し、前記部分集合の内包関係を基に前記評価対象データとの関係における前記有効な統計情報それぞれの優位性を表す指標を求め、求めた指標を対応する前記部分集合データに設定する指標設定手順と、
    前記指標設定手順により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手順と
    をコンピュータに実行させることを特徴とする予測プログラム。
  2. 前記指標設定手順は、属性値の組合せが統計的に有効な部分集合データが優位になるように指標を設定することを特徴とする請求項1に記載の予測プログラム。
  3. 前記指標設定手順は、評価データと値が一致する属性値が多い部分集合データが優位になるように指標を設定することを特徴とする請求項1または2に記載の予測プログラム。
  4. 前記指標設定手順は、第1の部分集合データが第2の部分集合データに内包されている場合に、前記第1の部分集合データが前記第2の部分集合データよりも優位になるように指標を設定することを特徴とする請求項1〜3のいずれか一つに記載の予測プログラム。
  5. 前記判定手順は、前記指標設定手順により設定された指標を参照し、各前記統計情報の優位性を基に、判定根拠となる部分集合データを選択することを特徴とする請求項1〜4のいずれか一つに記載の予測プログラム。
  6. 属性値の組合せと結果の対応を集積した集積データを基にして、属性値の新たな組合せからなる評価対象データの結果を予測する予測装置であって、
    前記評価対象データの属性値を組み合わせて属性値の組合せパターンを生成する構造化手段と、
    前記集積データから前記組合せパターンに対応する結果を抽出し、抽出した前記結果を基に前記組合せパターンに対応する統計情報を算出し、前記組合せパターンと算出した統計情報との対応を表す部分集合データを生成する再構成手段と、
    前記再構成手段により生成された部分集合データの統計情報から統計量を算出し、前記統計量を基に有効な統計情報を抽出し、前記部分集合の内包関係を基に前記評価対象データとの関係における前記有効な統計情報それぞれの優位性を表す指標を求め、求めた指標を対応する前記部分集合データに設定する指標設定手段と、
    前記指標設定手段により設定された指標に基づいて判定根拠となる部分集合データを選択し、選定した部分集合データに基づいて予測結果の判定処理をおこなう判定手段と
    を備えたことを特徴とする予測装置。
JP2005217451A 2005-07-27 2005-07-27 予測プログラムおよび予測装置 Expired - Fee Related JP4890806B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005217451A JP4890806B2 (ja) 2005-07-27 2005-07-27 予測プログラムおよび予測装置
US11/447,145 US7668826B2 (en) 2005-07-27 2006-06-06 Predicting apparatus, predicting method, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217451A JP4890806B2 (ja) 2005-07-27 2005-07-27 予測プログラムおよび予測装置

Publications (2)

Publication Number Publication Date
JP2007034700A JP2007034700A (ja) 2007-02-08
JP4890806B2 true JP4890806B2 (ja) 2012-03-07

Family

ID=37743734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217451A Expired - Fee Related JP4890806B2 (ja) 2005-07-27 2005-07-27 予測プログラムおよび予測装置

Country Status (2)

Country Link
US (1) US7668826B2 (ja)
JP (1) JP4890806B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137932A1 (en) * 2003-12-23 2005-06-23 D'angelo Joseph K. System and method of enterprise risk evaluation and planning
CN101441730B (zh) * 2007-11-19 2012-05-23 财团法人资讯工业策进会 事件侦测方法与系统
US9529974B2 (en) 2008-02-25 2016-12-27 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9489495B2 (en) * 2008-02-25 2016-11-08 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9746985B1 (en) 2008-02-25 2017-08-29 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US8881040B2 (en) 2008-08-28 2014-11-04 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
JP2009217455A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、情報処理プログラム及び方法
US8065257B2 (en) * 2009-07-27 2011-11-22 Saab Sensis Corporation System and method for correlating past activities, determining hidden relationships and predicting future activities
US20110093309A1 (en) * 2009-08-24 2011-04-21 Infosys Technologies Limited System and method for predictive categorization of risk
WO2016116958A1 (ja) 2015-01-19 2016-07-28 株式会社東芝 系列データ分析装置及プログラム
JP6702686B2 (ja) * 2015-10-09 2020-06-03 株式会社エムティーアイ 表現型推定システム及び表現型推定プログラム
US10592837B2 (en) * 2017-04-21 2020-03-17 Accenture Global Solutions Limited Identifying security risks via analysis of multi-level analytical records
JP6972641B2 (ja) * 2017-04-28 2021-11-24 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
WO2019202728A1 (ja) * 2018-04-20 2019-10-24 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置及びデータ解析方法
JP7383886B2 (ja) * 2019-03-06 2023-11-21 富士通株式会社 推定プログラム、装置、および方法
JP6883599B2 (ja) * 2019-03-07 2021-06-09 シスメックス株式会社 医療関係者による遺伝子情報の解釈を支援する方法、情報管理システム、統合データ管理装置
CN116051173B (zh) * 2023-03-30 2023-06-30 安徽交欣科技股份有限公司 一种客流量预测方法、系统及公交派车方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2373500B (en) * 2000-02-04 2004-12-15 Aeomica Inc Methods and apparatus for predicting, confirming, and displaying functional information derived from genomic sequence
JP2004512494A (ja) * 2000-02-04 2004-04-22 イーオミカ・インコーポレイテッド ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置
US6535227B1 (en) * 2000-02-08 2003-03-18 Harris Corporation System and method for assessing the security posture of a network and having a graphical user interface
US7213023B2 (en) * 2000-10-16 2007-05-01 University Of North Carolina At Charlotte Incremental clustering classifier and predictor
WO2002069198A2 (en) * 2001-02-21 2002-09-06 The Board Of Regents Of The University Of Oklahoma Hla ligand database utilizing predictive algorithms and methods of making and using same
US7430534B2 (en) * 2001-06-15 2008-09-30 Abb Ab System, method and computer program product for risk-minimization and mutual insurance relations in meteorology dependent activities
JP2003004739A (ja) * 2001-06-26 2003-01-08 Takara Bio Inc 遺伝子発現プロファイル解析方法及び装置
US7107155B2 (en) * 2001-12-03 2006-09-12 Dnaprint Genomics, Inc. Methods for the identification of genetic features for complex genetics classifiers
AU2003290537A1 (en) * 2002-10-24 2004-05-13 Duke University Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
US20040122708A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical data analysis method and apparatus incorporating in vitro test data
WO2004075010A2 (en) * 2003-02-14 2004-09-02 Intergenetics Incorporated Statistically identifying an increased risk for disease
JP4854506B2 (ja) * 2003-04-01 2012-01-18 ユニバーシティ オブ サザン カリフォルニア 疾患のリスクを予測および評価するためのう食リスク試験
CN1867922A (zh) * 2003-10-15 2006-11-22 株式会社西格恩波斯特 疾病危险度判定用基因多态的确定方法、疾病危险度判定方法及判定用阵列
WO2005044087A2 (en) * 2003-11-05 2005-05-19 The Regents Of The University Of California Methods for the determination of protein three-dimensional structure employing hydrogen exchange analysis to refine computational structure prediction
US7266537B2 (en) * 2004-01-14 2007-09-04 Intelligent Results Predictive selection of content transformation in predictive modeling systems

Also Published As

Publication number Publication date
US7668826B2 (en) 2010-02-23
US20070038587A1 (en) 2007-02-15
JP2007034700A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
JP4890806B2 (ja) 予測プログラムおよび予測装置
AU2016272732B2 (en) Discovering population structure from patterns of identity-by-descent
JP6066825B2 (ja) データ分析装置及び保健事業支援方法
Mittal et al. High-dimensional, massive sample-size Cox proportional hazards regression for survival analysis
EP2700049A2 (en) Predictive modeling
JP6567484B2 (ja) 推計モデル構築システム、推計モデル構築方法及びプログラム
JP4318221B2 (ja) 医療情報分析装置、方法及びプログラム
WO2015071968A1 (ja) 分析システム
US11443238B2 (en) Computer system and presentation method of information
Yuan et al. A unified approach for simultaneous gene clustering and differential expression identification
KR101595784B1 (ko) 패혈증 고위험군 예측 방법 및 시스템
JP6268000B2 (ja) 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム
JP2006163489A (ja) 発症確率算出装置、および、プログラム
JP6988827B2 (ja) 異常識別システム、方法及びプログラム
Croft et al. Structuring the unstructured: estimating species-specific absence from multi-species presence data to inform pseudo-absence selection in species distribution models
Ziebarth et al. Precise network modeling of systems genetics data using the Bayesian network webserver
JP7027359B2 (ja) ヘルスケアデータ分析装置及びヘルスケアデータ分析方法
US20230229937A1 (en) Ai training data creation support system, ai training data creation support method, and ai training data creation support program
Clark et al. Bayesian logistic regression using a perfect phylogeny
WO2023162239A1 (ja) 解析装置、解析方法、および解析プログラム
Lehmann et al. High trait variability in optimal polygenic prediction strategy within multiple-ancestry cohorts
JP5425686B2 (ja) 医療情報処理装置およびプログラム
Li et al. InterVA4: An R package to analyze verbal autopsy data
JP6975682B2 (ja) 医学情報処理装置、医学情報処理方法、及び医学情報処理プログラム
JP7563998B2 (ja) 計算機及び施策の評価方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111215

R150 Certificate of patent or registration of utility model

Ref document number: 4890806

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees