JP3217049U - データ分析システム - Google Patents

データ分析システム Download PDF

Info

Publication number
JP3217049U
JP3217049U JP2018001565U JP2018001565U JP3217049U JP 3217049 U JP3217049 U JP 3217049U JP 2018001565 U JP2018001565 U JP 2018001565U JP 2018001565 U JP2018001565 U JP 2018001565U JP 3217049 U JP3217049 U JP 3217049U
Authority
JP
Japan
Prior art keywords
parameter
research
data
algorithm
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018001565U
Other languages
English (en)
Inventor
張漢威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HAN WEI ZHANG
Original Assignee
HAN WEI ZHANG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HAN WEI ZHANG filed Critical HAN WEI ZHANG
Application granted granted Critical
Publication of JP3217049U publication Critical patent/JP3217049U/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データ分析システムを提供する。【解決手段】伝送ユニット10とストレージユニット20とコントロールユニット30と処理ユニット40と表示ユニット50と、を含む。伝送ユニットは、研究データを受信するために用いられる。ストレージユニットは研究データを保存するために用いられる。コントロールユニットは、操作命令に基づいて研究方策、第1パラメータ及び第2パラメータを生成するために用いられる。処理ユニットは、伝送ユニット、ストレージユニット及びコントロールユニットに接続される。処理ユニットは、研究方策、第1パラメータ及び第2パラメータに基づいて、伝送ユニットを通じて分析しようとするデータ内から研究データを取得する。統計アルゴリズムで第1パラメータ、第2パラメータ及び研究データを分析することで統計情報を生成する。次に、検定アルゴリズムに基づき、第1パラメータ、第2パラメータと各研究データを分析することで統計的検定を生成する。【選択図】図1

Description

本考案は、データ分析システムに関し、特に、データ内の各事象の間の関連性を検討できるデータ分析システムに関する。
この数年ビッグデータ(又は巨大なデータ、大きいデータ、Big Dataも呼ばれる)の課題が常に言及され、その意味は及ぶデータ量の規模が巨大で、かつ手作業を通じて合理的な時間内にキャプチャ、管理、処理すると共に人間が解読できる形として整理できない情報である。よって、どのようにビッグデータを処理し、また分析研究して人間が速やかに理解できる情報として整理するかが非常に重要な課題であった。
世間においてビッグデータへの分析方法は様々で、キーワードのサーチ方法でデータを取得し、次に同じキーワードを有するデータ内の某特定事項に対応する関連内容を分析する。言い換えると、まずビッグデータ内から同じ特徴を持つデータを取得してからこの同じ特徴を持つデータが特定事項に対応する関係を分析することで、特定事項に対応する分析結果が得られる。
しかしながら、異なる特定事項があった場合、前述の分析を繰り返すことで、異なる特定事項に属する分析結果を得ることができるが、2つの異なる特定事項の間の関連性を見分けることが難しくなっていた。よって、異なる特定事項、及び異なる特定事項の間の関係を速やかに分析できる1つの解決策を出す必要がある。
そこで、本考案は上記問題に鑑み、ユーザーに異なる事象間の関連性を速やかに理解させることで、異なる事象間の様々な可能性を検討するデータ分析システムを提供する。
本考案の一実施例は、伝送ユニットとストレージユニットとコントロールユニットと処理ユニットと表示ユニットと、を含むデータ分析システムを提供する。伝送ユニットは、研究データを受信するために用いられる。ストレージユニットは研究データを保存するために用いられる。コントロールユニットは、操作命令に基づいて研究方策、第1パラメータ及び第2パラメータを生成するために用いられる。処理ユニットは、伝送ユニット、ストレージユニット及びコントロールユニットに接続される。処理ユニットは、研究方策、第1パラメータ及び第2パラメータに基づいて、伝送ユニットを通じて分析しようとするデータ内から研究データを取得する。処理ユニットは、研究方策に基づいて統計アルゴリズムで第1パラメータ、第2パラメータ及び研究データを分析して統計情報を生成する。該処理ユニットは、検定アルゴリズムに基づいて第1パラメータ、第2パラメータ及び各研究データを分析することで、統計的検定を生成する。表示ユニットは、処理ユニットに接続することで、統合情報を表示する。統合情報は、処理ユニットが統合アルゴリズムに基づいて第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合するものである。
本考案の一実施例は、コントロールユニットで操作命令に基づき第1パラメータ、第2パラメータ及び研究方策を生成することと、分析しようとするデータ内から第1パラメータ及び第2パラメータに対応する少なくとも1つの研究データを取得することと、伝送ユニットで各研究データを受信することと、処理ユニットで研究方策に基づき統計アルゴリズムにより第1パラメータ、第2パラメータ及び各研究データを分析して統計情報を生成することと、処理ユニットで検定アルゴリズムに基づき第1パラメータ、第2パラメータ及び各研究データを関連付けて分析することで統計的検定を生成することと、処理ユニットで統合アルゴリズムに基づき第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合情報として統合することと、表示ユニットで統合情報を表示することと、を含むデータ分析方法を提供する。
上記実施例によれば、本考案は、ユーザーに表示ユニットで表示される統合情報を通じて、研究データ内の第1パラメータと第2パラメータとの間の関連度を速やかに知らせることができる。言い換えると、処理ユニットが分析しようとするデータ内から取得した研究データは、第1パラメータと第2パラメータを関連付けた分析演算を経た後で、研究データにおいて第1パラメータと第2パラメータとの間に比較的高い関連度の有無を知ることができる。よって、ユーザーは、統合情報を通じて選択した第1パラメータ及び第2パラメータに研究参考の価値があるかどうかを速やかに知ることができ、こうして研究の効率を高めて研究成果を向上できる。
本考案の一実施例に係る事象関連性の分析システム構成を示す模式図である。 本考案の一実施例に係る事象関連性の分析方法のフローチャートである。 本考案の一実施例に係る統計情報の発生率を計算するフローチャートである。 本考案の一実施例に係る統計情報の発生密度を計算するフローチャートである。 本考案の一実施例に係るテップS03の詳細フローチャートである。 本考案の別の実施例に係るステップS03の詳細フローチャートである。 本考案の更なる実施例に係るステップS03の詳細フローチャートである。 本考案のステップS05の詳細フローチャートである。
図1は、本考案の一実施例に係る事象関連性の分析システム構成を示す模式図である。図2は、本考案の一実施例に係る分析方法のフローチャートである。
図1及び図2を参照する。本考案に係る事象関連性の分析システムは、伝送ユニット10とストレージユニット20とコントロールユニット30と処理ユニット40と表示ユニット50とを含み、処理ユニット40が伝送ユニット10とストレージユニット20とコントロールユニット30と表示ユニット50との間を接続する。
伝送ユニット10は、データベース60から研究データを受信できる。一実施例において、伝送ユニット10は、1つ又は複数の研究データを受信できるが、本考案はこれに限定されるものではない。一実施例において、データベース60は、分析しようとするデータを保存することで、分析しようとするデータ内から研究データをキャプチャしてからユニット10に伝送する。
一実施例において、伝送ユニット10は、有線又は無線方式でデータベース60と接続できることで、データベース60内に保存している分析しようとするデータ内から研究データを取得する。
一実施例において、伝送ユニット10は、WiFi(登録商標)、GSM(登録商標)、ブルートゥース(登録商標)、赤外線、WiMAX(登録商標)、Zigbee(登録商標)、Zwave、無線周波数(RF)又はその他等に適合する無線伝送方式で伝送を行うことができる。或いは伝送ユニット10は、Ethernet(登録商標)、RF232若しくはその他等に適合する有線伝送方式で伝送できる。
一実施例において、データベース60は、ビッグデータ(又は巨大なデータ、大きいデータ、Big Dataも呼ばれる)を保存しているものとすることができる。よって、データベース60内には、ストレージユニットを備え、該ストレージユニットがリードオンリーメモリ、ランダムアクセスメモリ、不揮発性メモリ、揮発性メモリ、スタティックメモリ、ダイナミックメモリ、フラッシュメモリ及び/或いはデジタル情報を保存する設備とすることができる。
一実施例において、本考案は、複数のデータベース60を備え、かつ同一マシンルーム内に配置されることができるが、本考案はこれに限定されものではなく、幾つかの実施例において、各データベース60が異なる場所に分散することができる。また随時分析しようとするデータを取得するため、データベース60はクラウド内にも配置できる。
ストレージユニット20は、データベース60からの研究データを保存するものである。一実施例において、ストレージユニット20は、リードオンリーメモリ、ランダムアクセスメモリ、不揮発性メモリ、揮発性メモリ、スタティックメモリ、ダイナミックメモリ、フラッシュメモリ及び/或いはデジタル情報を保存する設備とすることができる。
一実施例において、データベース60は、ストレージユニット20を統合できるものである。すなわち、処理ユニット40は、第1パラメータ及び第2パラメータを伝送ユニット10によりデータベース60に伝送した後、データベース60がその内部の分析しようとするデータ内から対応する研究データを取得し、研究データが第1研究データ、第2研究データ又はその他等の研究データに区分させることができるが、本考案はこれに限定されるものではない。
コントロールユニット30は、操作命令に基づき研究方策、第1パラメータ及び第2パラメータ(すなわち、図2内のステップS01)を生成できる。一実施例において、操作命令は、ユーザーの操作によって生成され、言い換えると、研究方策、分析しようとする原因事象(すなわち、第1パラメータ)及び結果事象(すなわち、第2パラメータ)を選択するため、ユーザーがユーザーインターフェースを経由して操作命令を下すことができる。
ユーザーインターフェースは、コンピュータ又はハンドヘルド装置上に表示され、更にキーボード、ボタン又はタッチ方式を通じて操作命令を下すことができる。幾つかの実施例において、操作命令は音声方式を通じて下すこともでき、すなわち、音声を通じてユーザーの声を識別して操作命令を生成する。
表示ユニット50は、処理ユニット40を経由して統合情報を受信し、また統合情報をスクリーンに表示する。すなわち、ユーザーは、表示ユニット50を通じて原因事象及び結果事象の分析結果を速やかに知ることができる。その詳細を後記で説明する。
ここで、処理ユニット40は、コントロールユニット30から研究方策、第1パラメータ及び第2パラメータを受信した後、伝送ユニット10を経由してデータベース60に接続し、またデータベース60から対応する研究方策、第1パラメータ及び第2パラメータの研究データ(すなわち、ステップS02)を受信して研究データをストレージユニット20内に保存できる。
次に、処理ユニット40は、研究方策に基づき統計アルゴリズムで研究データ、第1パラメータ及び第2パラメータを分析して計算することで統計情報を生成(すなわち、ステップS03)し、並びに検定アルゴリズムに基づき第1パラメータ、第2パラメータを分析することで、統計的検定を生成する(すなわち、ステップS04)。
そして処理ユニット40は、統合アルゴリズムに基づき、第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合情報として統合(すなわち、ステップS05)して表示ユニット50に伝送することで、表示ユニット50が統合情報を表示する(すなわち、ステップS06)。
一実施例において、コントロールユニット30の第1パラメータ及び第2パラメータは、1つの分類条件を広く指し、例えばスチレンに接触しているかどうか(第1パラメータ)及び白血病かどうか(第2パラメータ)、高温地域に位置するかどうか(第1パラメータ)及びかき氷機を購入しているかどうか(第2パラメータ)、喫煙者かどうか(第1パラメータ)及び肺がんを患っているかどうか(第2パラメータ)、コーヒーを愛飲しているかどうか(第1パラメータ)及び骨粗鬆症を患っているかどうか(第2パラメータ)又はその他の何らかの条件であるが、本考案はこれに限定されないものとする。言い換えると、ユーザーは、分析しようとする原因事象(第1パラメータ)及び結果事象(第2パラメータ)を選択でき、これを介して原因事象と結果事象との間の関連性を検討できる。
表示ユニット50に表示される統合情報は、研究データ内の第1パラメータと第2パラメータとの間に適合する関連度を表示でき、第1パラメータ及び第2パラメータに対応する研究データに研究・参考価値があるかどうかをユーザーに速やかに理解させることができる。
幾つかの実施例において、ユーザーはコントロールユニット30を通じて第3パラメータ又は第4パラメータを生成することもできる。処理ユニット40を通じて分析や研究することで第1パラメータと第2パラメータと第3パラメータと第4パラメータとの間の関連度を検討できる。こうして速やかにデータを分析や研究することで、研究者の研究効率を高めることができる。
一実施例において、研究方策は、第1研究方策と第2研究方策と第3研究方策とを含む。第1研究方策、第2研究方策及び第3研究方策の詳細な内容を後記で説明する。
以下、幾つかの実施例を本考案の応用として説明するが、本考案の応用は、これら実施例に限定されないものとする。
実施例1において、研究者は、スチレンの職業接触により白血病罹患リスク上昇の有無を研究する。まず、データベース60には、すでに1990年〜2012年に中小企業1000社に雇用されていた従業員70000名を研究対象とするデータ(分析しようとするデータ)を保存している。これにより、研究者(すなわち、ユーザー)は、コントロールユニット30を操作して第1研究方策を選択し、かつ第1パラメータをスチレン職業接触の有無の従業員として選択し、第2パラメータを従業員が白血病に罹患したかどうか患者として選択する(すなわち、ステップS01)。
Figure 0003217049
表1は、実施例1の第1研究方策の統計表である。表1を参照する。処理ユニット40は、コントロールユニット30を経由して第1研究方策、第1パラメータ及び第2パラメータを受信し、伝送ユニット10を経由してデータベース60から第1研究方策、第1パラメータ及び第2パラメータに対応する研究データをサーチ並びに受信できる(すなわち、ステップS02)。
本実施例において、処理ユニット40は、データベース60内からスチレンの職業接触あり(第1パラメータ)、かつ白血病あり(第2パラメータ)の者が120人あり、スチレンの職業接触あり、かつ白血病なしの者が29880人のデータを取得できる。同様に、処理ユニット40もスチレンの職業接触なし、かつ白血病ありの者が80人あり、スチレンの職業接触なし、かつ白血病なしの者が39920人のデータも取得できる。一実施例において、処理ユニット40は、伝送ユニット10を経由してデータベース60に接続すると、データベース60が分析しようとするデータ内から第1研究方策、第1パラメータ及び第2パラメータに合致する研究データを取得し、そして研究データを伝送ユニット10によって処理ユニット40に伝送する。
次に、処理ユニット40は、統計アルゴリズムに基づいて前記各研究データ、第1パラメータ、第2パラメータを分析して計算して統計情報を生成できる(すなわち、ステップS03)。統計情報は、発生率、発生密度、相対危険度、オッズ比又はその他等の統計意味を持つパラメータとすることができる。
本考案はこれに限定されるものではなく、幾つかの実施例において、統計情報は、発生率、発生密度、相対危険度、オッズ比、その他等の統計意味を持つパラメータのうちの任意の組み合わせとすることができる。言い換えると、統計アルゴリズムは、発生率アルゴリズム、発生密度アルゴリズム、相対危険度アルゴリズム、オッズ比アルゴリズム或いはその他等の統計意味を持つアルゴリズムに関するものであり、本考案はこれに限定されるものではない。
図3は、本考案の一実施例に係る統計情報の発生率を計算するフローチャートである。図3を参照する。処理ユニット40は、発生率アルゴリズムに基づいて第1パラメータ及び第2パラメータに対応する発生率を計算する(すなわち、ステップS031)。一実施例において、発生率を算出するため、発生率アルゴリズムは、(研究事象を発生した新ケース数/研究事象を発生する可能性のある全てのケース数)×1000‰とすることができる。
例を挙げると、スチレンの職業接触あり、かつ白血病ありの発生率が(120/30,000)×1000‰=4‰で、その統計情報はスチレンの職業接触あり1,000人につき4人が白血病に罹ったものである。同様に、スチレンの職業接触なし、かつ白血病ありの発生率は(80/40,000)×1000‰=2‰で、すなわち、統計情報はスチレンの職業曝露なし1,000人で2人が白血病に罹患したことを示している。またすべての人口集団における白血病発生率が(200/70,000)×1000‰=2.86‰で、すなわち、統計情報は1,000人で2.86人が白血病に罹患したことを示している。
図4は、本考案の一実施例に係る統計情報の発生密度を計算するフローチャートである。図4を参照する。一実施例において、処理ユニット40は、発生密度アルゴリズムに基づいて分析計算を行って第1パラメータ及び第2パラメータに対応する発生密度を得ることができ(すなわち、ステップS032)、算出した統計情報から一定期間(研究期間)内の事象発生の潜在力があるが、事象を発生していない時間の人年数の総和を知得できる。すなわち、これを介して研究対象(人口集団)内の事象を発生した新ケース数、人口集団の大きさ及びそれらケース数の発生で経過した時間を検討できる。
本実施例において、分析しようとするデータ内には全世代が23年間追跡観察(研究調査期間は1990年を起点とし、2012年まで追跡する)され、研究ケースが白血病の罹患と診断されると、事象発生と見なし、それとは逆に2012年末までにやはり該疾病を検出しない場合、事象の未発生と見なす。
Figure 0003217049
表2は、実施例1の第1研究方策の別の統計表である。表2を参照する。処理ユニット40は、上表に基づいてスチレンに曝露した従業員における白血病ありの発生密度が(120/1,000,000)×1000=0.12と算出でき、すなわち、統計情報がスチレンに曝露した従業員において、1,000人年で0.12人が白血病に罹患したことを示している。同様に、スチレンに曝露しない従業員における白血病ありの発生密度は(80/1,600,000)×1000=0.05で、すなわち、統計情報はスチレンに曝露しない従業員において、1,000人年で0.05人が白血病に罹患したことを示している。また、すべての人口集団の白血病発生密度が(200/2,600,000)×1000=0.08で、すなわち、統計情報は1,000人年で0.08人が白血病に罹患したことを示している。
図5は、本考案の一実施例に係るテップS03の詳細フローチャートである。図5を参照する。処理ユニット40が分析計算を行うことで統計情報を生成するステップにおいて、処理ユニット40は、前記各発生率(すなわち、ステップS031)に基づいて分析計算を行って発生率比が得られる(すなわち、ステップS0311)。すなわち、スチレン曝露者の白血病罹患発生率/スチレン非曝露者の白血病発生率が4‰/2‰=2で、これはスチレン曝露者の白血病罹患リスクがスチレン非曝露者より2倍高いことを示している。言い換えると、処理ユニット40は、発生率に基づきスチレン曝露者がスチレン非曝露者に比べて白血病に罹患する相対危険度(統計情報)を知ることができる。
発生率比は、因子曝露組(群)の事象発生率と非因子曝露組(群)の事象発生率のオッズ比である。すなわち、本実施例において発生率比は、スチレン曝露の事象発生率とスチレン非曝露の事象発生率のオッズ比である。
図6は、本考案の別の実施例に係るテップS03の詳細フローチャートである。図6を参照する。一実施例において、処理ユニット40が分析計算を行うことで統計情報を生成するステップ中で、処理ユニット40は前記各発生密度(すなわち、ステップS032)に基づいて分析計算を行って発生密度比が得られる(すなわち、ステップS0321)。すなわち、スチレン曝露者の白血病発生密度/スチレン非曝露者の白血病発生密度が0.12/0.05=2.4で、これはスチレン曝露者の白血病発生密度がスチレン非曝露者より2.4倍高いことを示している。言い換えると、スチレン曝露者は、スチレン非曝露者に比べて白血病発生密度が2.4倍より高い。
発生密度比は、因子曝露組(群)の事象発生密度と非因子曝露組(群)の事象発生密度のオッズ比である。すなわち、本実施例において、発生密度比は、スチレン曝露の事象発生密度とスチレン非曝露の事象発生密度のオッズ比である。
図7は、本考案の更なる実施例に係るテップS03の詳細フローチャートである。図7を参照する。一実施例において、処理ユニット40はオッズ比アルゴリズムに基づいて分析計算を行うことで、第1パラメータ及び第2パラメータに対応するオッズ比(統計情報)を知ることができる(すなわち、ステップS033)。これは、処理ユニット40が前記因子曝露組(群)の事象発生オッズと非因子曝露組(群)の事象発生オッズの比である。すなわち、スチレン曝露者の白血病発生数で非発生数を割ったものとスチレン非曝露者の白血病発生数で非発生数を割ったものとの間の比は、オッズ比((120/29,880)/(80/39,920)=2)であり、その統計情報はチレン曝露者の白血病罹患オッズがスチレン非曝露者の2倍であることを示している。すなわち、研究者は、必要性に応じて統計情報の種類又はその組み合わせを自ら選択して分析判断を行うことができ、本考案はこれに限定されるものではない。
一実施例において、再度図2を参照する。処理ユニット40は、検定アルゴリズムに基づいて第1パラメータと第2パラメータとの間に対応する統計的検定を分析して計算できる(すなわち、ステップS04)。
統計的検定は、第1パラメータと第2パラメータとの間の関連性及び因果関係である。すなわち、処理ユニット40が検定アルゴリズムにより分析計算を行った統計的検定の結果は、研究データにおける第1パラメータと第2パラメータとの間の関連性及び因果関係を推計できる。
検定アルゴリズムは、統計的仮説検定アルゴリズム、単一因子/多因子分析アルゴリズム、その他の関連検定アルゴリズムのうちのいずれか又はそれらの任意の組み合わせが挙げられ、本考案はこれに限定されるものではない。
一実施例において、統計的仮説検定アルゴリズムは、カイ二乗検定アルゴリズム(Chi−Square test)、フィッシャーの直接確率検定アルゴリズム(Fisher exact test)、2標本t検定アルゴリズム(Two−sample T−test)、ウィルコクソンの順位和検定アルゴリズム(Wilcoxon rank−sum test)のうちのいずれかを含む。
カイ二乗検定アルゴリズムは、2つのカテゴリカル変数(categorical variables)間に関連性が存在するかどうかを検討し、両者の関連性を検定するだけで、相互間の因果関係を指摘しない。
フィッシャーの直接確率検定アルゴリズムの目的は、2つのカテゴリカル変数の関連性を検定することにあり、2×2分割表で関連性を検定する問題に適する。この方法は、直接データから付与する確率論に基づいて、全てのラダンム並べ替えを考慮して観察した標本数の2変数は独立で関係がない場合において現れた確率を計算するものである。
2標本t検定アルゴリズムは、独立2群の標本間の連続変数(continuous variables)の母平均値の差(某特定数値より大きいか、小さいか又は等しいか)を検討し、すなわち、2群の連続変数の差を比較する。
ウィルコクソンの順位和検定アルゴリズムは、2群の連続変数分布が正規分布ではなく、標本数が小すぎる又は極端な値がある時、中央値を2群の中心的な傾向の代表的な値として利用する場合、ウィルコクソンの順位和検定で2群の中央値に差があるかどうかを比較できる。
Figure 0003217049
表3は、実施例1の第1研究方策に対応する記述及び推測統計表である。表3を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。
推測統計は、t検定でスチレン曝露の有無の年齢平均値の差を検討し、カイ二乗検定でスチレン曝露の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表3から分かるように、年齢・喫煙習慣・飲酒習慣のスチレン曝露の有無の間における分布は、いずれも統計的有意差或いは有意な関連性がある(すなわち、p<0.05の時、対応する項目と第1パラメータとが有意な関連性を有する。ここで、p値は、統計的仮説検定アルゴリズムで算出した)。p−value欄内の注aは、カイ二乗検定アルゴリズムに基づいて得られた。p−value欄内の注bは、t検定アルゴリズムに基づいて得られた。有意水準は5%とする。
一実施例において、単一因子/多因子分析アルゴリズムは、生存分析(Survival Analysis)、Cox比例ハザードモデル(Cox Proportional Hazards Model)、ポアソン回帰モデル(Poisson Regression Model)、ロジスティック回帰モデル(Logistic Regression Model)、その他の関連因子分析アルゴリズムのうちのいずれを含み、本考案はこれに限定されるものではない。
Figure 0003217049
表4は、実施例1のCox回帰分析結果である。表4を参照する。単一因子分析アルゴリズム結果によれば、喫煙習慣、スチレン接触はいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病に罹患する有意な危険因子であり、両者が統計的関連性(p<0.05)を有し、すなわち、スチレン接触者の白血病罹患リスクはスチレン未接触者の1.263倍で、言い換えると、スチレン接触者の白血病罹患リスクが26.3%上昇し、このリスク比の信頼区間の上限は、上昇するリスクが165.1%に達する可能性があることを示している。
Figure 0003217049
表5は、実施例1の白血病発生率と年齢のポアソン回帰結果である。表5を参照する。表5では年齢を49歳以下、50〜59歳及び60歳以上の3つの年齢層に区分する。基準年齢層(49歳以下)の1人年(1人1年間)白血病発生率は、
Figure 0003217049

と推定した。50〜59歳、60歳以上の各年齢層の1人年の白血病発生率が各々
Figure 0003217049


Figure 0003217049

と推定した。各年齢層が基準年齢層(49歳以下)に比べた1人年の白血病発生率比(IRR)が各々6.341、3.762とした。よって、表5から60歳以上の年齢層は白血病発生率と有意な関連性(p<0.05)があることを知ることができる。
Figure 0003217049
表6は、実施例1の白血病の危険因子のロジスティック回帰結果の統計表である。表6を参照する。単一因子分析アルゴリズム結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病に罹患する有意な危険因子であり、両者が統計的関連性(p<0.05)を有し、スチレン接触者の白血病罹患オッズがスチレン未接触者の1.696倍であると示している。言い換えると、スチレン接触者の白血病罹患オッズは、69.6%上昇し、オッズ比の信頼区間の上限は上昇するオッズが100.7%に達することができる。
図8は、本考案のステップS05の詳細フローチャートである。表7は、本考案の実施例1の統合情報を示す表である。図8及び表7を参照する。処理ユニット40は、統合アルゴリズムを通じて前記第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合情報として統合(すなわち、ステップS051)し、かつ表示ユニット50に伝送すると共に表示する。
一実施例において、統合アルゴリズムは、適度に第1パラメータ、第2パラメータ、統計情報及び統計的検定の結果に基づいて文字、データ、表等を加えることで、補助説明とする。例を挙げると、統合情報は、前記各発生率(曝露者の白血病発生率=4‰で、すなわち、スチレン職業曝露者1,000人で4人が白血病に罹患し、非曝露者の白血病発生率=2‰で、すなわち、スチレンの非職業曝露1,000人で2人が白血病に罹患し、すべての人口集団の白血病発生率=2.86‰で、すなわち、1,000人で2.86人が白血病に罹患した)、各統計情報(発生率比=2は、スチレン曝露者の白血病罹患リスクが非曝露者より2倍高く、曝露者は、非曝露者より白血病罹患リスクが2倍高いことを示している。
オッズ比=2は、スチレン曝露者の白血病罹患オッズが非曝露者の2倍であることを示している。)及び各統計的検定(年齢・喫煙習慣・飲酒習慣のスチレン曝露の有無の間における分布は、いずれも統計的有意差又は有意な関連性がある(p<0.05)、単一因子/多因子分析(生存分析、ポアソン回帰モデル、ロジスティック回帰モデル))を表示する。よって、統合アルゴリズムを通じて統合情報が第1パラメータ及び第2パラメータに対応する表の情報又は文字説明を組み合わせて研究者に速やかに理解させ、更に関連専門知識を持っていない一般人にも研究結果を簡単に理解させることができる。
Figure 0003217049
実施例2において、実施例1と類似し、研究者が第2研究方策を利用して職業的にスチレンに接触(第1パラメータ)した場合、白血病罹患(第2パラメータ)リスクを上昇するかどうかを研究する。データベース60には、すでに1990年〜2012年に中小企業1000社に雇用されていた従業員70000名を研究対象とするデータ(分析しようとするデータ)を保存している。第1パラメータをスチレン職業接触の有無の従業員として選択(すなわち、ステップS01)し、第2パラメータを従業員が白血病に罹患したかどうか患者として選択(すなわち、ステップS01)し、かつ第2研究方策を選択する。本実施例において、処理ユニット40がデータベース60から取得した研究データは、第1研究データと第2研究データ(すなわち、ステップS02)に分かれ、第1研究データが1990年〜2012年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者200人から選択して症例研究群とする。対照統制群は、1990年〜2012年同期間の同じデータベースの非白血病患者の被用者500人から選択される。
第2研究データは、1990年〜2012年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者200人から選択して症例研究群とした。1:1ペアマッチにより症例ケースと同じ性別、年齢差が2歳以内その他の悪性腫瘍のある者を排除した非症例ケースの被用者200人を選択して対照統制群の計200対とした。よって、第1研究方策の各研究データにおける内容は、第2研究方策内で取得した各研究データの内容と異なる。
表8は、本考案における実施例2の第2研究方策内の第1研究データに関する統計表である。表9は、本考案における実施例2の第2研究方策の第2研究データに関する統計表である。表8及び表9を参照する。処理ユニット40は、第1データ及び第2データについて統計アルゴリズムに基づいてその統計情報を各々計算できる(すなわち、ステップS03)。
本実施例において、処理ユニット40は曝露アルゴリズムで第1研究データ及び第2研究データの曝露率を計算できる。
Figure 0003217049
よって、表8から分かるように、第1研究データの症例研究群の曝露率=(120/200)×100%=60%で、すなわち、200名の白血病患者の中に120人がスチレンに曝露されており、曝露率は100分の60であった。第1研究データの対照統制群の曝露率=(100/500)×100%=20%で、すなわち、500名の白血病のない人の中に100人がスチレンに曝露されており、曝露率は100分の20であった。
Figure 0003217049
よって、表9から分かるように、第2研究データの症例研究群の曝露率=(130/200)×100%=65%で、すなわち、200名の白血病患者の中に130人がスチレンに曝露されており、曝露率は100分の65であった。第2研究データの対照統制群の曝露率=(80/200)×100%=40%で、すなわち、200名の白血病のない人の中に80人がスチレンに曝露されており、曝露率は100分の40であった。
次に、処理ユニット40は、引き続いて第2研究方策、第1研究データ、第2研究データ、第1パラメータ及び第2パラメータに基づいて分析して統計情報を生成できる(すなわち、ステップS03)。例を挙げると、第1研究データ内のオッズ比(統計情報)=(120*400)/(100*80)=6で、白血病あり曝露オッズは白血病なしの6倍であり、白血病のある人は、白血病のない人に比べてスチレン曝露オッズが6倍高いことを示している。
第2研究データ内のオッズ比(統計情報)=100/50=2で、白血病あり曝露オッズは白血病なしの2倍であり、白血病のある者は、白血病のない者に比べてスチレン曝露オッズが2倍高いことを示している。統計情報は、実施例1内に記載されることと同じように生成されたため、ここでその説明を省略する。
表10は、実施例2の第2研究方策に対応する記述及び推測統計表である。処理ユニット40は、検定アルゴリズムに基づいて第1研究データ及び第2研究データ内の第2パラメータに各々対応する統計的検定をそれぞれ分析する。すなわち、処理ユニット40が検定アルゴリズムで分析計算を行った統計的検定の結果は、第1研究データと第2研究データの第2パラメータの間に対応する関連性を推計できる。
Figure 0003217049
表10を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、t検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表10から分かるように、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性(p<0.05)がある。p−value欄内の注aは、カイ二乗検定アルゴリズムに基づいて得られた。p−value欄内の注bは、t検定アルゴリズムに基づいて得られた。有意水準は5%とする。
Figure 0003217049
表11は、実施例2の第2研究方策に対応する別の記述及び推測統計表である。表11を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、t検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。
よって、表11から分かるように、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性(p<0.05)がある。p−value欄内の注aは、カイ二乗検定アルゴリズムに基づいて得られた。p−value欄内の注bは、t検定アルゴリズムに基づいて得られた。有意水準は5%とする。
次に、処理ユニット40も単一因子/多因子分析アルゴリズムに基づいて分析演算を行うことで、統計的関連性を理解できる。
例を挙げると、第1研究データの単一因子分析アルゴリズム結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析アルゴリズム結果によれば、年齢、スチレン接触が白血病罹患と統計的関連性(p<0.05)を有すると示している。
よって、第1研究データにおいて、年齢が1歳増えると、白血病罹患オッズは67.5%上昇し、スチレン接触者の白血病罹患オッズがスチレン未接触者の1.364倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、36.4%上昇し、オッズ比の信頼区間の上限は上昇するオッズが116.3%に達する可能性がある。
また第2研究データの単一因子分析アルゴリズム結果によれば、性別、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病罹患と統計的関連性(p<0.05)を有すると示している。
よって、第2研究データにおいて、スチレン接触者の白血病罹患オッズがスチレン未接触者の2.764倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、176.4%上昇し、オッズ比の信頼区間の上限は上昇するオッズが200.6%に達する可能性がある。
処理ユニット40は、統合アルゴリズムを通じて前記第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合情報として統合(実施例1の表7と類似し、その表示結果が実際のニーズに応じて表示する)し、かつ表示ユニット50に伝送すると共に表示する。すなわち、統合情報は、前記各統計情報及び各統計的検定を表示し、かつ第1パラメータ及び第2パラメータに対応する表の情報又は文字説明を組み合わせて研究者に速やかに理解させ、更に関連専門知識を持っていない一般人にも研究結果を簡単に理解させることができる。
実施例3では、実施例1、実施例2と類似し、研究者が第3研究方策を利用して職業的にスチレンに接触(第1パラメータ)した場合、白血病罹患(第2パラメータ)リスクを上昇するかどうかを研究する(すなわち、ステップS01)。第3研究データは、1990年〜2012年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者200人から選択して症例研究群とする(すなわち、ステップS02)。
対照統制群は、同期間の同じデータベースの非白血病患者の被用者500人から選択される(すなわち、ステップS02)。第4研究データは、某職業健康調査データベースの1990年〜2012年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者200人から選択して症例研究群とした(すなわち、ステップS02)。1:1ペアマッチにより症例ケースと同じ性別、年齢差が2歳以内その他の悪性腫瘍のある者を排除した非症例ケースの被用者200人を選択して対照統制群の計200対とした(すなわち、ステップS02)。よって、第3研究方策の第3研究データ及び第4研究データは、第1研究方策の各研究データ及び第2研究方策の各研究データと異なる。
表12は、実施例3の第3研究方策内の第3研究データに関する統計表である。表12を参照する。第3研究データ内では、23年間観察(研究調査期間は1990年を起点とし、2012年まで追跡する)過程中、研究ケースが白血病の罹患と診断されると、事象発生と見なし、それとは逆に2012年末までにやはり該疾病を検出しない場合、事象の未発生と見なす。
Figure 0003217049
第3研究データによれば、処理ユニット40は、統計アルゴリズム(例えば発生率アルゴリズム)に基づいて白血病発生率=(200/700)×1000‰=285.71‰(すなわち、ステップS03)と算出でき、すなわち、1,000人で285.71人が白血病に罹患したことを示している。また、一実施例において、処理ユニット40も統計アルゴリズム(例えば発生密度アルゴリズム)に基づいて白血病発生密度=(200/42,000)×1000=4.76(すなわち、ステップS032)と算出でき、すなわち、1,000人で4.76人が白血病に罹患したことを示している。
Figure 0003217049
表13は、実施例3の第3研究方策内の第4研究データに関する統計表である。同様に、処理ユニット40も発生率アルゴリズムに基づいて白血病発生率=(200/400)×1000‰=500‰と算出(すなわち、ステップS031)でき、すなわち、1,000人で500人が白血病に罹患したことを示している。
言い換えると、処理ユニット40は、統計アルゴリズムに基づいて第3研究データ及び第4研究データの統計情報を各々分析して計算できる(すなわち、ステップS03)。例を挙げると、本実施例において、処理ユニット40は、オッズ比アルゴリズムに基づいて第3研究データと第4研究データのオッズ比も計算できる。例えば、第3研究データのオッズ比は、(130*280)/(220*70)=2.36とすることができ、白血病あり曝露オッズが白血病なしの2.36倍であることを示す。言い換えると、白血病のある人が白血病のない人に比べてスチレン曝露オッズは2.36倍高い。
また第4研究データにおけるオッズ比は、110/30=3.67とすることができ、白血病あり曝露オッズが白血病なしの3.67倍であることを示し、言い換えると、白血病のある者が白血病のない者に比べてスチレン曝露オッズは3.67倍高い。その他のカテゴリー(例えば相対危険度又はその他)の統計情報は、ここでその説明を省略する。
Figure 0003217049
Figure 0003217049
表14は、第3研究データの別の統計表である。表15は、第4研究データの別の統計表である。表14乃至表15を参照する。本実施例において、処理ユニット40は、検定アルゴリズム基づいて第3研究データ及び第4研究データが各々第2パラメータの間に対応する統計的検定を分析して計算できる(すなわち、ステップS04)。p−value欄内の注aは、カイ二乗検定アルゴリズムに基づいて得られた。p−value欄内の注bは、t検定アルゴリズムに基づいて得られた。有意水準は5%とする。
例を挙げると、表14は記述統計及び推測統計であり、記述統計が平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、t検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表14に示す結果によれば、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性(p<0.05)があることを発見した。また、表15も記述統計及び推測統計であり、表15に示す結果によれば、年齢、喫煙習慣、飲酒習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性(p<0.05)があることを発見できた。
Figure 0003217049
Figure 0003217049
表16は、第3研究データのロジスティック回帰結果の統計表である。表17は、第4研究データの条件付きロジスティック回帰結果の統計表である。一実施例において、処理ユニット40も統計的仮説検定アルゴリズム、単一因子/多因子分析アルゴリズム又はその他の検定アルゴリズムに基づいて対応の結果が得られる。例を挙げると、第3研究データにおいて、表16を参照する。ロジスティック回帰分析法で単一因子及び多因子と白血病の関連付け結果を検討できる。単一因子分析結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析結果によれば、年齢、スチレン接触が白血病罹患と統計的関連性(p<0.05)を有すると示している。年齢が1歳増えると、白血病罹患オッズは26.7%上昇し、スチレン接触者の白血病罹患オッズがスチレン未接触者の1.888倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、88.8%上昇し、オッズ比の信頼区間の上限は上昇するオッズが100.1%に達する可能性がある。
同様に、第4研究データにおいて、表17を参照する。条件付きロジスティック回帰分析法で単一因子及び多因子と白血病の関連付け結果を検討し、単一因子分析結果によれば、年齢、家族歴、スチレン接触がいずれも白血病罹患と統計的相関関係(p<0.05)を有すると示している。多因子分析結果によれば、スチレン接触のみが白血病罹患と統計的関連性(p<0.05)を有し、スチレン接触者の白血病罹患オッズがスチレン未接触者の1.812倍であることを示している。言い換えると、スチレン接触者の白血病罹患オッズは、81.2%上昇し、オッズ比の信頼区間の上限は上昇するオッズが110.3%に達する可能性がある。
最後に、処理ユニット40は、更に前記各分析計算結果に基づき、統合アルゴリズムを通じて前記第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合情報として統合(実施例1の表7と類似し、その表示結果が実際のニーズに応じて表示する)し、かつ表示ユニット50伝送すると共に表示する。
実施例4において、研究者は高温地域(第1パラメータ)の居住の有無とかき氷機(第2パラメータ)購入の有無の関連性を研究する。まず、データベース60に保存している2010年1月〜2014年12月の会員を研究観察対象となり、研究期間外にかつてかき氷機を購入した会員人数を控除した後、実際の研究対象は5,000名とした。よって、研究者は、コントロールユニット30を操作して第1研究方策を選択し、第1パラメータが高温地域居住の有無を選択し、第2パラメータがかき氷機購入の有無を選択する(ステップS01)。
Figure 0003217049
表18は、実施例4の第1研究方策の統計表である。ここで、処理ユニット40は、データベース60を経由して第1研究方策、第1パラメータ及び第2パラメータに対応する各研究データ(表18)をサーチ並びに受信できる(ステップS02)。次に、処理ユニット40は、統計アルゴリズムに基づいて計算することで統計情報を生成できる(ステップS03)。例えば、処理ユニット40は、発生率アルゴリズムに基づいて各研究データの発生率を計算できる。例えば、高温地域に居住する場合のかき氷機購入発生率=(200/1,000)×1000‰=200‰で、すなわち、高温地域(日平均気温≧28℃)に曝露・居住する者の1,000人で200人がかき氷機を購入する。
高温地域に居住しない者のかき氷機購入発生率=(600/4,000)×1000‰=150‰で、すなわち、高温地域(日平均気温<28℃)に曝露・居住しない者の1,000人で150人がかき氷機を購入する。すべての人口集団のかき氷機購入発生率=(800/5,000)×1000‰=160‰で、すなわち、1,000人で160人がかき氷機を購入する。
幾つかの実施例において、処理ユニット40も相対危険度アルゴリズム、オッズ比アルゴリズム又はその他の統計アルゴリズムに基づいて計算することで、統計情報を生成できる。例を挙げると、相対危険度アルゴリズムは、高温地域に居住する者のかき氷機購入発生率/高温地域に居住しない者のかき氷機購入発生率=200‰/150‰=1.33で、高温地域に曝露・居住する者がかき氷機を購入する可能性は、非曝露者に比べて1.33倍高く、曝露者が非曝露者に比べてかき氷機を購入する可能性は、1.33倍高いことを示している。
また処理ユニット40は、オッズ比アルゴリズムを利用してオッズ比=(200/800)/(600/3,400)=1.42と算出でき、これは高温地域に曝露・居住する者のかき氷機購入オッズが非曝露者の1.42倍であることを示している。
Figure 0003217049
表19は、実施例4の第1研究方策に対応する記述及び推測統計表である。p−valueは、カイ二乗検定アルゴリズムに基づいて得られた。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈し、推測統計は、カイ二乗検定で高温地域に曝露・居住するかどうかと属性因子との間に関連性の有無を検討する。
次に、処理ユニット40は、検定アルゴリズムに基づいて分析計算を行うことで、統計的検定を生成できる(ステップS04)。例として、表19を参照する。処理ユニット40はカイ二乗検定アルゴリズムを通じて各p−valueを得ることができる。性別、年齢、居住区域及び高温地域に曝露・居住するかどうかは、いずれも統計的に有意な関連性(p<0.05)があり、すなわち、高温地域に曝露・居住するかどうかの性別、年齢、居住区域における分布はいずれも統計的有意差がある。
Figure 0003217049
表20は、実施例4のCox回帰分析結果の統計表である。表20を参照する。表20から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温のみはかき氷機購入の有意影響要因であり、両者に統計的関連性(p<0.05)があり、居住区域の日平均気温が1℃上昇すると、かき氷機購入確率(可能性)は101.3%上昇する。
Figure 0003217049
表21は、実施例4内のかき氷機購入発生率と年齢のポアソン回帰結果の統計表である。表21を参照する。処理ユニット40は、更に年齢を29歳以下、30〜49歳及び50歳以上の3つの年齢層に区分する。基準年齢層(29歳以下)のかき氷機購入発生率は、

Figure 0003217049
と推定した。30〜49歳、50歳以上の各年齢層のかき氷機購入発生率は、各々
Figure 0003217049


Figure 0003217049

と推定した。各年齢層の基準年齢層(29歳以下)に比べるかき氷機購入の発生率比(IRR)は、各々4.486、3.758であったため、表21内のp−valueから見ると、年齢層とかき氷機購入発生率とは有意な相関関係がない。
Figure 0003217049
表22は、実施例4のかき氷機の関連購入要因のロジスティック回帰結果の統計表である。表22から分かるように、単一因子分析結果において、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温はかき氷機購入の有意影響要因であり、両者に統計的関連性(p<0.05)があり、居住区域の日平均気温が1℃上昇すると、かき氷機購入オッズは105.2%上昇する。
次に、処理ユニット40は、統合アルゴリズムに基づいて前記第1パラメータ、第2パラメータ、各統計情報及び統計的検定を統合情報として統合する(ステップS05)。また統合情報を表示ユニット50に伝送して表示ユニット50に統合情報を表示させる。研究者に第1パラメータと第2パラメータとの間の関連性を速やかに理解させ、更に一般人にその研究結果が代表する意味を理解させることができる。
表23は、実施例5の第2研究方策内の第5研究データに関する統計表である。表24は、実施例5の第2研究方策内の第6研究データに関する統計表である。実施例5において、実施例2と同じで、研究者はコントロールユニット30を操作して第2研究方策を選択し、かつ第1パラメータが高温地域居住の有無を選択し、第2パラメータがかき氷機購入の有無を選択できる(ステップS01)。
第5研究データは、某ネットショッピングモール内の2010年1月〜2014年12月にかき氷機を購入した会員800人から選択して事例研究群とした。対照統制群は、同じネットショッピングモールの同期間にかき氷機を購入しない会員2,000人から選択した。第6研究データは、某ネットショッピングモール内の2010年1月〜2014年12月にかき氷機を購入した会員800人から選択して事例研究群とした。1:1ペアマッチによりケースと同じ性別、年齢差が2歳以内の非ケース会員800人を選択して対照統制群の計800対としたステップS02)。
Figure 0003217049
Figure 0003217049
次に、処理ユニット40は、これを介して曝露アルゴリズム(統計アルゴリズム)に基づいて第5研究データの曝露率(統計情報)及び第6研究データの曝露率(統計情報)を計算できる(ステップS03)。例えば、第5研究データ内の事例研究群の曝露率=(440/800)×100%=55%で、すなわち、かき氷機を購入した会員800名で440人が高温地域に曝露・居住し、曝露率は100分の55であった。その対照統制群の曝露率=(1,000/2,000)×100%=50%で、すなわち、かき氷機を購入しない会員2,000名で1,000人が高温地域に曝露・居住し、曝露率は100分の50であった。例えば、第6研究データ内の事例研究群の曝露率=(450/800)×100%=56.25%で、すなわち、かき氷機を購入した会員800名で450人が高温地域に曝露・居住し、曝露率は100分の56.25であった。その対照統制群の曝露率=(330/800)×100%=41.25%で、すなわち、かき氷機を購入しない会員800名で330人が高温地域に曝露・居住し、曝露率は100分の41.25であった。
また、処理ユニット40もその他の種類の統計アルゴリズムでその統計情報を各々計算できる(ステップS03)。例えば、第5研究データ内のオッズ比=(440*1000)/(1000*360)=1.2で、かき氷機購入ありの曝露オッズはかき氷機購入なしの1.2倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住オッズは、1.2倍高いことを示している。
第6研究データ内のオッズ比=270/150=1.8で、かき氷機購入ありの曝露オッズは、かき氷機購入なしの1.8倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住オッズは、1.8倍高いことを示している。その他の統計情報の演算方式は、ここでその説明を省略する。
表25は、実施例5の対応第2研究方策内の記述及び推測統計表である。表26は、実施例5の対応第2研究方策内の別の記述及び推測統計表である。次に、処理ユニット40は、検定アルゴリズムに基づいて第5研究データ、第6研究データ、第2パラメータを各々分析して統計的検定が得られた(ステップS04)。例を挙げると、表25内の記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。
表25に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な有関連性(p<0.05)を有することを発見できる。表26内の記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。表26に示す結果から年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性(p<0.05)を有することを発見できた。
Figure 0003217049
Figure 0003217049
表27は、実施例5内の第5研究データのロジスティック回帰分析統計表である。表28は、実施例5内の第6研究データの条件付きロジスティック回帰分析統計表である。表27から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性(p<0.05)を有し、居住区域の日平均気温が1℃上昇すると、かき氷機購入オッズは222.3%上昇する。
表28から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性(p<0.05)を有し、居住区域の日平均気温が1℃上昇すると、かき氷機購入オッズは198.6%上昇する。
Figure 0003217049
Figure 0003217049
次に、処理ユニット40は、統合アルゴリズムを利用して上記取得した第5研究データ、第6研究データ、第1パラメータ、第2パラメータ、統計情報及び統計的検定を統合し、統合情報を生成(ステップS05)することで、表示ユニット50に統合情報を表示させる。
表29は、実施例6の第3研究方策内の第7研究データに関する統計表である。表30は、実施例6の第3研究方策内の第8研究データに関する統計表である。実施例6は、実施例3と同じで、研究者はコントロールユニット30を操作して第3研究方策を選択し、かつ第1パラメータが高温地域居住の有無を選択し、第2パラメータがかき氷機購入の有無を選択できる(ステップS01)。
データベース60に保存している某ネットショッピングモール内の2010年1月〜2014年12月の会員(研究期間外のかつてかき氷機を購入した会員数を控除した)を研究対象とした。第7研究データは、某ネットショッピングモール内の2010年1月〜2014年12月にかき氷機を購入した会員800人から選択して事例研究群とした。対照統制群は、同じネットショッピングモールの同期間にかき氷機を購入しない会員2,000人から選択した。第8研究データは、某ネットショッピングモール内の2010年1月〜2014年12月にかき氷機を購入した会員800人から選択して事例研究群とした。1:1ペアマッチによりケースと同じ性別、年齢差が2歳以内の非ケース会員800人を選択して対照統制群の計800対とした(ステップS02)。
Figure 0003217049
Figure 0003217049
次に、処理ユニット40は、統計アルゴリズムに基づいて第7研究データ及び第8研究データの統計情報を計算できる(ステップS03)。例を挙げると、処理ユニット40は、発生率アルゴリズムに基づいて第7研究データのかき氷機購入発生率を計算でき、その発生率=(800/2,800)×1000‰=285.7‰で、すなわち、1,000人で285.7人がかき氷機を購入する。同様に、第8研究データのかき氷機購入発生率=(800/1,600)×1000‰=500‰で、すなわち、1,000人で500人がかき氷機を購入する。
幾つかの実施例において、処理ユニット40もオッズ比アルゴリズムに基づいて第7研究データ及び第8研究データを計算することで、オッズ比の統計情報を得ることができる。例を挙げると、処理ユニット40は、オッズ比アルゴリズムに基づいて第7研究データを計算した時、そのオッズ比=(480*1,100)/(900*320)=1.83で、かき氷機購入ありの曝露オッズはかき氷機購入なしの1.83倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住するオッズは、1.83倍高いことを示している。同様に、第8研究データのオッズ比=300/100=3で、かき氷機購入ありの曝露オッズはかき氷機購入なしの3倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住のオッズは、1.83倍高いことを示している。
幾つかの実施例において、処理ユニット40は、更にその他の種類の統計アルゴリズムに基づいて第7研究データ又は第8研究データに対し演算を行うことで、対応の統計情報を生成できるが、本考案はこれに限定されるものではない。
表31は、実施例6内の第7研究データの統計的検定表である。表32は、実施例6内の第8研究データの統計的検定表である。処理ユニット40は、検定アルゴリズムに基づいて第7研究データ及び第8研究データを計算して統計的検定を生成できる(ステップS04)。
例を挙げると、表31は、第7研究データがカイ二乗検定アルゴリズムの演算を経た後の統計表であり、記述統計及び推測統計を包括する。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。
表31に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性(p<0.05)を有することを発見した。同様に、表32も第8研究データがカイ二乗検定アルゴリズムの演算を経た後の統計表であり、記述統計及び推測統計を包括する。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。表32に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性(p<0.05)を有することを発見した。
Figure 0003217049
Figure 0003217049
また、幾つかの実施例において、処理ユニット40は、ロジスティック回帰分析アルゴリズム(検定アルゴリズム)に基づいて第7研究データを分析・演算でき、及び処理ユニット40は、条件付きロジスティック回帰分析アルゴリズム(検定アルゴリズム)に基づいて第8研究データを分析することで、更に対応の統計的検定を得ることができる。表33は、実施例6内の第7研究データの別の統計的検定表である。表34は、実施例6内の第8研究データの別の統計的検定表である。
Figure 0003217049
Figure 0003217049
表33及び表34を参照する。処理ユニット40は、ロジスティック回帰分析アルゴリズムに基づいてかき氷機購入の相関因子を分析した結果の統計表である。表33から分かるように、単一因子分析結果において、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温は、かき氷機購入と統計的関連性(p<0.05)を有し、居住区域の日平均気温が1℃上昇すると、かき氷機購入オッズは276.4%上昇する。表34は、処理ユニット40が条件付きロジスティック回帰分析アルゴリズムに基づいてかき氷機購入の相関因子を分析した結果の統計表である。
表34から分かるように、単一因子分析結果において、性別、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係(p<0.05)を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性(p<0.05)を有し、居住区域の日平均気温が1℃上昇すると、かき氷機購入オッズは199.6%上昇する。その他の種類の検定アルゴリズムは、ここでその説明を省略する。
次に、処理ユニット40は、統合アルゴリズムに基づいて前記第1パラメータ、第2パラメータ、各研究データ、各統計情報及び各統計的検定を統合情報として統合(ステップS05)してから統合情報を表示ユニット50に伝送することで、表示ユニット50に表示させることができる(ステップS06)。統合アルゴリズムを通じて統合情報として統合する技術的特徴は、前記各実施例と同じであるため、ここでその説明を省略する。表示ユニット50による統合情報表示の技術的特徴は、前記各実施例と同じであるため、ここでその説明を省略する。
第1パラメータ及び第2パラメータの選択は、本考案において限定されず、前記各実施例以外に、第1パラメータをスチレンの職業接触の有無、第2パラメータをかき氷機購入の有無、第1パラメータを高温地域に居住の有無、第2パラメータを白血病罹患の有無として選択できる。言い換えると、本考案は、ユーザーのニーズに応じて第1パラメータ及び第2パラメータを随意に選択できる。
上記各実施例によれば、処理ユニット40は研究者(又はユーザー)が選択した研究方策及び研究しようとする事象(すなわち、第1パラメータ及び第2パラメータ)に基づいて速やかに統合アルゴリズムを通じて様々な研究結論を統合情報として統合し、研究者(又はユーザー)に表示ユニット50を通じて迅速かつ直感的に研究データの第1パラメータと第2パラメータの間に対応する関連度を理解させることができ、更に従来において全く相関関係がない第1パラメータと第2パラメータの間に本当に全く関連性がないかどうかを検討できる。
よって、これを介して速やかに研究分析することで、研究効率を高めることができ、かつ速やかに応用計画も派生できる。また、本考案は、更に非専門分野のユーザーに研究テーマの結果を速やかに理解させ、非専門分野の人員に専門分野の研究結果を理解させることができる。
10 伝送ユニット
20 ストレージユニット
30 コントロールユニット
40 処理ユニット
50 表示ユニット
60 データベース
S01〜S06 ステップ

Claims (10)

  1. 少なくとも1つの研究データを受信するための伝送ユニットと、
    各前記研究データを保存するためのストレージユニットと、
    操作命令に基づいて研究方策、第1パラメータ及び第2パラメータを生成するためのコントロールユニットと、
    前記伝送ユニット、前記ストレージユニット及び前記コントロールユニットに接続され、前記研究方策、前記第1パラメータ及び前記第2パラメータに基づいて、前記伝送ユニットを通じて各前記研究データを取得し、前記研究方策に基づいて統計アルゴリズムで前記第1パラメータ、前記第2パラメータ及び各前記研究データを分析して統計情報を生成し、検定アルゴリズムに基づいて前記第1パラメータ、前記第2パラメータ及び各前記研究データを関連付けすることで統計的検定を生成する処理ユニットと、
    前記処理ユニットに接続され、統合情報を表示するための表示ユニットと、を含むデータ分析システムにおいて、
    前記処理ユニットは、統合アルゴリズムに基づいて前記第1パラメータ、前記第2パラメータ、前記統計情報及び前記統計的検定を統合情報として統合することを特徴とする、
    データ分析システム。
  2. 前記伝送ユニットと接続されるデータベースを更に含み、前記データベースは分析しようとするデータを保存することを特徴とする、請求項1に記載のデータ分析システム。
  3. 前記統計情報は、発生率、発生密度比、相対危険度、オッズ比のうちのいずれか又はそれらの任意の組み合わせとすることを特徴とする、請求項1に記載のデータ分析システム。
  4. 前記処理ユニットは、発生率アルゴリズムに基づいて各前記研究データ関連付けの少なくとも1つの発生率を計算し、また各前記発生率により分析して発生率比を算出することを特徴とする、請求項3に記載のデータ分析システム。
  5. 前記研究方策は、第1研究方策と第2研究方策と第3研究方策とを含み、 前記コントロールユニットが前記第1研究方策を選択した時、前記処理ユニットは前記第1パラメータ、前記第2パラメータと各前記研究データを関連付けする前記統計情報を計算し、前記統計情報が少なくとも1つの発生率を包括し、前記コントロールユニットが前記第2研究方策を選択した時、前記処理ユニットは前記第1パラメータ、前記第2パラメータと各前記研究データの関連付けを分析して計算することで、前記統計情報を生成し、前記コントロールユニットが前記第3研究方策を選択した時、前記処理ユニットは前記第1パラメータ、前記第2パラメータと各前記研究データを関連付けする前記統計情報を計算し、前記統計情報が各前記発生率を包括し、前記統計情報は相対危険度、オッズ比のうちのいずれか又はそれら組み合わせとすることを特徴とする、請求項4に記載のデータ分析システム。
  6. 前記コントロールユニットが前記第1研究方策を選択した時、前記統計情報は各前記発生率、前記相対危険度と前記オッズ比のうちのいずれか又はそれらの任意の組み合わせを関連付けするもので、前記コントロールユニットが前記第2研究方策を選択した時、前記統計情報は前記オッズ比を関連付けするもので、前記コントロールユニットが前記第3研究方策を選択した時、前記統計情報は各前記発生率、前記オッズ比のうちのいずれか又はそれらの任意の組み合わせを関連付けすることを特徴とする、請求項5に記載のデータ分析システム。
  7. 前記処理ユニットは、更に発生密度アルゴリズムに基づいて前記第1パラメータと前記第2パラメータに対応する少なくとも1つの発生密度を分析・計算して生成し、かつ前記該処理ユニットが各前記発生密度に基づいて分析計算を行って少なくとも1つの発生密度比が得られることを特徴とする、請求項3に記載のデータ分析システム。
  8. 前記検定アルゴリズムは、統計的仮説検定アルゴリズム、単一因子/多因子分析アルゴリズムのうちのいずれか又はそれら組み合わせを含むことを特徴とする、請求項1に記載のデータ分析システム。
  9. 前記統計的仮説検定アルゴリズムは、カイ二乗検定、フィッシャー直接確率検定、2標本t検定、ウィルコクソン順位和検定アルゴリズムのうちのいずれか又はそれらの任意の組み合わせを含むことを特徴とする、請求項8に記載のデータ分析システム。
  10. 前記単一因子/多因子分析アルゴリズムは、生存分析アルゴリズム、Cox比例ハザードモデルアルゴリズム、ポアソン回帰モデルアルゴリズム、ロジスティック回帰モデルアルゴリズムのうちのいずれか又はそれらの任意の組み合わせを含むことを特徴とする、請求項8に記載のデータ分析システム。
JP2018001565U 2017-05-05 2018-04-27 データ分析システム Active JP3217049U (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW106206337 2017-05-05
TW106206337U TWM548867U (zh) 2017-05-05 2017-05-05 資料分析系統

Publications (1)

Publication Number Publication Date
JP3217049U true JP3217049U (ja) 2018-07-12

Family

ID=60765024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018001565U Active JP3217049U (ja) 2017-05-05 2018-04-27 データ分析システム

Country Status (2)

Country Link
JP (1) JP3217049U (ja)
TW (1) TWM548867U (ja)

Also Published As

Publication number Publication date
TWM548867U (zh) 2017-09-11

Similar Documents

Publication Publication Date Title
Marshall et al. Trends in mortality from idiopathic pulmonary fibrosis in the European Union: an observational study of the WHO mortality database from 2001–2013
Durko et al. Annual number of candidates for transcatheter aortic valve implantation per country: current estimates and future projections
Patel et al. Heart disease prediction using machine learning and data mining technique
Ten Haaf et al. Lung cancer detectability by test, histology, stage, and gender: estimates from the NLST and the PLCO trials
Cho et al. Risk factors and individual probabilities of melanoma for whites
KR101788030B1 (ko) 구강질환 위험도 진단 및 구강관리 시스템과 그 방법
Hankey et al. The surveillance, epidemiology, and end results program: a national resource
Patterson et al. Training and interpreting machine learning algorithms to evaluate fall risk after emergency department visits
KR101579376B1 (ko) 주관성 분석을 이용한 사용자 분류와 그에 따른 개인화된 장소 추천 시스템 및 방법
Rajendran et al. Predicting breast cancer via supervised machine learning methods on class imbalanced data
Balata et al. Spirometry performed as part of the Manchester community-based lung cancer screening programme detects a high prevalence of airflow obstruction in individuals without a prior diagnosis of COPD
Lee et al. The Dana-Farber CISNET model for breast cancer screening strategies: an update
de Castro et al. Predictors for papillary thyroid cancer persistence and recurrence: a retrospective analysis with a 10‐year follow‐up cohort study
Kheir et al. Use of a genomic classifier in patients with interstitial lung disease: a systematic review and meta-analysis
JP6379199B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
CN113782195A (zh) 一种体检套餐定制方法和装置
CN108804479B (zh) 数据分析系统及其分析方法
JP3217049U (ja) データ分析システム
van den Broek et al. Comparing CISNET breast cancer incidence and mortality predictions to observed clinical trial results of mammography screening from ages 40 to 49
WO2019107118A1 (ja) 健康管理支援装置、方法およびプログラム
KR102251778B1 (ko) 임상 시험 대상자를 선별하기 위한 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
Diva et al. Parametric models for spatially correlated survival data for individuals with multiple cancers
CN106663144A (zh) 用于基于相互相关性进行分层数据分析的方法和装置
Mak et al. Improving the accuracy of Aboriginal and non-Aboriginal disease notification rates using data linkage
Shree et al. Diagnosis of Alzheimer’s disease using rule based approach

Legal Events

Date Code Title Description
R150 Certificate of patent or registration of utility model

Ref document number: 3217049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250