JP3217049U

JP3217049U - データ分析システム

Info

Publication number: JP3217049U
Application number: JP2018001565U
Authority: JP
Inventors: 張漢威
Original assignee: HAN WEI ZHANG
Current assignee: HAN WEI ZHANG
Priority date: 2017-05-05
Filing date: 2018-04-27
Publication date: 2018-07-12
Anticipated expiration: 2028-04-27
Also published as: TWM548867U

Abstract

【課題】データ分析システムを提供する。【解決手段】伝送ユニット１０とストレージユニット２０とコントロールユニット３０と処理ユニット４０と表示ユニット５０と、を含む。伝送ユニットは、研究データを受信するために用いられる。ストレージユニットは研究データを保存するために用いられる。コントロールユニットは、操作命令に基づいて研究方策、第１パラメータ及び第２パラメータを生成するために用いられる。処理ユニットは、伝送ユニット、ストレージユニット及びコントロールユニットに接続される。処理ユニットは、研究方策、第１パラメータ及び第２パラメータに基づいて、伝送ユニットを通じて分析しようとするデータ内から研究データを取得する。統計アルゴリズムで第１パラメータ、第２パラメータ及び研究データを分析することで統計情報を生成する。次に、検定アルゴリズムに基づき、第１パラメータ、第２パラメータと各研究データを分析することで統計的検定を生成する。【選択図】図１

Description

本考案は、データ分析システムに関し、特に、データ内の各事象の間の関連性を検討できるデータ分析システムに関する。

この数年ビッグデータ（又は巨大なデータ、大きいデータ、ＢｉｇＤａｔａも呼ばれる）の課題が常に言及され、その意味は及ぶデータ量の規模が巨大で、かつ手作業を通じて合理的な時間内にキャプチャ、管理、処理すると共に人間が解読できる形として整理できない情報である。よって、どのようにビッグデータを処理し、また分析研究して人間が速やかに理解できる情報として整理するかが非常に重要な課題であった。

世間においてビッグデータへの分析方法は様々で、キーワードのサーチ方法でデータを取得し、次に同じキーワードを有するデータ内の某特定事項に対応する関連内容を分析する。言い換えると、まずビッグデータ内から同じ特徴を持つデータを取得してからこの同じ特徴を持つデータが特定事項に対応する関係を分析することで、特定事項に対応する分析結果が得られる。

しかしながら、異なる特定事項があった場合、前述の分析を繰り返すことで、異なる特定事項に属する分析結果を得ることができるが、２つの異なる特定事項の間の関連性を見分けることが難しくなっていた。よって、異なる特定事項、及び異なる特定事項の間の関係を速やかに分析できる１つの解決策を出す必要がある。

そこで、本考案は上記問題に鑑み、ユーザーに異なる事象間の関連性を速やかに理解させることで、異なる事象間の様々な可能性を検討するデータ分析システムを提供する。

本考案の一実施例は、伝送ユニットとストレージユニットとコントロールユニットと処理ユニットと表示ユニットと、を含むデータ分析システムを提供する。伝送ユニットは、研究データを受信するために用いられる。ストレージユニットは研究データを保存するために用いられる。コントロールユニットは、操作命令に基づいて研究方策、第１パラメータ及び第２パラメータを生成するために用いられる。処理ユニットは、伝送ユニット、ストレージユニット及びコントロールユニットに接続される。処理ユニットは、研究方策、第１パラメータ及び第２パラメータに基づいて、伝送ユニットを通じて分析しようとするデータ内から研究データを取得する。処理ユニットは、研究方策に基づいて統計アルゴリズムで第１パラメータ、第２パラメータ及び研究データを分析して統計情報を生成する。該処理ユニットは、検定アルゴリズムに基づいて第１パラメータ、第２パラメータ及び各研究データを分析することで、統計的検定を生成する。表示ユニットは、処理ユニットに接続することで、統合情報を表示する。統合情報は、処理ユニットが統合アルゴリズムに基づいて第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合するものである。

本考案の一実施例は、コントロールユニットで操作命令に基づき第１パラメータ、第２パラメータ及び研究方策を生成することと、分析しようとするデータ内から第１パラメータ及び第２パラメータに対応する少なくとも１つの研究データを取得することと、伝送ユニットで各研究データを受信することと、処理ユニットで研究方策に基づき統計アルゴリズムにより第１パラメータ、第２パラメータ及び各研究データを分析して統計情報を生成することと、処理ユニットで検定アルゴリズムに基づき第１パラメータ、第２パラメータ及び各研究データを関連付けて分析することで統計的検定を生成することと、処理ユニットで統合アルゴリズムに基づき第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合情報として統合することと、表示ユニットで統合情報を表示することと、を含むデータ分析方法を提供する。

上記実施例によれば、本考案は、ユーザーに表示ユニットで表示される統合情報を通じて、研究データ内の第１パラメータと第２パラメータとの間の関連度を速やかに知らせることができる。言い換えると、処理ユニットが分析しようとするデータ内から取得した研究データは、第１パラメータと第２パラメータを関連付けた分析演算を経た後で、研究データにおいて第１パラメータと第２パラメータとの間に比較的高い関連度の有無を知ることができる。よって、ユーザーは、統合情報を通じて選択した第１パラメータ及び第２パラメータに研究参考の価値があるかどうかを速やかに知ることができ、こうして研究の効率を高めて研究成果を向上できる。

本考案の一実施例に係る事象関連性の分析システム構成を示す模式図である。本考案の一実施例に係る事象関連性の分析方法のフローチャートである。本考案の一実施例に係る統計情報の発生率を計算するフローチャートである。本考案の一実施例に係る統計情報の発生密度を計算するフローチャートである。本考案の一実施例に係るテップＳ０３の詳細フローチャートである。本考案の別の実施例に係るステップＳ０３の詳細フローチャートである。本考案の更なる実施例に係るステップＳ０３の詳細フローチャートである。本考案のステップＳ０５の詳細フローチャートである。

図１は、本考案の一実施例に係る事象関連性の分析システム構成を示す模式図である。図２は、本考案の一実施例に係る分析方法のフローチャートである。
図１及び図２を参照する。本考案に係る事象関連性の分析システムは、伝送ユニット１０とストレージユニット２０とコントロールユニット３０と処理ユニット４０と表示ユニット５０とを含み、処理ユニット４０が伝送ユニット１０とストレージユニット２０とコントロールユニット３０と表示ユニット５０との間を接続する。

伝送ユニット１０は、データベース６０から研究データを受信できる。一実施例において、伝送ユニット１０は、１つ又は複数の研究データを受信できるが、本考案はこれに限定されるものではない。一実施例において、データベース６０は、分析しようとするデータを保存することで、分析しようとするデータ内から研究データをキャプチャしてからユニット１０に伝送する。

一実施例において、伝送ユニット１０は、有線又は無線方式でデータベース６０と接続できることで、データベース６０内に保存している分析しようとするデータ内から研究データを取得する。

一実施例において、伝送ユニット１０は、ＷｉＦｉ（登録商標）、ＧＳＭ（登録商標）、ブルートゥース（登録商標）、赤外線、ＷｉＭＡＸ（登録商標）、Ｚｉｇｂｅｅ（登録商標）、Ｚｗａｖｅ、無線周波数（ＲＦ）又はその他等に適合する無線伝送方式で伝送を行うことができる。或いは伝送ユニット１０は、Ｅｔｈｅｒｎｅｔ（登録商標）、ＲＦ２３２若しくはその他等に適合する有線伝送方式で伝送できる。

一実施例において、データベース６０は、ビッグデータ（又は巨大なデータ、大きいデータ、ＢｉｇＤａｔａも呼ばれる）を保存しているものとすることができる。よって、データベース６０内には、ストレージユニットを備え、該ストレージユニットがリードオンリーメモリ、ランダムアクセスメモリ、不揮発性メモリ、揮発性メモリ、スタティックメモリ、ダイナミックメモリ、フラッシュメモリ及び／或いはデジタル情報を保存する設備とすることができる。

一実施例において、本考案は、複数のデータベース６０を備え、かつ同一マシンルーム内に配置されることができるが、本考案はこれに限定されものではなく、幾つかの実施例において、各データベース６０が異なる場所に分散することができる。また随時分析しようとするデータを取得するため、データベース６０はクラウド内にも配置できる。

ストレージユニット２０は、データベース６０からの研究データを保存するものである。一実施例において、ストレージユニット２０は、リードオンリーメモリ、ランダムアクセスメモリ、不揮発性メモリ、揮発性メモリ、スタティックメモリ、ダイナミックメモリ、フラッシュメモリ及び／或いはデジタル情報を保存する設備とすることができる。

一実施例において、データベース６０は、ストレージユニット２０を統合できるものである。すなわち、処理ユニット４０は、第１パラメータ及び第２パラメータを伝送ユニット１０によりデータベース６０に伝送した後、データベース６０がその内部の分析しようとするデータ内から対応する研究データを取得し、研究データが第１研究データ、第２研究データ又はその他等の研究データに区分させることができるが、本考案はこれに限定されるものではない。

コントロールユニット３０は、操作命令に基づき研究方策、第１パラメータ及び第２パラメータ（すなわち、図２内のステップＳ０１）を生成できる。一実施例において、操作命令は、ユーザーの操作によって生成され、言い換えると、研究方策、分析しようとする原因事象（すなわち、第１パラメータ）及び結果事象（すなわち、第２パラメータ）を選択するため、ユーザーがユーザーインターフェースを経由して操作命令を下すことができる。
ユーザーインターフェースは、コンピュータ又はハンドヘルド装置上に表示され、更にキーボード、ボタン又はタッチ方式を通じて操作命令を下すことができる。幾つかの実施例において、操作命令は音声方式を通じて下すこともでき、すなわち、音声を通じてユーザーの声を識別して操作命令を生成する。

表示ユニット５０は、処理ユニット４０を経由して統合情報を受信し、また統合情報をスクリーンに表示する。すなわち、ユーザーは、表示ユニット５０を通じて原因事象及び結果事象の分析結果を速やかに知ることができる。その詳細を後記で説明する。

ここで、処理ユニット４０は、コントロールユニット３０から研究方策、第１パラメータ及び第２パラメータを受信した後、伝送ユニット１０を経由してデータベース６０に接続し、またデータベース６０から対応する研究方策、第１パラメータ及び第２パラメータの研究データ（すなわち、ステップＳ０２）を受信して研究データをストレージユニット２０内に保存できる。

次に、処理ユニット４０は、研究方策に基づき統計アルゴリズムで研究データ、第１パラメータ及び第２パラメータを分析して計算することで統計情報を生成（すなわち、ステップＳ０３）し、並びに検定アルゴリズムに基づき第１パラメータ、第２パラメータを分析することで、統計的検定を生成する（すなわち、ステップＳ０４）。
そして処理ユニット４０は、統合アルゴリズムに基づき、第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合情報として統合（すなわち、ステップＳ０５）して表示ユニット５０に伝送することで、表示ユニット５０が統合情報を表示する（すなわち、ステップＳ０６）。

一実施例において、コントロールユニット３０の第１パラメータ及び第２パラメータは、１つの分類条件を広く指し、例えばスチレンに接触しているかどうか（第１パラメータ）及び白血病かどうか（第２パラメータ）、高温地域に位置するかどうか（第１パラメータ）及びかき氷機を購入しているかどうか（第２パラメータ）、喫煙者かどうか（第１パラメータ）及び肺がんを患っているかどうか（第２パラメータ）、コーヒーを愛飲しているかどうか（第１パラメータ）及び骨粗鬆症を患っているかどうか（第２パラメータ）又はその他の何らかの条件であるが、本考案はこれに限定されないものとする。言い換えると、ユーザーは、分析しようとする原因事象（第１パラメータ）及び結果事象（第２パラメータ）を選択でき、これを介して原因事象と結果事象との間の関連性を検討できる。

表示ユニット５０に表示される統合情報は、研究データ内の第１パラメータと第２パラメータとの間に適合する関連度を表示でき、第１パラメータ及び第２パラメータに対応する研究データに研究・参考価値があるかどうかをユーザーに速やかに理解させることができる。

幾つかの実施例において、ユーザーはコントロールユニット３０を通じて第３パラメータ又は第４パラメータを生成することもできる。処理ユニット４０を通じて分析や研究することで第１パラメータと第２パラメータと第３パラメータと第４パラメータとの間の関連度を検討できる。こうして速やかにデータを分析や研究することで、研究者の研究効率を高めることができる。

一実施例において、研究方策は、第１研究方策と第２研究方策と第３研究方策とを含む。第１研究方策、第２研究方策及び第３研究方策の詳細な内容を後記で説明する。

以下、幾つかの実施例を本考案の応用として説明するが、本考案の応用は、これら実施例に限定されないものとする。

実施例１において、研究者は、スチレンの職業接触により白血病罹患リスク上昇の有無を研究する。まず、データベース６０には、すでに１９９０年〜２０１２年に中小企業１０００社に雇用されていた従業員７００００名を研究対象とするデータ（分析しようとするデータ）を保存している。これにより、研究者（すなわち、ユーザー）は、コントロールユニット３０を操作して第１研究方策を選択し、かつ第１パラメータをスチレン職業接触の有無の従業員として選択し、第２パラメータを従業員が白血病に罹患したかどうか患者として選択する（すなわち、ステップＳ０１）。

表１は、実施例１の第１研究方策の統計表である。表１を参照する。処理ユニット４０は、コントロールユニット３０を経由して第１研究方策、第１パラメータ及び第２パラメータを受信し、伝送ユニット１０を経由してデータベース６０から第１研究方策、第１パラメータ及び第２パラメータに対応する研究データをサーチ並びに受信できる（すなわち、ステップＳ０２）。
本実施例において、処理ユニット４０は、データベース６０内からスチレンの職業接触あり（第１パラメータ）、かつ白血病あり（第２パラメータ）の者が１２０人あり、スチレンの職業接触あり、かつ白血病なしの者が２９８８０人のデータを取得できる。同様に、処理ユニット４０もスチレンの職業接触なし、かつ白血病ありの者が８０人あり、スチレンの職業接触なし、かつ白血病なしの者が３９９２０人のデータも取得できる。一実施例において、処理ユニット４０は、伝送ユニット１０を経由してデータベース６０に接続すると、データベース６０が分析しようとするデータ内から第１研究方策、第１パラメータ及び第２パラメータに合致する研究データを取得し、そして研究データを伝送ユニット１０によって処理ユニット４０に伝送する。

次に、処理ユニット４０は、統計アルゴリズムに基づいて前記各研究データ、第１パラメータ、第２パラメータを分析して計算して統計情報を生成できる（すなわち、ステップＳ０３）。統計情報は、発生率、発生密度、相対危険度、オッズ比又はその他等の統計意味を持つパラメータとすることができる。
本考案はこれに限定されるものではなく、幾つかの実施例において、統計情報は、発生率、発生密度、相対危険度、オッズ比、その他等の統計意味を持つパラメータのうちの任意の組み合わせとすることができる。言い換えると、統計アルゴリズムは、発生率アルゴリズム、発生密度アルゴリズム、相対危険度アルゴリズム、オッズ比アルゴリズム或いはその他等の統計意味を持つアルゴリズムに関するものであり、本考案はこれに限定されるものではない。

図３は、本考案の一実施例に係る統計情報の発生率を計算するフローチャートである。図３を参照する。処理ユニット４０は、発生率アルゴリズムに基づいて第１パラメータ及び第２パラメータに対応する発生率を計算する（すなわち、ステップＳ０３１）。一実施例において、発生率を算出するため、発生率アルゴリズムは、（研究事象を発生した新ケース数／研究事象を発生する可能性のある全てのケース数）×１０００‰とすることができる。

例を挙げると、スチレンの職業接触あり、かつ白血病ありの発生率が（１２０／３０，０００）×１０００‰＝４‰で、その統計情報はスチレンの職業接触あり１，０００人につき４人が白血病に罹ったものである。同様に、スチレンの職業接触なし、かつ白血病ありの発生率は（８０／４０，０００）×１０００‰＝２‰で、すなわち、統計情報はスチレンの職業曝露なし１，０００人で２人が白血病に罹患したことを示している。またすべての人口集団における白血病発生率が（２００／７０，０００）×１０００‰＝２．８６‰で、すなわち、統計情報は１，０００人で２．８６人が白血病に罹患したことを示している。

図４は、本考案の一実施例に係る統計情報の発生密度を計算するフローチャートである。図４を参照する。一実施例において、処理ユニット４０は、発生密度アルゴリズムに基づいて分析計算を行って第１パラメータ及び第２パラメータに対応する発生密度を得ることができ（すなわち、ステップＳ０３２）、算出した統計情報から一定期間（研究期間）内の事象発生の潜在力があるが、事象を発生していない時間の人年数の総和を知得できる。すなわち、これを介して研究対象（人口集団）内の事象を発生した新ケース数、人口集団の大きさ及びそれらケース数の発生で経過した時間を検討できる。
本実施例において、分析しようとするデータ内には全世代が２３年間追跡観察（研究調査期間は１９９０年を起点とし、２０１２年まで追跡する）され、研究ケースが白血病の罹患と診断されると、事象発生と見なし、それとは逆に２０１２年末までにやはり該疾病を検出しない場合、事象の未発生と見なす。

表２は、実施例１の第１研究方策の別の統計表である。表２を参照する。処理ユニット４０は、上表に基づいてスチレンに曝露した従業員における白血病ありの発生密度が（１２０／１，０００，０００）×１０００＝０．１２と算出でき、すなわち、統計情報がスチレンに曝露した従業員において、１，０００人年で０．１２人が白血病に罹患したことを示している。同様に、スチレンに曝露しない従業員における白血病ありの発生密度は（８０／１，６００，０００）×１０００＝０．０５で、すなわち、統計情報はスチレンに曝露しない従業員において、１，０００人年で０．０５人が白血病に罹患したことを示している。また、すべての人口集団の白血病発生密度が（２００／２，６００，０００）×１０００＝０．０８で、すなわち、統計情報は１，０００人年で０．０８人が白血病に罹患したことを示している。

図５は、本考案の一実施例に係るテップＳ０３の詳細フローチャートである。図５を参照する。処理ユニット４０が分析計算を行うことで統計情報を生成するステップにおいて、処理ユニット４０は、前記各発生率（すなわち、ステップＳ０３１）に基づいて分析計算を行って発生率比が得られる（すなわち、ステップＳ０３１１）。すなわち、スチレン曝露者の白血病罹患発生率／スチレン非曝露者の白血病発生率が４‰／２‰＝２で、これはスチレン曝露者の白血病罹患リスクがスチレン非曝露者より２倍高いことを示している。言い換えると、処理ユニット４０は、発生率に基づきスチレン曝露者がスチレン非曝露者に比べて白血病に罹患する相対危険度（統計情報）を知ることができる。
発生率比は、因子曝露組（群）の事象発生率と非因子曝露組（群）の事象発生率のオッズ比である。すなわち、本実施例において発生率比は、スチレン曝露の事象発生率とスチレン非曝露の事象発生率のオッズ比である。

図６は、本考案の別の実施例に係るテップＳ０３の詳細フローチャートである。図６を参照する。一実施例において、処理ユニット４０が分析計算を行うことで統計情報を生成するステップ中で、処理ユニット４０は前記各発生密度（すなわち、ステップＳ０３２）に基づいて分析計算を行って発生密度比が得られる（すなわち、ステップＳ０３２１）。すなわち、スチレン曝露者の白血病発生密度／スチレン非曝露者の白血病発生密度が０．１２／０．０５＝２．４で、これはスチレン曝露者の白血病発生密度がスチレン非曝露者より２．４倍高いことを示している。言い換えると、スチレン曝露者は、スチレン非曝露者に比べて白血病発生密度が２．４倍より高い。
発生密度比は、因子曝露組（群）の事象発生密度と非因子曝露組（群）の事象発生密度のオッズ比である。すなわち、本実施例において、発生密度比は、スチレン曝露の事象発生密度とスチレン非曝露の事象発生密度のオッズ比である。

図７は、本考案の更なる実施例に係るテップＳ０３の詳細フローチャートである。図７を参照する。一実施例において、処理ユニット４０はオッズ比アルゴリズムに基づいて分析計算を行うことで、第１パラメータ及び第２パラメータに対応するオッズ比（統計情報）を知ることができる（すなわち、ステップＳ０３３）。これは、処理ユニット４０が前記因子曝露組（群）の事象発生オッズと非因子曝露組（群）の事象発生オッズの比である。すなわち、スチレン曝露者の白血病発生数で非発生数を割ったものとスチレン非曝露者の白血病発生数で非発生数を割ったものとの間の比は、オッズ比（（１２０／２９，８８０）／（８０／３９，９２０）＝２）であり、その統計情報はチレン曝露者の白血病罹患オッズがスチレン非曝露者の２倍であることを示している。すなわち、研究者は、必要性に応じて統計情報の種類又はその組み合わせを自ら選択して分析判断を行うことができ、本考案はこれに限定されるものではない。

一実施例において、再度図２を参照する。処理ユニット４０は、検定アルゴリズムに基づいて第１パラメータと第２パラメータとの間に対応する統計的検定を分析して計算できる（すなわち、ステップＳ０４）。
統計的検定は、第１パラメータと第２パラメータとの間の関連性及び因果関係である。すなわち、処理ユニット４０が検定アルゴリズムにより分析計算を行った統計的検定の結果は、研究データにおける第１パラメータと第２パラメータとの間の関連性及び因果関係を推計できる。

検定アルゴリズムは、統計的仮説検定アルゴリズム、単一因子／多因子分析アルゴリズム、その他の関連検定アルゴリズムのうちのいずれか又はそれらの任意の組み合わせが挙げられ、本考案はこれに限定されるものではない。

一実施例において、統計的仮説検定アルゴリズムは、カイ二乗検定アルゴリズム（Ｃｈｉ−Ｓｑｕａｒｅｔｅｓｔ）、フィッシャーの直接確率検定アルゴリズム（Ｆｉｓｈｅｒｅｘａｃｔｔｅｓｔ）、２標本ｔ検定アルゴリズム（Ｔｗｏ−ｓａｍｐｌｅＴ−ｔｅｓｔ）、ウィルコクソンの順位和検定アルゴリズム（Ｗｉｌｃｏｘｏｎｒａｎｋ−ｓｕｍｔｅｓｔ）のうちのいずれかを含む。

カイ二乗検定アルゴリズムは、２つのカテゴリカル変数（ｃａｔｅｇｏｒｉｃａｌｖａｒｉａｂｌｅｓ）間に関連性が存在するかどうかを検討し、両者の関連性を検定するだけで、相互間の因果関係を指摘しない。

フィッシャーの直接確率検定アルゴリズムの目的は、２つのカテゴリカル変数の関連性を検定することにあり、２×２分割表で関連性を検定する問題に適する。この方法は、直接データから付与する確率論に基づいて、全てのラダンム並べ替えを考慮して観察した標本数の２変数は独立で関係がない場合において現れた確率を計算するものである。

２標本ｔ検定アルゴリズムは、独立２群の標本間の連続変数（ｃｏｎｔｉｎｕｏｕｓｖａｒｉａｂｌｅｓ）の母平均値の差（某特定数値より大きいか、小さいか又は等しいか）を検討し、すなわち、２群の連続変数の差を比較する。

ウィルコクソンの順位和検定アルゴリズムは、２群の連続変数分布が正規分布ではなく、標本数が小すぎる又は極端な値がある時、中央値を２群の中心的な傾向の代表的な値として利用する場合、ウィルコクソンの順位和検定で２群の中央値に差があるかどうかを比較できる。

表３は、実施例１の第１研究方策に対応する記述及び推測統計表である。表３を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。
推測統計は、ｔ検定でスチレン曝露の有無の年齢平均値の差を検討し、カイ二乗検定でスチレン曝露の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表３から分かるように、年齢・喫煙習慣・飲酒習慣のスチレン曝露の有無の間における分布は、いずれも統計的有意差或いは有意な関連性がある（すなわち、ｐ＜０．０５の時、対応する項目と第１パラメータとが有意な関連性を有する。ここで、ｐ値は、統計的仮説検定アルゴリズムで算出した）。ｐ−ｖａｌｕｅ欄内の注ａは、カイ二乗検定アルゴリズムに基づいて得られた。ｐ−ｖａｌｕｅ欄内の注ｂは、ｔ検定アルゴリズムに基づいて得られた。有意水準は５％とする。

一実施例において、単一因子／多因子分析アルゴリズムは、生存分析（ＳｕｒｖｉｖａｌＡｎａｌｙｓｉｓ）、Ｃｏｘ比例ハザードモデル（ＣｏｘＰｒｏｐｏｒｔｉｏｎａｌＨａｚａｒｄｓＭｏｄｅｌ）、ポアソン回帰モデル（ＰｏｉｓｓｏｎＲｅｇｒｅｓｓｉｏｎＭｏｄｅｌ）、ロジスティック回帰モデル（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎＭｏｄｅｌ）、その他の関連因子分析アルゴリズムのうちのいずれを含み、本考案はこれに限定されるものではない。

表４は、実施例１のＣｏｘ回帰分析結果である。表４を参照する。単一因子分析アルゴリズム結果によれば、喫煙習慣、スチレン接触はいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病に罹患する有意な危険因子であり、両者が統計的関連性（ｐ＜０．０５）を有し、すなわち、スチレン接触者の白血病罹患リスクはスチレン未接触者の１．２６３倍で、言い換えると、スチレン接触者の白血病罹患リスクが２６．３％上昇し、このリスク比の信頼区間の上限は、上昇するリスクが１６５．１％に達する可能性があることを示している。

表５は、実施例１の白血病発生率と年齢のポアソン回帰結果である。表５を参照する。表５では年齢を４９歳以下、５０〜５９歳及び６０歳以上の３つの年齢層に区分する。基準年齢層（４９歳以下）の１人年（１人１年間）白血病発生率は、

と推定した。５０〜５９歳、６０歳以上の各年齢層の１人年の白血病発生率が各々

、

と推定した。各年齢層が基準年齢層（４９歳以下）に比べた１人年の白血病発生率比（ＩＲＲ）が各々６．３４１、３．７６２とした。よって、表５から６０歳以上の年齢層は白血病発生率と有意な関連性（ｐ＜０．０５）があることを知ることができる。

表６は、実施例１の白血病の危険因子のロジスティック回帰結果の統計表である。表６を参照する。単一因子分析アルゴリズム結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病に罹患する有意な危険因子であり、両者が統計的関連性（ｐ＜０．０５）を有し、スチレン接触者の白血病罹患オッズがスチレン未接触者の１．６９６倍であると示している。言い換えると、スチレン接触者の白血病罹患オッズは、６９．６％上昇し、オッズ比の信頼区間の上限は上昇するオッズが１００．７％に達することができる。

図８は、本考案のステップＳ０５の詳細フローチャートである。表７は、本考案の実施例１の統合情報を示す表である。図８及び表７を参照する。処理ユニット４０は、統合アルゴリズムを通じて前記第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合情報として統合（すなわち、ステップＳ０５１）し、かつ表示ユニット５０に伝送すると共に表示する。
一実施例において、統合アルゴリズムは、適度に第１パラメータ、第２パラメータ、統計情報及び統計的検定の結果に基づいて文字、データ、表等を加えることで、補助説明とする。例を挙げると、統合情報は、前記各発生率（曝露者の白血病発生率＝４‰で、すなわち、スチレン職業曝露者１，０００人で４人が白血病に罹患し、非曝露者の白血病発生率＝２‰で、すなわち、スチレンの非職業曝露１，０００人で２人が白血病に罹患し、すべての人口集団の白血病発生率＝２．８６‰で、すなわち、１，０００人で２．８６人が白血病に罹患した）、各統計情報（発生率比＝２は、スチレン曝露者の白血病罹患リスクが非曝露者より２倍高く、曝露者は、非曝露者より白血病罹患リスクが２倍高いことを示している。
オッズ比＝２は、スチレン曝露者の白血病罹患オッズが非曝露者の２倍であることを示している。）及び各統計的検定（年齢・喫煙習慣・飲酒習慣のスチレン曝露の有無の間における分布は、いずれも統計的有意差又は有意な関連性がある（ｐ＜０．０５）、単一因子／多因子分析（生存分析、ポアソン回帰モデル、ロジスティック回帰モデル））を表示する。よって、統合アルゴリズムを通じて統合情報が第１パラメータ及び第２パラメータに対応する表の情報又は文字説明を組み合わせて研究者に速やかに理解させ、更に関連専門知識を持っていない一般人にも研究結果を簡単に理解させることができる。

実施例２において、実施例１と類似し、研究者が第２研究方策を利用して職業的にスチレンに接触（第１パラメータ）した場合、白血病罹患（第２パラメータ）リスクを上昇するかどうかを研究する。データベース６０には、すでに１９９０年〜２０１２年に中小企業１０００社に雇用されていた従業員７００００名を研究対象とするデータ（分析しようとするデータ）を保存している。第１パラメータをスチレン職業接触の有無の従業員として選択（すなわち、ステップＳ０１）し、第２パラメータを従業員が白血病に罹患したかどうか患者として選択（すなわち、ステップＳ０１）し、かつ第２研究方策を選択する。本実施例において、処理ユニット４０がデータベース６０から取得した研究データは、第１研究データと第２研究データ（すなわち、ステップＳ０２）に分かれ、第１研究データが１９９０年〜２０１２年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者２００人から選択して症例研究群とする。対照統制群は、１９９０年〜２０１２年同期間の同じデータベースの非白血病患者の被用者５００人から選択される。
第２研究データは、１９９０年〜２０１２年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者２００人から選択して症例研究群とした。１：１ペアマッチにより症例ケースと同じ性別、年齢差が２歳以内その他の悪性腫瘍のある者を排除した非症例ケースの被用者２００人を選択して対照統制群の計２００対とした。よって、第１研究方策の各研究データにおける内容は、第２研究方策内で取得した各研究データの内容と異なる。

表８は、本考案における実施例２の第２研究方策内の第１研究データに関する統計表である。表９は、本考案における実施例２の第２研究方策の第２研究データに関する統計表である。表８及び表９を参照する。処理ユニット４０は、第１データ及び第２データについて統計アルゴリズムに基づいてその統計情報を各々計算できる（すなわち、ステップＳ０３）。
本実施例において、処理ユニット４０は曝露アルゴリズムで第１研究データ及び第２研究データの曝露率を計算できる。

よって、表８から分かるように、第１研究データの症例研究群の曝露率＝（１２０／２００）×１００％＝６０％で、すなわち、２００名の白血病患者の中に１２０人がスチレンに曝露されており、曝露率は１００分の６０であった。第１研究データの対照統制群の曝露率＝（１００／５００）×１００％＝２０％で、すなわち、５００名の白血病のない人の中に１００人がスチレンに曝露されており、曝露率は１００分の２０であった。

よって、表９から分かるように、第２研究データの症例研究群の曝露率＝（１３０／２００）×１００％＝６５％で、すなわち、２００名の白血病患者の中に１３０人がスチレンに曝露されており、曝露率は１００分の６５であった。第２研究データの対照統制群の曝露率＝（８０／２００）×１００％＝４０％で、すなわち、２００名の白血病のない人の中に８０人がスチレンに曝露されており、曝露率は１００分の４０であった。

次に、処理ユニット４０は、引き続いて第２研究方策、第１研究データ、第２研究データ、第１パラメータ及び第２パラメータに基づいて分析して統計情報を生成できる（すなわち、ステップＳ０３）。例を挙げると、第１研究データ内のオッズ比（統計情報）＝（１２０＊４００）／（１００＊８０）＝６で、白血病あり曝露オッズは白血病なしの６倍であり、白血病のある人は、白血病のない人に比べてスチレン曝露オッズが６倍高いことを示している。
第２研究データ内のオッズ比（統計情報）＝１００／５０＝２で、白血病あり曝露オッズは白血病なしの２倍であり、白血病のある者は、白血病のない者に比べてスチレン曝露オッズが２倍高いことを示している。統計情報は、実施例１内に記載されることと同じように生成されたため、ここでその説明を省略する。

表１０は、実施例２の第２研究方策に対応する記述及び推測統計表である。処理ユニット４０は、検定アルゴリズムに基づいて第１研究データ及び第２研究データ内の第２パラメータに各々対応する統計的検定をそれぞれ分析する。すなわち、処理ユニット４０が検定アルゴリズムで分析計算を行った統計的検定の結果は、第１研究データと第２研究データの第２パラメータの間に対応する関連性を推計できる。

表１０を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、ｔ検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表１０から分かるように、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性（ｐ＜０．０５）がある。ｐ−ｖａｌｕｅ欄内の注ａは、カイ二乗検定アルゴリズムに基づいて得られた。ｐ−ｖａｌｕｅ欄内の注ｂは、ｔ検定アルゴリズムに基づいて得られた。有意水準は５％とする。

表１１は、実施例２の第２研究方策に対応する別の記述及び推測統計表である。表１１を参照する。記述統計は平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、ｔ検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。
よって、表１１から分かるように、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性（ｐ＜０．０５）がある。ｐ−ｖａｌｕｅ欄内の注ａは、カイ二乗検定アルゴリズムに基づいて得られた。ｐ−ｖａｌｕｅ欄内の注ｂは、ｔ検定アルゴリズムに基づいて得られた。有意水準は５％とする。

次に、処理ユニット４０も単一因子／多因子分析アルゴリズムに基づいて分析演算を行うことで、統計的関連性を理解できる。

例を挙げると、第１研究データの単一因子分析アルゴリズム結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析アルゴリズム結果によれば、年齢、スチレン接触が白血病罹患と統計的関連性（ｐ＜０．０５）を有すると示している。
よって、第１研究データにおいて、年齢が１歳増えると、白血病罹患オッズは６７．５％上昇し、スチレン接触者の白血病罹患オッズがスチレン未接触者の１．３６４倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、３６．４％上昇し、オッズ比の信頼区間の上限は上昇するオッズが１１６．３％に達する可能性がある。

また第２研究データの単一因子分析アルゴリズム結果によれば、性別、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析アルゴリズム結果によれば、スチレン接触のみが白血病罹患と統計的関連性（ｐ＜０．０５）を有すると示している。
よって、第２研究データにおいて、スチレン接触者の白血病罹患オッズがスチレン未接触者の２．７６４倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、１７６．４％上昇し、オッズ比の信頼区間の上限は上昇するオッズが２００．６％に達する可能性がある。

処理ユニット４０は、統合アルゴリズムを通じて前記第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合情報として統合（実施例１の表７と類似し、その表示結果が実際のニーズに応じて表示する）し、かつ表示ユニット５０に伝送すると共に表示する。すなわち、統合情報は、前記各統計情報及び各統計的検定を表示し、かつ第１パラメータ及び第２パラメータに対応する表の情報又は文字説明を組み合わせて研究者に速やかに理解させ、更に関連専門知識を持っていない一般人にも研究結果を簡単に理解させることができる。

実施例３では、実施例１、実施例２と類似し、研究者が第３研究方策を利用して職業的にスチレンに接触（第１パラメータ）した場合、白血病罹患（第２パラメータ）リスクを上昇するかどうかを研究する（すなわち、ステップＳ０１）。第３研究データは、１９９０年〜２０１２年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者２００人から選択して症例研究群とする（すなわち、ステップＳ０２）。
対照統制群は、同期間の同じデータベースの非白血病患者の被用者５００人から選択される（すなわち、ステップＳ０２）。第４研究データは、某職業健康調査データベースの１９９０年〜２０１２年に病理学の検査を経て新たに白血病と診断された患者を実証した被用者２００人から選択して症例研究群とした（すなわち、ステップＳ０２）。１：１ペアマッチにより症例ケースと同じ性別、年齢差が２歳以内その他の悪性腫瘍のある者を排除した非症例ケースの被用者２００人を選択して対照統制群の計２００対とした（すなわち、ステップＳ０２）。よって、第３研究方策の第３研究データ及び第４研究データは、第１研究方策の各研究データ及び第２研究方策の各研究データと異なる。

表１２は、実施例３の第３研究方策内の第３研究データに関する統計表である。表１２を参照する。第３研究データ内では、２３年間観察（研究調査期間は１９９０年を起点とし、２０１２年まで追跡する）過程中、研究ケースが白血病の罹患と診断されると、事象発生と見なし、それとは逆に２０１２年末までにやはり該疾病を検出しない場合、事象の未発生と見なす。

第３研究データによれば、処理ユニット４０は、統計アルゴリズム（例えば発生率アルゴリズム）に基づいて白血病発生率＝（２００／７００）×１０００‰＝２８５．７１‰（すなわち、ステップＳ０３）と算出でき、すなわち、１，０００人で２８５．７１人が白血病に罹患したことを示している。また、一実施例において、処理ユニット４０も統計アルゴリズム（例えば発生密度アルゴリズム）に基づいて白血病発生密度＝（２００／４２，０００）×１０００＝４．７６（すなわち、ステップＳ０３２）と算出でき、すなわち、１，０００人で４．７６人が白血病に罹患したことを示している。

表１３は、実施例３の第３研究方策内の第４研究データに関する統計表である。同様に、処理ユニット４０も発生率アルゴリズムに基づいて白血病発生率＝（２００／４００）×１０００‰＝５００‰と算出（すなわち、ステップＳ０３１）でき、すなわち、１，０００人で５００人が白血病に罹患したことを示している。

言い換えると、処理ユニット４０は、統計アルゴリズムに基づいて第３研究データ及び第４研究データの統計情報を各々分析して計算できる（すなわち、ステップＳ０３）。例を挙げると、本実施例において、処理ユニット４０は、オッズ比アルゴリズムに基づいて第３研究データと第４研究データのオッズ比も計算できる。例えば、第３研究データのオッズ比は、（１３０＊２８０）／（２２０＊７０）＝２．３６とすることができ、白血病あり曝露オッズが白血病なしの２．３６倍であることを示す。言い換えると、白血病のある人が白血病のない人に比べてスチレン曝露オッズは２．３６倍高い。
また第４研究データにおけるオッズ比は、１１０／３０＝３．６７とすることができ、白血病あり曝露オッズが白血病なしの３．６７倍であることを示し、言い換えると、白血病のある者が白血病のない者に比べてスチレン曝露オッズは３．６７倍高い。その他のカテゴリー（例えば相対危険度又はその他）の統計情報は、ここでその説明を省略する。

表１４は、第３研究データの別の統計表である。表１５は、第４研究データの別の統計表である。表１４乃至表１５を参照する。本実施例において、処理ユニット４０は、検定アルゴリズム基づいて第３研究データ及び第４研究データが各々第２パラメータの間に対応する統計的検定を分析して計算できる（すなわち、ステップＳ０４）。ｐ−ｖａｌｕｅ欄内の注ａは、カイ二乗検定アルゴリズムに基づいて得られた。ｐ−ｖａｌｕｅ欄内の注ｂは、ｔ検定アルゴリズムに基づいて得られた。有意水準は５％とする。

例を挙げると、表１４は記述統計及び推測統計であり、記述統計が平均値、標準偏差で連続変数データの分布状況を呈し、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、ｔ検定で症例研究群及び対照統制群の年齢平均値の差を検討し、カイ二乗検定で白血病の有無と年齢を除いたその他の属性因子との間に関連性があるかどうかを検討する。よって、表１４に示す結果によれば、年齢・喫煙習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性（ｐ＜０．０５）があることを発見した。また、表１５も記述統計及び推測統計であり、表１５に示す結果によれば、年齢、喫煙習慣、飲酒習慣の白血病の有無の間における分布は、いずれも統計的有意差或いは有意な関連性（ｐ＜０．０５）があることを発見できた。

表１６は、第３研究データのロジスティック回帰結果の統計表である。表１７は、第４研究データの条件付きロジスティック回帰結果の統計表である。一実施例において、処理ユニット４０も統計的仮説検定アルゴリズム、単一因子／多因子分析アルゴリズム又はその他の検定アルゴリズムに基づいて対応の結果が得られる。例を挙げると、第３研究データにおいて、表１６を参照する。ロジスティック回帰分析法で単一因子及び多因子と白血病の関連付け結果を検討できる。単一因子分析結果によれば、年齢、喫煙習慣、スチレン接触がいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果によれば、年齢、スチレン接触が白血病罹患と統計的関連性（ｐ＜０．０５）を有すると示している。年齢が１歳増えると、白血病罹患オッズは２６．７％上昇し、スチレン接触者の白血病罹患オッズがスチレン未接触者の１．８８８倍であった。言い換えると、スチレン接触者の白血病罹患オッズは、８８．８％上昇し、オッズ比の信頼区間の上限は上昇するオッズが１００．１％に達する可能性がある。
同様に、第４研究データにおいて、表１７を参照する。条件付きロジスティック回帰分析法で単一因子及び多因子と白血病の関連付け結果を検討し、単一因子分析結果によれば、年齢、家族歴、スチレン接触がいずれも白血病罹患と統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果によれば、スチレン接触のみが白血病罹患と統計的関連性（ｐ＜０．０５）を有し、スチレン接触者の白血病罹患オッズがスチレン未接触者の１．８１２倍であることを示している。言い換えると、スチレン接触者の白血病罹患オッズは、８１．２％上昇し、オッズ比の信頼区間の上限は上昇するオッズが１１０．３％に達する可能性がある。

最後に、処理ユニット４０は、更に前記各分析計算結果に基づき、統合アルゴリズムを通じて前記第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合情報として統合（実施例１の表７と類似し、その表示結果が実際のニーズに応じて表示する）し、かつ表示ユニット５０伝送すると共に表示する。

実施例４において、研究者は高温地域（第１パラメータ）の居住の有無とかき氷機（第２パラメータ）購入の有無の関連性を研究する。まず、データベース６０に保存している２０１０年１月〜２０１４年１２月の会員を研究観察対象となり、研究期間外にかつてかき氷機を購入した会員人数を控除した後、実際の研究対象は５，０００名とした。よって、研究者は、コントロールユニット３０を操作して第１研究方策を選択し、第１パラメータが高温地域居住の有無を選択し、第２パラメータがかき氷機購入の有無を選択する（ステップＳ０１）。

表１８は、実施例４の第１研究方策の統計表である。ここで、処理ユニット４０は、データベース６０を経由して第１研究方策、第１パラメータ及び第２パラメータに対応する各研究データ（表１８）をサーチ並びに受信できる（ステップＳ０２）。次に、処理ユニット４０は、統計アルゴリズムに基づいて計算することで統計情報を生成できる（ステップＳ０３）。例えば、処理ユニット４０は、発生率アルゴリズムに基づいて各研究データの発生率を計算できる。例えば、高温地域に居住する場合のかき氷機購入発生率＝（２００／１，０００）×１０００‰＝２００‰で、すなわち、高温地域（日平均気温≧２８℃）に曝露・居住する者の１，０００人で２００人がかき氷機を購入する。
高温地域に居住しない者のかき氷機購入発生率＝（６００／４，０００）×１０００‰＝１５０‰で、すなわち、高温地域（日平均気温＜２８℃）に曝露・居住しない者の１，０００人で１５０人がかき氷機を購入する。すべての人口集団のかき氷機購入発生率＝（８００／５，０００）×１０００‰＝１６０‰で、すなわち、１，０００人で１６０人がかき氷機を購入する。

幾つかの実施例において、処理ユニット４０も相対危険度アルゴリズム、オッズ比アルゴリズム又はその他の統計アルゴリズムに基づいて計算することで、統計情報を生成できる。例を挙げると、相対危険度アルゴリズムは、高温地域に居住する者のかき氷機購入発生率／高温地域に居住しない者のかき氷機購入発生率＝２００‰／１５０‰＝１．３３で、高温地域に曝露・居住する者がかき氷機を購入する可能性は、非曝露者に比べて１．３３倍高く、曝露者が非曝露者に比べてかき氷機を購入する可能性は、１．３３倍高いことを示している。
また処理ユニット４０は、オッズ比アルゴリズムを利用してオッズ比＝（２００／８００）／（６００／３，４００）＝１．４２と算出でき、これは高温地域に曝露・居住する者のかき氷機購入オッズが非曝露者の１．４２倍であることを示している。

表１９は、実施例４の第１研究方策に対応する記述及び推測統計表である。ｐ−ｖａｌｕｅは、カイ二乗検定アルゴリズムに基づいて得られた。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈し、推測統計は、カイ二乗検定で高温地域に曝露・居住するかどうかと属性因子との間に関連性の有無を検討する。

次に、処理ユニット４０は、検定アルゴリズムに基づいて分析計算を行うことで、統計的検定を生成できる（ステップＳ０４）。例として、表１９を参照する。処理ユニット４０はカイ二乗検定アルゴリズムを通じて各ｐ−ｖａｌｕｅを得ることができる。性別、年齢、居住区域及び高温地域に曝露・居住するかどうかは、いずれも統計的に有意な関連性（ｐ＜０．０５）があり、すなわち、高温地域に曝露・居住するかどうかの性別、年齢、居住区域における分布はいずれも統計的有意差がある。

表２０は、実施例４のＣｏｘ回帰分析結果の統計表である。表２０を参照する。表２０から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温のみはかき氷機購入の有意影響要因であり、両者に統計的関連性（ｐ＜０．０５）があり、居住区域の日平均気温が１℃上昇すると、かき氷機購入確率（可能性）は１０１．３％上昇する。

表２１は、実施例４内のかき氷機購入発生率と年齢のポアソン回帰結果の統計表である。表２１を参照する。処理ユニット４０は、更に年齢を２９歳以下、３０〜４９歳及び５０歳以上の３つの年齢層に区分する。基準年齢層（２９歳以下）のかき氷機購入発生率は、

と推定した。３０〜４９歳、５０歳以上の各年齢層のかき氷機購入発生率は、各々

、

と推定した。各年齢層の基準年齢層（２９歳以下）に比べるかき氷機購入の発生率比（ＩＲＲ）は、各々４．４８６、３．７５８であったため、表２１内のｐ−ｖａｌｕｅから見ると、年齢層とかき氷機購入発生率とは有意な相関関係がない。

表２２は、実施例４のかき氷機の関連購入要因のロジスティック回帰結果の統計表である。表２２から分かるように、単一因子分析結果において、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温はかき氷機購入の有意影響要因であり、両者に統計的関連性（ｐ＜０．０５）があり、居住区域の日平均気温が１℃上昇すると、かき氷機購入オッズは１０５．２％上昇する。

次に、処理ユニット４０は、統合アルゴリズムに基づいて前記第１パラメータ、第２パラメータ、各統計情報及び統計的検定を統合情報として統合する（ステップＳ０５）。また統合情報を表示ユニット５０に伝送して表示ユニット５０に統合情報を表示させる。研究者に第１パラメータと第２パラメータとの間の関連性を速やかに理解させ、更に一般人にその研究結果が代表する意味を理解させることができる。

表２３は、実施例５の第２研究方策内の第５研究データに関する統計表である。表２４は、実施例５の第２研究方策内の第６研究データに関する統計表である。実施例５において、実施例２と同じで、研究者はコントロールユニット３０を操作して第２研究方策を選択し、かつ第１パラメータが高温地域居住の有無を選択し、第２パラメータがかき氷機購入の有無を選択できる（ステップＳ０１）。
第５研究データは、某ネットショッピングモール内の２０１０年１月〜２０１４年１２月にかき氷機を購入した会員８００人から選択して事例研究群とした。対照統制群は、同じネットショッピングモールの同期間にかき氷機を購入しない会員２，０００人から選択した。第６研究データは、某ネットショッピングモール内の２０１０年１月〜２０１４年１２月にかき氷機を購入した会員８００人から選択して事例研究群とした。１：１ペアマッチによりケースと同じ性別、年齢差が２歳以内の非ケース会員８００人を選択して対照統制群の計８００対としたステップＳ０２）。

次に、処理ユニット４０は、これを介して曝露アルゴリズム（統計アルゴリズム）に基づいて第５研究データの曝露率（統計情報）及び第６研究データの曝露率（統計情報）を計算できる（ステップＳ０３）。例えば、第５研究データ内の事例研究群の曝露率＝（４４０／８００）×１００％＝５５％で、すなわち、かき氷機を購入した会員８００名で４４０人が高温地域に曝露・居住し、曝露率は１００分の５５であった。その対照統制群の曝露率＝（１，０００／２，０００）×１００％＝５０％で、すなわち、かき氷機を購入しない会員２，０００名で１，０００人が高温地域に曝露・居住し、曝露率は１００分の５０であった。例えば、第６研究データ内の事例研究群の曝露率＝（４５０／８００）×１００％＝５６．２５％で、すなわち、かき氷機を購入した会員８００名で４５０人が高温地域に曝露・居住し、曝露率は１００分の５６．２５であった。その対照統制群の曝露率＝（３３０／８００）×１００％＝４１．２５％で、すなわち、かき氷機を購入しない会員８００名で３３０人が高温地域に曝露・居住し、曝露率は１００分の４１．２５であった。

また、処理ユニット４０もその他の種類の統計アルゴリズムでその統計情報を各々計算できる（ステップＳ０３）。例えば、第５研究データ内のオッズ比＝（４４０＊１０００）／（１０００＊３６０）＝１．２で、かき氷機購入ありの曝露オッズはかき氷機購入なしの１．２倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住オッズは、１．２倍高いことを示している。
第６研究データ内のオッズ比＝２７０／１５０＝１．８で、かき氷機購入ありの曝露オッズは、かき氷機購入なしの１．８倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住オッズは、１．８倍高いことを示している。その他の統計情報の演算方式は、ここでその説明を省略する。

表２５は、実施例５の対応第２研究方策内の記述及び推測統計表である。表２６は、実施例５の対応第２研究方策内の別の記述及び推測統計表である。次に、処理ユニット４０は、検定アルゴリズムに基づいて第５研究データ、第６研究データ、第２パラメータを各々分析して統計的検定が得られた（ステップＳ０４）。例を挙げると、表２５内の記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。
表２５に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な有関連性（ｐ＜０．０５）を有することを発見できる。表２６内の記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。表２６に示す結果から年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性（ｐ＜０．０５）を有することを発見できた。

表２７は、実施例５内の第５研究データのロジスティック回帰分析統計表である。表２８は、実施例５内の第６研究データの条件付きロジスティック回帰分析統計表である。表２７から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性（ｐ＜０．０５）を有し、居住区域の日平均気温が１℃上昇すると、かき氷機購入オッズは２２２．３％上昇する。
表２８から分かるように、単一因子分析結果において、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性（ｐ＜０．０５）を有し、居住区域の日平均気温が１℃上昇すると、かき氷機購入オッズは１９８．６％上昇する。

次に、処理ユニット４０は、統合アルゴリズムを利用して上記取得した第５研究データ、第６研究データ、第１パラメータ、第２パラメータ、統計情報及び統計的検定を統合し、統合情報を生成（ステップＳ０５）することで、表示ユニット５０に統合情報を表示させる。

表２９は、実施例６の第３研究方策内の第７研究データに関する統計表である。表３０は、実施例６の第３研究方策内の第８研究データに関する統計表である。実施例６は、実施例３と同じで、研究者はコントロールユニット３０を操作して第３研究方策を選択し、かつ第１パラメータが高温地域居住の有無を選択し、第２パラメータがかき氷機購入の有無を選択できる（ステップＳ０１）。
データベース６０に保存している某ネットショッピングモール内の２０１０年１月〜２０１４年１２月の会員（研究期間外のかつてかき氷機を購入した会員数を控除した）を研究対象とした。第７研究データは、某ネットショッピングモール内の２０１０年１月〜２０１４年１２月にかき氷機を購入した会員８００人から選択して事例研究群とした。対照統制群は、同じネットショッピングモールの同期間にかき氷機を購入しない会員２，０００人から選択した。第８研究データは、某ネットショッピングモール内の２０１０年１月〜２０１４年１２月にかき氷機を購入した会員８００人から選択して事例研究群とした。１：１ペアマッチによりケースと同じ性別、年齢差が２歳以内の非ケース会員８００人を選択して対照統制群の計８００対とした（ステップＳ０２）。

次に、処理ユニット４０は、統計アルゴリズムに基づいて第７研究データ及び第８研究データの統計情報を計算できる（ステップＳ０３）。例を挙げると、処理ユニット４０は、発生率アルゴリズムに基づいて第７研究データのかき氷機購入発生率を計算でき、その発生率＝（８００／２，８００）×１０００‰＝２８５．７‰で、すなわち、１，０００人で２８５．７人がかき氷機を購入する。同様に、第８研究データのかき氷機購入発生率＝（８００／１，６００）×１０００‰＝５００‰で、すなわち、１，０００人で５００人がかき氷機を購入する。

幾つかの実施例において、処理ユニット４０もオッズ比アルゴリズムに基づいて第７研究データ及び第８研究データを計算することで、オッズ比の統計情報を得ることができる。例を挙げると、処理ユニット４０は、オッズ比アルゴリズムに基づいて第７研究データを計算した時、そのオッズ比＝（４８０＊１，１００）／（９００＊３２０）＝１．８３で、かき氷機購入ありの曝露オッズはかき氷機購入なしの１．８３倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住するオッズは、１．８３倍高いことを示している。同様に、第８研究データのオッズ比＝３００／１００＝３で、かき氷機購入ありの曝露オッズはかき氷機購入なしの３倍であり、かき氷機を購入した者がかき氷機を購入しない者に比べて高温地域に曝露・居住のオッズは、１．８３倍高いことを示している。
幾つかの実施例において、処理ユニット４０は、更にその他の種類の統計アルゴリズムに基づいて第７研究データ又は第８研究データに対し演算を行うことで、対応の統計情報を生成できるが、本考案はこれに限定されるものではない。

表３１は、実施例６内の第７研究データの統計的検定表である。表３２は、実施例６内の第８研究データの統計的検定表である。処理ユニット４０は、検定アルゴリズムに基づいて第７研究データ及び第８研究データを計算して統計的検定を生成できる（ステップＳ０４）。
例を挙げると、表３１は、第７研究データがカイ二乗検定アルゴリズムの演算を経た後の統計表であり、記述統計及び推測統計を包括する。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。
表３１に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性（ｐ＜０．０５）を有することを発見した。同様に、表３２も第８研究データがカイ二乗検定アルゴリズムの演算を経た後の統計表であり、記述統計及び推測統計を包括する。記述統計は、ケース数、パーセントでカテゴリカル変数データの分布状況を呈する。推測統計は、カイ二乗検定でかき氷機購入の有無と属性因子との間に関連性があるかどうかを検討する。表３２に示す結果から、年齢、居住区域のかき氷機購入の有無の間における分布は、いずれも統計的有意差又は有意な関連性（ｐ＜０．０５）を有することを発見した。

また、幾つかの実施例において、処理ユニット４０は、ロジスティック回帰分析アルゴリズム（検定アルゴリズム）に基づいて第７研究データを分析・演算でき、及び処理ユニット４０は、条件付きロジスティック回帰分析アルゴリズム（検定アルゴリズム）に基づいて第８研究データを分析することで、更に対応の統計的検定を得ることができる。表３３は、実施例６内の第７研究データの別の統計的検定表である。表３４は、実施例６内の第８研究データの別の統計的検定表である。

表３３及び表３４を参照する。処理ユニット４０は、ロジスティック回帰分析アルゴリズムに基づいてかき氷機購入の相関因子を分析した結果の統計表である。表３３から分かるように、単一因子分析結果において、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温は、かき氷機購入と統計的関連性（ｐ＜０．０５）を有し、居住区域の日平均気温が１℃上昇すると、かき氷機購入オッズは２７６．４％上昇する。表３４は、処理ユニット４０が条件付きロジスティック回帰分析アルゴリズムに基づいてかき氷機購入の相関因子を分析した結果の統計表である。
表３４から分かるように、単一因子分析結果において、性別、居住区域、居住区域の日平均気温とかき氷機の購入とは統計的相関関係（ｐ＜０．０５）を有すると示している。多因子分析結果において、居住区域の日平均気温のみは、かき氷機購入と統計的関連性（ｐ＜０．０５）を有し、居住区域の日平均気温が１℃上昇すると、かき氷機購入オッズは１９９．６％上昇する。その他の種類の検定アルゴリズムは、ここでその説明を省略する。

次に、処理ユニット４０は、統合アルゴリズムに基づいて前記第１パラメータ、第２パラメータ、各研究データ、各統計情報及び各統計的検定を統合情報として統合（ステップＳ０５）してから統合情報を表示ユニット５０に伝送することで、表示ユニット５０に表示させることができる（ステップＳ０６）。統合アルゴリズムを通じて統合情報として統合する技術的特徴は、前記各実施例と同じであるため、ここでその説明を省略する。表示ユニット５０による統合情報表示の技術的特徴は、前記各実施例と同じであるため、ここでその説明を省略する。

第１パラメータ及び第２パラメータの選択は、本考案において限定されず、前記各実施例以外に、第１パラメータをスチレンの職業接触の有無、第２パラメータをかき氷機購入の有無、第１パラメータを高温地域に居住の有無、第２パラメータを白血病罹患の有無として選択できる。言い換えると、本考案は、ユーザーのニーズに応じて第１パラメータ及び第２パラメータを随意に選択できる。

上記各実施例によれば、処理ユニット４０は研究者（又はユーザー）が選択した研究方策及び研究しようとする事象（すなわち、第１パラメータ及び第２パラメータ）に基づいて速やかに統合アルゴリズムを通じて様々な研究結論を統合情報として統合し、研究者（又はユーザー）に表示ユニット５０を通じて迅速かつ直感的に研究データの第１パラメータと第２パラメータの間に対応する関連度を理解させることができ、更に従来において全く相関関係がない第１パラメータと第２パラメータの間に本当に全く関連性がないかどうかを検討できる。
よって、これを介して速やかに研究分析することで、研究効率を高めることができ、かつ速やかに応用計画も派生できる。また、本考案は、更に非専門分野のユーザーに研究テーマの結果を速やかに理解させ、非専門分野の人員に専門分野の研究結果を理解させることができる。

１０伝送ユニット
２０ストレージユニット
３０コントロールユニット
４０処理ユニット
５０表示ユニット
６０データベース
Ｓ０１〜Ｓ０６ステップ

Claims

少なくとも１つの研究データを受信するための伝送ユニットと、
各前記研究データを保存するためのストレージユニットと、
操作命令に基づいて研究方策、第１パラメータ及び第２パラメータを生成するためのコントロールユニットと、
前記伝送ユニット、前記ストレージユニット及び前記コントロールユニットに接続され、前記研究方策、前記第１パラメータ及び前記第２パラメータに基づいて、前記伝送ユニットを通じて各前記研究データを取得し、前記研究方策に基づいて統計アルゴリズムで前記第１パラメータ、前記第２パラメータ及び各前記研究データを分析して統計情報を生成し、検定アルゴリズムに基づいて前記第１パラメータ、前記第２パラメータ及び各前記研究データを関連付けすることで統計的検定を生成する処理ユニットと、
前記処理ユニットに接続され、統合情報を表示するための表示ユニットと、を含むデータ分析システムにおいて、
前記処理ユニットは、統合アルゴリズムに基づいて前記第１パラメータ、前記第２パラメータ、前記統計情報及び前記統計的検定を統合情報として統合することを特徴とする、
データ分析システム。
前記伝送ユニットと接続されるデータベースを更に含み、前記データベースは分析しようとするデータを保存することを特徴とする、請求項１に記載のデータ分析システム。
前記統計情報は、発生率、発生密度比、相対危険度、オッズ比のうちのいずれか又はそれらの任意の組み合わせとすることを特徴とする、請求項１に記載のデータ分析システム。
前記処理ユニットは、発生率アルゴリズムに基づいて各前記研究データ関連付けの少なくとも１つの発生率を計算し、また各前記発生率により分析して発生率比を算出することを特徴とする、請求項３に記載のデータ分析システム。
前記研究方策は、第１研究方策と第２研究方策と第３研究方策とを含み、前記コントロールユニットが前記第１研究方策を選択した時、前記処理ユニットは前記第１パラメータ、前記第２パラメータと各前記研究データを関連付けする前記統計情報を計算し、前記統計情報が少なくとも１つの発生率を包括し、前記コントロールユニットが前記第２研究方策を選択した時、前記処理ユニットは前記第１パラメータ、前記第２パラメータと各前記研究データの関連付けを分析して計算することで、前記統計情報を生成し、前記コントロールユニットが前記第３研究方策を選択した時、前記処理ユニットは前記第１パラメータ、前記第２パラメータと各前記研究データを関連付けする前記統計情報を計算し、前記統計情報が各前記発生率を包括し、前記統計情報は相対危険度、オッズ比のうちのいずれか又はそれら組み合わせとすることを特徴とする、請求項４に記載のデータ分析システム。
前記コントロールユニットが前記第１研究方策を選択した時、前記統計情報は各前記発生率、前記相対危険度と前記オッズ比のうちのいずれか又はそれらの任意の組み合わせを関連付けするもので、前記コントロールユニットが前記第２研究方策を選択した時、前記統計情報は前記オッズ比を関連付けするもので、前記コントロールユニットが前記第３研究方策を選択した時、前記統計情報は各前記発生率、前記オッズ比のうちのいずれか又はそれらの任意の組み合わせを関連付けすることを特徴とする、請求項５に記載のデータ分析システム。
前記処理ユニットは、更に発生密度アルゴリズムに基づいて前記第１パラメータと前記第２パラメータに対応する少なくとも１つの発生密度を分析・計算して生成し、かつ前記該処理ユニットが各前記発生密度に基づいて分析計算を行って少なくとも１つの発生密度比が得られることを特徴とする、請求項３に記載のデータ分析システム。
前記検定アルゴリズムは、統計的仮説検定アルゴリズム、単一因子／多因子分析アルゴリズムのうちのいずれか又はそれら組み合わせを含むことを特徴とする、請求項１に記載のデータ分析システム。
前記統計的仮説検定アルゴリズムは、カイ二乗検定、フィッシャー直接確率検定、２標本ｔ検定、ウィルコクソン順位和検定アルゴリズムのうちのいずれか又はそれらの任意の組み合わせを含むことを特徴とする、請求項８に記載のデータ分析システム。
前記単一因子／多因子分析アルゴリズムは、生存分析アルゴリズム、Ｃｏｘ比例ハザードモデルアルゴリズム、ポアソン回帰モデルアルゴリズム、ロジスティック回帰モデルアルゴリズムのうちのいずれか又はそれらの任意の組み合わせを含むことを特徴とする、請求項８に記載のデータ分析システム。