JP7422643B2 - 統合装置、統合方法、および統合プログラム - Google Patents

統合装置、統合方法、および統合プログラム Download PDF

Info

Publication number
JP7422643B2
JP7422643B2 JP2020184257A JP2020184257A JP7422643B2 JP 7422643 B2 JP7422643 B2 JP 7422643B2 JP 2020184257 A JP2020184257 A JP 2020184257A JP 2020184257 A JP2020184257 A JP 2020184257A JP 7422643 B2 JP7422643 B2 JP 7422643B2
Authority
JP
Japan
Prior art keywords
statistical information
integration
statistical
integrated
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020184257A
Other languages
English (en)
Other versions
JP2022074315A (ja
Inventor
信二 垂水
渉 竹内
俊太郎 由井
秀行 伴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020184257A priority Critical patent/JP7422643B2/ja
Priority to US17/496,178 priority patent/US20220138603A1/en
Publication of JP2022074315A publication Critical patent/JP2022074315A/ja
Application granted granted Critical
Publication of JP7422643B2 publication Critical patent/JP7422643B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Description

本発明は、データを統合する統合装置、統合方法、および統合プログラムに関する。
ヘルスケア情報の電子化進展に伴い,自治体や医療機関の保有するヘルスケアデータの活用に注目が集まっている。特に,複数組織のデータを横断的に活用することで,大量サンプルに裏打ちされたサービス質評価など,信頼性の高い分析が可能になると期待される。しかし、ヘルスケアデータは機微なデータであり、それを管理する組織外部への公開や持出は、個人情報保護や倫理の観点から容易ではない。そこで,これらの課題を解決する技術として、データを直接外部に持ち出すことなく分析する技術が開発されている。
下記特許文献1のデータ秘匿型統計処理システムでは、複数のデータ入力デバイスのそれぞれが、秘匿すべきオリジナルデータを取得する手段と、全ての部分を合わせるとオリジナルデータXiが復元されるようにオリジナルデータXiを秘密の比率に従って部分データX1i及びX2iに分割し出力する手段を備える。クラウドサービスのそれぞれは、複数のデータ入力デバイスのそれぞれから出力された部分データX1iまたはX2iのいずれかを入力データとして所定の演算を行い演算結果を出力する。統計処理結果提供サービスは、クラウドサービスのそれぞれから出力された演算結果を利用することにより、複数のデータ入力デバイスにより取得された複数のオリジナルデータXiに基づく統計処理の結果を求め提供する。
下記特許文献2の分散型オンライン機械学習システムは、それぞれがローカルプライベートデータを有する多くのプライベートデータサーバを含む。研究者は、プライベートデータの匿名化を要求することなくまたはプライベートデータを無許可のコンピューティングシステムに晒すことなく、関連するプライベートデータサーバが、機械学習アルゴリズムの実装をそれらのローカルプライベートデータでトレーニングすることを要求できる。また、プライベートデータサーバは、実際のデータのデータ分布に従って合成データまたはプロキシデータを生成する。サーバは、プロキシデータを使用してプロキシモデルをトレーニングする。プロキシモデルがトレーニング済み実モデルと十分に類似している場合、プロキシデータ、プロキシモデルパラメータ、または他の学習された知識を1つまたは複数の非プライベート演算デバイスに送信できる。多くのプライベートデータサーバから学習された知識は、プライベートデータを公開することなく、1つ以上のトレーニング済みグローバルモデルに集約できる。
下記特許文献3の医療データ処理装置は、複数の医療データを特定のアルゴリズムを用いて処理することにより生成され、複数の医療データのいずれにも復元されないデータである中間データを第1の医療機関の端末から受信する受信部と、受信した中間データを記憶装置に記憶させる記憶処理部と、記憶装置から読み出した中間データを第2の医療機関の端末に送信する送信部と、を備える。
特開2015-158935号公報 特表2019-526851号公報 特開2018-005317号公報
しかしながら、特許文献1のデータ秘匿型統計処理システムでは、オリジナルデータのレコードの一部を組織外に持ち出す必要がある。また、データ秘匿型統計処理システムは、複数データが存在する場合に、任意の組み合わせの統合モデルを構築することはできない。
特許文献2の分散型オンライン機械学習システムは、統合モデルを構築する場合に、各データセットから収集された疑似的なデータを用いるため、実際にデータを統合した場合と完全に同一のモデルを構築することができない。
特許文献3の医療データ処理装置は、統計処理の結果の持出しに留まり、複数データを統合した場合の、全体の統計情報や、そこから構築されうるモデルを構築することはできない。
本発明は、各分析対象が保有する分析対象データを分析対象外に持ち出すことなく、分析対象群の統計データを生成することを目的とする。
本願において開示される発明の一側面となる統合装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置であって、前記プロセッサは、複数の統計情報から第1統計情報と第2統計情報とを取得する取得処理と、前記取得処理によって取得された前記第1統計情報と前記第2統計情報とを、前記第1統計情報の統計処理に用いられた第1分析対象データの第1データ数と前記第2統計情報の統計処理に用いられた第2分析対象データの第2データ数とに基づく統計処理により統合する統合処理と、前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理と、前記検証処理による検証結果を出力する出力処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、各分析対象が保有する分析対象データを分析対象外に持ち出すことなく、分析対象群の統計データを生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、統合分析システムのシステム構成例を示すブロック図である。 図2は、コンピュータのハードウェア構成例を示すブロック図である。 図3は、統計情報の一例を示す説明図である。 図4は、分析条件の一例を示す説明図である。 図5は、統計情報計算処理の一例を示すシーケンス図である。 図6は、統合装置による統合モデル構築処理の一例を示すシーケンス図である。 図7は、統合装置による統合モデル構築処理の一例を示すフローチャートである。 図8は、統計情報統合処理(ステップS703)の例1を示す説明図である。 図9は、統計情報統合処理(ステップS703)の例2を示す説明図である。 図10は、統合装置による統合妥当性検証処理(ステップS704)の詳細な処理手順例を示すフローチャートである。 図11は、統合装置の表示画面の一例を示す説明図である。
本実施例にかかる統合装置は、複数の分析対象がそれぞれ管理する機微な分析対象データを持ち出したり統合したりすることなく、情報の欠損のない統合モデルを任意の組み合わせで構築する。以下、添付図面を用いて詳細に説明する。
<統合分析システムのシステム構成例>
図1は、統合分析システムのシステム構成例を示すブロック図である。統合分析システム100は、プライベート環境群PEsと、統合装置101と、統計情報DB(データベース)102と、統合モデルDB103と、統合分析結果DB104と、を有する。これらは、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などのネットワーク110を介して通信可能に接続される。
プライベート環境群PEsは、複数のプライベート環境PE1,…,PEi,…,PEn(iは、1≦i≦nを満たす整数。nは、2以上の整数。)を含む。プライベート環境PEiは、自治体や医療機関のほか、企業などの事業者においてコンピュータ化された環境であり、分析対象となるプライベートデータ分析装置PSiと、プライベートDBPDiと、を有する。
プライベートデータ分析装置PSiは、分析対象データであるプライベートデータを分析し、統計情報を算出し、統計情報を統計情報DB102または統合装置101に送信するコンピュータである。プライベートDBPDiは、プライベートデータを記憶するデータベースである。プライベートデータとは、個人情報の保護上、または、セキュリティ上、プライベートDBPDi外への漏洩が許容されないデータである。具体的には、たとえば、プライベートデータは、個人データ(年齢、収入など)、電子カルテ(身長、体重、血糖値、尿酸値など)、会計データ(売上、利益など)のように、統計処理が可能な数値データである。
なお、プライベート環境群PEsは、各プライベート環境PEiのプライベートデータを統計処理するため、同種のプライベート環境PEiの集合である。たとえば、医療機関向けの統合分析システムであれば、プライベート環境群PEsは、医療機関のプライベート環境PEiの集合である。
統合装置101は、統計情報DB102に格納された各プライベート環境PEiの統計情報を統合したり、統合モデルを生成したり、統合モデルを検証したりするコンピュータである。統合装置101は、統計情報DB102、統合モデルDB103、および統合分析結果DB104内のデータにはアクセス可能であるが、プライベートDBPDi内のプライベートデータにはアクセスできない。
統計情報DB102は、各プライベートデータ分析装置PSiからの統計情報を記憶するデータベースである。統合モデルDB103は、統合モデルまたは統合モデルに適用される統合モデルパラメータを記憶するデータベースである。統合分析結果DB104は、各プライベート環境PEiの統計情報が統合された統合統計情報や、統合モデルパラメータについての検証結果を記憶するデータベースである。
<コンピュータ(統合装置101、プライベートデータ分析装置PSi)のハードウェア構成例>
図2は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、コンピュータ200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF205は、ネットワーク110と接続し、データを送受信する。
コンピュータ200が統合装置101であれば、記憶デバイス202は、項目情報211と、分析条件212と、統計情報213と、統合統計情報214と、モデルパラメータ215と、統合モデルパラメータ検証結果216と、を記憶する。
項目情報211は、統合装置101が統計情報として取得したいプライベートデータ220の項目を示す情報であり、項目の数値データは含まない。プライベートデータ220が電子カルテであれば、項目情報211は、たとえば、身長、体重、血糖値、尿酸値といった項目を示す情報であり、身長、体重、血糖値および尿酸値の数値データは含まない。
分析条件212は、統合装置101が統計情報213を分析するための条件である。具体的には、たとえば、分析条件212は、何を目的変数にし、どの項目をどの説明変数にするかといった変数情報や、どのプライベート環境PEiのどの統計情報213を統合するかといった統合元を特定する識別情報を含む。分析条件212の詳細は、図4で後述する。
統計情報213は、プライベートデータ分析装置PSiがプライベートデータ220を統計処理したデータである。具体的には、たとえば、統計情報213は、たとえば、プライベートデータ220の平均値、偏差平方和、偏差積和を含む。統計情報213の詳細は、図3で後述する。
統合統計情報214は、複数の統計情報を統合した統合結果であり、統合分析結果DB104にも格納される。モデルパラメータ215は、統合モデルに設定されるパラメータであり、統合モデルDB103にも格納される。統合モデルパラメータ検証結果216は、統合装置101がモデルパラメータ215について検証した結果を示すデータであり、統合分析結果DB104にも格納される。
また、コンピュータ200がプライベートデータ分析装置PSiであれば、記憶デバイス202は、項目情報211と、プライベートデータ220と、統計情報213と、を有する。プライベートデータ220は、上述したように、個人データ、電子カルテ、会計データのような統計処理が可能な数値データである。
<統計情報>
図3は、統計情報の一例を示す説明図である。統計情報213は、たとえば、基本情報301と、平均値情報302と、偏差平方和情報303と、偏差積和情報304と、を有する。基本情報301は、名称311と、値312と、の組み合わせである。名称311は、値として基本情報301である「データ数」を示す項目を規定する。データ数とは、統計情報213として扱うデータの個数を意味する。電子カルテの例では、名称311は、電子カルテの数、すなわち、患者の人数という項目となる。値312は、名称311で規定された項目が持つ数値データである。電子カルテの例では、値312は、電子カルテの数、すなわち、患者の人数を示す数値データである。
平均値情報302は、変数321と、項目名322と、平均値323と、の組み合わせである。変数321とは、項目情報で特定される項目を示す変数である。項目名322は、変数321を特定する名称である。電子カルテの例では、たとえば、X1が身長、X2が体重、X3が血糖値となる。平均値323は、変数321の値(プライベートデータ)を平均化した数値である。
偏差平方和情報303は、第1変数331と、第2変数332と、偏差平方和333と、の組み合わせである。第1変数331および第2変数332は同一変数となる。偏差平方和333は、偏差の平方和である。すなわち、偏差平方和333は、第1変数331の値から第1変数331の平均値を引いた偏差と第2変数332の値(第1変数331の値と同一値)から第2変数332の平均値(第1変数331の平均値と同一値)を引いた偏差とを乗じた値を、第1変数331の値を規定するプライベートデータ220のレコードごとに求め、それらを加算した和である。
偏差積和情報304は、第1変数341と、第2変数342と、偏差積和343と、の組み合わせである。第1変数341および第2変数342は異なる変数となる。偏差積和343は、偏差の積和である。すなわち、偏差積和343は、第1変数341の値から第1変数341の平均値を引いた偏差と第2変数342の値から第2変数342の平均値を引いた偏差とを乗じた値を、第1変数341の値および第2変数342の値の組み合わせを規定するプライベートデータ220のレコードごとに求め、それらを加算した和である。
<分析条件>
図4は、分析条件212の一例を示す説明図である。分析条件212は、変数情報テーブル401と、統合元情報テーブル402と、を有する。変数情報テーブル401は、統合モデルで用いられる変数を規定する情報であり、変数カテゴリ411と、変数412と、を有する。変数カテゴリ411は、変数412の種類(目的変数、第1説明変数、第2説明変数)を規定する。変数412は、変数カテゴリ411に適用される変数を規定する。図4では、目的変数には変数X1、第1説明変数には変数X2、第2説明変数には変数X3が規定される。
統合元情報テーブル402は、統合元IDを有する。統合元IDは、統合される統計情報213を有するプライベート環境PEiを一意に特定する識別情報iである。これにより、統合装置101は、それぞれ目的変数をX1、第1説明変数をX2、第2説明変数をX3とし、かつ、統合元IDがそれぞれi=1,2,3である各プライベート環境PE1,PE2,PE3からの3つの統計情報を統合することになる。
<統計情報計算処理>
図5は、統計情報計算処理の一例を示すシーケンス図である。統合装置101は、所定のタイミングで、プライベートデータ分析装置PSiに項目情報を送信する(ステップS501)。
プライベートデータ分析装置PSiは、項目情報を受信すると、プライベートDBPDiに対し、項目情報の項目の値となるプライベートデータ220を問い合わせ(ステップS502)、プライベートDBPDiから当該プライベートデータ220を読み込む(ステップS503)。そして、プライベートデータ分析装置PSiは、読み込んだプライベートデータ220を統計処理して統計情報213(基本情報301、平均値情報302、偏差平方和情報303、偏差積和情報304)を算出し、統計情報DB102に送信する(ステップS504)。送信が完了したら、プライベートデータ分析装置PSiは、完了通知を統合装置101に送信する(ステップS505)。このようにして、統計情報213が統計情報DB102に蓄積される。
<統合モデル構築処理>
図6は、統合装置101による統合モデル構築処理の一例を示すシーケンス図である。統合装置101は、分析条件212を取得すると(ステップS212)、統合元情報テーブル402で特定されるプライベートデータ分析装置PSiの統計情報213を問い合わせ(ステップS602)、当該統計情報213を読み込む(ステップS603)。そして、統合装置101は、統合モデルを生成して、統合モデルパラメータを統合モデルDBに保存する(ステップS604)。このようにして、統合モデルパラメータが統合モデルDBに蓄積される。
図7は、統合装置101による統合モデル構築処理の一例を示すフローチャートである。統合装置101は、たとえば、ユーザ操作により分析条件212を設定する(ステップS701)。つぎに、統合装置101は、図6に示したように、統計情報DB102から、統合対象となる統計情報213を取得する(ステップS702)。
つぎに、統合装置101は、統計情報統合処理を実行する(ステップS703)。これにより、統合統計情報が算出される。統計情報統合処理(ステップS703)では、たとえば、統合装置101は、2つの統計情報を網羅的に選択して統合する。たとえば、統合装置101は、「統計情報1」と「統計情報2」との統合を試行する。また、統合装置101は、「統合統計情報1+2」(「統計情報1」と「統計情報2」との統合結果)と、「統計情報3」と、の統合を試行する。また、統合装置101は、「統合統計情報1+2」(「統計情報1」と「統計情報2」との統合結果)と、「統計情報3+4」(「統計情報3」と「統計情報4」との統合結果)と、の統合を試行する。統計情報統合処理(ステップS703)の具体例は、図8および図9で後述する。
つぎに、統合装置101は、統合妥当性検証処理を実行する(ステップS704)。統合妥当性検証処理(ステップS704)は、統計情報統合処理(ステップS703)での統合の妥当性を検証する処理である。統合妥当性検証処理(ステップS704)の詳細については、図10で後述する。
このあと、統合装置101は、統合妥当性検証処理(ステップS704)によって妥当性ありとされた統合統計情報について、統合モデルパラメータ計算処理を実行して、モデルパラメータ215を算出する(ステップS705)。具体的には、たとえば、統合装置101は、回帰式に統合統計情報214を入力して、回帰式内のモデルパラメータ215を算出する。そして、図6に示したように、統合装置101は、算出したモデルパラメータ215を統合モデルDB103に登録する(ステップS706)。なお、統合装置101は、算出したモデルパラメータ215をプライベートデータ分析装置PSiに送信してもよい。このようにして、統合モデル(モデルパラメータ215が設定された回帰式)が構築される。
<統計情報統合処理(ステップS703)>
図8は、統計情報統合処理(ステップS703)の例1を示す説明図である。図8は、単回帰の場合における2つの統計情報213(800A、800B)を統合する統計情報統合処理(ステップS703)を示す。統計情報800A、800Bそれぞれの統計値(データ数、平均、偏差平方和、偏差積和)は、図8に示した通りである。統計情報800A、800Bにおいて、Xは説明変数、Yは目的変数を示す。添え字のAが付与されている統計値は、統計情報800Aに含まれる統計値を示し、添え字のBが付与されている統計値は、統計情報800Bに含まれる統計値を示す。
統合統計情報800ABは、統計情報800A、800Bを統合した統合結果である。添え字のABが付与されている統計値は、統計情報800Aの統計値と統計情報800Bの統計値とを統合した統合統計値を示す。
具体的には、たとえば、データ数NABは、名称311(データ数)の値312であるデータ数Nとデータ数Nの合計である。統計情報800Aの場合、たとえば、(XA1,YA1)、(XA2,YA2)、…、(XANA,YANA)というN個のデータをプライベートデータ220として有する。同様に、統計情報800Bの場合、たとえば、(XB1,YB1)、(XB2,YB2)、…、(XBNB,YBNB)というN個のデータをプライベートデータ220として有する。XABの平均値は、統計情報800Aの平均として示したXの平均値と、統計情報800Bの平均として示したXの平均値とを、データ数NABに基づいて統合した統合平均値であり、下記式(1)で表現される。
Figure 0007422643000001
ABの平均値は、統計情報800Aの平均として示したYの平均値と、統計情報800Bの平均として示したYの平均値とを、データ数NABに基づいて統合した統合平均値であり、下記式(2)で表現される。
Figure 0007422643000002
偏差平方和SSXABは、偏差平方和SSXAと偏差平方和SSXBとを、下記式(1)の統合平均値に基づいて統合した統合偏差平方和であり、下記式(3)で表現される。
Figure 0007422643000003
偏差平方和SSYABは、偏差平方和SSYAと偏差平方和SSYBとを、下記式(2)の統合平均値に基づいて統合した統合偏差平方和であり、下記式(4)で表現される。
Figure 0007422643000004
偏差積和SSXYABは、偏差積和SSXYAと偏差積和SSXYBとを、下記式(1)、(2)の統合平均値に基づいて統合した統合偏差積和であり、下記式(5)で表現される。
Figure 0007422643000005
図9は、統計情報統合処理(ステップS703)の例2を示す説明図である。図9は、重回帰の場合における2つの統計情報213(900A、900B)を統合する統計情報統合処理(ステップS703)を示す。統計情報900A、900Bそれぞれの統計値(データ数、平均、偏差平方和、偏差積和)は、図9に示した通りである。統計情報900A、900Bにおいて、X1、X2は説明変数、Yは目的変数を示す。添え字のAが付与されている統計値は、統計情報900Aに含まれる統計値を示し、添え字のBが付与されている統計値は、統計情報900Bに含まれる統計値を示す。
統計情報900Aの場合、たとえば、(X1A1,X2A1,YA1)、(X1A2,X2A2,YA2)、…、(X1ANA,X2ANA,YANA)というN個のデータをプライベートデータ220として有する。同様に、統計情報800Bの場合、たとえば、(X1B1,X2B1,YB1)、(X1B2,X2B2,YB2)、…、(X1BNB,X2BNB,YBNB)というN個のデータをプライベートデータ220として有する。
統合統計情報900ABは、統計情報900A、900Bを統合した統合結果である。添え字のABが付与されている統計値は、統計情報900Aの統計値と統計情報900Bの統計値とを統合した統合統計値を示す。
具体的には、たとえば、X1ABの平均値は、統計情報900Aの平均として示したX1の平均値と、統計情報900Bの平均として示したX1の平均値とを、データ数NABに基づいて統合した統合平均値であり、下記式(6)で表現される。
Figure 0007422643000006
X2ABの平均値は、統計情報900Aの平均として示したX2の平均値と、統計情報900Bの平均として示したX2の平均値とを、データ数NABに基づいて統合した統合平均値であり、下記式(7)で表現される。
Figure 0007422643000007
ABの平均値は、統計情報900Aの平均として示したYの平均値と、統計情報900Bの平均として示したYの平均値とを、データ数NABに基づいて統合した統合平均値であり、上記式(2)で表現される。
偏差平方和SSX1ABは、偏差平方和SSX1Aと偏差平方和SSX1Bとを、下記式(6)の統合平均値に基づいて統合した統合偏差平方和であり、下記式(8)で表現される。
Figure 0007422643000008
偏差平方和SSX2ABは、偏差平方和SSX2Aと偏差平方和SSX2Bとを、上記式(7)の統合平均値に基づいて統合した統合偏差平方和であり、下記式(9)で表現される。
Figure 0007422643000009
偏差平方和SSYABは、偏差平方和SSYAと偏差平方和SSYBとを、上記式(2)の統合平均値に基づいて統合した統合偏差平方和であり、上記式(4)で表現される。
偏差積和SSX1YABは、偏差積和SSX1YAと偏差積和SSX1YBとを、上記式(6)、(7)の統合平均値に基づいて統合した統合偏差積和であり、下記式(10)で表現される。
Figure 0007422643000010
偏差積和SSX2YABは、偏差積和SSX2YAと偏差積和SSX2YBとを、上記式(6)、(7)の統合平均値に基づいて統合した統合偏差積和であり、下記式(11)で表現される。
Figure 0007422643000011
<統合妥当性検証処理(ステップS704)>
図10は、統合装置101による統合妥当性検証処理(ステップS704)の詳細な処理手順例を示すフローチャートである。統合装置101は、並行性の検定(ステップS1001)、切片の検定(ステップS1002)を実行し、複数の統計情報213の統合の妥当性を判定し(ステップS1003)、ステップS705に移行する。
並行性の検定(ステップS1001)とは、統合した統計情報213の回帰式の傾きに差があるかという仮説を検定する処理である。切片の検定(ステップS1002)とは、統合した統計情報213の回帰式の切片に差があるかという仮説を検定する処理である。統合の妥当性判定(ステップS1003)とは、並行性の検定結果と、切片の検定結果と、の組み合わせに基づいて、複数の統計情報213の統合の妥当性を判定する処理である。図8の単回帰を例に挙げて、統計情報統合処理(ステップS704)を説明する。
並行性の検定(ステップS1001)において、統合装置101は、統合対象となる2つの統計情報213についてのそれぞれの統合モデル(以下、統合前モデルと称す)を示す2つの単回帰式の傾きに差があるか、という仮説を検定する。具体的には、たとえば、統合装置101は、傾きが異なる仮説の下での残差平方和Δ1(下記式(12))と、傾きが同一である仮説の下での残差平方和Δ2(下記式(13))とを計算する。そして、統合装置101は、残差平方和Δ1および残差平方和Δ2から計算したF統計量に基づき、仮説検定を行う。
Figure 0007422643000012
たとえば、統合装置101は、下記式(14)で計算したF値と、自由度1、NAB-4のF分布とを用いて、仮説の棄却を判定することができる。
Figure 0007422643000013
つぎに、並行性の検定(ステップS1001)において、2つの統合前モデルを示す2つの回帰式の傾きが等しいという仮説が否定できない場合、統合装置101は、切片の検定(ステップS1002)において、当該2つの回帰式の切片に差があるか、という仮説を検定する。具体的には、たとえば、統合装置101は、当該2つの回帰式が同一直線という仮説の下での残差平方和Δ3(下記式(15))から計算したF統計量に基づき、仮説検定を行う。
Figure 0007422643000014
たとえば、統合装置101は、下記式(16)で計算したF値と、自由度1、NAB-3のF分布とを用いて、仮説の棄却を判定する。
Figure 0007422643000015
統合の妥当性判定(ステップS1003)では、統合装置101は、並行性の検定(ステップS1001)において、傾きが等しいという仮説が否定できず、かつ、切片の検定(ステップS1002)において、切片が等しいという仮説が否定できない場合、統合が妥当であると判定する。
ここでは、単回帰の例を挙げて説明したが、重回帰分析の場合は、統計情報および統合統計情報から、共分散行列を構成することで、統合後モデルの妥当性の検証が可能である。
つぎに、モデルパラメータ計算処理(ステップS705)について具体的に説明する。統合の妥当性判定(ステップS1003)において統合が妥当であると判定された場合、統合装置101は、たとえば、下記式(17)、(18)により、モデルパラメータ215として、統合モデルの傾きaと切片bを算出する。
Figure 0007422643000016
統合の妥当性判定(ステップS1003)において統合が妥当でないと判断された場合、たとえば、傾きのみが共通であり、切片のみが異なると判断された場合、統合装置101は、たとえば、下記式(19)により、共通の傾きaを算出する。また、統合装置101は、たとえば、下記式(20),(21)により、モデルパラメータとして、各データに対応する切片bと切片bとを算出する。
Figure 0007422643000017
ここでは、単回帰の例を挙げて説明したが、重回帰分析の場合は、統計情報213および統合統計情報214から、共分散行列を構成することで、統合モデルのモデルパラメータ計算が可能である。
<表示画面>
図11は、統合装置101の表示画面の一例を示す説明図である。表示画面1101は、統合装置101の出力デバイス204であるディスプレイに表示される。表示画面1101は、分析条件設定領域1102と、統計情報表示領域1103と、統合統計情報表示領域1104と、統合モデルパラメータ情報表示領域1105と、統合妥当性検証結果表示領域1106と、統計情報読込ボタン1107と、統合モデル構築ボタン1108と、統合モデル保存ボタン1109と、を有する。
分析条件設定領域1102は、分析条件212を設定する領域である。分析条件設定領域1102では、ステップS701において、変数情報テーブル401における目的変数、第1説明変数、第2説明変数、および統合元情報テーブル402における統合元IDのほか、統合妥当性検証をチェックボックスで指定可能であり、かつ、統合妥当性検証を行う場合の有意確率も指定可能である。
統計情報表示領域1103は、統計情報213を表示する領域である。具体的には、たとえば、ユーザによる統計情報読込ボタン1107の押下を検出すると、統合装置101は、統計情報DB102から統計情報213を読み込んで(ステップS702)、統計情報表示領域1103に表示する。
統合統計情報表示領域1104は、統合統計情報214を表示する領域である。具体的には、たとえば、ユーザによる統計情報読込ボタン1107の押下を検出すると、統合装置101は、統計情報DB102から読み込んだ統計情報213のうち分析条件設定領域1102において統合元IDで指定されている統計情報213を用いて統合統計情報尾を算出し(ステップS703)、算出結果である統合統計情報214(800AB,900AB)を統合統計情報表示領域1104に表示する。
統合モデルパラメータ情報表示領域1105は、統合前後のモデルパラメータを表示する領域である。具体的には、たとえば、統合モデル構築ボタン1108の押下を検出すると、統合装置101は、統合妥当性検証処理(ステップS704)によって妥当性ありとされた統合統計情報について、統合モデルパラメータ計算処理を実行して、モデルパラメータ215を算出し(ステップS705)、算出結果であるモデルパラメータ215を、統合前のモデルパラメータ215とともに統合モデルパラメータ情報表示領域1105に表示する。
たとえば、統合モデルパラメータ情報表示領域1105において、「統計情報1」と「統計情報2」とを統合した統合統計情報214のモデルパラメータ215は、切片α12、傾きβ12、傾きγ12である。また、「統計情報1」および「統計情報2」と統合されなかった「統計情報3」のモデルパラメータは、切片α3、傾きβ3、傾きγ3である。
統合妥当性検証結果表示領域1106は、統合妥当性検証処理(ステップS704)による統合妥当性検証結果を表示する領域である。具体的には、たとえば、統合妥当性検証結果表示領域1106では、統合元IDで指定された2つの統計情報の組み合わせについての統合妥当性検証結果が表示される。より具体的には、統合装置101は、統計情報の各組み合わせの切片および傾きについて、F値を算出し、分析条件212で設定した有意確率で棄却できるか否かを判断する。棄却できない場合は、統合装置101は、同一勾配、同一切片の統合モデルとして統合可能であるという検証結果を表示する。一方、棄却できる場合は、異なる勾配、異なる切片の統合モデルとして独立であるという検証結果を表示する。
また、統合モデル保存ボタン1109が押下されると、統合装置101は、統合統計情報214についてのモデルパラメータ215を統合モデルDB103に保存する。
なお、上述した実施例では、統合元情報テーブル402において、統合元IDは、プライベート環境PEiを一意に特定する識別情報iとした。しかし、統合元IDは、プライベート環境PEi内のプライベートデータ220の一部の項目を示すデータを一意に特定する識別情報としてもよい。
また、統合装置101は、統合妥当性検証処理(ステップS704)の検証結果に基づいて、機械学習の特徴量を選定してもよい。具体的には、たとえば、統合装置101は、並行性の検定(ステップS1001)で仮説が棄却されなかった場合、傾きに対応する説明変数を機械学習モデルの特徴量として選定する。たとえば、図11の統合妥当性検証結果表示領域1106の「統計情報1+2」の統合モデル(AAA=α12+β12×BBB+γ12×CCC)では、β12およびγ12が棄却されなかった傾きであり、BBBが傾きβ12に対応する説明変数、CCCが傾きγ12に対応する説明変数になる。したがって、BBB、CCCが機械学習モデルの特徴量(以下、有効特徴量)として選定される。また、統合モデルの左辺のAAAは、機械学習モデルの正解データとして選定される。この有効特徴量と正解データとの組み合わせが機械学習モデルを生成するための学習データセットになる。
なお、統合されていない「統計情報3」の統計モデル(AAA=α+β×BBB+γ×CCC)についても、並行性の検定(ステップS1001)で仮説が棄却されなかった場合、βおよびγが棄却されなかった傾きであり、BBBが傾きβに対応する説明変数、CCCが傾きγに対応する説明変数になる。したがって、BBB、CCCが機械学習モデルの有効特徴量として選定され、モデルの左辺のAAAが機械学習モデルの正解データとして選定される。
また、統合装置101は、選定した特徴量BBB、CCCの値(統合統計情報214や統計情報213から得られる)を学習データとして作成し、当該学習データと、学習データを統合モデルに与えた場合に出力される予測データとを、組み合わせて、学習データセットを作成する。そして、統合装置101は、学習データセットを用いて機械学習モデルを生成し、生成した機械学習モデルのパラメータを各プライベートデータ分析装置PSiに送信する。
プライベートデータ分析装置PSiは、機械学習モデルのパラメータを用いて機械学習モデルを作成する。プライベートデータ分析装置PSiは、選定した特徴量に該当するプライベートデータ220を機械学習モデルに入力して予測結果を出力する。そして、プライベートデータ分析装置PSiは、予測結果と実際の目的変数の値との差分を算出し、統合装置101に送信する。統合装置101は、差分を用いて誤差逆伝播により機械学習モデルを更新する。
このようにして、統合モデルや統計モデルに基づいて逐次修正可能な機械学習モデルを構築することにより、予測精度の向上を図ることができる。
また、プライベートデータ分析装置PSiは、プライベートデータ220と統計情報213との乖離の発生を、プライベートデータ220と統計情報213との差分の大きさ(たとえば、ユークリッド距離)により判定し、差分の大きさがしきい値以上であれば、プライベートデータ分析装置PSiは、日付時刻が前回のプライベートデータ220よりも新しいデータを含む最新のプライベートデータ220で統計情報213を再計算する。
最新のプライベートデータ220は、前回のプライベートデータ220を含んでもよく、含まなくてもよい。たとえば、年度ごとにプライベートデータ220が存在したとすると、プライベートデータ分析装置PSiは、最新の年度のみのプライベートデータ220で統計情報213を再算出してもよい。また、プライベートデータ分析装置PSiは、最新の年度を含む過去5年間のプライベートデータ220で統計情報213を再算出してもよい。この場合、プライベートデータ分析装置PSiは、6年前から1年前の年度までの5年間分のプライベートデータ220を用いて統計情報213を前回算出したが、今回は、5年前から今年度までの5年間分のプライベートデータ220を用いて統計情報213を算出することになる。
プライベートデータ分析装置PSiは、再算出した統計情報213を統合装置101に送信する。統合装置101は、統計情報213の受信を契機にして、図7に示した統合モデル構築処理を実行する。これにより、統合モデルが更新される。
また、各プライベートデータ分析装置PSiが有するプライベートデータ220の各項目について、項目が意味的に同一でありながら項目名の表記がプライベートデータ分析装置PSi間で異なる場合(たとえば、「身長」と「height」)がある。このような場合に備えて、統合装置101は、プライベートデータ分析装置PSiごとに、項目名の相違を吸収する項目マスターテーブルを有してもよい。
項目マスターテーブルは、変換先項目名と、プライベートデータ220の項目名(変換元項目名)と、を対応付けたテーブルである。たとえば、プライベートデータ分析装置PS1がプライベートデータ220の一項目「身長」を「背丈」と表記している場合、プライベートデータ分析装置PS1用の項目マスターテーブルは、変換先項目名「身長」と、変換元項目名「背丈」とを対応付けた情報となる。
また、別のプライベートデータ分析装置PS2がプライベートデータ220の一項目「身長」を「height」と表記している場合、プライベートデータ分析装置PS2用の項目マスターテーブルは、変換先項目名「身長」と、変換元項目名「height」とを対応付けた情報となる。
統合装置101が、図7に示した統合モデル構築処理を実行する場合、プライベートデータ分析装置PS1からの統計情報213の項目「背丈」は、プライベートデータ分析装置PS1用の項目マスターテーブルの変換元項目名「背丈」と一致する。したがって、統合装置101は、統計情報213の項目「背丈」を、プライベートデータ分析装置PS1用の項目マスターテーブルにより「身長」に変換する。
プライベートデータ分析装置PS2からの統計情報213の項目「height」は、プライベートデータ分析装置PS2用の項目マスターテーブルの変換元項目名「height」と一致する。したがって、統合装置101は、プライベートデータ分析装置PS2用の項目マスターテーブルにより「身長」に変換する。これにより、意味的に同一の項目の項目名の表記がプライベートデータ分析装置PSi間で異なっていても、プライベートデータ分析装置PS1からの統計情報213とプライベートデータ分析装置PS2からの統計情報213との統合が可能になる。
このように、本実施例の統合装置101によれば、プライベートデータ分析装置PSiが有するプライベートデータ220にアクセスすることなく、プライベートデータ分析装置PSi間の統計情報213を統合した統合統計情報214を生成することができる。
また、上述した実施例にかかる統合装置101は、下記(1)~(13)のように構成することもできる。
(1)統合装置101は、プログラムを実行するプロセッサ201と、前記プログラムを記憶する記憶デバイス202と、を有し、複数のプライベートデータ分析装置PSiの各々が有するプライベートデータ220に基づく統計情報213の各々にアクセス可能である。プロセッサ201は、複数の統計情報213から第1統計情報と第2統計情報とを取得する取得処理(ステップS702)と、前記取得処理によって取得された前記第1統計情報と前記第2統計情報とを、前記第1統計情報の統計処理に用いられた第1分析対象データの第1データ数と前記第2統計情報の統計処理に用いられた第2分析対象データの第2データ数とに基づく統計処理により統合する統合処理(ステップS703)と、前記統合処理によって統合された統合統計情報214を出力する出力処理(ステップS706)と、を実行する。
これにより、統合装置101はプライベートデータ220にアクセスすることなく、第1統計情報と第2統計情報とを統合することができる。したがって、プライベートデータ220の漏洩が抑制される。
(2)上記(1)の統合装置101において、前記取得処理では、前記プロセッサ201は、前記複数の統計情報から第3統計情報を取得するとともに、前記統合統計情報を第4統計情報として取得し、前記統合処理では、前記プロセッサは、前記取得処理によって取得された前記第3統計情報と前記第4統計情報とを、前記第3統計情報の統計処理に用いられた第3分析対象データの第1データ数と前記第4統計情報の統計処理に用いられた前記第1データ数および前記第2データ数の総和とに基づく統計処理により統合する。
これにより、第1統計情報~第3統計情報の統合を試行することができる。
(3)上記(1)の統合装置101において、前記プロセッサ201は、前記統合統計情報214を用いて、前記第1プライベートデータ220および前記第2プライベートデータ220内の1以上の説明変数の値から前記第1プライベートデータ220および第2プライベートデータ220内の目的変数の値を予測する統合モデルを生成する生成処理(ステップS705)を実行する。
(4)上記(1)の統合装置101において、前記プロセッサ201は、前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理(ステップS704)を実行し、前記出力処理では、前記プロセッサ201は、前記検証処理による検証結果を出力する。
これにより、統合装置101のユーザは、統合の妥当性を確認することができる。
(5)上記(3)の統合装置101において、前記プロセッサ201は、前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理を実行し、前記生成処理では、前記プロセッサ201は、前記検証処理による検証結果に基づいて、前記統合統計情報を用いて、前記統合モデルを生成する。
これにより、統合装置101はプライベートデータ220にアクセスすることなく、プライベートデータ220内の目的変数の予測値を算出することができる。
(6)上記(5)の統合装置101において、前記検証処理では、前記プロセッサ201は、前記第1統計情報に関する第1統計モデルの係数(傾き、切片)と、前記第2統計情報に関する第2統計モデルの係数(傾き、切片)と、が等しいという仮説の統計的な検定を実行し、検定結果に基づいて、前記第1統計情報および前記第2統計情報の統合の妥当性を検証する。
これにより、統合の妥当性を統計的に保証することができる。
(7)上記(6)の統合装置101において、前記検証処理では、前記プロセッサ201は、前記第1統計モデルと前記第2統計モデルとの間で、傾きが等しいという仮説を検定する統計的な検定と,切片が等しいという仮説を検定する統計的な検定をそれぞれ実行し、前記傾きが等しいという仮説と前記切片が等しいという仮説の両方が否定できない場合には、前記統合が妥当であると判定し、前記傾きが等しいという仮説が否定できず、前記切片が等しいという仮説が否定された場合は、前記第1統計モデルと前記第2統計モデルとを傾きが等しく切片が異なる独立モデルであると判定し、前記傾きが等しいという仮説が否定された場合は、前記統合は妥当でないと判定する。
これにより、統合の妥当性を傾きと切片のそれぞれの仮設の検定に分けて具体的に実行することができる。
(8)上記(1)の統合装置101において、前記プライベートデータ分析装置PSiの各々にアクセス可能であり、前記取得処理では、前記プロセッサ201は、前記複数のプライベートデータ分析装置PSiが有する前記複数の統計情報213から前記第1統計情報と前記第2統計情報とを取得する。
これにより、統合装置101は、プライベートデータ分析装置PSiから直接、統計情報213を取得することができる。
(9)上記(1)の統合装置101において、前記複数の統計情報213を記憶する統計情報DB102にアクセス可能であり、前記取得処理では、前記プロセッサ201は、前記統計情報DB102から前記第1統計情報と前記第2統計情報とを取得する。
これにより、統合装置101は、プライベートデータ分析装置PSiとアクセスできなくても、統計情報213を取得することができる。
(10)上記(1)の統合装置101において、前記取得処理では、前記プロセッサ201は、計算対象を示す項目情報を前記プライベートデータ分析装置に送信した結果、前記項目情報を示す値を含む前記プライベートデータ220に基づく複数の統計情報から、前記第1統計情報と前記第2統計情報とを取得する。
(11)上記(3)の統合装置101において、前記プロセッサ201は、前記1以上の説明変数および前記目的変数を設定する設定処理(ステップS701)を実行し、前記取得処理では、前記プロセッサ201は、前記1以上の説明変数および前記目的変数を示す値を含む前記プライベートデータ220に基づく複数の統計情報213から、前記第1統計情報と前記第2統計情報とを取得し、前記生成処理では、前記プロセッサ201は、前記1以上の説明変数の値から前記目的変数の値を予測する統合モデルを生成する。
これにより、統合装置101は、分析条件として説明変数および目的変数を絞り込んで統合モデルを生成することができる。
(12)上記(3)の統合装置101において、前記プロセッサ201は、前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理を実行し、前記生成処理では、前記プロセッサ201は、前記検証処理による検証結果に基づいて、前記1以上の説明変数を特徴量とし、前記目的変数の値を予測する機械学習モデルを生成する。
これにより、統合モデルや統計モデル(統合されなかった回帰式)を1つの機械学習モデルに集約することができる。また、統合装置101は、機械学習モデルをプライベートデータ分析装置PSiに送信し、プライベートデータ分析装置PSiが機械学習モデルにプライベートデータ220を入力して目的変数の予測値を算出し、目的変数の値との差分を算出して、統合装置101に返す。これにより、統合装置101は、プライベートデータ220にアクセスすることなく、差分を用いて機械学習モデルを更新することができる。
(13)上記(1)の統合装置101において、変換元項目名と変換先項目名とを対応付けたテーブルを有し、前記取得処理では、前記プロセッサ201は、前記統計情報内の変数の項目名が前記変換元項目名と一致した場合、前記統計情報内の変数の項目名を前記変換先項目名に変換し、前記統合処理では、前記プロセッサ201は、前記項目名の変換結果に基づいて、前記第1統計情報と前記第2統計情報とを統合する。
これにより、項目名の相違を吸収するため、意味的に同一項目の変数を別変数として扱うような統合を抑制することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ201がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
100 統合分析システム
101 統合装置
200 コンピュータ
201 プロセッサ
202 記憶デバイス
211 項目情報
212 分析条件
213 統計情報
214 統合統計情報
215 モデルパラメータ
216 統合モデルパラメータ検証結果
220 プライベートデータ
102 統計情報DB
103 統合モデルDB
104 統合分析結果DB
PDi プライベートDB
PSi プライベートデータ分析装置

Claims (14)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置であって、
    前記プロセッサは、
    複数の統計情報から第1統計情報と第2統計情報とを取得する取得処理と、
    前記取得処理によって取得された前記第1統計情報と前記第2統計情報とを、前記第1統計情報の統計処理に用いられた第1分析対象データの第1データ数と前記第2統計情報の統計処理に用いられた第2分析対象データの第2データ数とに基づく統計処理により統合する統合処理と、
    前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理と、
    前記検証処理による検証結果を出力する出力処理と、
    を実行することを特徴とする統合装置。
  2. 請求項1に記載の統合装置であって、
    前記取得処理では、前記プロセッサは、前記複数の統計情報から第3統計情報を取得するとともに、前記統合処理によって統合された統合統計情報を第4統計情報として取得し、
    前記統合処理では、前記プロセッサは、前記取得処理によって取得された前記第3統計情報と前記第4統計情報とを、前記第3統計情報の統計処理に用いられた第3分析対象データの第データ数と前記第4統計情報の統計処理に用いられた前記第1データ数および前記第2データ数の総和とに基づく統計処理により統合する、
    ことを特徴とする統合装置。
  3. 請求項1に記載の統合装置であって、
    前記プロセッサは、
    前記統合処理によって統合された統合統計情報を用いて、前記第1分析対象データおよび前記第2分析対象データ内の1以上の説明変数の値から前記第1分析対象データおよび第2分析対象データ内の目的変数の値を予測する統合モデルを生成する生成処理を実行することを特徴とする統合装置。
  4. 請求項1に記載の統合装置であって、
    変換元項目名と変換先項目名とを対応付けたテーブルを有し、
    前記取得処理では、前記プロセッサは、前記統計情報内の変数の項目名が前記変換元項目名と一致した場合、前記統計情報内の変数の項目名を前記変換先項目名に変換し、
    前記統合処理では、前記プロセッサは、前記項目名の変換結果に基づいて、前記第1統計情報と前記第2統計情報とを統合する、
    ことを特徴とする統合装置。
  5. 請求項3に記載の統合装置であって、
    記生成処理では、前記プロセッサは、前記検証処理による検証結果に基づいて、前記統合統計情報を用いて、前記統合モデルを生成する、
    ことを特徴とする統合装置。
  6. 請求項5に記載の統合装置であって、
    前記検証処理では、前記プロセッサは、前記第1統計情報に関する第1統計モデルの係数と、前記第2統計情報に関する第2統計モデルの係数と、が等しいという仮説の統計的な検定を実行し、検定結果に基づいて、前記第1統計情報および前記第2統計情報の統合の妥当性を検証する、
    ことを特徴とする統合装置。
  7. 請求項6に記載の統合装置であって、
    前記検証処理では、前記プロセッサは、前記第1統計モデルと前記第2統計モデルとの間で、傾きが等しいという仮説を検定する統計的な検定と、切片が等しいという仮説を検定する統計的な検定をそれぞれ実行し、前記傾きが等しいという仮説と前記切片が等しいという仮説の両方が否定できない場合には、前記統合が妥当であると判定し、前記傾きが等しいという仮説が否定できず、前記切片が等しいという仮説が否定された場合は、前記第1統計モデルと前記第2統計モデルとを傾きが等しく切片が異なる独立モデルであると判定し、前記傾きが等しいという仮説が否定された場合は、前記統合は妥当でないと判定する、
    ことを特徴とする統合装置。
  8. 請求項1に記載の統合装置であって、
    前記分析対象装置の各々にアクセス可能であり、
    前記取得処理では、前記プロセッサは、前記複数の分析対象装置が有する前記複数の統計情報から前記第1統計情報と前記第2統計情報とを取得する、
    ことを特徴とする統合装置。
  9. 請求項1に記載の統合装置であって、
    前記複数の統計情報を記憶する統計情報データベースにアクセス可能であり、
    前記取得処理では、前記プロセッサは、前記統計情報データベースから前記第1統計情報と前記第2統計情報とを取得する、
    ことを特徴とする統合装置。
  10. 請求項1に記載の統合装置であって、
    前記取得処理では、前記プロセッサは、計算対象を示す項目情報を前記分析対象装置に送信した結果、前記項目情報を示す値を含む前記分析対象データに基づく複数の統計情報から、前記第1統計情報と前記第2統計情報とを取得する、
    ことを特徴とする統合装置。
  11. 請求項3に記載の統合装置であって、
    前記プロセッサは、
    前記1以上の説明変数および前記目的変数を設定する設定処理を実行し、
    前記取得処理では、前記プロセッサは、前記1以上の説明変数および前記目的変数を示す値を含む前記分析対象データに基づく複数の統計情報から、前記第1統計情報と前記第2統計情報とを取得し、
    前記生成処理では、前記プロセッサは、前記1以上の説明変数の値から前記目的変数の値を予測する統合モデルを生成する、
    ことを特徴とする統合装置。
  12. 請求項3に記載の統合装置であって、
    記生成処理では、前記プロセッサは、前記検証処理による検証結果に基づいて、前記1以上の説明変数を特徴量とし、前記目的変数の値を予測する機械学習モデルを生成する、
    ことを特徴とする統合装置。
  13. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置が実行する統合方法であって、
    前記統合方法は、
    前記プロセッサが、
    複数の統計情報から第1統計情報と第2統計情報とを取得する取得処理と、
    前記取得処理によって取得された前記第1統計情報と前記第2統計情報とを、前記第1統計情報の統計処理に用いられた第1分析対象データの第1データ数と前記第2統計情報の統計処理に用いられた第2分析対象データの第2データ数とに基づく統計処理により統合する統合処理と、
    前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理と、
    前記検証処理による検証結果を出力する出力処理と、
    を実行することを特徴とする統合方法。
  14. 複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能なプロセッサに、
    複数の統計情報から第1統計情報と第2統計情報とを取得する取得処理と、
    前記取得処理によって取得された前記第1統計情報と前記第2統計情報とを、前記第1統計情報の統計処理に用いられた第1分析対象データの第1データ数と前記第2統計情報の統計処理に用いられた第2分析対象データの第2データ数とに基づく統計処理により統合する統合処理と、
    前記統合処理における前記第1統計情報および前記第2統計情報の統合の妥当性を検証する検証処理と、
    前記検証処理による検証結果を出力する出力処理と、
    を実行させることを特徴とする統合プログラム。
JP2020184257A 2020-11-04 2020-11-04 統合装置、統合方法、および統合プログラム Active JP7422643B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020184257A JP7422643B2 (ja) 2020-11-04 2020-11-04 統合装置、統合方法、および統合プログラム
US17/496,178 US20220138603A1 (en) 2020-11-04 2021-10-07 Integration device, integration method, and integration program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020184257A JP7422643B2 (ja) 2020-11-04 2020-11-04 統合装置、統合方法、および統合プログラム

Publications (2)

Publication Number Publication Date
JP2022074315A JP2022074315A (ja) 2022-05-18
JP7422643B2 true JP7422643B2 (ja) 2024-01-26

Family

ID=81379074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020184257A Active JP7422643B2 (ja) 2020-11-04 2020-11-04 統合装置、統合方法、および統合プログラム

Country Status (2)

Country Link
US (1) US20220138603A1 (ja)
JP (1) JP7422643B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220210140A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038780A (ja) 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。
US20160379128A1 (en) 2015-06-26 2016-12-29 Xerox Corporation Distributed and privacy-preserving prediction method
JP2018005317A (ja) 2016-06-28 2018-01-11 日本電気株式会社 医療データ処理装置、端末装置、情報処理方法、およびシステム
WO2019220486A1 (ja) 2018-05-14 2019-11-21 富士通株式会社 情報処理システム、情報処理方法および情報処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016038780A (ja) 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。
US20160379128A1 (en) 2015-06-26 2016-12-29 Xerox Corporation Distributed and privacy-preserving prediction method
JP2018005317A (ja) 2016-06-28 2018-01-11 日本電気株式会社 医療データ処理装置、端末装置、情報処理方法、およびシステム
WO2019220486A1 (ja) 2018-05-14 2019-11-21 富士通株式会社 情報処理システム、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US20220138603A1 (en) 2022-05-05
JP2022074315A (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
El Emam et al. Practical synthetic data generation: balancing privacy and the broad availability of data
Hosseini et al. A systematic literature review and meta-analysis on cross project defect prediction
Abdia et al. Propensity scores based methods for estimating average treatment effect and average treatment effect among treated: a comparative study
Bi A review of statistical methods for determination of relative importance of correlated predictors and identification of drivers of consumer liking
Middleton et al. Unbiased estimation of the average treatment effect in cluster-randomized experiments
Wallace et al. A systematic review of the probability of repeated admission score in community‐dwelling adults
Lu et al. Estimation of Sobol's sensitivity indices under generalized linear models
Weedop et al. The effect of phylogenetic uncertainty and imputation on EDGE Scores
JP7422643B2 (ja) 統合装置、統合方法、および統合プログラム
Tariq et al. Software measurement by using artificial intelligence
JP5176628B2 (ja) ログデータの取得のための制御方法および装置、並びにコンピュータプログラム
Frangakis et al. Deductive derivation and turing‐computerization of semiparametric efficient estimation
Iren et al. Cost of quality in crowdsourcing
Muñoz et al. Multiple imputation of incomplete multilevel data using Heckman selection models
Hof et al. A mixture model for the analysis of data derived from record linkage
CN111816318A (zh) 一种心脏疾病数据队列生成方法和风险预测系统
Shlomo Statistical disclosure limitation for health data: a statistical agency perspective
CN109564782A (zh) 基于医院人口统计的电子临床决策支持设备
Chung et al. Do all your detailing efforts pay off? Dynamic panel data methods revisited
Ganguli et al. Deletion diagnostics for the generalised linear mixed model with independent random effects
Schnetzer et al. Quality assessment of imputations in administrative data
Milocco et al. A method to predict the response to directional selection using a Kalman filter
Zhou et al. Application of a record linkage software to identify mortality of enrolees of large integrated healthcare organisations
Ríos-Gutiérrez et al. An updated estimation approach for SEIR models with stochastic perturbations: Application to COVID-19 data in Bogotá
US20230274026A1 (en) Synthetic and traditional data stewards for selecting, optimizing, verifying and recommending one or more datasets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150