JP7422643B2

JP7422643B2 - 統合装置、統合方法、および統合プログラム

Info

Publication number: JP7422643B2
Application number: JP2020184257A
Authority: JP
Inventors: 信二垂水; 渉竹内; 俊太郎由井; 秀行伴
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2024-01-26
Anticipated expiration: 2040-11-04
Also published as: US20220138603A1; JP2022074315A

Description

本発明は、データを統合する統合装置、統合方法、および統合プログラムに関する。

ヘルスケア情報の電子化進展に伴い，自治体や医療機関の保有するヘルスケアデータの活用に注目が集まっている。特に，複数組織のデータを横断的に活用することで，大量サンプルに裏打ちされたサービス質評価など，信頼性の高い分析が可能になると期待される。しかし、ヘルスケアデータは機微なデータであり、それを管理する組織外部への公開や持出は、個人情報保護や倫理の観点から容易ではない。そこで，これらの課題を解決する技術として、データを直接外部に持ち出すことなく分析する技術が開発されている。

下記特許文献１のデータ秘匿型統計処理システムでは、複数のデータ入力デバイスのそれぞれが、秘匿すべきオリジナルデータを取得する手段と、全ての部分を合わせるとオリジナルデータＸｉが復元されるようにオリジナルデータＸｉを秘密の比率に従って部分データＸ１ｉ及びＸ２ｉに分割し出力する手段を備える。クラウドサービスのそれぞれは、複数のデータ入力デバイスのそれぞれから出力された部分データＸ１ｉまたはＸ２ｉのいずれかを入力データとして所定の演算を行い演算結果を出力する。統計処理結果提供サービスは、クラウドサービスのそれぞれから出力された演算結果を利用することにより、複数のデータ入力デバイスにより取得された複数のオリジナルデータＸｉに基づく統計処理の結果を求め提供する。

下記特許文献２の分散型オンライン機械学習システムは、それぞれがローカルプライベートデータを有する多くのプライベートデータサーバを含む。研究者は、プライベートデータの匿名化を要求することなくまたはプライベートデータを無許可のコンピューティングシステムに晒すことなく、関連するプライベートデータサーバが、機械学習アルゴリズムの実装をそれらのローカルプライベートデータでトレーニングすることを要求できる。また、プライベートデータサーバは、実際のデータのデータ分布に従って合成データまたはプロキシデータを生成する。サーバは、プロキシデータを使用してプロキシモデルをトレーニングする。プロキシモデルがトレーニング済み実モデルと十分に類似している場合、プロキシデータ、プロキシモデルパラメータ、または他の学習された知識を１つまたは複数の非プライベート演算デバイスに送信できる。多くのプライベートデータサーバから学習された知識は、プライベートデータを公開することなく、１つ以上のトレーニング済みグローバルモデルに集約できる。

下記特許文献３の医療データ処理装置は、複数の医療データを特定のアルゴリズムを用いて処理することにより生成され、複数の医療データのいずれにも復元されないデータである中間データを第１の医療機関の端末から受信する受信部と、受信した中間データを記憶装置に記憶させる記憶処理部と、記憶装置から読み出した中間データを第２の医療機関の端末に送信する送信部と、を備える。

特開２０１５－１５８９３５号公報特表２０１９－５２６８５１号公報特開２０１８－００５３１７号公報

しかしながら、特許文献１のデータ秘匿型統計処理システムでは、オリジナルデータのレコードの一部を組織外に持ち出す必要がある。また、データ秘匿型統計処理システムは、複数データが存在する場合に、任意の組み合わせの統合モデルを構築することはできない。

特許文献２の分散型オンライン機械学習システムは、統合モデルを構築する場合に、各データセットから収集された疑似的なデータを用いるため、実際にデータを統合した場合と完全に同一のモデルを構築することができない。

特許文献３の医療データ処理装置は、統計処理の結果の持出しに留まり、複数データを統合した場合の、全体の統計情報や、そこから構築されうるモデルを構築することはできない。

本発明は、各分析対象が保有する分析対象データを分析対象外に持ち出すことなく、分析対象群の統計データを生成することを目的とする。

本願において開示される発明の一側面となる統合装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置であって、前記プロセッサは、複数の統計情報から第１統計情報と第２統計情報とを取得する取得処理と、前記取得処理によって取得された前記第１統計情報と前記第２統計情報とを、前記第１統計情報の統計処理に用いられた第１分析対象データの第１データ数と前記第２統計情報の統計処理に用いられた第２分析対象データの第２データ数とに基づく統計処理により統合する統合処理と、前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理と、前記検証処理による検証結果を出力する出力処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、各分析対象が保有する分析対象データを分析対象外に持ち出すことなく、分析対象群の統計データを生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、統合分析システムのシステム構成例を示すブロック図である。図２は、コンピュータのハードウェア構成例を示すブロック図である。図３は、統計情報の一例を示す説明図である。図４は、分析条件の一例を示す説明図である。図５は、統計情報計算処理の一例を示すシーケンス図である。図６は、統合装置による統合モデル構築処理の一例を示すシーケンス図である。図７は、統合装置による統合モデル構築処理の一例を示すフローチャートである。図８は、統計情報統合処理（ステップＳ７０３）の例１を示す説明図である。図９は、統計情報統合処理（ステップＳ７０３）の例２を示す説明図である。図１０は、統合装置による統合妥当性検証処理（ステップＳ７０４）の詳細な処理手順例を示すフローチャートである。図１１は、統合装置の表示画面の一例を示す説明図である。

本実施例にかかる統合装置は、複数の分析対象がそれぞれ管理する機微な分析対象データを持ち出したり統合したりすることなく、情報の欠損のない統合モデルを任意の組み合わせで構築する。以下、添付図面を用いて詳細に説明する。

＜統合分析システムのシステム構成例＞
図１は、統合分析システムのシステム構成例を示すブロック図である。統合分析システム１００は、プライベート環境群ＰＥｓと、統合装置１０１と、統計情報ＤＢ（データベース）１０２と、統合モデルＤＢ１０３と、統合分析結果ＤＢ１０４と、を有する。これらは、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワーク１１０を介して通信可能に接続される。

プライベート環境群ＰＥｓは、複数のプライベート環境ＰＥ１，…，ＰＥｉ，…，ＰＥｎ（ｉは、１≦ｉ≦ｎを満たす整数。ｎは、２以上の整数。）を含む。プライベート環境ＰＥｉは、自治体や医療機関のほか、企業などの事業者においてコンピュータ化された環境であり、分析対象となるプライベートデータ分析装置ＰＳｉと、プライベートＤＢＰＤｉと、を有する。

プライベートデータ分析装置ＰＳｉは、分析対象データであるプライベートデータを分析し、統計情報を算出し、統計情報を統計情報ＤＢ１０２または統合装置１０１に送信するコンピュータである。プライベートＤＢＰＤｉは、プライベートデータを記憶するデータベースである。プライベートデータとは、個人情報の保護上、または、セキュリティ上、プライベートＤＢＰＤｉ外への漏洩が許容されないデータである。具体的には、たとえば、プライベートデータは、個人データ（年齢、収入など）、電子カルテ（身長、体重、血糖値、尿酸値など）、会計データ（売上、利益など）のように、統計処理が可能な数値データである。

なお、プライベート環境群ＰＥｓは、各プライベート環境ＰＥｉのプライベートデータを統計処理するため、同種のプライベート環境ＰＥｉの集合である。たとえば、医療機関向けの統合分析システムであれば、プライベート環境群ＰＥｓは、医療機関のプライベート環境ＰＥｉの集合である。

統合装置１０１は、統計情報ＤＢ１０２に格納された各プライベート環境ＰＥｉの統計情報を統合したり、統合モデルを生成したり、統合モデルを検証したりするコンピュータである。統合装置１０１は、統計情報ＤＢ１０２、統合モデルＤＢ１０３、および統合分析結果ＤＢ１０４内のデータにはアクセス可能であるが、プライベートＤＢＰＤｉ内のプライベートデータにはアクセスできない。

統計情報ＤＢ１０２は、各プライベートデータ分析装置ＰＳｉからの統計情報を記憶するデータベースである。統合モデルＤＢ１０３は、統合モデルまたは統合モデルに適用される統合モデルパラメータを記憶するデータベースである。統合分析結果ＤＢ１０４は、各プライベート環境ＰＥｉの統計情報が統合された統合統計情報や、統合モデルパラメータについての検証結果を記憶するデータベースである。

＜コンピュータ（統合装置１０１、プライベートデータ分析装置ＰＳｉ）のハードウェア構成例＞
図２は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インターフェース（通信ＩＦ）２０５と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、コンピュータ２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ２０５は、ネットワーク１１０と接続し、データを送受信する。

コンピュータ２００が統合装置１０１であれば、記憶デバイス２０２は、項目情報２１１と、分析条件２１２と、統計情報２１３と、統合統計情報２１４と、モデルパラメータ２１５と、統合モデルパラメータ検証結果２１６と、を記憶する。

項目情報２１１は、統合装置１０１が統計情報として取得したいプライベートデータ２２０の項目を示す情報であり、項目の数値データは含まない。プライベートデータ２２０が電子カルテであれば、項目情報２１１は、たとえば、身長、体重、血糖値、尿酸値といった項目を示す情報であり、身長、体重、血糖値および尿酸値の数値データは含まない。

分析条件２１２は、統合装置１０１が統計情報２１３を分析するための条件である。具体的には、たとえば、分析条件２１２は、何を目的変数にし、どの項目をどの説明変数にするかといった変数情報や、どのプライベート環境ＰＥｉのどの統計情報２１３を統合するかといった統合元を特定する識別情報を含む。分析条件２１２の詳細は、図４で後述する。

統計情報２１３は、プライベートデータ分析装置ＰＳｉがプライベートデータ２２０を統計処理したデータである。具体的には、たとえば、統計情報２１３は、たとえば、プライベートデータ２２０の平均値、偏差平方和、偏差積和を含む。統計情報２１３の詳細は、図３で後述する。

統合統計情報２１４は、複数の統計情報を統合した統合結果であり、統合分析結果ＤＢ１０４にも格納される。モデルパラメータ２１５は、統合モデルに設定されるパラメータであり、統合モデルＤＢ１０３にも格納される。統合モデルパラメータ検証結果２１６は、統合装置１０１がモデルパラメータ２１５について検証した結果を示すデータであり、統合分析結果ＤＢ１０４にも格納される。

また、コンピュータ２００がプライベートデータ分析装置ＰＳｉであれば、記憶デバイス２０２は、項目情報２１１と、プライベートデータ２２０と、統計情報２１３と、を有する。プライベートデータ２２０は、上述したように、個人データ、電子カルテ、会計データのような統計処理が可能な数値データである。

＜統計情報＞
図３は、統計情報の一例を示す説明図である。統計情報２１３は、たとえば、基本情報３０１と、平均値情報３０２と、偏差平方和情報３０３と、偏差積和情報３０４と、を有する。基本情報３０１は、名称３１１と、値３１２と、の組み合わせである。名称３１１は、値として基本情報３０１である「データ数」を示す項目を規定する。データ数とは、統計情報２１３として扱うデータの個数を意味する。電子カルテの例では、名称３１１は、電子カルテの数、すなわち、患者の人数という項目となる。値３１２は、名称３１１で規定された項目が持つ数値データである。電子カルテの例では、値３１２は、電子カルテの数、すなわち、患者の人数を示す数値データである。

平均値情報３０２は、変数３２１と、項目名３２２と、平均値３２３と、の組み合わせである。変数３２１とは、項目情報で特定される項目を示す変数である。項目名３２２は、変数３２１を特定する名称である。電子カルテの例では、たとえば、Ｘ１が身長、Ｘ２が体重、Ｘ３が血糖値となる。平均値３２３は、変数３２１の値（プライベートデータ）を平均化した数値である。

偏差平方和情報３０３は、第１変数３３１と、第２変数３３２と、偏差平方和３３３と、の組み合わせである。第１変数３３１および第２変数３３２は同一変数となる。偏差平方和３３３は、偏差の平方和である。すなわち、偏差平方和３３３は、第１変数３３１の値から第１変数３３１の平均値を引いた偏差と第２変数３３２の値（第１変数３３１の値と同一値）から第２変数３３２の平均値（第１変数３３１の平均値と同一値）を引いた偏差とを乗じた値を、第１変数３３１の値を規定するプライベートデータ２２０のレコードごとに求め、それらを加算した和である。

偏差積和情報３０４は、第１変数３４１と、第２変数３４２と、偏差積和３４３と、の組み合わせである。第１変数３４１および第２変数３４２は異なる変数となる。偏差積和３４３は、偏差の積和である。すなわち、偏差積和３４３は、第１変数３４１の値から第１変数３４１の平均値を引いた偏差と第２変数３４２の値から第２変数３４２の平均値を引いた偏差とを乗じた値を、第１変数３４１の値および第２変数３４２の値の組み合わせを規定するプライベートデータ２２０のレコードごとに求め、それらを加算した和である。

＜分析条件＞
図４は、分析条件２１２の一例を示す説明図である。分析条件２１２は、変数情報テーブル４０１と、統合元情報テーブル４０２と、を有する。変数情報テーブル４０１は、統合モデルで用いられる変数を規定する情報であり、変数カテゴリ４１１と、変数４１２と、を有する。変数カテゴリ４１１は、変数４１２の種類（目的変数、第１説明変数、第２説明変数）を規定する。変数４１２は、変数カテゴリ４１１に適用される変数を規定する。図４では、目的変数には変数Ｘ１、第１説明変数には変数Ｘ２、第２説明変数には変数Ｘ３が規定される。

統合元情報テーブル４０２は、統合元ＩＤを有する。統合元ＩＤは、統合される統計情報２１３を有するプライベート環境ＰＥｉを一意に特定する識別情報ｉである。これにより、統合装置１０１は、それぞれ目的変数をＸ１、第１説明変数をＸ２、第２説明変数をＸ３とし、かつ、統合元ＩＤがそれぞれｉ＝１，２，３である各プライベート環境ＰＥ１，ＰＥ２，ＰＥ３からの３つの統計情報を統合することになる。

＜統計情報計算処理＞
図５は、統計情報計算処理の一例を示すシーケンス図である。統合装置１０１は、所定のタイミングで、プライベートデータ分析装置ＰＳｉに項目情報を送信する（ステップＳ５０１）。

プライベートデータ分析装置ＰＳｉは、項目情報を受信すると、プライベートＤＢＰＤｉに対し、項目情報の項目の値となるプライベートデータ２２０を問い合わせ（ステップＳ５０２）、プライベートＤＢＰＤｉから当該プライベートデータ２２０を読み込む（ステップＳ５０３）。そして、プライベートデータ分析装置ＰＳｉは、読み込んだプライベートデータ２２０を統計処理して統計情報２１３（基本情報３０１、平均値情報３０２、偏差平方和情報３０３、偏差積和情報３０４）を算出し、統計情報ＤＢ１０２に送信する（ステップＳ５０４）。送信が完了したら、プライベートデータ分析装置ＰＳｉは、完了通知を統合装置１０１に送信する（ステップＳ５０５）。このようにして、統計情報２１３が統計情報ＤＢ１０２に蓄積される。

＜統合モデル構築処理＞
図６は、統合装置１０１による統合モデル構築処理の一例を示すシーケンス図である。統合装置１０１は、分析条件２１２を取得すると（ステップＳ２１２）、統合元情報テーブル４０２で特定されるプライベートデータ分析装置ＰＳｉの統計情報２１３を問い合わせ（ステップＳ６０２）、当該統計情報２１３を読み込む（ステップＳ６０３）。そして、統合装置１０１は、統合モデルを生成して、統合モデルパラメータを統合モデルＤＢに保存する（ステップＳ６０４）。このようにして、統合モデルパラメータが統合モデルＤＢに蓄積される。

図７は、統合装置１０１による統合モデル構築処理の一例を示すフローチャートである。統合装置１０１は、たとえば、ユーザ操作により分析条件２１２を設定する（ステップＳ７０１）。つぎに、統合装置１０１は、図６に示したように、統計情報ＤＢ１０２から、統合対象となる統計情報２１３を取得する（ステップＳ７０２）。

つぎに、統合装置１０１は、統計情報統合処理を実行する（ステップＳ７０３）。これにより、統合統計情報が算出される。統計情報統合処理（ステップＳ７０３）では、たとえば、統合装置１０１は、２つの統計情報を網羅的に選択して統合する。たとえば、統合装置１０１は、「統計情報１」と「統計情報２」との統合を試行する。また、統合装置１０１は、「統合統計情報１＋２」（「統計情報１」と「統計情報２」との統合結果）と、「統計情報３」と、の統合を試行する。また、統合装置１０１は、「統合統計情報１＋２」（「統計情報１」と「統計情報２」との統合結果）と、「統計情報３＋４」（「統計情報３」と「統計情報４」との統合結果）と、の統合を試行する。統計情報統合処理（ステップＳ７０３）の具体例は、図８および図９で後述する。

つぎに、統合装置１０１は、統合妥当性検証処理を実行する（ステップＳ７０４）。統合妥当性検証処理（ステップＳ７０４）は、統計情報統合処理（ステップＳ７０３）での統合の妥当性を検証する処理である。統合妥当性検証処理（ステップＳ７０４）の詳細については、図１０で後述する。

このあと、統合装置１０１は、統合妥当性検証処理（ステップＳ７０４）によって妥当性ありとされた統合統計情報について、統合モデルパラメータ計算処理を実行して、モデルパラメータ２１５を算出する（ステップＳ７０５）。具体的には、たとえば、統合装置１０１は、回帰式に統合統計情報２１４を入力して、回帰式内のモデルパラメータ２１５を算出する。そして、図６に示したように、統合装置１０１は、算出したモデルパラメータ２１５を統合モデルＤＢ１０３に登録する（ステップＳ７０６）。なお、統合装置１０１は、算出したモデルパラメータ２１５をプライベートデータ分析装置ＰＳｉに送信してもよい。このようにして、統合モデル（モデルパラメータ２１５が設定された回帰式）が構築される。

＜統計情報統合処理（ステップＳ７０３）＞
図８は、統計情報統合処理（ステップＳ７０３）の例１を示す説明図である。図８は、単回帰の場合における２つの統計情報２１３（８００Ａ、８００Ｂ）を統合する統計情報統合処理（ステップＳ７０３）を示す。統計情報８００Ａ、８００Ｂそれぞれの統計値（データ数、平均、偏差平方和、偏差積和）は、図８に示した通りである。統計情報８００Ａ、８００Ｂにおいて、Ｘは説明変数、Ｙは目的変数を示す。添え字のＡが付与されている統計値は、統計情報８００Ａに含まれる統計値を示し、添え字のＢが付与されている統計値は、統計情報８００Ｂに含まれる統計値を示す。

統合統計情報８００ＡＢは、統計情報８００Ａ、８００Ｂを統合した統合結果である。添え字のＡＢが付与されている統計値は、統計情報８００Ａの統計値と統計情報８００Ｂの統計値とを統合した統合統計値を示す。

具体的には、たとえば、データ数Ｎ_ＡＢは、名称３１１（データ数）の値３１２であるデータ数Ｎ_Ａとデータ数Ｎ_Ｂの合計である。統計情報８００Ａの場合、たとえば、（Ｘ_Ａ１，Ｙ_Ａ１）、（Ｘ_Ａ２，Ｙ_Ａ２）、…、（Ｘ_ＡＮＡ，Ｙ_ＡＮＡ）というＮ_Ａ個のデータをプライベートデータ２２０として有する。同様に、統計情報８００Ｂの場合、たとえば、（Ｘ_Ｂ１，Ｙ_Ｂ１）、（Ｘ_Ｂ２，Ｙ_Ｂ２）、…、（Ｘ_ＢＮＢ，Ｙ_ＢＮＢ）というＮ_Ｂ個のデータをプライベートデータ２２０として有する。Ｘ_ＡＢの平均値は、統計情報８００Ａの平均として示したＸ_Ａの平均値と、統計情報８００Ｂの平均として示したＸ_Ｂの平均値とを、データ数Ｎ_ＡＢに基づいて統合した統合平均値であり、下記式（１）で表現される。

Ｙ_ＡＢの平均値は、統計情報８００Ａの平均として示したＹ_Ａの平均値と、統計情報８００Ｂの平均として示したＹ_Ｂの平均値とを、データ数Ｎ_ＡＢに基づいて統合した統合平均値であり、下記式（２）で表現される。

偏差平方和ＳＳ_ＸＡＢは、偏差平方和ＳＳ_ＸＡと偏差平方和ＳＳ_ＸＢとを、下記式（１）の統合平均値に基づいて統合した統合偏差平方和であり、下記式（３）で表現される。

偏差平方和ＳＳ_ＹＡＢは、偏差平方和ＳＳ_ＹＡと偏差平方和ＳＳ_ＹＢとを、下記式（２）の統合平均値に基づいて統合した統合偏差平方和であり、下記式（４）で表現される。

偏差積和ＳＳ_ＸＹＡＢは、偏差積和ＳＳ_ＸＹＡと偏差積和ＳＳ_ＸＹＢとを、下記式（１）、（２）の統合平均値に基づいて統合した統合偏差積和であり、下記式（５）で表現される。

図９は、統計情報統合処理（ステップＳ７０３）の例２を示す説明図である。図９は、重回帰の場合における２つの統計情報２１３（９００Ａ、９００Ｂ）を統合する統計情報統合処理（ステップＳ７０３）を示す。統計情報９００Ａ、９００Ｂそれぞれの統計値（データ数、平均、偏差平方和、偏差積和）は、図９に示した通りである。統計情報９００Ａ、９００Ｂにおいて、Ｘ１、Ｘ２は説明変数、Ｙは目的変数を示す。添え字のＡが付与されている統計値は、統計情報９００Ａに含まれる統計値を示し、添え字のＢが付与されている統計値は、統計情報９００Ｂに含まれる統計値を示す。

統計情報９００Ａの場合、たとえば、（Ｘ１_Ａ１，Ｘ２_Ａ１，Ｙ_Ａ１）、（Ｘ１_Ａ２，Ｘ２_Ａ２，Ｙ_Ａ２）、…、（Ｘ１_ＡＮＡ，Ｘ２_ＡＮＡ，Ｙ_ＡＮＡ）というＮ_Ａ個のデータをプライベートデータ２２０として有する。同様に、統計情報８００Ｂの場合、たとえば、（Ｘ１_Ｂ１，Ｘ２_Ｂ１，Ｙ_Ｂ１）、（Ｘ１_Ｂ２，Ｘ２_Ｂ２，Ｙ_Ｂ２）、…、（Ｘ１_ＢＮＢ，Ｘ２_ＢＮＢ，Ｙ_ＢＮＢ）というＮ_Ｂ個のデータをプライベートデータ２２０として有する。

統合統計情報９００ＡＢは、統計情報９００Ａ、９００Ｂを統合した統合結果である。添え字のＡＢが付与されている統計値は、統計情報９００Ａの統計値と統計情報９００Ｂの統計値とを統合した統合統計値を示す。

具体的には、たとえば、Ｘ１_ＡＢの平均値は、統計情報９００Ａの平均として示したＸ１_Ａの平均値と、統計情報９００Ｂの平均として示したＸ１_Ｂの平均値とを、データ数Ｎ_ＡＢに基づいて統合した統合平均値であり、下記式（６）で表現される。

Ｘ２_ＡＢの平均値は、統計情報９００Ａの平均として示したＸ２_Ａの平均値と、統計情報９００Ｂの平均として示したＸ２_Ｂの平均値とを、データ数Ｎ_ＡＢに基づいて統合した統合平均値であり、下記式（７）で表現される。

Ｙ_ＡＢの平均値は、統計情報９００Ａの平均として示したＹ_Ａの平均値と、統計情報９００Ｂの平均として示したＹ_Ｂの平均値とを、データ数Ｎ_ＡＢに基づいて統合した統合平均値であり、上記式（２）で表現される。

偏差平方和ＳＳ_Ｘ１ＡＢは、偏差平方和ＳＳ_Ｘ１Ａと偏差平方和ＳＳ_Ｘ１Ｂとを、下記式（６）の統合平均値に基づいて統合した統合偏差平方和であり、下記式（８）で表現される。

偏差平方和ＳＳ_Ｘ２ＡＢは、偏差平方和ＳＳ_Ｘ２Ａと偏差平方和ＳＳ_Ｘ２Ｂとを、上記式（７）の統合平均値に基づいて統合した統合偏差平方和であり、下記式（９）で表現される。

偏差平方和ＳＳ_ＹＡＢは、偏差平方和ＳＳ_ＹＡと偏差平方和ＳＳ_ＹＢとを、上記式（２）の統合平均値に基づいて統合した統合偏差平方和であり、上記式（４）で表現される。

偏差積和ＳＳ_{Ｘ１ＹＡＢ}は、偏差積和ＳＳ_Ｘ１ＹＡと偏差積和ＳＳ_Ｘ１ＹＢとを、上記式（６）、（７）の統合平均値に基づいて統合した統合偏差積和であり、下記式（１０）で表現される。

偏差積和ＳＳ_{Ｘ２ＹＡＢ}は、偏差積和ＳＳ_Ｘ２ＹＡと偏差積和ＳＳ_Ｘ２ＹＢとを、上記式（６）、（７）の統合平均値に基づいて統合した統合偏差積和であり、下記式（１１）で表現される。

＜統合妥当性検証処理（ステップＳ７０４）＞
図１０は、統合装置１０１による統合妥当性検証処理（ステップＳ７０４）の詳細な処理手順例を示すフローチャートである。統合装置１０１は、並行性の検定（ステップＳ１００１）、切片の検定（ステップＳ１００２）を実行し、複数の統計情報２１３の統合の妥当性を判定し（ステップＳ１００３）、ステップＳ７０５に移行する。

並行性の検定（ステップＳ１００１）とは、統合した統計情報２１３の回帰式の傾きに差があるかという仮説を検定する処理である。切片の検定（ステップＳ１００２）とは、統合した統計情報２１３の回帰式の切片に差があるかという仮説を検定する処理である。統合の妥当性判定（ステップＳ１００３）とは、並行性の検定結果と、切片の検定結果と、の組み合わせに基づいて、複数の統計情報２１３の統合の妥当性を判定する処理である。図８の単回帰を例に挙げて、統計情報統合処理（ステップＳ７０４）を説明する。

並行性の検定（ステップＳ１００１）において、統合装置１０１は、統合対象となる２つの統計情報２１３についてのそれぞれの統合モデル（以下、統合前モデルと称す）を示す２つの単回帰式の傾きに差があるか、という仮説を検定する。具体的には、たとえば、統合装置１０１は、傾きが異なる仮説の下での残差平方和Δ１（下記式（１２））と、傾きが同一である仮説の下での残差平方和Δ２（下記式（１３））とを計算する。そして、統合装置１０１は、残差平方和Δ１および残差平方和Δ２から計算したＦ統計量に基づき、仮説検定を行う。

たとえば、統合装置１０１は、下記式（１４）で計算したＦ値と、自由度１、Ｎ_ＡＢ－４のＦ分布とを用いて、仮説の棄却を判定することができる。

つぎに、並行性の検定（ステップＳ１００１）において、２つの統合前モデルを示す２つの回帰式の傾きが等しいという仮説が否定できない場合、統合装置１０１は、切片の検定（ステップＳ１００２）において、当該２つの回帰式の切片に差があるか、という仮説を検定する。具体的には、たとえば、統合装置１０１は、当該２つの回帰式が同一直線という仮説の下での残差平方和Δ３（下記式（１５））から計算したＦ統計量に基づき、仮説検定を行う。

たとえば、統合装置１０１は、下記式（１６）で計算したＦ値と、自由度１、Ｎ_ＡＢ－３のＦ分布とを用いて、仮説の棄却を判定する。

統合の妥当性判定（ステップＳ１００３）では、統合装置１０１は、並行性の検定（ステップＳ１００１）において、傾きが等しいという仮説が否定できず、かつ、切片の検定（ステップＳ１００２）において、切片が等しいという仮説が否定できない場合、統合が妥当であると判定する。

ここでは、単回帰の例を挙げて説明したが、重回帰分析の場合は、統計情報および統合統計情報から、共分散行列を構成することで、統合後モデルの妥当性の検証が可能である。

つぎに、モデルパラメータ計算処理（ステップＳ７０５）について具体的に説明する。統合の妥当性判定（ステップＳ１００３）において統合が妥当であると判定された場合、統合装置１０１は、たとえば、下記式（１７）、（１８）により、モデルパラメータ２１５として、統合モデルの傾きａと切片ｂを算出する。

統合の妥当性判定（ステップＳ１００３）において統合が妥当でないと判断された場合、たとえば、傾きのみが共通であり、切片のみが異なると判断された場合、統合装置１０１は、たとえば、下記式（１９）により、共通の傾きａを算出する。また、統合装置１０１は、たとえば、下記式（２０），（２１）により、モデルパラメータとして、各データに対応する切片ｂ_Ａと切片ｂ_Ｂとを算出する。

ここでは、単回帰の例を挙げて説明したが、重回帰分析の場合は、統計情報２１３および統合統計情報２１４から、共分散行列を構成することで、統合モデルのモデルパラメータ計算が可能である。

＜表示画面＞
図１１は、統合装置１０１の表示画面の一例を示す説明図である。表示画面１１０１は、統合装置１０１の出力デバイス２０４であるディスプレイに表示される。表示画面１１０１は、分析条件設定領域１１０２と、統計情報表示領域１１０３と、統合統計情報表示領域１１０４と、統合モデルパラメータ情報表示領域１１０５と、統合妥当性検証結果表示領域１１０６と、統計情報読込ボタン１１０７と、統合モデル構築ボタン１１０８と、統合モデル保存ボタン１１０９と、を有する。

分析条件設定領域１１０２は、分析条件２１２を設定する領域である。分析条件設定領域１１０２では、ステップＳ７０１において、変数情報テーブル４０１における目的変数、第１説明変数、第２説明変数、および統合元情報テーブル４０２における統合元ＩＤのほか、統合妥当性検証をチェックボックスで指定可能であり、かつ、統合妥当性検証を行う場合の有意確率も指定可能である。

統計情報表示領域１１０３は、統計情報２１３を表示する領域である。具体的には、たとえば、ユーザによる統計情報読込ボタン１１０７の押下を検出すると、統合装置１０１は、統計情報ＤＢ１０２から統計情報２１３を読み込んで（ステップＳ７０２）、統計情報表示領域１１０３に表示する。

統合統計情報表示領域１１０４は、統合統計情報２１４を表示する領域である。具体的には、たとえば、ユーザによる統計情報読込ボタン１１０７の押下を検出すると、統合装置１０１は、統計情報ＤＢ１０２から読み込んだ統計情報２１３のうち分析条件設定領域１１０２において統合元ＩＤで指定されている統計情報２１３を用いて統合統計情報尾を算出し（ステップＳ７０３）、算出結果である統合統計情報２１４（８００ＡＢ，９００ＡＢ）を統合統計情報表示領域１１０４に表示する。

統合モデルパラメータ情報表示領域１１０５は、統合前後のモデルパラメータを表示する領域である。具体的には、たとえば、統合モデル構築ボタン１１０８の押下を検出すると、統合装置１０１は、統合妥当性検証処理（ステップＳ７０４）によって妥当性ありとされた統合統計情報について、統合モデルパラメータ計算処理を実行して、モデルパラメータ２１５を算出し（ステップＳ７０５）、算出結果であるモデルパラメータ２１５を、統合前のモデルパラメータ２１５とともに統合モデルパラメータ情報表示領域１１０５に表示する。

たとえば、統合モデルパラメータ情報表示領域１１０５において、「統計情報１」と「統計情報２」とを統合した統合統計情報２１４のモデルパラメータ２１５は、切片α１２、傾きβ１２、傾きγ１２である。また、「統計情報１」および「統計情報２」と統合されなかった「統計情報３」のモデルパラメータは、切片α３、傾きβ３、傾きγ３である。

統合妥当性検証結果表示領域１１０６は、統合妥当性検証処理（ステップＳ７０４）による統合妥当性検証結果を表示する領域である。具体的には、たとえば、統合妥当性検証結果表示領域１１０６では、統合元ＩＤで指定された２つの統計情報の組み合わせについての統合妥当性検証結果が表示される。より具体的には、統合装置１０１は、統計情報の各組み合わせの切片および傾きについて、Ｆ値を算出し、分析条件２１２で設定した有意確率で棄却できるか否かを判断する。棄却できない場合は、統合装置１０１は、同一勾配、同一切片の統合モデルとして統合可能であるという検証結果を表示する。一方、棄却できる場合は、異なる勾配、異なる切片の統合モデルとして独立であるという検証結果を表示する。

また、統合モデル保存ボタン１１０９が押下されると、統合装置１０１は、統合統計情報２１４についてのモデルパラメータ２１５を統合モデルＤＢ１０３に保存する。

なお、上述した実施例では、統合元情報テーブル４０２において、統合元ＩＤは、プライベート環境ＰＥｉを一意に特定する識別情報ｉとした。しかし、統合元ＩＤは、プライベート環境ＰＥｉ内のプライベートデータ２２０の一部の項目を示すデータを一意に特定する識別情報としてもよい。

また、統合装置１０１は、統合妥当性検証処理（ステップＳ７０４）の検証結果に基づいて、機械学習の特徴量を選定してもよい。具体的には、たとえば、統合装置１０１は、並行性の検定（ステップＳ１００１）で仮説が棄却されなかった場合、傾きに対応する説明変数を機械学習モデルの特徴量として選定する。たとえば、図１１の統合妥当性検証結果表示領域１１０６の「統計情報１＋２」の統合モデル（ＡＡＡ＝α_１２＋β_１２×ＢＢＢ＋γ_１２×ＣＣＣ）では、β_１２およびγ_１２が棄却されなかった傾きであり、ＢＢＢが傾きβ_１２に対応する説明変数、ＣＣＣが傾きγ_１２に対応する説明変数になる。したがって、ＢＢＢ、ＣＣＣが機械学習モデルの特徴量（以下、有効特徴量）として選定される。また、統合モデルの左辺のＡＡＡは、機械学習モデルの正解データとして選定される。この有効特徴量と正解データとの組み合わせが機械学習モデルを生成するための学習データセットになる。

なお、統合されていない「統計情報３」の統計モデル（ＡＡＡ＝α_３＋β_３×ＢＢＢ＋γ_３×ＣＣＣ）についても、並行性の検定（ステップＳ１００１）で仮説が棄却されなかった場合、β_３およびγ_３が棄却されなかった傾きであり、ＢＢＢが傾きβ_３に対応する説明変数、ＣＣＣが傾きγ_３に対応する説明変数になる。したがって、ＢＢＢ、ＣＣＣが機械学習モデルの有効特徴量として選定され、モデルの左辺のＡＡＡが機械学習モデルの正解データとして選定される。

また、統合装置１０１は、選定した特徴量ＢＢＢ、ＣＣＣの値（統合統計情報２１４や統計情報２１３から得られる）を学習データとして作成し、当該学習データと、学習データを統合モデルに与えた場合に出力される予測データとを、組み合わせて、学習データセットを作成する。そして、統合装置１０１は、学習データセットを用いて機械学習モデルを生成し、生成した機械学習モデルのパラメータを各プライベートデータ分析装置ＰＳｉに送信する。

プライベートデータ分析装置ＰＳｉは、機械学習モデルのパラメータを用いて機械学習モデルを作成する。プライベートデータ分析装置ＰＳｉは、選定した特徴量に該当するプライベートデータ２２０を機械学習モデルに入力して予測結果を出力する。そして、プライベートデータ分析装置ＰＳｉは、予測結果と実際の目的変数の値との差分を算出し、統合装置１０１に送信する。統合装置１０１は、差分を用いて誤差逆伝播により機械学習モデルを更新する。

このようにして、統合モデルや統計モデルに基づいて逐次修正可能な機械学習モデルを構築することにより、予測精度の向上を図ることができる。

また、プライベートデータ分析装置ＰＳｉは、プライベートデータ２２０と統計情報２１３との乖離の発生を、プライベートデータ２２０と統計情報２１３との差分の大きさ（たとえば、ユークリッド距離）により判定し、差分の大きさがしきい値以上であれば、プライベートデータ分析装置ＰＳｉは、日付時刻が前回のプライベートデータ２２０よりも新しいデータを含む最新のプライベートデータ２２０で統計情報２１３を再計算する。

最新のプライベートデータ２２０は、前回のプライベートデータ２２０を含んでもよく、含まなくてもよい。たとえば、年度ごとにプライベートデータ２２０が存在したとすると、プライベートデータ分析装置ＰＳｉは、最新の年度のみのプライベートデータ２２０で統計情報２１３を再算出してもよい。また、プライベートデータ分析装置ＰＳｉは、最新の年度を含む過去５年間のプライベートデータ２２０で統計情報２１３を再算出してもよい。この場合、プライベートデータ分析装置ＰＳｉは、６年前から１年前の年度までの５年間分のプライベートデータ２２０を用いて統計情報２１３を前回算出したが、今回は、５年前から今年度までの５年間分のプライベートデータ２２０を用いて統計情報２１３を算出することになる。

プライベートデータ分析装置ＰＳｉは、再算出した統計情報２１３を統合装置１０１に送信する。統合装置１０１は、統計情報２１３の受信を契機にして、図７に示した統合モデル構築処理を実行する。これにより、統合モデルが更新される。

また、各プライベートデータ分析装置ＰＳｉが有するプライベートデータ２２０の各項目について、項目が意味的に同一でありながら項目名の表記がプライベートデータ分析装置ＰＳｉ間で異なる場合（たとえば、「身長」と「ｈｅｉｇｈｔ」）がある。このような場合に備えて、統合装置１０１は、プライベートデータ分析装置ＰＳｉごとに、項目名の相違を吸収する項目マスターテーブルを有してもよい。

項目マスターテーブルは、変換先項目名と、プライベートデータ２２０の項目名（変換元項目名）と、を対応付けたテーブルである。たとえば、プライベートデータ分析装置ＰＳ１がプライベートデータ２２０の一項目「身長」を「背丈」と表記している場合、プライベートデータ分析装置ＰＳ１用の項目マスターテーブルは、変換先項目名「身長」と、変換元項目名「背丈」とを対応付けた情報となる。

また、別のプライベートデータ分析装置ＰＳ２がプライベートデータ２２０の一項目「身長」を「ｈｅｉｇｈｔ」と表記している場合、プライベートデータ分析装置ＰＳ２用の項目マスターテーブルは、変換先項目名「身長」と、変換元項目名「ｈｅｉｇｈｔ」とを対応付けた情報となる。

統合装置１０１が、図７に示した統合モデル構築処理を実行する場合、プライベートデータ分析装置ＰＳ１からの統計情報２１３の項目「背丈」は、プライベートデータ分析装置ＰＳ１用の項目マスターテーブルの変換元項目名「背丈」と一致する。したがって、統合装置１０１は、統計情報２１３の項目「背丈」を、プライベートデータ分析装置ＰＳ１用の項目マスターテーブルにより「身長」に変換する。

プライベートデータ分析装置ＰＳ２からの統計情報２１３の項目「ｈｅｉｇｈｔ」は、プライベートデータ分析装置ＰＳ２用の項目マスターテーブルの変換元項目名「ｈｅｉｇｈｔ」と一致する。したがって、統合装置１０１は、プライベートデータ分析装置ＰＳ２用の項目マスターテーブルにより「身長」に変換する。これにより、意味的に同一の項目の項目名の表記がプライベートデータ分析装置ＰＳｉ間で異なっていても、プライベートデータ分析装置ＰＳ１からの統計情報２１３とプライベートデータ分析装置ＰＳ２からの統計情報２１３との統合が可能になる。

このように、本実施例の統合装置１０１によれば、プライベートデータ分析装置ＰＳｉが有するプライベートデータ２２０にアクセスすることなく、プライベートデータ分析装置ＰＳｉ間の統計情報２１３を統合した統合統計情報２１４を生成することができる。

また、上述した実施例にかかる統合装置１０１は、下記（１）～（１３）のように構成することもできる。

（１）統合装置１０１は、プログラムを実行するプロセッサ２０１と、前記プログラムを記憶する記憶デバイス２０２と、を有し、複数のプライベートデータ分析装置ＰＳｉの各々が有するプライベートデータ２２０に基づく統計情報２１３の各々にアクセス可能である。プロセッサ２０１は、複数の統計情報２１３から第１統計情報と第２統計情報とを取得する取得処理（ステップＳ７０２）と、前記取得処理によって取得された前記第１統計情報と前記第２統計情報とを、前記第１統計情報の統計処理に用いられた第１分析対象データの第１データ数と前記第２統計情報の統計処理に用いられた第２分析対象データの第２データ数とに基づく統計処理により統合する統合処理（ステップＳ７０３）と、前記統合処理によって統合された統合統計情報２１４を出力する出力処理（ステップＳ７０６）と、を実行する。

これにより、統合装置１０１はプライベートデータ２２０にアクセスすることなく、第１統計情報と第２統計情報とを統合することができる。したがって、プライベートデータ２２０の漏洩が抑制される。

（２）上記（１）の統合装置１０１において、前記取得処理では、前記プロセッサ２０１は、前記複数の統計情報から第３統計情報を取得するとともに、前記統合統計情報を第４統計情報として取得し、前記統合処理では、前記プロセッサは、前記取得処理によって取得された前記第３統計情報と前記第４統計情報とを、前記第３統計情報の統計処理に用いられた第３分析対象データの第１データ数と前記第４統計情報の統計処理に用いられた前記第１データ数および前記第２データ数の総和とに基づく統計処理により統合する。

これにより、第１統計情報～第３統計情報の統合を試行することができる。

（３）上記（１）の統合装置１０１において、前記プロセッサ２０１は、前記統合統計情報２１４を用いて、前記第１プライベートデータ２２０および前記第２プライベートデータ２２０内の１以上の説明変数の値から前記第１プライベートデータ２２０および第２プライベートデータ２２０内の目的変数の値を予測する統合モデルを生成する生成処理（ステップＳ７０５）を実行する。

（４）上記（１）の統合装置１０１において、前記プロセッサ２０１は、前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理（ステップＳ７０４）を実行し、前記出力処理では、前記プロセッサ２０１は、前記検証処理による検証結果を出力する。

これにより、統合装置１０１のユーザは、統合の妥当性を確認することができる。

（５）上記（３）の統合装置１０１において、前記プロセッサ２０１は、前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理を実行し、前記生成処理では、前記プロセッサ２０１は、前記検証処理による検証結果に基づいて、前記統合統計情報を用いて、前記統合モデルを生成する。

これにより、統合装置１０１はプライベートデータ２２０にアクセスすることなく、プライベートデータ２２０内の目的変数の予測値を算出することができる。

（６）上記（５）の統合装置１０１において、前記検証処理では、前記プロセッサ２０１は、前記第１統計情報に関する第１統計モデルの係数（傾き、切片）と、前記第２統計情報に関する第２統計モデルの係数（傾き、切片）と、が等しいという仮説の統計的な検定を実行し、検定結果に基づいて、前記第１統計情報および前記第２統計情報の統合の妥当性を検証する。

これにより、統合の妥当性を統計的に保証することができる。

（７）上記（６）の統合装置１０１において、前記検証処理では、前記プロセッサ２０１は、前記第１統計モデルと前記第２統計モデルとの間で、傾きが等しいという仮説を検定する統計的な検定と，切片が等しいという仮説を検定する統計的な検定をそれぞれ実行し、前記傾きが等しいという仮説と前記切片が等しいという仮説の両方が否定できない場合には、前記統合が妥当であると判定し、前記傾きが等しいという仮説が否定できず、前記切片が等しいという仮説が否定された場合は、前記第１統計モデルと前記第２統計モデルとを傾きが等しく切片が異なる独立モデルであると判定し、前記傾きが等しいという仮説が否定された場合は、前記統合は妥当でないと判定する。

これにより、統合の妥当性を傾きと切片のそれぞれの仮設の検定に分けて具体的に実行することができる。

（８）上記（１）の統合装置１０１において、前記プライベートデータ分析装置ＰＳｉの各々にアクセス可能であり、前記取得処理では、前記プロセッサ２０１は、前記複数のプライベートデータ分析装置ＰＳｉが有する前記複数の統計情報２１３から前記第１統計情報と前記第２統計情報とを取得する。

これにより、統合装置１０１は、プライベートデータ分析装置ＰＳｉから直接、統計情報２１３を取得することができる。

（９）上記（１）の統合装置１０１において、前記複数の統計情報２１３を記憶する統計情報ＤＢ１０２にアクセス可能であり、前記取得処理では、前記プロセッサ２０１は、前記統計情報ＤＢ１０２から前記第１統計情報と前記第２統計情報とを取得する。

これにより、統合装置１０１は、プライベートデータ分析装置ＰＳｉとアクセスできなくても、統計情報２１３を取得することができる。

（１０）上記（１）の統合装置１０１において、前記取得処理では、前記プロセッサ２０１は、計算対象を示す項目情報を前記プライベートデータ分析装置に送信した結果、前記項目情報を示す値を含む前記プライベートデータ２２０に基づく複数の統計情報から、前記第１統計情報と前記第２統計情報とを取得する。

（１１）上記（３）の統合装置１０１において、前記プロセッサ２０１は、前記１以上の説明変数および前記目的変数を設定する設定処理（ステップＳ７０１）を実行し、前記取得処理では、前記プロセッサ２０１は、前記１以上の説明変数および前記目的変数を示す値を含む前記プライベートデータ２２０に基づく複数の統計情報２１３から、前記第１統計情報と前記第２統計情報とを取得し、前記生成処理では、前記プロセッサ２０１は、前記１以上の説明変数の値から前記目的変数の値を予測する統合モデルを生成する。

これにより、統合装置１０１は、分析条件として説明変数および目的変数を絞り込んで統合モデルを生成することができる。

（１２）上記（３）の統合装置１０１において、前記プロセッサ２０１は、前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理を実行し、前記生成処理では、前記プロセッサ２０１は、前記検証処理による検証結果に基づいて、前記１以上の説明変数を特徴量とし、前記目的変数の値を予測する機械学習モデルを生成する。

これにより、統合モデルや統計モデル（統合されなかった回帰式）を１つの機械学習モデルに集約することができる。また、統合装置１０１は、機械学習モデルをプライベートデータ分析装置ＰＳｉに送信し、プライベートデータ分析装置ＰＳｉが機械学習モデルにプライベートデータ２２０を入力して目的変数の予測値を算出し、目的変数の値との差分を算出して、統合装置１０１に返す。これにより、統合装置１０１は、プライベートデータ２２０にアクセスすることなく、差分を用いて機械学習モデルを更新することができる。

（１３）上記（１）の統合装置１０１において、変換元項目名と変換先項目名とを対応付けたテーブルを有し、前記取得処理では、前記プロセッサ２０１は、前記統計情報内の変数の項目名が前記変換元項目名と一致した場合、前記統計情報内の変数の項目名を前記変換先項目名に変換し、前記統合処理では、前記プロセッサ２０１は、前記項目名の変換結果に基づいて、前記第１統計情報と前記第２統計情報とを統合する。

これにより、項目名の相違を吸収するため、意味的に同一項目の変数を別変数として扱うような統合を抑制することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ２０１がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１００統合分析システム
１０１統合装置
２００コンピュータ
２０１プロセッサ
２０２記憶デバイス
２１１項目情報
２１２分析条件
２１３統計情報
２１４統合統計情報
２１５モデルパラメータ
２１６統合モデルパラメータ検証結果
２２０プライベートデータ
１０２統計情報ＤＢ
１０３統合モデルＤＢ
１０４統合分析結果ＤＢ
ＰＤｉプライベートＤＢ
ＰＳｉプライベートデータ分析装置

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置であって、
前記プロセッサは、
複数の統計情報から第１統計情報と第２統計情報とを取得する取得処理と、
前記取得処理によって取得された前記第１統計情報と前記第２統計情報とを、前記第１統計情報の統計処理に用いられた第１分析対象データの第１データ数と前記第２統計情報の統計処理に用いられた第２分析対象データの第２データ数とに基づく統計処理により統合する統合処理と、
前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理と、
前記検証処理による検証結果を出力する出力処理と、
を実行することを特徴とする統合装置。
請求項１に記載の統合装置であって、
前記取得処理では、前記プロセッサは、前記複数の統計情報から第３統計情報を取得するとともに、前記統合処理によって統合された統合統計情報を第４統計情報として取得し、
前記統合処理では、前記プロセッサは、前記取得処理によって取得された前記第３統計情報と前記第４統計情報とを、前記第３統計情報の統計処理に用いられた第３分析対象データの第３データ数と前記第４統計情報の統計処理に用いられた前記第１データ数および前記第２データ数の総和とに基づく統計処理により統合する、
ことを特徴とする統合装置。
請求項１に記載の統合装置であって、
前記プロセッサは、
前記統合処理によって統合された統合統計情報を用いて、前記第１分析対象データおよび前記第２分析対象データ内の１以上の説明変数の値から前記第１分析対象データおよび第２分析対象データ内の目的変数の値を予測する統合モデルを生成する生成処理を実行することを特徴とする統合装置。
請求項１に記載の統合装置であって、
変換元項目名と変換先項目名とを対応付けたテーブルを有し、
前記取得処理では、前記プロセッサは、前記統計情報内の変数の項目名が前記変換元項目名と一致した場合、前記統計情報内の変数の項目名を前記変換先項目名に変換し、
前記統合処理では、前記プロセッサは、前記項目名の変換結果に基づいて、前記第１統計情報と前記第２統計情報とを統合する、
ことを特徴とする統合装置。
請求項３に記載の統合装置であって、
前記生成処理では、前記プロセッサは、前記検証処理による検証結果に基づいて、前記統合統計情報を用いて、前記統合モデルを生成する、
ことを特徴とする統合装置。
請求項５に記載の統合装置であって、
前記検証処理では、前記プロセッサは、前記第１統計情報に関する第１統計モデルの係数と、前記第２統計情報に関する第２統計モデルの係数と、が等しいという仮説の統計的な検定を実行し、検定結果に基づいて、前記第１統計情報および前記第２統計情報の統合の妥当性を検証する、
ことを特徴とする統合装置。
請求項６に記載の統合装置であって、
前記検証処理では、前記プロセッサは、前記第１統計モデルと前記第２統計モデルとの間で、傾きが等しいという仮説を検定する統計的な検定と、切片が等しいという仮説を検定する統計的な検定をそれぞれ実行し、前記傾きが等しいという仮説と前記切片が等しいという仮説の両方が否定できない場合には、前記統合が妥当であると判定し、前記傾きが等しいという仮説が否定できず、前記切片が等しいという仮説が否定された場合は、前記第１統計モデルと前記第２統計モデルとを傾きが等しく切片が異なる独立モデルであると判定し、前記傾きが等しいという仮説が否定された場合は、前記統合は妥当でないと判定する、
ことを特徴とする統合装置。
請求項１に記載の統合装置であって、
前記分析対象装置の各々にアクセス可能であり、
前記取得処理では、前記プロセッサは、前記複数の分析対象装置が有する前記複数の統計情報から前記第１統計情報と前記第２統計情報とを取得する、
ことを特徴とする統合装置。
請求項１に記載の統合装置であって、
前記複数の統計情報を記憶する統計情報データベースにアクセス可能であり、
前記取得処理では、前記プロセッサは、前記統計情報データベースから前記第１統計情報と前記第２統計情報とを取得する、
ことを特徴とする統合装置。
請求項１に記載の統合装置であって、
前記取得処理では、前記プロセッサは、計算対象を示す項目情報を前記分析対象装置に送信した結果、前記項目情報を示す値を含む前記分析対象データに基づく複数の統計情報から、前記第１統計情報と前記第２統計情報とを取得する、
ことを特徴とする統合装置。
請求項３に記載の統合装置であって、
前記プロセッサは、
前記１以上の説明変数および前記目的変数を設定する設定処理を実行し、
前記取得処理では、前記プロセッサは、前記１以上の説明変数および前記目的変数を示す値を含む前記分析対象データに基づく複数の統計情報から、前記第１統計情報と前記第２統計情報とを取得し、
前記生成処理では、前記プロセッサは、前記１以上の説明変数の値から前記目的変数の値を予測する統合モデルを生成する、
ことを特徴とする統合装置。
請求項３に記載の統合装置であって、
前記生成処理では、前記プロセッサは、前記検証処理による検証結果に基づいて、前記１以上の説明変数を特徴量とし、前記目的変数の値を予測する機械学習モデルを生成する、
ことを特徴とする統合装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能な統合装置が実行する統合方法であって、
前記統合方法は、
前記プロセッサが、
複数の統計情報から第１統計情報と第２統計情報とを取得する取得処理と、
前記取得処理によって取得された前記第１統計情報と前記第２統計情報とを、前記第１統計情報の統計処理に用いられた第１分析対象データの第１データ数と前記第２統計情報の統計処理に用いられた第２分析対象データの第２データ数とに基づく統計処理により統合する統合処理と、
前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理と、
前記検証処理による検証結果を出力する出力処理と、
を実行することを特徴とする統合方法。
複数の分析対象装置の各々が有する分析対象データに基づく統計情報の各々にアクセス可能なプロセッサに、
複数の統計情報から第１統計情報と第２統計情報とを取得する取得処理と、
前記取得処理によって取得された前記第１統計情報と前記第２統計情報とを、前記第１統計情報の統計処理に用いられた第１分析対象データの第１データ数と前記第２統計情報の統計処理に用いられた第２分析対象データの第２データ数とに基づく統計処理により統合する統合処理と、
前記統合処理における前記第１統計情報および前記第２統計情報の統合の妥当性を検証する検証処理と、
前記検証処理による検証結果を出力する出力処理と、
を実行させることを特徴とする統合プログラム。