JP7364049B2

JP7364049B2 - 分析装置、分析方法及びプログラム

Info

Publication number: JP7364049B2
Application number: JP2022513743A
Authority: JP
Inventors: 登夢冨永; 健倉島; 浩之戸田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-10-18
Anticipated expiration: 2040-04-07
Also published as: US20230154628A1; WO2021205541A1; JPWO2021205541A1

Description

本発明は、分析装置、分析方法及びプログラムに関する。

統計的因果推論の一種である傾向スコア分析（又は「傾向スコア解析」とも呼ばれる。）が従来から知られている（例えば、非特許文献１等）。傾向スコア分析では、実験対象が特定の要因を有している確率を複数の共変量から推定する。この確率は傾向スコアと呼ばれる。傾向スコアは、共変量を一次元に集約するという性質上、基本的には共変量の数の制約を受けない。そのため、傾向スコア分析は、共変量の数を増やせば増やすほど、頑強な因果推論を実施できるという利点を持つ。

星野崇宏，繁桝算男，"傾向スコア解析法による因果効果の推定と調査データの調整について"，行動計量学31巻1号，2004年, pp.43-61

しかしながら、傾向スコアを共変量から推定する際に、共変量間に相関が確認されることがある。このような場合、多重共線性を解消するために、相関がある共変量のうちのいずれか一方の共変量を分析から除外する必要がある。特に、分析に用いる共変量が多くなればなるほど、多重共線性が発生する可能性が高まる。したがって、傾向スコア分析を行う際には、共変量をなるべく多く確保する一方で、それらを除外することなく、多重共線性の発生を防止する必要がある。

本発明の一実施形態は、上記の点に鑑みてなされたもので、多重共線性の発生を防止することを目的とする。

上記目的を達成するため、一実施形態に係る分析装置は、所定の疾病の発症率と所定の介入との間の因果関係を分析するための分析装置であって、母集団に属するユーザの属性を表し、かつ、少なくとも２つのパラメータ間で所定の強さの相関がある複数の第１パラメータ群を、互いに前記所定の強さの相関を有しない複数の第２パラメータ群に変換する変換部と、前記複数の第２パラメータ群と、前記介入の有無を表すパラメータとを用いて、前記ユーザ毎に所定のスコアを算出する算出部と、前記スコアを用いて、前記因果関係を分析するために、前記母集団に属するユーザをクラスタリングするクラスタリング部と、を有することを特徴とする。

多重共線性の発生を防止することができる。

本実施形態に係る分析装置の機能構成の一例を示す図である。サンプルＤＢに格納されているサンプルデータの一例を示す図である。本実施形態に係る分析処理の流れの一例を示すフローチャートである。本実施形態に係る分析装置のハードウェア構成の一例を示す図である。

以下、本発明の一実施形態について説明する。本実施形態では、傾向スコア分析を行う際に、共変量間の関係を保持したまま互いに無相関な変数に変換することで、多重共線性の発生を防止することができる分析装置１０について説明する。

なお、本実施形態では、一例として、観察研究によって得られたサンプルデータを用いて、喫煙経験が肺がんの発症に与える因果効果を傾向スコア分析によって検証する場合について説明する。ただし、これは一例であって、本実施形態に係る分析装置１０は、任意の介入（要因）と任意の結果との間の因果効果を傾向スコア分析によって検証する場合について同様に適用することが可能である。

＜機能構成＞
まず、本実施形態に係る分析装置１０の機能構成について、図１を参照しながら説明する。図１は、本実施形態に係る分析装置１０の機能構成の一例を示す図である。

図１に示すように、本実施形態に係る分析装置１０は、取得部１０１と、変換部１０２と、算出部１０３と、調整部１０４と、効果推定部１０５と、サンプルＤＢ１０６とを有する。

サンプルＤＢ１０６には、傾向スコア分析に用いられる複数のサンプルデータ（つまり、サンプルデータの母集団）が格納されている。ここで、サンプルＤＢ１０６に格納されているサンプルデータの一例について、図２を参照しながら説明する。図２は、サンプルＤＢ１０６に格納されているサンプルデータの一例を示す図である。

図２に示すように、サンプルＤＢ１０６には複数のサンプルデータが格納されており、各サンプルデータには複数の項目が含まれる。例えば、図２に示す例では、各サンプルデータには、「被験者ＩＤ」、「性別ｇ」、「年齢ａ」、「学歴ｃ」、「年収ｓ」、「喫煙経験ｆ」及び「肺がん発症有無ｙ」が項目として含まれている。なお、項目はパラメータと称されてもよい。

本実施形態では、サンプルデータに含まれる各項目のうち、「性別ｇ」、「年齢ａ」、「学歴ｃ」及び「年収ｓ」が共変量、「喫煙経験ｆ」が割付変数、「肺がん発症有無ｙ」が結果変数である。一方で、被験者ＩＤは被験者（サンプル又はユーザ）を一意に識別する識別情報であり、本実施形態では、被験者ＩＤをｉ（ｉ＝１，・・・，Ｎ）で表すものとする。なお、割付変数はその値によって介入（要因）の有無を表し、サンプルデータを処置群又は対照群（処置群及び対照群は、例えば、それぞれ暴露群及び非暴露群等と呼ばれてもよい。）に割り振るための変数である。割付変数としては、一般に、結果変数と因果関係があることが想定されるパラメータが設定される。

なお、例えば、「性別ｇ」はその値が０ならば男、１ならば女を表し、「年齢ａ」はその値によって年齢を表し、「学歴ｃ」はその値によって最終学歴を表し、「年収ｓ」はその値によって年収を表す。また、例えば、「喫煙経験ｆ」はその値が０ならば喫煙経験なし、１ならば喫煙経験ありを表し、「肺がん発症有無ｙ」はその値が０ならば肺がん発症なし、その値が１ならば肺がん発症ありを表す。

以降では、被験者ＩＤ「ｉ」のサンプルデータをサンプルデータｉと表すと共に、サンプルデータｉに含まる性別ｇ、年齢ａ、学歴ｃ、年収ｓ、喫煙経験ｆ及び肺がん発症有無ｙをそれぞれｇ_ｉ，ａ_ｉ，ｃ_ｉ，ｓ_ｉ，ｆ_ｉ及びｙ_ｉと表す。また、各共変量をその要素とするベクトルを共変量ベクトルと表し、サンプルデータｉに含まれる共変量ｇ_ｉ，ａ_ｉ，ｃ_ｉ及びｓ_ｉをその要素する共変量ベクトルをｘ_ｉ＝（ｇ_ｉ，ａ_ｉ，ｃ_ｉ，ｓ_ｉ）と表す。

このように、サンプルＤＢ１０６には、少なくとも２以上の共変量（パラメータ）が含まれる複数のサンプルデータが格納されている。なお、「性別ｇ」、「年齢ａ」、「学歴ｃ」及び「年収ｓ」を共変量とすることは一例であって、これら以外にも、観察研究によって得られる様々なパラメータ（例えば、被験者の様々な属性（家族構成、出身地、国籍、趣味、職業、平均睡眠時間、飲酒有無等）を表すパラメータ）を共変量とすることが可能である。

取得部１０１は、傾向スコア分析の対象となるＮ個のサンプルデータをサンプルＤＢ１０６から取得する。

変換部１０２は、取得部１０１により取得された各サンプルデータｉに含まれる各共変量を、共変量間の関係を保持しまま、互いに無相関な変数（パラメータ）に変換する。言い換えれば、変換部１０２は、共変量間の関係を保持しまま、各共変量ベクトルｘ_ｉを、互いに無相関な変数をその要素とするベクトルｘ'_ｉに変換する。以降では、この変換後のベクトルｘ'_ｉを共変量主成分ベクトルｘ'_ｉと呼ぶ。

変換部１０２は、例えば、共変量ベクトルｘ_１，・・・，ｘ_Ｎを用いて主成分分析を行って、各共変量ベクトルｘ_ｉの各要素ｇ_ｉ，ａ_ｉ，ｃ_ｉ及びｓ_ｉをそれぞれ第１主成分得点ＰＣ_ｉ１，第２主成分得点ＰＣ_ｉ２，第３主成分得点ＰＣ_ｉ３及び第４主成分得点ＰＣ_ｉ４に変換することで、共変量ベクトルｘ_ｉ＝（ｇ_ｉ，ａ_ｉ，ｃ_ｉ，ｓ_ｉ）を共変量主成分ベクトルｘ'_ｉ＝（ＰＣ_ｉ１，ＰＣ_ｉ２，ＰＣ_ｉ３，ＰＣ_ｉ４）に変換する。

なお、一般に、共変量ベクトルｘ_ｉの要素数（つまり、共変量数）がＪ個である場合、共変量ベクトルｘ_ｉのｊ（ただし、ｊ＝１，・・・，Ｊ）番目の要素を第ｊ主成分得点ＰＣ_ｉｊに変換することで、共変量ベクトルｘ_ｉを共変量主成分ベクトルｘ'_ｉに変換すればよい。

算出部１０３は、変換部１０２により共変量ベクトルｘ_ｉを変換することで得られた共変量主成分ベクトルｘ'_ｉを用いて、傾向スコアを推定する。具体的には、算出部１０３は、ｅ_ｉ＝Ｐｒ（ｆ_ｉ＝１｜ｘ'_ｉ）により、サンプルデータｉの傾向スコアｅ_ｉを算出（推定）する。なお、傾向スコアｅ_ｉは既知のモデル（例えば、ロジスティック回帰、機械学習モデル（ランダムフォレスト、Generalized Boosting Modeling、NN（Neural Network）等））により算出すればよい。

これにより、或る共変量間に相関がある場合であっても、共変量主成分ベクトルを用いることで、多重共線性を回避して傾向スコアを算出（推定）することが可能となる。本実施形態では、例えば、学歴ｃと年収ｓの相関係数が高い（つまり、強い相関がある）場合であっても、共変量主成分ベクトルｘ'_ｉに用いることで、多重共線性を回避して傾向スコアｅ_ｉを算出（推定）することが可能となる。

調整部１０４は、算出部１０３により算出（推定）された傾向スコアｅ_ｉを用いて、既知の手法（例えば、マッチングや層別化等）により処置群及び対照群の共変量を調整して、処置群及び対照群を再構成する。すなわち、調整部１０４は、処置群及び対照群のそれぞれで各サンプルデータをグルーピングすることで、処置群及び対照群を再構成する。これにより、共変量（の平均等）が互いに類似する処置群及び対照群が得られる。なお、グルーピングは、クラスタリング又は分類と称されてもよい。

例えば、最近傍マッチング（Nearest neighbor matching）を用いる場合、処置群（例えば、ｆ_ｉ＝１であるサンプルデータｉの集合）と対照群（例えば、ｆ_ｉ＝０であるサンプルデータｉの集合）との間で傾向スコアが最も近いサンプルデータ同士を１つのペアとして、これらのペアにより処置群と対照群とを再構成すればよい。このとき、例えば、再構成前の処置群に属する各サンプルデータに対してキャリパー（許容領域）を設定し、傾向スコアの差がキャリパー以内あるサンプルデータ同士を１つのペアとしてもよい。なお、これらのマッチング手法は一例であって、任意のマッチング手法を用いることが可能である。

また、例えば、層別化を用いる場合、傾向スコアの大小によって処置群及び対照群をそれぞれ複数のサブクラスに分けることで、処置群及び対照群を再構成してもよい。なお、サブクラス数は任意の数とすればよいが、例えば、サブクラス数を５とすることがよく用いられる。

効果推定部１０５は、調整部１０４により再構成された処置群及び対照群を用いて、既知の手法（例えば、検定等）により因果効果を推定する。これにより、介入（要因）と結果との間の因果効果（本実施形態では、喫煙経験ｆと肺がん発症有無ｙとの間の因果効果）が推定される。したがって、例えば、本実施形態では、喫煙経験と肺がん発症率との間に因果関係があるか否かを検証することが可能となる。このように、傾向スコア分析は、一般に、或る疾病と因果関係があると想定される介入（要因）と、当該疾病の発症率との間に実際に因果関係があるか否か検証する際によく用いられる。

＜分析処理＞
次に、本実施形態に係る分析装置１０によって傾向スコア分析を行う場合の処理の流れについて、図３を参照しながら説明する。図３は、本実施形態に係る分析処理の流れの一例を示すフローチャートである。

まず、取得部１０１は、傾向スコア分析の対象となるＮ個のサンプルデータをサンプルＤＢ１０６から取得する（ステップＳ１０１）。

次に、変換部１０２は、上記のステップＳ１０１で取得されたサンプルデータｉ（ただし、ｉ＝１，・・・，Ｎ）に対応する共変量ベクトルｘ_ｉを共変量主成分ベクトルｘ'_ｉに変換する（ステップＳ１０２）。

次に、算出部１０３は、上記のステップＳ１０２で得られた共変量主成分ベクトルｘ'_ｉから傾向スコアｅ_ｉを算出する（ステップＳ１０３）。

次に、調整部１０４は、上記のステップＳ１０３で算出された傾向スコアｅ_ｉを用いて、既知の手法により処置群及び対照群の共変量を調整して、処置群及び対照群を再構成する（ステップＳ１０４）。

そして、効果推定部１０５は、上記のステップＳ１０４で得られた処置群及び対照群を用いて、既知の手法により因果効果を推定する（ステップＳ１０５）。

以上により、本実施形態に係る分析装置１０は、互いに相関がある共変量が含まれている場合であっても、多重共線性の発生を防止し、傾向スコアを推定することができる。しかも、本実施形態に係る分析装置１０は、共変量ベクトルを共変量主成分ベクトルに変換するため、共変量を除外することなく（したがって、因果効果の推定精度を低下させることなく）、共変量間の関係は保持しままで互いに無相関化することができる。

なお、互いに強い相関がある共変量が含まれている場合は多重共線性が発生する可能性が高くなるため、本実施形態に係る分析装置１０を用いることは特に効果的であるが、弱い相関がある共変量が含まれている場合であっても多重共線性が発生する可能性はある。したがって、相関の強弱に関わらず、本実施形態に係る分析装置１０を用いることで、多重共線性の発生を確実に回避することが可能となる。

＜ハードウェア構成＞
最後に、本実施形態に係る分析装置１０のハードウェア構成について、図４を参照しながら説明する。図４は、本実施形態に係る分析装置１０のハードウェア構成の一例を示す図である。

図４に示すように、本実施形態に係る分析装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これらの各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、分析装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。分析装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、分析装置１０が有する各機能部（取得部１０１、変換部１０２、算出部１０３、調整部１０４及び効果推定部１０５）を実現する１以上のプログラムが格納されていてもよい。

なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、分析装置１０を通信ネットワークに接続するためのインタフェースである。なお、分析装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ等の各種演算装置である。分析装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。分析装置１０が有するサンプルＤＢ１０６は、例えば、メモリ装置２０６を用いて実現可能である。なお、サンプルＤＢ１０６は、例えば、分析装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

本実施形態に係る分析装置１０は、図４に示すハードウェア構成を有することにより、上述した分析処理を実現することができる。なお、図４に示すハードウェア構成は一例であって、分析装置１０は、他のハードウェア構成を有していてもよい。例えば、分析装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０分析装置
１０１取得部
１０２変換部
１０３算出部
１０４調整部
１０５効果推定部
１０６サンプルＤＢ
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置

Claims

所定の疾病の発症率と所定の介入との間の因果関係を分析するための分析装置であって、
母集団に属するユーザの属性を表し、かつ、少なくとも２つのパラメータ間で所定の強さの相関がある複数の第１パラメータ群を、互いに前記所定の強さの相関を有しない複数の第２パラメータ群に変換する変換部と、
前記複数の第２パラメータ群と、前記介入の有無を表すパラメータとを用いて、前記ユーザ毎に所定のスコアを算出する算出部と、
前記スコアを用いて、前記因果関係を分析するために、前記母集団に属するユーザをクラスタリングするクラスタリング部と、
を有することを特徴とする分析装置。
前記変換部は、
前記母集団に属するユーザの前記複数の第１パラメータ群を用いて主成分分析を行って、前記複数の第１パラメータ群の各々を各主成分得点にそれぞれ変換することで、前記複数の第１パラメータ群を前記複数の第２パラメータ群に変換する、ことを特徴とする請求項１に記載の分析装置。
前記クラスタリング部は、
前記介入の有無を表すパラメータと前記スコアとを用いて、前記介入があるユーザの集合と前記介入がないユーザの集合との間で前記スコアによるマッチングを行う、又は、前記介入があるユーザの集合と前記介入がないユーザの集合とを前記スコアによってサブクラスにそれぞれ分けることで、前記母集団に属するユーザをクラスタリングする、ことを特徴とする請求項１又は２に記載の分析装置。
所定の事象と所定の介入との間の因果関係を傾向スコア分析により分析するための分析装置であって、
母集団に属するサンプルの属性を表し、かつ、少なくとも２つの共変量間で所定の強さの相関がある複数の共変量を、互いに前記所定の強さの相関を有しない複数の変数に変換する変換部と、
前記複数の変数と、前記介入の有無を表す割付変数とを用いて、前記サンプル毎に傾向スコアを算出する算出部と、
前記傾向スコアを用いて、前記介入の有無によって前記サンプルを分類した第１群及び第２群を、前記共変量が類似するように再構成する再構成部と、
を有することを特徴とする分析装置。
所定の疾病の発症率と所定の介入との間の因果関係を分析するための分析装置が、
母集団に属するユーザの属性を表し、かつ、少なくとも２つのパラメータ間で所定の強さの相関がある複数の第１パラメータ群を、互いに前記所定の強さの相関を有しない複数の第２パラメータ群に変換する変換手順と、
前記複数の第２パラメータ群と、前記介入の有無を表すパラメータとを用いて、前記ユーザ毎に所定のスコアを算出する算出手順と、
前記スコアを用いて、前記因果関係を分析するために、前記母集団に属するユーザをクラスタリングするクラスタリング手順と、
を実行することを特徴とする分析方法。
コンピュータを、請求項１乃至４の何れか一項に記載の分析装置として機能させるプログラム。