JP7347977B2

JP7347977B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7347977B2
Application number: JP2019127125A
Authority: JP
Inventors: 英俊山下
Original assignee: HU Group Research Institute GK
Current assignee: HU Group Research Institute GK
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2023-09-20
Anticipated expiration: 2039-07-08
Also published as: JP2021012603A

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

病院等の施設において、複数の施設間における患者（被検者）の情報共有を支援する種々のシステムが提案されている。例えば特許文献１では、複数施設の被検者の検査データから健常者の検査データを抽出し、抽出した健常者の検査データを正規化した正規分布パターンを参照して、任意の被検者の検査データを補正する医療検査データ解析支援装置等が開示されている。特許文献１によれば、各施設間で検査データに生じる施設間誤差を効率的かつ高精度に補正することができる。

特開２００９－２４７６８８号公報

しかしながら、生体の検査データは正規分布に従わない場合が多い。特許文献１に係る発明は検査データが正規分布に従うことを前提としており、検査データを適切に補正しているとは言えない。

一つの側面では、被験者の検査データを適切に補正することができる情報処理装置等を提供することを目的とする。

一つの側面に係る情報処理装置は、被験者を検査した検査データであって、複数の集合の内、第１の集合に属する検査データを取得する取得部と、第１の集合の検査データを入力した場合に第２の集合の検査データを出力するよう学習済みの学習済みモデルに、取得した前記第１の集合の検査データを入力することで該第１の集合の検査データを第２の集合の検査データに変換する変換部とを備え、前記取得部は、複数の前記被験者夫々の検査データを取得し、前記変換部は、前記被験者夫々の検査データを同一の集合の検査データに変換し、変換された前記被験者夫々の検査データの分布を表す分布データを生成する生成部と、前記分布データに基づき、前記被験者の検査データが外れ値であるか否かを示す異常度を算出する算出部と、前記異常度が閾値以上であるか否かを判定することで、前記被験者の検査データに異常があるか否かを判定する判定部とを備えることを特徴とする。

一つの側面では、被験者の検査データを適切に補正することができる。

検査データ連携システムの構成例を示す模式図である。サーバの構成例を示すブロック図である。患者ＤＢ、病院ＤＢ、及び検査ＤＢのレコードレイアウトの一例を示す説明図である。本実施の形態の概要を示す説明図である。検査データの学習処理に関する説明図である。変換モデルに関する説明図である。変換モデルの生成処理に関する説明図である。検査データの分布図の一例を示す説明図である。異常判定処理に関する説明図である。検査データの分布図の他例を示す説明図である。変換モデルの生成処理の手順を示すフローチャートである。検査データの変換処理の手順を示すフローチャートである。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態）
図１は、検査データ連携システムの構成例を示す模式図である。本実施の形態では、複数の病院（検査施設）それぞれにおいて検査した患者（被検者）の検査データを相互に変換し、変換後の検査データを他の病院に提供する検査データ連携システムについて説明する。検査データ連携システムは、情報処理装置１及び端末２、２、２…を含む。各装置は、インターネット等のネットワークＮを介して相互に通信接続されている。

情報処理装置１は、種々の情報処理、情報の送受信を行う装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態において情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は複数の病院と連携しており、各病院で検査した患者の検査データを取得してデータベースに保存する。本実施の形態でサーバ１は、機械学習により生成済みの学習済みモデル（後述の変換モデル１４１）を用いて、一の病院の検査データを、他の病院で検査した場合の検査データに変換する処理を行う。

端末２は、本システムで連携する各病院の端末装置であり、例えばパーソナルコンピュータ等である。例えばサーバ１は、各病院の端末２から患者の検査データを取得し、検査データの変換を行う。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、主記憶部１２、通信部１３、補助記憶部１４を有する。
制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の一時記憶領域であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。

補助記憶部１４は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部１１が処理を実行するために必要なプログラムＰ、その他のデータを記憶している。また、補助記憶部１４は、変換モデル１４１、患者ＤＢ１４２、病院ＤＢ１４３、検査ＤＢ１４４を記憶している。変換モデル１４１は、複数の病院（集合）それぞれの検査データ群を元に生成された学習済みモデルであり、一の病院（第１の集合）の検査データを、他の病院（第２の集合）の検査データに変換する変換モデルである。患者ＤＢ１４２は、各病院で検査を受ける患者の情報を格納するデータベースである。病院ＤＢ１４３は、各病院の情報を格納するデータベースである。検査ＤＢ１４４は、患者を検査した検査データを格納するデータベースである。

なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

また、本実施の形態においてサーバ１は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ１は、ＣＤ（Compact Disk）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ等の可搬型記憶媒体１ａを読み取る読取部を備え、可搬型記憶媒体１ａからプログラムＰを読み取って実行するようにしても良い。あるいはサーバ１は、半導体メモリ１ｂからプログラムＰを読み込んでも良い。

図３は、患者ＤＢ１４２、病院ＤＢ１４３、及び検査ＤＢ１４４のレコードレイアウトの一例を示す説明図である。
患者ＤＢ１４２は、患者ＩＤ列、患者名列、患者情報列を含む。患者ＩＤ列は、各患者を識別するための患者ＩＤを記憶している。患者名列及び患者情報列はそれぞれ、患者ＩＤと対応付けて、患者の氏名、及びその他の患者情報を記憶している。患者情報列には、例えば患者の年齢、性別、病院への通院歴等が記憶されている。

病院ＤＢ１４３は、病院ＩＤ列、病院名列、検査項目列を含む。病院ＩＤ列は、各病院を識別するための病院ＩＤを記憶している。病院名列及び検査項目列はそれぞれ、病院ＩＤと対応付けて、病院の名称、及び病院で実施可能な検査項目を記憶している。

検査ＤＢ１４４は、検査ＩＤ列、検査日列、患者列、病院列、検査データ列を含む。検査ＩＤ列は、患者がいずれかの病院で検査を受けた際に付番される検査ＩＤを記憶している。検査日列、患者列、病院列、及び検査データ列はそれぞれ、検査ＩＤと対応付けて、検査を受けた日付、検査を受けた患者の患者名、検査した病院の病院名、及び検査データを記憶している。例えば検査データ列には、病院で受けた一又は複数の検査項目それぞれの検査結果（検査値、画像等）が記憶されている。

図４は、本実施の形態の概要を示す説明図である。図４に基づき、サーバ１が実行する処理の概要について説明する。
上述の如く、サーバ１は複数の病院それぞれの端末２、２、２…に接続されており、各端末２から、患者を検査した検査データを取得する。検査データは、例えば年齢等の問診結果、体重等の身体測定結果、ＭＲＩ等の画像データ、その他のバイタルサインの測定結果などであるが、その検査内容（検査項目）は特に限定されない。例えばサーバ１は、各病院の端末２から検査データを取得し、検査ＤＢ１４４に保存（記憶）する。

ところで、異なる病院で同じ一般名称の臨床検査を行う場合であっても、検査試薬、検査機器、検査方法、検査条件（温度、湿度等）、さらには検査対象患者群の特性（民族、年齢、性別、有病率）等の相違に起因して、それらの検査結果が同一の値や分布にならない恐れがある。図４上側に、異なる病院Ａ、Ｂにおいて、同種の検査を行った場合の検査結果の相違を概念的に強調して図示している。図４の例では、病院Ａにおいて複数の患者を検査した検査結果の分布が二峰分布となっているが、病院Ｂにおいては単峰分布となっている。この場合、平均や分散、分布の違いに起因して、一方の病院では検査データがその基準範囲外であることから異常と判断される場合であっても、他方の病院ではその検査データが基準範囲内であることから検査結果が正常と判断される恐れがある。

このように、異なる医療機関の患者群のような、被検者の特徴の異なる２群において、その平均や分散、分布形状が異なるデータ分布を持つ検査データが得られている場合、単純に検査データを混合することや、その平均や分散等の統計値を統合すること等の、正規分布を前提とした解析を行った場合、適切な結果を得ることができない。そのため複数施設で個別に検査データの平均や分散を算出し公開しても、それらを適切に統合することはできないし、統合が可能な標準化検査データは現在、社会に浸透していない。また各施設における検査データ総数が限定的な場合、それらの検査データを統合できないことが、検査データの基準範囲から外れた異常データの検出を困難にしている。またデータ分布が異なる施設由来の検査データは、互いに比較することを困難にしており、例えば、ある医療機関で検査を行った後に、他の医療機関を紹介されて受診した場合、疫学的に妥当な検査頻度とは無関係に、その医療機関で再度同一内容の検査を実施することが一般的になっており、費用や手間だけでなく、患者の肉体的、精神的負担になっている。

そこで本実施の形態では、変換モデル１４１を用いて各病院の検査データの分布を考慮した上で相互に変換することで、変換先の病院の分布特性を保ちながら、適切に検査値の比較を可能にする。図４の例では、病院Ｂにおける検査データを、病院Ａの検査データに変換している。これにより、各病院での検査結果を同一の水準で比較可能となり、検査データの異常等を適切かつ高精度に判断することができる。

また、病院が異なる場合、患者に対して実施する臨床検査の検査項目が異なる場合がある。図４下側に、検査項目の相違を概念的に図示している。図４の例では、病院Ａ、Ｂでは一部の検査項目が異なり、病院Ａよりも病院Ｂは検査項目が少なくなっている。この場合、例えば病院Ｂで過去に検査を受けた患者が病院Ａで受診する場合、患者は異なる検査項目について、再検査を受けなければならない。

そこで本実施の形態では、変換モデル１４１を用いて、病院間で異なる検査項目を補完した検査データを生成する。図４の例では、病院Ｂにおける検査データの不足分を補完し、病院Ａの検査データへ変換している。これにより、各病院の検査データをより好適に比較可能となる。

図５は、検査データの学習処理に関する説明図である。本実施の形態でサーバ１は、ＧＡＮ（Generative Adversarial Network）の手法を用いて各病院の検査データを学習し、変換モデル１４１を生成する。図５では、ＧＡＮの構成を概念的に図示している。

ＧＡＮは、入力データから出力データを生成する生成器（Generator）と、生成器が生成したデータの真偽を識別する識別器（Discriminator）とから構成される。生成器は、ランダムなノイズ（潜在変数）の入力を受け付け、出力データを生成する。識別器は、学習用に与えられる真のデータと、生成器から与えられるデータとを用いて、入力データの真偽を学習する。ＧＡＮでは生成器及び識別器が競合して学習を行い、最終的に生成器の損失関数が最小化し、かつ、識別器の損失関数が最大化するようにネットワークを構築する。

本実施の形態でサーバ１は、ＧＡＮの手法により構築される生成器を、変換モデル１４１を構成する変換器として用い、病院間での検査データの変換を行う。ここでサーバ１は、病院間で検査データの変換を行うため、病院毎に検査データの変換器（生成器）を構築し、複数の変換器から成る変換モデル１４１を生成する。具体的には、サーバ１は、複数のドメイン（データ集合）それぞれのデータ生成を同時に行うＳｔａｒＧＡＮの性質と、異なるドメイン間のデータ変換を可逆的に行うＣｙｃｌｅＧＡＮの性質を同時に兼ね備えたＲａｄｉａｌＧＡＮの手法を用いて、変換モデル１４１を生成する。

なお、本実施の形態では変換モデル１４１の生成（学習）手法としてＧＡＮを用いるが、変換モデル１４１はＧＡＮに係る学習済みモデルに限定されず、その他の深層学習、決定木等の学習手法による学習済みモデルであってもよい。また、本実施の形態では病院毎にデータ変換用の変換器を構築するものとするが、変換モデル１４１は任意の病院の検査データを他の病院の検査データに変換可能であればよく、複数の変換器から成る学習済みモデルとする構成は必須ではない。

図６は、変換モデル１４１に関する説明図である。図６では、病院間で共通する潜在変数Ｚを介して、病院間の検査データの変換を行う変換モデル１４１を模式的に図示してある。

変換モデル１４１は、各病院に対応するエンコーダＦｉ及びデコーダＧｉ（変換器）から構成される。なお、符号ｉ（ｉ＝１、２、３、…Ｍ）は、患者の検査データが分類される複数のデータ集合それぞれを表す符号であって、患者が検査を受けた各病院Ａ、Ｂ、Ｃ、…Ｍを表す。デコーダＧｉは、対応する病院の検査データＸｉを潜在変数Ｚから生成する生成器（Generator）である。エンコーダＦｉも入力データから出力データを生成する生成器であるが、エンコーダＦｉは検査データＸｉを潜在変数Ｚに変換する。

サーバ１は、一の病院（第１の集合）の検査データＸｉを他の病院（第２の集合）の検査データＸｊ（ｊ≠ｉ）に変換する際、当該一の病院に対応するエンコーダＦｉを用いて検査データＸｉを潜在変数Ｚに変換し、当該他の病院に対応するデコーダＧｊを用いて潜在変数Ｚを対象の病院の検査データＸｊに変換する。例えば病院Ｂ、Ｃ…の検査データＸ２、Ｘ３…を病院Ａの検査データＸ１に変換する場合、病院Ｂ、Ｃ…に対応するエンコーダＦ２、Ｆ３…を用いて潜在変数Ｚに変換し、病院Ａに対応するデコーダＧ１を用いて、潜在変数Ｚを検査データＸ１に変換する。

以下で説明するように、サーバ１は各病院に対応する識別器Ｄｉを用いながら、機械学習を行ってエンコーダＦｉ及びデコーダＧｉを生成する。

図７は、変換モデル１４１の生成処理に関する説明図である。図７では、２つの病院にそれぞれ対応するエンコーダＦｉ、Ｆｊ、デコーダＧｉ、Ｇｊ、及び識別器Ｄｉ、Ｄｊの関係を図示している。図７に基づき、変換モデル１４１を生成する機械学習処理について説明する。

図７では、符号ｉで表す病院の検査データＸｉを、符号ｊで表す病院の検査データＸｊに変換する場合を考える。エンコーダＦｉ、デコーダＧｉ、及び識別器Ｄｉは、変換元の病院に対応するＧＡＮを構成する。エンコーダＦｊ、デコーダＧｊ、及び識別器Ｄｊは、変換先の病院に対応するＧＡＮを構成する。

上述の如く、変換元の検査データＸｉは、エンコーダＦｉにより潜在変数Ｚに変換される。潜在変数ＺはデコーダＧｊにより、変換先の検査データＸｊに変換される。また、変換元の病院に対応するデコーダＧｉは、潜在変数Ｚを元の検査データＸｉに変換（逆変換）する。従って、Ｘｉ＝Ｇｉ（Ｚ）＝Ｇｉ（Ｆｉ（Ｘｉ））が成り立つ。また、変換先の病院に対応するエンコーダＦｊは、変換された検査データＸｊを潜在変数Ｚに変換する。従って、Ｚ＝Ｆｊ（Ｘｊ）が成り立つ。

識別器Ｄｉは、実際の病院の検査データＸｉ、Ｘｊを用いて、デコーダＧｉにより変換（生成）される検査データＧｉ（Ｚ）の真偽を判定する。

図７で示すモデルの学習を行うため、本実施の形態では以下の数式（１）、（２）で示す損失関数を用いる。なおＥ［ｆ］は、関数ｆの期待値を表す。

数式（１）は通常のＧＡＮと同じく、デコーダ（Generator）Ｇｉで変換（生成）されるデータを最適化するための損失関数である。数式（２）は、各病院の検査データＸｉ、Ｘｊの相互変換（逆変換）を保証するための損失関数であり、Ｘｉ＝Ｇｉ（Ｆｉ（Ｘｉ））、及びＺ＝Ｆｊ（Ｘｊ）の関係を保証するための損失関数である。

学習を行う場合、以下の数式（３）に示すように、数式（１）、（２）の損失関数の最適化問題に帰着させる。

サーバ１は、各病院の検査データＸ１、Ｘ２、Ｘ３…に基づいて上記の最適化問題を解き、エンコーダＦｉ、デコーダＧｉ、及び識別器Ｄｉを生成する。具体的には、サーバ１はまずエンコーダＦｉ、デコーダＧｉを固定し、識別器Ｄｉの最適化（最大化）を行う。その後、サーバ１は識別器Ｄｉを最適化したパラメータに固定し、エンコーダＦｉ及びデコーダＧｉ（変換器）の最適化（最小化）を行う。サーバ１は、変換モデル１４１を構成する各病院用の変換器として、エンコーダＦｉ及びデコーダＧｉを補助記憶部１４に格納する。

実際に端末２からの要求を受けて対象患者の検査データＸｉを変換する場合、サーバ１は、対応する病院のエンコーダＦｉ及びデコーダＧｉを用いて検査データＸｉの変換を行う。すなわち、サーバ１は、変換元の病院のエンコーダＦｉを用いて検査データＸｉを潜在変数Ｚに変換した後、変換先の病院のデコーダＧｊを用いて、潜在変数Ｚを検査データＸｊに変換する。以下の説明では便宜上、病院Ｂで対象患者を検査した検査データＸ２を、病院Ａで検査を受けた場合の検査データＸ１に変換するものとして説明する。

この場合において、病院Ａ、Ｂでは、検査項目の数及び種類が異なっていてもよい。例えば上記のケースでは、病院Ｂでは病院Ａと比べて、検査項目が少ないことが考え得る。この場合、サーバ１は学習時も検査項目が異なる各病院Ａ、Ｂの検査データＸ１、Ｘ２を用いて学習を行い、病院Ｂの検査データＸ２を共通の潜在変数Ｚに変換した後に病院Ａの検査データＸ１に変換するよう変換モデル１４１をセットしてあるため、変換モデル１４１により、検査項目の不足分が補完（推定）された検査データＸ１が生成される。これにより、病院間での設備等の相違が補完され、好適に検査データの比較が可能となる。

サーバ１は単に対象患者の検査データＸ２を病院Ａ用のデータＸ１に変換するのみであってもよいが、本実施の形態では、他の患者の検査データも変換し、複数の患者の検査データの分布を示す分布図（分布データ）を生成する。そしてサーバ１は、当該分布図上に対象患者の検査データをプロットし、端末２に出力する。より詳細には以下のように、サーバ１は、本システムで連携する複数の病院Ａ、Ｂ、Ｃ…毎に分布図を生成し、各病院の検査データの分布図を組み合わせた表示画面を出力して表示させる。そしてサーバ１は、対象患者の検査データを各病院用の検査データに変換し、各病院に対応する検査データの分布図上にプロットする。

図８は、検査データの分布図の一例を示す説明図である。図８では、１種類の検査項目について、３つの病院の検査結果を組み合わせて表示した場合の表示例を図示している。

具体的には、サーバ１は病院毎に、蜂群図と箱ひげ図とを合成した分布図を生成する。図８の分布図において横軸は各病院Ａ、Ｂ、Ｃを表す。縦軸は検査値（検査データ）を表す。また、分布図中の星印は対象患者に対応するプロットを表す。

サーバ１は、各病院Ａ、Ｂ、Ｃの変換器（エンコーダＦｉ及びデコーダＧｉ）を用いて対象患者の検査データを各病院Ａ、Ｂ、Ｃの検査データに変換する。また、同様にサーバ１は、検査ＤＢ１４４に格納してある他の患者の検査データも各病院Ａ、Ｂ、Ｃの検査データに変換する。サーバ１は、変換した各患者の検査データをプロットし、図８に示すように対象患者については他の患者と異なる態様でプロット（表示）する。このように、複数患者の検査データの分布図に対象患者の検査データをプロットすることで、対象患者の検査結果が正常なものか否か、容易に把握することができる。また、複数の病院それぞれの検査データを並列的に表示することで、各病院で検査した場合の検査結果を一覧でき、より的確に検査結果の全体の分布の特徴を把握することができる。

また、本実施の形態でサーバ１は、変換後の検査データの分布図を提示するだけでなく、生成した分布図（分布データ）に基づき、対象患者の検査結果が異常であるか否かを判定し、判定結果を併せて提示する。

具体的には、サーバ１は対象患者の検査データが外れ値に該当するか否かを判定することにより異常判定を行う。ＧＡＮ（変換モデル１４１）を用いた外れ値の判定手法としてａｎｏＧＡＮなどが考えられるが、本実施の形態ではＧＡＮ自体を外れ値の判定に用いず、ＧＡＮによって生成した複数の病院の検査データの分布から外れ値判定を行う。

図９は、異常判定処理に関する説明図である。図９の左側ではａｎｏＧＡＮに基づく異常判定を、図９の右側では本実施の形態に係る異常判定を概念的に図示する。

ａｎｏＧＡＮは、判定対象とするデータ（本実施の形態では病院での検査データ）について、潜在変数との間での写像（変換）を繰り返すことで異常判定を行う手法である。ａｎｏＧＡＮでは、学習時には正常なデータのみを学習しておき、異常判定の対象とするデータを潜在変数に変換して、変換後の潜在変数に基づいて対象のデータを生成（復元）する。学習時には正常なデータのみを学習しているため、テスト時の入力データに異常値が含まれていても、ＧＡＮによって、正常なデータが生成される。従って、ＧＡＮによる変換の前後のデータの差分を取ることで、外れ値（異常値）を検出することができる。

図９の左側では、検査データをプロットした特徴量空間を概念的に図示している。なお、白丸は正常値を、黒丸は異常値を表す。ａｎｏＧＡＮを用いる場合、図９左上に示す元の検査データから正常な検査データの分布（白丸の分布）を再現（生成）する。そして両者の差分を取ることで、その残余である図９左下に示すデータを抽出し、それら全ての成分もしくはその大部分を構成する成分を異常値として検出する。

しかしながら、検査データには、検出すべき異常値（外れ値）とは別にデータのゆらぎが含まれることが予想される。ａｎｏＧＡＮによって生成されるデータは、学習済みのデータ分布に従ってランダムにデータをプロットするため、データのゆらぎの影響を受け、異常値以外のデータも差分として多少残る。特にＮ数（サンプル数）が少ない場合、ゆらぎの影響が大きくなって本方法では正常値と外れ値との区別が困難になり、本来正常値として検出されるべきデータも異常値として検出される恐れがある。

そこで本実施の形態では、変換モデル１４１（ＧＡＮ）自体を異常判定に用いず、複数の病院の検査データ（分布）を変換モデル１４１で一の病院用の検査データに変換し、統合することで、Ｎ数を増やしたデータ分布を生成する。そして、統合したデータ分布から外れ値を検出する。複数の病院の検査データを統合することで、正常データにおけるゆらぎが異常値として検出されにくくなり、相対的に本来の異常値の検出感度を高めることができる。

図９右側に、異なる病院の検査データを統合する様子を概念的に図示する。図９右側の例では、図９右上に示す元の検査データに対し、他の病院の検査データを変換モデル１４１によって変換、統合し、Ｎ数を増やしたデータ分布を生成している。なお、他の病院の検査データをハッチング付きの丸で図示している。図９右下に示すように、検査データを統合することで正常なデータの数を増加させ、相対的に外れ値（異常値）を検出しやすくする。

外れ値の検出手法は特に限定されないが、例えばサーバ１は、ＬＯＦ（Local Outlier Factor；局所外れ値因子）法を用いて外れ値を検出する。すなわち、サーバ１は、対象患者の検査データのk個の近傍有効距離と、対象患者の検査データから最も近いk個の近傍点に相当する他の患者の検査データの近傍有効距離との比の値をkで除した値により、対象患者の検査データが外れ値（異常値）であるか否かを示す異常度を算出する。例えば、上記の異常度が1より大きい場合に外れ値とみなす。

なお、上記では異常判定の手法としてＬＯＦ法を一例に挙げたが、他のアルゴリズムで異常判定を行ってもよい。例えば検査データをBox-Cox変換することで、正規分布に近似できる場合には、検査項目数を次元に持つ検査データの列ベクトルx、その平均値のベクトルを<x>、その共分散行列をΣ、として異常度a=(x - <x>)^T Σ^-1 (x - <x))を定義することで、異常度aが適切な閾値を超える場合に異常と判定してもよい。また異常度が上位である、5パーセント分位点等のパーセント分位点に含まれる検査データを異常と判定しても良い。検査データが正規分布で近似できない場合には、例えば、検査データを特異値分解することでその特異値を算出し、大きな特異値の上位成分のみを用いて検査データを再構成した際に、再構成前の元データと再構成後のデータの差分を異常度として算出してもよい。この場合も、閾値を超える異常度を持つ検査データ、またはパーセント分位点に含まれる検査データを異常と判定しても良い。

例えばサーバ１は、算出した異常度が所定の閾値以上であるか否かを判定するなどして、対象患者の検査データが異常であるか否かを判定する。異常であると判定した場合、サーバ１は、検査結果が異常である旨を端末２に出力する。異常である旨の判定結果が出力された場合、例えば病院Ａでは再検査や精密検査などの追加検査を実施するなど、好適な対応を取ることができる。

図１０は、検査データの分布図の他例を示す説明図である。図８では、１種類の検査項目について検査結果を表示する場合を図示した。しかしながら、サーバ１は複数の検査項目の検査結果を組み合わせて表示させてもよい。図１０では、２種類の検査項目について、３つの病院の検査データの分布図を組み合わせて表示する場合を図示している。

具体的には、図１０では、各病院用の検査データについて、散布図とヒストグラムとを混合した分布図を図示している。散布図の縦軸及び横軸はそれぞれ、各種類の検査項目の検査値を表す。また、散布図において病院Ａ、Ｂ、Ｃに対応する検査データは、プロットの種類で表される。また、各検査項目に対応するヒストグラムが、散布図の縦軸及び横軸に平行して配置され、病院Ａ、Ｂ、Ｃそれぞれの検査データを表す縦棒が積み上げグラフ状に表現される。

このように、サーバ１は複数の検査項目について検査結果を組み合わせて表示してもよい。また、分布図の表現態様は蜂群図、箱ひげ図に限定されず、種々の表現態様が考えられる。

以上より、本実施の形態によれば、変換モデル１４１を用いて各病院用に検査データを変換する。変換モデル１４１を用いることで、各病院で検査した場合の検査結果が標準化され、適切なデータを提示することができる。

図１１は、変換モデル１４１の生成処理の手順を示すフローチャートである。図１１に基づき、機械学習によって変換モデル１４１を生成する処理の内容について説明する。
サーバ１の制御部１１は、学習用の検査データ群であって、複数の病院（集合）それぞれにおいて患者を検査した検査データ群を取得する（ステップＳ１１）。制御部１１は、取得した検査データ群を用いて、一の病院（第１の集合）の検査データを入力した場合に、他の病院（第２の集合）の検査データを出力する変換モデル１４１を生成する（ステップＳ１２）。具体的には上述の如く、制御部１１は、ＲａｄｉａｌＧＡＮの手法を用いて変換モデル１４１を生成する。

より具体的には、制御部１１は病院（集合）毎に、各病院の検査データＸｉを潜在変数Ｚに変換するエンコーダＦｉ、及び潜在変数Ｚを検査データＸｉに変換（逆変換）するデコーダＧｉから成る変換器（Generator）と、デコーダＧｉによって変換された検査データＸｉの真偽を識別する識別器（Discriminator）Ｄｉとを、互いに識別器Ｄｉ及び変換器（エンコーダＦｉ、デコーダＧｉ）を用いながら生成する。例えば制御部１１は、まずエンコーダＦｉ及びデコーダＧｉを固定して学習を行い、識別器Ｄｉを最適化する。次に制御部１１は、識別器Ｄｉのパラメータを最適化した値に固定して学習を行い、エンコーダＦｉ及びデコーダＧｉを最適化する。制御部１１は、最適化したエンコーダＦｉ及びデコーダＧｉを、変換モデル１４１を構成する各病院用の変換器として補助記憶部１４に格納する。制御部１１は、一連の処理を終了する。

図１２は、検査データの変換処理の手順を示すフローチャートである。図１２に基づき、任意の病院における検査データを、他の病院における検査データに変換する処理の内容について説明する。
サーバ１の制御部１１は、いずれかの病院（第１の集合）の端末２から、当該病院で対象患者（被検者）を検査した検査データを取得する（ステップＳ３１）。制御部１１は、取得元の病院に対応する変換器（エンコーダＦｉ）に検査データを入力し、複数の病院それぞれの変換器で共通する潜在変数Ｚに変換する（ステップＳ３２）。

制御部１１は、変換先の病院（第２の集合）に対応する変換器（デコーダＧｊ）に潜在変数Ｚを入力し、当該病院で患者を検査した場合の検査データＸｊに変換する（ステップＳ３３）。ステップＳ３３において、制御部１１は、変換先の病院における検査項目が、取得元の病院における検査項目と一部が異なる場合、異なる検査項目を補完した検査データＸｊに変換する。

制御部１１は、対象患者以外の他の患者についても検査データＸｉの変換を行い、同一の病院（集合）において各患者が検査を受けた場合の検査データＸｉの分布を表す分布データを生成する（ステップＳ３４）。具体的には、制御部１１は、各患者の検査データＸｉを各病院に対応する検査データＸｊに変換し、病院（集合）毎に分布データを生成する。

制御部１１は、生成した分布データに基づき、対象患者の検査データに異常があるか否かを判定する（ステップＳ３５）。異常があると判定した場合（Ｓ３５：ＹＥＳ）、制御部１１は、ステップＳ３４で生成した各病院の分布データを混合表示させる表示画面（表示データ）を端末２に出力すると共に、患者の検査データに異常がある旨を出力する（ステップＳ３６）。異常がないと判定した場合（Ｓ３５：ＮＯ）、制御部１１は、各病院の分布データを混合表示させる表示画面を出力すると共に、異常がない旨を端末２に出力する（ステップＳ３７）。制御部１１は、一連の処理を終了する。

なお、上記では患者（被験者）を検査する検査施設の一例として病院を挙げたが、検査施設は病院に限定されるものではなく、例えば専門の検査機関などであってもよい。また、被験者は病院に通院する患者に限定されず、例えば健康診断を受ける健常者などであってもよい。

以上より、本実施の形態によれば、複数の病院（集合）それぞれの検査データ群を学習済みの変換モデル１４１を用いて検査データの変換を行うことで、病院間の検査データの差異が是正され、検査データを適切に補正することができる。

また、本実施の形態によれば、各病院に対応する変換器（エンコーダＦｉ及びデコーダＧｉ）を適宜に選択して検査データの変換を行うことで、より好適に検査データの補正を行うことができる。

また、本実施の形態によれば、単に一人の患者（被検者）の検査データを変換するのみではなく、複数の患者の検査データを同一の病院（集合）の検査データに変換して分布図（分布データ）を生成する。これにより、複数の病院の検査データを統合して、各患者の検査データを好適に比較可能となる。

また、本実施の形態によれば、各病院の検査データの分布図を組み合わせて提示（表示）することもでき、より好適な比較が可能となる。

また、本実施の形態によれば、変換モデル１４１を用いて変換した検査データに基づき、患者の異常を適切に判定することができる。

また、本実施の形態によれば、各病院の検査項目が異なる場合であっても、異なる検査項目を補完した適切な検査データを生成することができる。

上述の実施の形態では、検査データの変換を行う検査データ連携システムについて、その概要を説明した。以下では変形例として、具体的な検査データ連携システムの応用例（ユースケース）を列挙する。

（変形例１）
変形例１として、比較的規模の大きい病院（大学病院、総合病院等）Ａに規模の小さな病院（地域のクリニック等）Ｂ、Ｃ…から患者を紹介する場合に、病院Ｂ、Ｃ…での検査データを病院Ａの検査データに変換するケースが想定され得る。この場合、サーバ１は対象患者の検査データを病院Ａ用の検査データに変換し、変換後の検査データを病院Ａにおける検査基準と比較することで、再検査、追加検査等の必要性を判定する。これにより、病院間の検査結果の差異、あるいは地域差を考慮して必要な処置を講ずることができる。

（変形例２）
変形例２として、変形例１とは逆に、規模が小さく、検査データのサンプル数が少ない病院Ｂ、または例えば二次医療圏の患者平均年齢が大きく異なる等の、患者の臨床検査値が異なる分布を持つ病院Ｂ、から規模の大きな病院Ａに、検査データを問い合わせるケースが想定され得る。この場合、例えばサーバ１は病院Ｂの端末２からの要求を受け、病院Ａでの検査データを病院Ｂ用の検査データに変換し、分布図等を生成して病院Ｂの端末２に出力する。あるいはサーバ１は、病院Ｂの患者の検査データを病院Ａ用の検査データに変換し、病院Ａで検査を受けた他の患者の検査データと組み合わせた分布図等を生成してもよい。これにより、例えばサンプル数が少ない希少疾患などについて、規模の小さな病院Ｂでも好適に対処することができる。

（変形例３）
変形例３として、検査を行う病院（検査施設）ではなく、検査を受ける被検者の属性に応じて検査データを複数のデータ集合に分類し、分類した各集合の検査データを相互に変換するようにしてもよい。被検者の属性は、例えば職種である。例えばサーバ１は、職種毎に分類した検査データ群を学習した変換モデル１４１を構築しておき、各職場（職種）における健康診断の検査結果（検査データ）を変換モデル１４１に入力して、他の職場における検査結果に変換する。これにより、職種、すなわち働き方の違いに応じた検査結果の相違を考慮して、適切な診断を下すことができる。

なお、上記では被検者の属性として職種を挙げたが、例えば被検者の年齢、性別、社会的地位、生活地域等に応じて検査データを複数の集合に分類し、各集合の検査データの相互変換を行うようにしてもよい。すなわち、サーバ１は被検者の属性に応じて検査データを分類し、他の属性に対応する検査データに変換可能であればよく、被検者の属性は特に限定されない。

（変形例４）
変形例４として、保険会社、銀行等のように、顧客（被験者）から提出される健康診断結果等の検査データに基づいて顧客の健康リスクを判断する機関が、サーバ１に検査データの異常の有無を問い合わせるケースが想定され得る。この場合、例えばサーバ１は、当該機関の端末２から、顧客の検査データを取得して異常判定の要求を受け付ける。要求を受け付けた場合、サーバ１は、顧客の検査データを、顧客が検査を受けた検査施設（病院等）とは異なる検査施設のデータに相互変換し、他の被検者の検査データと組み合わせて異常の有無を判定する。サーバ１は、判定結果を要求元の端末２に出力する。これにより、保険会社、銀行等では顧客の健康リスクを適切に判断することができる。

なお、変形例４においてサーバ１は、現在の顧客の検査データから現時点での異常の有無を判定するだけでなく、将来の異常の有無、すなわち健康リスクを推定するようにしてもよい。この場合、例えばサーバ１は学習時に、各被検者の検査データに当該被検者の将来の健康リスクを表す危険度（例えば死亡率、疾患率等）を対応付けた教師データを用いて学習を行い、検査データと共に危険度を出力する変換モデル１４１を生成する。これにより、各患者の将来の健康リスクを推定することができ、保険会社、銀行等はより好適に判断を行うことができる。

（変形例５）
変形例５として、タクシー等の車両（移動体）を運転する運転手のバイタルサイン（検査データ）の異常の有無を問い合わせるケースが想定される。なお、運転手が運転する移動体は車両に限定されず、例えば航空機、船舶等であってもよい。

例えばサーバ１は、複数のタクシー会社それぞれの運転手のバイタルサインを用いて、各タクシー会社用にバイタルサインを変換する変換モデル１４１を生成しておく。そしてサーバ１は、車両の運転開始前に計測した運転手のバイタルサイン（心電図等）を不図示の端末装置から取得し、バイタルサインの異常の有無を判定するよう要求を受け付ける。要求を受け付けた場合、サーバ１は対象の運転手を含む複数の運転手のバイタルサインを変換モデル１４１により変換し、バイタルサインの分布データを生成して対象の運転手の異常の有無を判定する。これにより、例えば運転時における急性疾患の発症リスクを推定するなど、適切なバイタルチェックを行うことができる。

（変形例６）
変形例６として、個人の健康を継続的に管理するＰＨＲ（Personal Health Record）に利用するケースが想定される。例えばユーザ（被験者）は、年齢、体重、社会的地位等の基本的な患者プロファイルをサーバ１に登録しておくほか、スマートウォッチ等のウェアラブルデバイスでバイタルサイン（検査データ）を計測し、サーバ１に送信する。例えばサーバ１は、患者プロファイルに応じてユーザを複数の集合に分類（例えば年代毎に分類）し、各集合の検査データに相互変換する変換モデル１４１を構築しておく。ウェアラブルデバイスで計測したバイタルサインを受信した場合、サーバ１は、変換モデル１４１を用いて各集合のユーザのバイタルサインを変換し、複数のユーザのバイタルサインの分布から、対象ユーザのバイタルサインの異常の有無を判定する。これにより、例えば個人の疾患リスクを簡易的に推定可能となるほか、疾患の診断目的以外にも、フィットネス、トレーニング等の目的で検査を行い、生体バランスの改善に利用することができる。

（変形例７）
変形例７として、同一の検査施設において、異なる検査条件で検査した検査データを統合するケースが想定される。検査条件とは、例えば検査機器、検査試薬、検査方法（温度、反応時間、検査手順等）、検査技師などである。例えば同一の検査目的の検査であっても、検査機器の個体が異なる場合などは検査データに違いが現れる恐れがある。そこで、例えばサーバ１は検査条件（検査機器等）毎に検査データを分類し、各検査条件の検査データを相互に変換する変換モデル１４１を構築しておく。検査データを取得した場合、サーバ１は各検査条件の検査データを変換してデータ統合を行い、検査データの分布を作成する。これにより、各検査条件の検査データを標準化し、検査の品質確保及び効率化を図ることができる。

今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１サーバ（情報処理装置）
１１制御部
１２主記憶部
１３通信部
１４補助記憶部
Ｐプログラム
１４１変換モデル
１４２患者ＤＢ
１４３病院ＤＢ
１４４検査ＤＢ
２端末

Claims

被験者を検査した検査データであって、複数の集合の内、第１の集合に属する検査データを取得する取得部と、
第１の集合の検査データを入力した場合に第２の集合の検査データを出力するよう学習済みの学習済みモデルに、取得した前記第１の集合の検査データを入力することで該第１の集合の検査データを第２の集合の検査データに変換する変換部と
を備え、
前記取得部は、複数の前記被験者夫々の検査データを取得し、
前記変換部は、前記被験者夫々の検査データを同一の集合の検査データに変換し、
変換された前記被験者夫々の検査データの分布を表す分布データを生成する生成部と、
前記分布データに基づき、前記被験者の検査データが外れ値であるか否かを示す異常度を算出する算出部と、
前記異常度が閾値以上であるか否かを判定することで、前記被験者の検査データに異常があるか否かを判定する判定部と
を備えることを特徴とする情報処理装置。
前記学習済みモデルは、前記複数の集合夫々に対応する複数の変換器を有し、
前記変換部は、
前記第１の集合の検査データを入力した場合に潜在変数を出力するよう学習済みの第１の前記変換器に、取得した前記第１の集合の検査データを入力することで該第１の集合の検査データを潜在変数に変換し、
前記潜在変数を入力した場合に前記第２の集合の検査データを出力するよう学習済みの第２の前記変換器に、変換した前記潜在変数を入力することで該潜在変数を前記第２の集合の検査データに変換する
ことを特徴とする請求項１に記載の情報処理装置。
前記第１及び第２の集合夫々の検査データは、一部又は全部の検査項目が異なり、
前記変換部は、
前記第１の集合の検査データを前記第１の変換器に入力することで、該第１の集合の検査データを前記潜在変数に変換し、
変換した前記潜在変数を前記第２の変換器に入力することで、該潜在変数を、異なる前記検査項目を補完した前記第２の集合の検査データに変換する
ことを特徴とする請求項２に記載の情報処理装置。
前記変換部は、前記被験者夫々の検査データを、前記複数の集合夫々に対応する検査データに変換し、
前記生成部は、前記複数の集合毎に前記分布データを生成し、
前記複数の集合夫々に対応する前記分布データを組み合わせて表示する表示画面を出力する出力部を備える
ことを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
前記複数の集合は、前記被験者が検査を受けた検査施設、検査を受けた際の検査条件、又は前記被験者の属性に応じて分類される
ことを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
被験者を検査した検査データであって、複数の集合の内、第１の集合に属する検査データを取得し、
第１の集合の検査データを入力した場合に第２の集合の検査データを出力するよう学習済みの学習済みモデルに、取得した前記第１の集合の検査データを入力することで該第１の集合の検査データを第２の集合の検査データに変換する
処理をコンピュータが実行する情報処理方法であって、
複数の前記被験者夫々の検査データを取得し、
前記被験者夫々の検査データを同一の集合の検査データに変換し、
変換された前記被験者夫々の検査データの分布を表す分布データを生成し、
前記分布データに基づき、前記被験者の検査データが外れ値であるか否かを示す異常度を算出し、
前記異常度が閾値以上であるか否かを判定することで、前記被験者の検査データに異常があるか否かを判定する
処理をコンピュータが実行することを特徴とする情報処理方法。
被験者を検査した検査データであって、複数の集合の内、第１の集合に属する検査データを取得し、
第１の集合の検査データを入力した場合に第２の集合の検査データを出力するよう学習済みの学習済みモデルに、取得した前記第１の集合の検査データを入力することで該第１の集合の検査データを第２の集合の検査データに変換する
処理をコンピュータに実行させるプログラムであって、
複数の前記被験者夫々の検査データを取得し、
前記被験者夫々の検査データを同一の集合の検査データに変換し、
変換された前記被験者夫々の検査データの分布を表す分布データを生成し、
前記分布データに基づき、前記被験者の検査データが外れ値であるか否かを示す異常度を算出し、
前記異常度が閾値以上であるか否かを判定することで、前記被験者の検査データに異常があるか否かを判定する
処理をコンピュータに実行させることを特徴とするプログラム。