JP2024035070A

JP2024035070A - マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム

Info

Publication number: JP2024035070A
Application number: JP2023095104A
Authority: JP
Inventors: ▲勁▼松李; Jingsong Li; 佩君胡; Peijun Hu; 雨田; Yu Tian; 天舒周; Tianshu Zhou
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-30
Filing date: 2023-06-08
Publication date: 2024-03-13
Anticipated expiration: 2043-06-08
Also published as: JP7333132B1; CN115131642B; CN115131642A

Abstract

【課題】マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提供する。【解決手段】システムは、先ず映像を構造化処理して映像特徴を取得し、同時に、電子カルテにおける疾患に関する臨床変数を抽出して臨床特徴を取得し、マルチビューサブ空間クラスタリングによって案内されるマルチモードデータ融合モデルに基づき、映像特徴と臨床特徴を選別及び融合し、各特徴の重要性ランキングを取得し、最後に設定された特徴数に基づき、電子カルテと映像データの融合結果を取得し、電子カルテ情報と映像情報を総合して、関連疾患予測結果の正確性を向上する。各モードのデータがそれぞれの空間において自己を表現できることを保証し、プロック対角構造を保持し、同時に融合データのクラスタリング結果が一致することを保証する。マルチビューサブ空間の相補性原則と一致性原則を利用して、分析結果の一致性を保証する。【選択図】図１

Description

本発明は、医学データ融合分野に関し、特にマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムに関する。

臨床医者が疾患を診断する時、通常、患者の電子カルテデータ及び医学映像データを総合して判断または予測を行う。医学映像は、診断疾患の慣例的な手段であり、Ｘ線フィルム、ＣＴ、磁気共鳴図像などを含む。映像は、人体内部の病変器官を反映し、映像に基づくコンピュータ支援診断方法は、肺がん、肺結節、肝臓がんなどの疾患の診断に適用されている。電子カルテシステムは、患者の病歴、主訴、検査、人口学などの情報を含み、疾患の選別、診断に対して重要な作用を有する。電子カルテと映像データを組み合わせることで、コンピュータ支援診断正確率を向上することができ、より医者の診断方式に適合する。従来の疾患診断方法は、一般的に、単一ソースデータ、例えば、電子カルテまたは医学映像に基づいて単独で疾患予測モデルを構築し、マルチソース異種医学データの融合はまだ学術研究段階にある。臨床で電子カルテと映像マルチモードデータを組み合わせて疾患予測を行う作業は、少ない。したがって、電子カルテ構造化情報と医学映像非構造化情報を融合する融合方法を研究することは、疾患予測正確率を向上させるのに非常に有意義である。

現在、映像と電子カルテデータを融合する方法は、３種に分けられる。第１種の方法は、特徴レベル融合と呼び、電子カルテと映像に対してそれぞれ特徴を抽出した後、两種の特徴を直接接続して融合し、分類器に入力して予測を行う。第２種の方法は、决策レベル融合と呼び、それぞれ電子カルテと映像を利用して予測して得られた結果に対して、簡単な融合アルゴリズムを利用して２つの予測結果を総合する。第３種の方法は、中間融合と呼び、特徴抽出及び表現段階において、２種のデータを一緒に融合する。後者の二種の方法と比べて、特徴レベル融合の算出及び解釈可能性は優れているが、ほとんどの方法は、抽出された映像特徴及び電子カルテ特徴を直接接続して融合し、異なるソース特徴を統一されたビューにおける特徴として見なすが、二種のデータの特異性及び整合可能性を考慮しておらず、特徴が本来の意味を失う可能性がある。従来のデータ次元低下方法、例えばＰＣＡ、ＲＦＥ，ＬＡＳＳＯなどは、いずれもマルチビュー特徴の特徴を考慮していない。

自己表現に基づくサブ空間クラスタリング方法は、騒音に対するロバスト性及び完全な理論を有し、常用的な高次元データクラスタリング方法である。データ自己表現とは、データが線形分離可能である場合と仮定すると、データサンプルが同一のサブ空間の他のデータサンプル線形組み合わせによって表現できることを意味する。データ自己表現マトリックスには希薄性表現制限または低ランク表現制限を行うことで、自己表現マトリックスを利用してデータを次元低下することができる。サブ空間クラスタリングを基礎とし、物事に対する異なる角度の理解を複数の特徴描写ビューとして生成し、マルチビューサブ空間クラスタリングを行うことで、各ビューの利点を発揮できる。

本発明の目的は、従来技術の不足について、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提出し、現在では電子カルテと医学映像データの使用が比較的に独立であり、既存のマルチモード医学データ融合方法が各モードに対して特徴を直接抽出した後、各種類の特徴を直接接続して融合するが、マルチソース異種データの差異性及び各モードデータの内部構造を考慮していないという課題を解決することにある。

本発明の目的は、以下の技術的解決手段によって実現される。

測定対象の予め設定された疾患関連電子カルテデータを収集し、かつその関連する映像データを抽出するためのデータ収集モジュールと、
映像データを構造化処理し、映像特徴を抽出するための映像構造化モジュールと、
電子カルテデータに対して関連変数を抽出し、数値化処理した後で電子カルテ特徴とするための電子カルテ特徴抽出モジュールと、
映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義し、サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定し、データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選別モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得するための特徴選別及び融合モジュールと、
特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得するためのデータ融合モジュールと、
を含む、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。

さらに、前記データ収集モジュールは、予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を１つの完全なサンプルとして合成する。

さらに、前記データ収集モジュールで取得された医学映像データは、Ｘ線フィルム、ＣＴデータまたはＭＲＩデータである。

さらに、前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークし、かつ映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行い、最後に前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する。

さらに、前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、測定対象の人口学情報、病歴、生活習慣及び検査項目情報を含む予め設定された疾患に関するいくつかの危険要因を特定し、各フィールドの情報を数値化し、そして電子カルテデータを正規化し、電子カルテ特徴を取得する。

さらに、前記特徴選別及び融合モジュールにおいてマルチビュー特徴マトリックスを取得することは、具体的に、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴データとして見なし、第ｖ個のビューの特徴を

として定義し、ｄ_ｖが第ｖ個のビュー特徴の次元であり（ｖ＝１，２）、第ｖ個のビューにおける全ての特徴を

として定義し、それらを接続して総特徴マトリックス

として表現する。

さらに、前記特徴選別及び融合モジュールにおいて監督なし特徴選択及び融合モデルを定義し、具体的には、監督なし特徴選別問題の目標最適化関数Ｔ（Ｘ，θ）が以下の通り表現され、

ここで、ｌｏｓｓ（Ｘ，Ｗ）が損失関数であり、θは最適化関数が最適化する必要があるパラメータを表現し、

が特徴選別マトリックスであり、ｃがクラスタリングの類別数であり、Ｒ（Ｗ）が正則項であり、λが調整パラメータであり、

が擬似ラベルマトリックスを表現し、ｌｏｓｓ（Ｘ，Ｗ）が以下の通り表現され、

ここで、ｎがサンプル数であり、ｃがクラスタリングの類別数であり、ノルム

が

ノルムを表現し、具体的な算出式が

であり、ここで、

がマトリックスＡの第ｉ行の第ｊ列の元素を表現し、擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成される。

さらに、前記特徴選別及び融合モジュールにおいてサブ空間クラスタリング方法のデータ自表現性質に基づいて、各マルチビュー特徴データがいずれもサブ空間において自己表現できるように設定し、具体的に以下の通りであり、

ここで、

が各ビュー特徴データの自己表現マトリックスであり、

は長さがｎの単位ベクトルを表現し、そして、データ関係を描写する類似図

を構築し、かつ低ランク性を満たし、類似図Ｓ_ｖ成分の個数がクラスタリングの類別数ｃに等しく、すなわち、Ｓ_ｖのラプラシアンマトリックスのランクがｎ－ｃに等しく、低ランク性が以下の最適化問題として表現され、

ここで、

が類似マトリックスＳ_ｖのラプラシアンマトリックスであり、

が対角マトリックスであり、Ｔｒがマトリックスを求めるトレースを表現し、Ｉ_ｃは大きさがｃ×ｃの単位マトリックスを表現し、よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現され、

ここで、ｔｒ（）がマトリックスのランクを表現し、

がＦｒｏｂｅｎｉｕｓノルムであり、具体的な算出式が

であり、ここで、

がマトリックスＡの第ｉ行の第ｊ列の元素を表現する。

さらに、前記特徴選別及び融合モジュールにおいてデータ次元低下を考慮して、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を以下の通り取得し、

ここで、

がビューの特定の自己表現マトリックスであり、Ｌ_ｖが第ｖ個のビューに対応するラプラシアンマトリックスであり、

が擬似ラベルマトリックスであり、

が特徴選別マトリックスであり、λ_１、λ_２及びλ_３がバランスパラメータである。

さらに、前記特徴選別及び融合モジュールにおいて、変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、特徴選別マトリックス、擬似ラベルマトリックス及び自己表現マトリックスを反復更新し、具体的な過程は、先ず特徴選別マトリックス及び擬似ラベルマトリックスを一定にし、自己表現マトリックスを更新し、そして特徴選別マトリックス及び自己表現マトリックスを一定にし、擬似ラベルマトリックスを更新し、最後に擬似ラベルマトリックス及び自己表現マトリックスを一定にし、特徴選別マトリックスを更新する。

本発明の有益な効果としては、本発明は、従来の映像データ及び電子カルテデータの使用が比較的に独立し、または二者を融合する方式が比較的に簡単で粗雑であるという不足を補い、マルチビューサブ空間クラスタリング思想に基づき、マルチソース異種データをマルチビューサブ空間クラスタリングによって案内される特徴選別モデルによって融合する。本発明は、映像及び電子カルテを、同一対象を描写する異なるビューデータとみなし、各マルチビュー特徴データがそれぞれの空間において自己表現できることを考慮し、すなわち、各マルチビュー特徴データの元の空間構造を保持し、かつモデルに対して低ランク制限を導入すると共に、異なるマルチビュー特徴データのクラスタリング結果が一致であることを保証する。本発明は、柔軟性に優れ、他のマルチモード異種データ、例えば病理図像、心電データなどに適用できる。異なるモードデータの予測モデルと組み合わせて、より臨床診断の習慣に適合し、モデルの予測性能を向上できる。

本発明によるマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム構成図である。本発明によるマルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モデル概略図である。本発明によるマルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モジュールの実現過程概略図である。

以下、図面を参照して本発明の実施形態をさらに詳細に説明する。

図１に示すように、本発明は、マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを提供する。当該システムは、データ収集モジュールと、映像構造化モジュールと、電子カルテ特徴抽出モジュールと、特徴選別及び融合モジュールと、データ融合モジュールとを含む。前記データ収集モジュールは、病院電子カルテシステムから測定対象の予め設定された疾患関連電子カルテ情報を収集し、かつその関連する映像データを抽出するためのものである。前記映像構造化モジュールは、映像データを構造化処理し、高次元映像特徴を抽出するためのものである。前記電子カルテ特徴抽出モジュールは、予め設定された疾患に基づいて、測定対象の電子カルテデータから関連変数を抽出し、数値化処理した後で電子カルテ特徴とするためのものである。前記特徴選別及び融合モジュールは、マルチビューサブ空間クラスタリングによって案内される特徴選別及び融合モデルに基づいて（図２に示す）、映像特徴及び電子カルテ特徴を次元低下及び融合するためのものである。前記データ融合モジュールは、特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得するためのものである。

前記データ収集モジュールは、測定対象の電子カルテを取得する。予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を１つの完全なサンプルとして合成する。前記基本情報は、人口学情報、病歴、生活習慣及び検査項目情報を含む。前記診断情報は、当該患者の予め設定された疾患に関する診断結果である。

前記データ収集モジュールは、測定対象の医学映像データを取得する。医学映像データは、一般的に、Ｘ線フィルム、ＣＴまたはＭＲＩデータである。

前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークする。映像マーク方法は、手動描画またはコンピュータアルゴリズム自動描画であってもよく、関心領域は、一般的に疾患患の病変領域または器官や組織全体である。関心領域マーク構造は、二値図像形式で保存され、１が前景を代表し、０が背景を代表する。

映像データマーク後で、映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行う必要がある。先ず、原図像及びマーク図像を前処理し、それは、原図像及びマーク図像を解像度１×１×１の大きさに再サンプリングすることと、関心領域に基づいてその囲み領域の矩形枠を算出し、エッジ拡張値を設定し、そして原図像及びマーク図像の矩形枠を取り出すことと、原図像に対してコントラスト調整を行い、先ず図像のＨＵ値を［－１００，２４０］の間に切り捨て、そして［０，２５５］の間に離散化することと、を含む。

映像及びマークの関心領域に基づいて、高次元映像特徴を算出する。Ｐｙｒａｄｉｏｍｉｃｓツールキットに基づいて一次統計特徴、形状特徴及びテクスチャ特徴（ＧＬＣＭ、ＧＬＲＬＭ、ＮＧＴＤＭ、ＧＬＤＭ）を算出し、各類特徴が具体的に含む特徴名称は、表１に示され、総計で８５個の特徴が算出される。
表１映像特徴名称

前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、予め設定された疾患に関するいくつかの危険要因、例えば測定対象の人口学情報、病歴、生活習慣及び検査項目情報（血液検査、心率など）を特定する。各フィールドの情報を数値化し、例えば性別について、男を１に設定し、女を０に設定する。そして、電子カルテデータを正規化し、電子カルテ特徴を取得する。

前記特徴選別及び融合モジュールは、映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義し、サブ空間クラスタリング方法のデータ自表現性質に基づいて、各マルチビュー特徴データがいずれもサブ空間において自己表現できるように設定し、マルチビューサブ空間クラスタリングの目標最適化関数を取得し、データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得する。図３に示すように、具体的に以下の通りであり、
前記マルチビュー特徴マトリックスを取得することは、具体的に、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴とみなし、第ｖ個のビューの特徴を

として定義し、ｘ_ｎ ^ｖが第ｎ個のデータポイントを表現し、ｄ_ｖが第ｖ個のビュー特徴の次元であり、ｖ＝１，２である。Ｖ個のビューにおける全ての特徴を

として定義することができ、それらを接続して総特徴マトリックス

として表現する。

前記監督なし特徴選択及び融合モデルを定義することは、具体的に、監督なし特徴選別問題の目標最適化関数Ｔ（Ｘ，θ）が以下の通り表現され、

が特徴選別マトリックスであり、ｃがクラスタリングの類別数であり、Ｒ（Ｗ）が正則項であり、例えば希薄性と低ランク性であり、λが調整パラメータであり、一般的に経験値に設定され、本発明では１０に設定される。

が擬似ラベルマトリックスを表現し、ｌｏｓｓ（Ｘ，Ｗ）が以下の通り表現されてもよく、

ここで、ｎがサンプル数であり、ｃがクラスタリングの類別数である。ノルム

が

ノルムを表現し、具体的な算出式が

であり、ここで、

がマトリックスＡの第ｉ行の第ｊ列の元素を表現する。擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成されてもよい。

前記サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定することは、具体的に以下の通りであり、

ここで、

が各ビュー特徴データの自己表現マトリックスであり、

は長さがｎの単位ベクトルを表現する。そして、データ関係を描写する類似図

を構築することができる。かつ低ランク性を満たし、類似図Ｓ_ｖ成分の個数がクラスタリング類別数ｃに等しく、すなわち、Ｓ_ｖのラプラシアンマトリックスのランクがｎ－ｃに等しい。低ランク性は以下の最適化問題として表現されてもよく、

ここで、

が対角マトリックスである。Ｔｒがマトリックスを求めるトレースを表現し、Ｉ_ｃは大きさがｃ×ｃの単位マトリックスを表現する。よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現されてもよく、

ここで、ｔｒ（）がマトリックスのランクを表現し、

がＦｒｏｂｅｎｉｕｓノルムであり、具体的な算出式が

であり、ここで、

がマトリックスＡの第ｉ行の第ｊ列の元素を表現する。

前記データ次元低下を考慮して、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数を取得することは、具体的に、選択された特徴が、データ間の類似構造を保持すべきであり、かつ希薄性である。すなわち、特徴選択マトリックスＷに希薄性正則化項

を加える。したがって、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルの目標関数が以下の通り表現されてもよく、

ここで、

がビューの特定の自己表現マトリックスであり、Ｌ_ｖが第ｖ個のビューに対応するラプラシアンマトリックスであり、他の記号

が擬似ラベルマトリックスであり、

が特徴選別マトリックスであり、λ_１、λ_２及びλ_３がバランスパラメータであり、本発明では、それぞれ値を１，１０^－３，１０とする。

変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、変数Ｗ，Ｆ_ｖ，Ｚ_ｖを反復更新する。具体的に以下の通りであり、
自己表現マトリックスＺ_ｖを更新し、Ｗ，Ｆ_ｖをそのまま一定にし、以下の最適化問題を求め、

上記式にラグランジュ乗数

を導入し、以下の通り変換し、

が無限大になる傾向がある場合、Ｘが

に置き換えることができる。したがって、上記式が以下の通り表現されてもよく、

上記式は以下の問題に等価することができ、

ここで、Ｐマトリックスにおける第ｉ行の第ｊ列の元素

，ｆ^ｉがＦの第ｉ行である。そして、交互反復最適化戦略を使用して、上記の問題を解決する。Ｚ_ｖの第ｉ行以外の全ての行の数値を一定にして、Ｚ_ｖの第ｉ行の値を求め、

ここで、Ｚ_ｖ ^ＴがＺの第ｉ行であり、ｐがＰの第ｉ列であり、

、Ｚ_ｖ，ｉがＺ_ｖの第ｉ個の元素である。上記式は以下の問題に変換されてもよく、

ここで、

である。上記式の問題はソフトしきい値方法で求めされてもよく、

ここで、Ｚ_ｖ，ｋ、ｒ_ｖ，ｋ及びｐ_ｋがそれぞれＺ_ｖ、ｒ_ｖ及びｐの第ｋ個の元素を表現し、

が括弧内の値の正の部分を取得することを表現する。Ｆを更新し、Ｚ_ｖ、Ｗをそのまま一定にし、関係しない変数項を除去し、以下の最適化問題を求め、

ここで、

が単位マトリックスであり、

はＦの元素が全て０以上であることを表現する。等式制約を取り除くために、上記式にペナルティ項

を追加し、問題を以下の通り変換し、

ここで、γは値が大きいバランスパラメータであり、本発明でγ＝１０^６を採用する。等式制約を取り除くために、ラグランジュ乗数

を導入し、以下の通り取得し、

上記式に対してＦについて微分をとり、かつその偏微分を

とし、以下の通り取得し、

ここで、Ｑが対角マトリックスであり、第ｉ個の元素が

であり、ｉ：はマトリックスの第ｉ行を採用することを表現する。ＫＫＴ条件によれば、

である。したがって、以下の通り取得し、

そして、Ｆを正規化し、

を満たさせる。
Ｗを更新し、Ｚ_ｖ、Ｆをそのまま固定する。関係しない変数項を除去し、以下の通り取得し、

上記式は以下の問題に等価し、

ここで、Ｇ及びＨが対角マトリックスであり、第ｉ個の元素が

である。ここで、Ｗ_ｉがＷの第ｉ行である。
さらに、以下の通り取得し、

最終に、以下の通り取得し、

目標関数が収束するまで、Ｗ，Ｇ，Ｈを交互に更新する。

前記データ融合モジュールは、特徴選別及び融合モジュールで求められた特徴選別マトリックスＷに基づき、

を算出し、各特徴の重要性を

に従ってランキングし、選択特徴の個数Ｎを設定し、上位Ｎ個の特徴を最終的に電子カルテと映像データが融合した結果として抽出する。
実施例

膵体尾部切除術後の患者に対して、患者の術後の糖尿病のリスクを予測するために、膵体尾部切除患者キューを構築し、統計で２１２人の患者を有し、７：３の比率でデータを訓練セットとテストセットに分ける。マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムを通じて、映像と電子カルテデータとを融合する。具体的な処理過程が下記の通りである。
１．データを収集し、患者の術前強化ＣＴ図像と電子カルテ情報を抽出する。
２．映像構造化モジュール。ＣＴ図像に対して関心領域、すなわち、膵体術後の残留膵体領域をマークして、映像特徴の抽出された関心領域とする。ＣＴ原図像とマーク図像に対して映像再サンプリング、階調値離散化及び映像領域枠選択を行う。先ず、原図像及びマーク図像を前処理し、それは、原図像及びマーク図像を前処理し、原図像及びマーク図像を解像度１×１×１の大きさに再サンプリングすることと、関心領域に基づいてその囲み領域の矩形枠を算出し、エッジ拡張値を１０個の画素に設定し、そして原図像及びマーク図像の矩形枠を取り出すことと、原図像に対してコントラスト調整を行い、先ず図像のＨＵ値を［－１００，２４０］の間に切り捨て、そして［０，２５５］の間に離散化することと、を含む。前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する。具体的に、先ず、原ＣＴ図像に対してウェーブレットフィルタリングを行い、ウェーブレットフィルタリングはｈａａｒ、ｄｂ５、ｓｙｍ７を含む。そして、Ｐｙｒａｄｉｏｍｉｃｓツールキットに基づいて一次統計特徴、形状特徴及びテクスチャ特徴（ＧＬＣＭ、ＧＬＲＬＭ、ＮＧＴＤＭ、ＧＬＤＭ）を算出する。各ウェーブレットフィルタリング後の図像について、６８０次元の特徴を取得できるため、ウェーブレットフィルタリング後の３つの図像は、算出により総計で２０４０個の映像特徴が取得できる。
３．電子カルテ特徴抽出。取得された電子カルテデータを分析し、年齢、性別、飲酒、喫煙、黄疸、体重減少、痛み、膵体切除率、残存膵体体積、腹部脂肪含有量、腹部骨格筋含有量を含む、糖尿病に関連するいくつかの危険要因を特定する。各フィールドの情報を数値化し、例えば性別に対して、男を１に設定し、女を０に設定する。そして、電子カルテ特徴を正規化して、電子カルテの１１個の特徴を取得する。
４．特徴選別及び融合。上記取得された映像特徴をＸ_１として記し、臨床特徴をＸ₂として記し、臨床特徴及び映像特徴を正規化する。

を提出されるマルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルに入力し、変数インターリーブ反復アルゴリズムを利用して特徴選別マトリックスＷを取得する。映像特徴及び電子カルテ特徴を選別及び融合し、特徴選別マトリックスを取得する。
５．データ融合。特徴選別マトリックス

、ｄを全ての特徴の次元として算出し、ここで２０５１である。そして、

の大きさに応じて各特徴の重要性をランキングする。４０個の特徴を最終のデータ融合結果として採用する。ここで、３６個の映像特及び４つの臨床特徴を含む。映像特徴のｄｂ５、ｓｙｍ７、ｈａａｒフィルタリング図像からの特徴数は、それぞれ９，８，１９である。臨床特徴には、飲酒、筋肉含有量、年齢、残存膵体体積を含む。
６．その後、データ融合で取得された映像及び臨床特徴を利用して、サポートベクターマシンに基づく糖尿病予測モデルを確立する。訓練セットデータを用いて予測モデルを訓練し、テストセットでテストする。テストセットにおける糖尿病予測正確度ＡＵＣ＝０．８２である。

上記実施例は、本発明を説明するためのものであり、本発明を限定するものではなく、本発明の精神及び特許請求の範囲内で、本発明に対して行われた任意の補正及び変更は、いずれも本発明の保護範囲内に入る。

Claims

マルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システムであって、データ収集モジュールと、映像構造化モジュールと、電子カルテ特徴抽出モジュールと、特徴選別及び融合モジュールと、データ融合モジュールとを含み、
前記データ収集モジュールは、測定対象の予め設定された疾患関連電子カルテデータを収集し、かつその関連する映像データを抽出することに用いられ、
前記映像構造化モジュールは、映像データを構造化処理し、映像特徴を抽出することに用いられ、
前記電子カルテ特徴抽出モジュールは、電子カルテデータに対して関連変数を抽出し、数値化処理した後で電子カルテ特徴とすることに用いられ、
前記特徴選別及び融合モジュールは、映像特徴と電子カルテ特徴に基づいてマルチビュー特徴マトリックスを取得し、かつ監督なし特徴選択及び融合モデルを定義することに用いられ、具体的には、マルチビュー特徴マトリックスを取得し、それは、抽出された映像特徴及び電子カルテ特徴を複数のビュー特徴データとして見なし、第ｖ個のビューの特徴を

として定義し、ｄ_ｖがｖ番目のビュー特徴の次元であり、ｖ＝１，２であり、第ｖ個のビューにおける全ての特徴を

として定義し、それらを接続して総特徴マトリックス

として表現し、監督なし特徴選別問題の目標最適化関数Ｔ（Ｘ，θ）が以下の通り表現され、

ここで、ｌｏｓｓ（Ｘ，Ｗ）が損失関数であり、θが最適化関数が最適化する必要があるパラメータを表現し、

が特徴選別マトリックスであり、ｃがクラスタリングの類別数であり、Ｒ（Ｗ）が正則項であり、λが調整パラメータであり、

が擬似ラベルマトリックスを表現し、ｌｏｓｓ（Ｘ，Ｗ）が以下の通り表現され、

ここで、ｎがサンプル数であり、ｃがクラスタリングの類別数であり、ノルム

が

ノルムを表現し、具体的な算出式が

であり、ここで、

がマトリックスＡのｉ行の第ｊ列の元素を表現し、擬似ラベルがサブ空間クラスタリングにおけるスペクトル埋め込みによって生成され、
サブ空間クラスタリング方法のデータ自表現性質に基づいて、各ビュー特徴データがいずれもサブ空間において自己表現できるように設定し、具体的に以下の通りであり、

ここで、

が各ビュー特徴データの自己表現マトリックスであり、

は長さがｎの単位ベクトルを表現し、そして、データ関係を描写する類似図

を構築し、かつ低ランク性を満たし、類似図Ｓ_ｖ成分の個数がクラスタリングの類別数ｃに等しく、すなわち、Ｓ_ｖのラプラシアンマトリックスのランクがｎ－ｃに等しく、低ランク性が以下の最適化問題として表現され、

ここで、

が類似マトリックスＳ_ｖのラプラシアンマトリックスであり、

が対角マトリックスであり、Ｔｒがマトリックスを求めるトレースを表現し、Ｉ_ｃは大きさがｃ×ｃの単位マトリックスを表現し、よって、マルチビューサブ空間クラスタリングの目標最適化関数が以下の通り表現され、

ここで、ｔｒ（）がマトリックスのランクを表現し、

がＦｒｏｂｅｎｉｕｓノルムであり、具体的な算出式が

であり、ここで、

がマトリックスＡの第ｉ行の第ｊ列の元素を表現し、
データ次元低下を考慮してマルチビューサブ空間クラスタリングによって案内される特徴選別モデルの目標関数を取得しかつ変数インターリーブ反復の方式により求め、特徴選別マトリックスを取得し、特徴選別モデルの目標関数が具体的に以下の通りであり、

ここで、

が各ビュー特徴データの自己表現マトリックスであり、Ｌ_ｖが第ｖ個のビューに対応するラプラシアンマトリックスであり、

が擬似ラベルマトリックスであり、

が特徴選別マトリックスであり、λ_１、λ_２及びλ_３がバランスパラメータであり、
前記データ融合モジュールは、特徴選別及び融合モジュールで取得された特徴選別マトリックスに基づいて、映像及び電子カルテ特徴の重要性をランキングし、予め設定された特徴個数に基づいて、映像データと電子カルテデータの融合結果を取得することに用いられる
ことを特徴とするマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
前記データ収集モジュールは、予め設定された疾患及び測定対象に基づいて、患者の唯一の医療記録番号に基づいて、病院電子カルテシステムから電子カルテの基本情報及び診断情報を抽出し、電子カルテの基本情報及び診断情報を１つの完全なサンプルとして合成する
ことを特徴とする請求項１に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
前記データ収集モジュールで取得された医学映像データは、Ｘ線フィルム、ＣＴデータまたはＭＲＩデータである
ことを特徴とする請求項１に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
前記映像構造化モジュールは、予め設定された疾患に基づいて、映像データに対して関心領域をマークし、かつ映像再サンプリング、階調値離散化及び映像領域枠選択を含む映像前処理を行い、最後に前処理された映像及びマークされた関心領域に基づいて、高次元映像特徴を算出する
ことを特徴とする請求項１に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
前記電子カルテ特徴抽出モジュールは、取得された電子カルテデータを分析し、測定対象の人口学情報、病歴、生活習慣及び検査項目情報を含む、予め設定された疾患に関するいくつかの危険要因を特定し、各フィールドの情報を数値化し、そして電子カルテデータを正規化し、電子カルテ特徴を取得する
ことを特徴とする請求項１に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。
前記特徴選別及び融合モジュールにおいて、変数インターリーブ反復の方式により、マルチビューサブ空間クラスタリングによって案内される特徴選択及び融合モデルを求め、特徴選別マトリックス、擬似ラベルマトリックス及び自己表現マトリックスを反復更新し、具体的な過程は、先ず特徴選別マトリックス及び擬似ラベルマトリックスを一定にし、自己表現マトリックスを更新し、そして特徴選別マトリックス及び自己表現マトリックスを一定にし、擬似ラベルマトリックスを更新し、最後に擬似ラベルマトリックス及び自己表現マトリックスを一定にし、特徴選別マトリックスを更新する
ことを特徴とする請求項１に記載のマルチビューサブ空間クラスタリングに基づくマルチモード医学データ融合システム。