JP2024027086A

JP2024027086A - 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム

Info

Publication number: JP2024027086A
Application number: JP2023092731A
Authority: JP
Inventors: ▲勁▼松李; Jingsong Li; ▲勝▼▲強▼ 池; Shengqiang Chi; ▲銘▼▲鴻▼ 徐; Minghong Xu; 雪瑶李; Xueyao Li; 雨田; Yu Tian; 天舒周; Tianshu Zhou
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2023-06-05
Publication date: 2024-02-29
Anticipated expiration: 2043-06-05
Also published as: CN115083616A; JP7404581B1; CN115083616B

Abstract

【課題】本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。【解決手段】慢性腎症診療記録における構造化データを収集するためのデータ収集モジュールと、前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得するためのデータ抽出及び前処理モジュールと、前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築するための慢性腎症亜型マイニングモジュールと、前記慢性腎症亜型マイニングモデルを評価するための慢性腎症表現型亜型評価モジュールと、患者の構造化データを予測するための慢性腎症亜型予測モジュールと、を備える。本発明は、過程マイニング方法が縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決した。【選択図】図１

Description

本発明は医療健康情報の技術分野に関し、特に自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムに関する。

慢性腎症は重要な公衆衛生問題であり、我が中国の１０％の人口に影響している。臨床指針に従って、慢性腎症は患者の推算糸球体濾過率（ｅＧＦＲ）及び尿中アルブミン－クレアチニン比（ＵＡＣＲ）によって等級分けされる。ｅＧＦＲ及びＵＡＣＲは慢性腎症のスクリーニング検査及び監視測定に使用され得るが、ｅＧＦＲ及びＵＡＣＲのみによって慢性腎症患者の個体間の疾病表現型の差異を表現できない。慢性腎症は一種の高度な異質性疾病であり、糖尿病、高血圧、自己免疫疾患、遺伝傾向又は先天性異常などの全身性疾病及び状態に密接に関連している。慢性腎症の個体の間には明らかな差異があり、これらの差異は実験室による検査、病歴、服薬履歴及び社会的要素などの疾病表現型によって説明され得る。慢性腎症患者の初期表現型の差異に起因して、個体の診療過程及び併発症も千差万別である。合理的な慢性腎症の表現型の分類は異なる亜群患者を区別して、異なる亜群の疾病特徴及び潜在的な疾病病理を示すべきであり、それにより疾病の悪化過程及び進行の異なるメカニズムをより良く理解することに寄与する。

従来の慢性腎症亜型分類方法は主に患者の初期静的表現型データに基づくクラスタリング分析である。このような方法は主に研究し始める際に収集した患者の人口統計学的、バイオマーカー及び臨床特徴などの多次元データを利用して、階層クラスタリング、コンセンサスクラスタリングなどの常用のクラスタリングアルゴリズムによって慢性腎症患者の表現型分類をマイニングする。ところが、慢性腎症患者は疾病過程が長く、併発症が多いため、患者の個体間の診療過程に大きな差異がある。診療過程データは慢性腎症患者の異なる表現型を区別する重要な情報を暗に含む可能性がある。電子カルテシステムに収集及び記憶される患者診療過程データから特定の患者に対して行われた手術、検査、試験及び薬物治療などのイベント情報、並びにこれらのイベントの発生時間を抽出することができる。患者の診療過程データをクラスタリングして患者の疾病表現型モードを研究することは、異なる亜群患者の特徴を識別及び研究することに対して重要な意義を有する。疾病診療過程データのマイニングについては、よく用いられる方法は以下のとおりである。第（１）としては、過程マイニング方法であり、患者診療過程に生成したイベントログから情報を抽出し、時間順序で配列して診療イベントシーケンスを形成する。次に、診療イベントシーケンスにおける異なるモードを疾病の異なる診療過程としてマイニングすることにより患者の疾病表現型を分類する。該方法は、イベント間の共起情報を利用しにくく、縦方向の電子カルテにおける複数回受診データにおけるイベントの関連関係及び前後順位関係を処理できない。マイニングされた診療過程が複雑で、代表性及びカバー率が低い。第（２）としては、テンソル分解方法であり、患者、時間及び表現型の３つの次元の情報を３次テンソルに組み合わせ、３次テンソルを分解することにより患者の潜在的な表現型分類をマイニングする。該方法は、連続受診間の疾病表現型の変化のみを考慮し、長期の診療過程における表現型変化情報を処理できない。

このため、上記技術的問題を解決するように、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。

上記技術的問題を解決するために、本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。

本発明が用いる技術案は以下のとおりである。

自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、
慢性腎症診療記録における構造化データを収集することに用いられるデータ収集モジュールと、
前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられるデータ抽出及び前処理モジュールと、
前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモジュールと、
前記慢性腎症亜型マイニングモデルを評価することに用いられる慢性腎症表現型亜型評価モジュールと、
患者の構造化データを予測することに用いられる慢性腎症亜型予測モジュールと、を備える。

更に、前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び／又は服薬データを含む。

更に、前記データ抽出及び前処理モジュールは具体的に、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの２種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の６種類の薬物の使用のみに関心を持ち、服薬データにおける６種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成するためのものである。

更に、前記慢性腎症亜型マイニングモジュールは具体的に、
前記受診セット及び前記エンティティセットによって受診ネットワークを構築することに用いられる受診ネットワーク構築ユニットと、
前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられる埋め込み表現構築ユニットと、
前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練することに用いられるクラスタリングネットワーク構築ユニットと、
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモデル構築ユニットと、を備える。

更に、前記受診ネットワーク構築ユニットは具体的に、
前記受診セットと前記エンティティセットとでノードセットを構成することに用いられることと、
前記ノードセットにおけるノード共起関係によってエッジセットを構築することに用いられることと、
前記ノードセット及び前記エッジセットによって受診ネットワークを構築することに用いられることと、を含む。

更に、前記埋め込み表現構築ユニットは具体的に、
前記エンティティセットによってエンティティ共起行列を構築することに用いられることと、
前記エンティティ共起行列に基づいてＧｌｏＶｅアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得することに用いられることと、
すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられることと、を含む。

更に、前記クラスタリングネットワーク構築ユニットは具体的に、
前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得することに用いられることと、
前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算することに用いられることと、
前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算することに用いられることと、
前記受診ノードの埋め込み表現に対してｓｏｆｔｍａｘ回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算することに用いられることと、
前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築することに用いられることと、を含む。

更に、前記慢性腎症亜型マイニングモデル構築ユニットは具体的に、
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列することに用いられることと、
同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築することに用いられることと、
頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第１列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第１列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得することに用いられることと、を含む。

更に、前記慢性腎症亜型予測モジュールは具体的に、
患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得することに用いられることと、
前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築することに用いられることと、
前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして１つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断することに用いられることと、を含む。

本発明の有益な効果は以下のとおりである。本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。まず、受診、診断、実験室による検査、医学的検査、手術及び服薬などの多次元の患者診療イベント情報を含む患者の複数回受診した縦方向の電子カルテデータを受診ネットワークに構築する。次に、診療イベントの共起情報によって診療イベントのベクトル表現を取得する。自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって受診イベントをクラスタリングして、各回の受診イベントにタグを付ける。ついでに、受診の面で、患者の診療過程をマイニングして慢性腎症表現型の異なる亜型を取得する。最後に、表現型亜型の評価方法を提供し、患者の人口統計学的、服薬、併発症及び生存率などの一連の総合的な指標を含むマイニングされた異なる亜型には臨床的に解釈可能な差異があるかどうかを評価する。

その中、先に各回受診における診断、実験室による検査、医学的検査、手術及び服薬などのイベント情報を自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって訓練して、各回受診のカテゴリタグを取得し、この過程にて低階層・細粒度の情報を高階層・粗粒度の総括的な情報に集め、更に受診のカテゴリタグを診療過程のマイニングに用いることで、過程マイニング方法が縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決した。

共起情報に基づいてイベントベクトル表現を取得してグラフモデルに用いることは、過程マイニング方法がイベント共起情報を利用しにくい問題を効果的に解決し、横断面及び縦方向の電子カルテデータを同時に利用して疾病に対して十分な特徴マイニングを行うことが実現される。

提供される自己監督グラフクラスタリングアルゴリズムにおいては、患者の複数回受診情報を自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデル、訓練ノードの埋め込み表現に同時に組み入れ、長期の診療過程における表現型変化情報を処理できる。次に、それぞれ受診ネットワークにおける異なるノード及び関係に対して監督学習を行う。デコーダによって低階層ノードの埋め込み表現を再構築し、Ｌ２ノルムによってノードの再構築誤差を計算し、交差エントロピーによってグラフ関係の再構築誤差を計算し、ＫＬ発散によって受診ノードのクラスタリング誤差を計算する。

受診ノードのイベントタグ分布類似度に基づいて、類似する隣接イベントをマージし、過程マイニング方法を最適化し、マイニングされた診療プロセスを簡素化して、診療プロセスの代表性及びカバー率を向上させる。

図１は本発明に係る自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの構造模式図である。図２は本発明に係る自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの機能プロセスを示す模式図である。図３は本発明の実施例に係る受診ネットワークを示す図である。図４は本発明の実施例に係る共起行列を示す図である。図５は本発明の実施例に係る自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを示す構造図である。

以下の少なくとも１つの例示的な実施例についての説明は実際に説明のためのものであり、本発明及びその応用又は使用を制限するものではない。本発明の実施例に基づいて、当業者が創造的な労力を要することなく取得したすべての他の実施例は、いずれも本発明の保護範囲に属する。

図１を参照し、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、
慢性腎症診療記録における構造化データを収集することに用いられるデータ収集モジュールと、
前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられるデータ抽出及び前処理モジュールと、
前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモジュールと、
前記慢性腎症亜型マイニングモデルを評価することに用いられる慢性腎症表現型亜型評価モジュールと、
患者の構造化データを予測することに用いられる慢性腎症亜型予測モジュールと、を備える。

図２を参照し、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの機能プロセスであって、下記のステップＳ１～ステップＳ５を含む。

ステップＳ１において、データ収集モジュールによって慢性腎症診療記録における構造化データを収集してデータセットを構築し、前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び／又は服薬データを含み、
ステップＳ２において、データ抽出及び前処理モジュールによって前記データセットを前処理して受診セット及びエンティティセットを取得し、これは具体的に、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの２種類に分け、異常の検査項の名称、異常のカテゴリを保持することと、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持することと、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の６種類の薬物の使用のみに関心を持ち、服薬データにおける６種類の薬物を分類し、薬物のカテゴリを保持することと、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成することと、を含む。

ステップＳ３において、前記受診セット及びエンティティセットを慢性腎症亜型マイニングモジュールに入力し、前記慢性腎症亜型マイニングモジュールによって慢性腎症亜型マイニングモデルを構築し、
ステップＳ３１において、前記受診セット及び前記エンティティセットによって受診ネットワークを構築し、
ステップＳ３１１において、前記受診セットと前記エンティティセットとでノードセットを構成し、
ステップＳ３１２において、前記ノードセットにおけるノード共起関係によってエッジセットを構築し、
ステップＳ３１３において、前記ノードセット及び前記エッジセットによって受診ネットワークを構築する。

ステップＳ３２において、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成し、
ステップＳ３２１において、前記エンティティセットによってエンティティ共起行列を構築し、
ステップＳ３２２において、前記エンティティ共起行列に基づいてＧｌｏＶｅアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得し、
ステップＳ３２３において、すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成する。

ステップＳ３３において、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練し、
ステップＳ３３１において、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得し、
ステップＳ３３２において、前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算し、
ステップＳ３３３において、前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算し、
ステップＳ３３４において、前記受診ノードの埋め込み表現に対してｓｏｆｔｍａｘ回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算し、
ステップＳ３３５において、前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築する。

ステップＳ３４において、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築する。

ステップＳ３４１において、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列し、
ステップＳ３４２において、同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築し、
ステップＳ３４３において、頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第１列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第１列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得する。

ステップＳ４において、慢性腎症表現型亜型評価モジュールによって前記慢性腎症亜型マイニングモデルを評価し、
ステップＳ５において、慢性腎症亜型予測モジュールによって患者の構造化データを予測し、
ステップＳ５１において、患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得し、
ステップＳ５２において、前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築し、
ステップＳ５３において、前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして１つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断する。

実施例
自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、データ収集モジュール、データ抽出及び前処理モジュール、慢性腎症亜型マイニングモジュール、受診ネットワーク構築ユニット、埋め込み表現構築ユニット、クラスタリングネットワーク構築ユニット、慢性腎症亜型マイニングモデル構築ユニット、慢性腎症表現型亜型評価モジュール、並びに慢性腎症亜型予測モジュールを備える。

データ収集モジュールは、慢性腎症診療記録における構造化データを収集してデータセットを構築するためのものであり、前記構造化データが患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び／又は服薬データを含み、
データ抽出及び前処理モジュールは、前記構造化データに対して抽出及び前処理を行って、受診セット及びエンティティセットを取得するためのものであり、具体的には、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの２種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の６種類の薬物の使用のみに関心を持ち、服薬データにおける６種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成するためのものである。

慢性腎症亜型マイニングモジュールは、前記受診セット及びエンティティセットを慢性腎症亜型マイニングモジュールに入力し、前記慢性腎症亜型マイニングモジュールによって慢性腎症亜型マイニングモデルを構築するためのものであり、
受診ネットワーク構築ユニットは、前記受診セット及び前記エンティティセットによって受診ネットワークを構築するためのものであり、
前記受診セットと前記エンティティセットとでノードセットを構成するためのものであり、
受診セットが

であり、ここで、Ｎ^Ｖが受診数を示す。Ｄ、Ｍ、Ｐ、Ｌがそれぞれ診断セット、服薬セット、手術セット、試験セットであり、

、

であり、ここで、Ｎ^Ｄ、Ｎ^Ｍ、Ｎ^Ｐ、Ｎ^Ｌがそれぞれ診断種類の数、服薬種類の数、手術種類の数、試験種類の数を示す。Ｄ、Ｍ、Ｐ、Ｌがエンティティセット

を構成し、エンティティセット種類の数がＮ^Ｓ＝Ｎ^Ｄ＋Ｎ^Ｍ＋Ｎ^Ｐ＋Ｎ^Ｌである。

エンティティセットが受診セットとともにノードセット

を構成し、ノードの個数がＮ^Ｎ＝Ｎ^Ｖ＋Ｎ^Ｓ＝Ｎ^Ｖ＋Ｎ^Ｄ＋Ｎ^Ｍ＋Ｎ^Ｐ＋Ｎ^Ｌであり、
前記ノードセットにおけるノード共起関係によってエッジセットを構築するためのものであり、
同一回の受診（Ｖ_ｉ）に現れるエンティティをエンティティサブセット

に構成し、ｊがエンティティサブセットＳ（Ｖ_ｉ）におけるエンティティの数を示し、

である。各エンティティサブセットがその対応する受診とともに１つの受診リンクサブセット

を構成する。１つの前記受診リンクサブセットには１つの受診ノード及び今回の受診におけるすべてのエンティティノードが含まれており、１つの前記受診リンクサブセットにおけるすべてのノードに共起関係があり、ノードが２つずつ接続してエッジサブセットを構成し、すべての前記エッジサブセットがエッジセットを構成し、前記エッジセットが

であり、
前記ノードセット及び前記エッジセットによって受診ネットワークＧ＝（Ｎ，Ｅ）を構築するためのものである。

図３を参照し、受診Ｖ_１において、医者は甲状腺腫（Ｄ_１）、甲状腺結節（Ｄ_２）の２種類の診断を下して、甲状腺部分切除術（Ｐ_１）を行ってレボチロキシンナトリウム錠剤（Ｍ_１）の薬を出す。そうすると、

が１つの受診リンクサブセットを構成し、受診ネットワークにおいてこの５つのノードが２つずつ接続している。受診Ｖ_４において、医者はＴＳＨ測定（Ｌ_３）を行ってから甲状腺機能低下症（Ｄ_４）の診断を下してレボチロキシンナトリウム錠剤（Ｍ_１）の薬を出す。そうすると、

も１つの受診リンクサブセットであり、受診ネットワークにおいてこの４つのノードが２つずつ接続している。Ｍ_１がＣ（Ｖ_１）及びＣ（Ｖ_４）に同時に現れるため、受診ネットワークにおいてＭ_１がこの２つの受診リンクサブセットにおける他のノードにいずれも接続している。

埋め込み表現構築ユニットは、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成するためのものであり、
前記エンティティセットによってエンティティ共起行列を構築するためのものであり、
エンティティセットＳによってエンティティ共起行列Ｘを構築し、図４を参照し、エンティティ共起行列Ｘの次元がＮ^Ｓ×Ｎ^Ｓであり、各行と各列がいずれもエンティティセットＳにおける１つのエンティティを代表し、Ｘ_ｉｊがエンティティＳ_ｉ及びエンティティＳ_ｊの共起情報を示す。Ｘ_ｉｊの計算公式は、

であり、
エンティティＳ_ｉとエンティティＳ_ｊが受診Ｖ_ｋにおいて同時に現れる場合、

が１に等しく、そうではない場合、０と記す。ここで、Ｓ（Ｖ_ｋ）が受診Ｖ_ｋにおいて現れるすべてのエンティティで構成される１つのエンティティサブセットである。エンティティ共起行列Ｘが対称であり、Ｘ_ｉｊとＸ_ｊｉが等しく、対角線上にあるものが同じエンティティの共起情報であり、０と記す。

前記エンティティ共起行列に基づいてＧｌｏＶｅアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得するためのものであり、
エンティティノードの初期埋め込み表現とエンティティ共起行列との関係は、

と示され、
ここで、ｗ_ｉとｗ_ｊがそれぞれ最終的に求める必要のあるエンティティＳ_ｉ及びエンティティＳ_ｊのエンティティノードの初期埋め込み表現であり、１２８次元で－０．１～０．１間の値を取るランダムベクトルにランダムに初期化し、上付き文字Ｔが転置操作であり、ｂ_ｉとｂ_ｊがそれぞれ２つのエンティティノードの初期埋め込み表現のバイアス項であり、それらの初期値が０である。

エンティティ共起行列とエンティティノードの初期埋め込み表現との関係に基づいて目標関数Ｊを構築し、

であり、
ここで、ＭＡＸが共起情報の閾値であり、αが指数パラメータである。

２つのエンティティノードが同時に現れることがなく、即ちＸ_ｉｊ＝０の場合、それらが目標関数の計算に参加しない。収束するまでＡｄａＤｅｌｔａ勾配降下アルゴリズムによって前記目標関数を最適化し、前記エンティティセットにおける各エンティティ

に対応するエンティティノードの初期埋め込み表現

を取得し、
すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成するためのものであり、
受診ノードＶ_ｉについては、そのすべての隣接するエンティティノードのセットが

であり、Ｖ_ｉノードの初期埋め込み表現は、

であり、
ここで、ｊがＳ（Ｖ_ｉ）におけるエンティティノードの数である。

ノードの初期埋め込み表現

であり、Ｂ_Ｖが受診ノードの初期埋め込み表現であり、Ｂ_Ｓがエンティティノードの初期埋め込み表現である。

クラスタリングネットワーク構築ユニットは、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練するためのものであり、図５を参照し、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルはグラフ注意、オートエンコーダ及び自己監督の３つの部分で構成される。

前記受診ネットワークにおけるノード間の関係によって隣接行列Ａを構築し、前記隣接行列Ａ及び前記ノードの初期埋め込み表現Ｂを前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練をＬ回行うためのものであり、第ｌ層のノードの埋め込み表現がＺ^ｌであり、計算方式は、

であり、
ここで、

がｒｅｌｕ活性化関数であり、Ｗ^ｌが第ｌ層のグラフ注意重みである。

であり、Ａが正規化された隣接行列であり、Ｉが単位行列であり、

である。Ｌ層のグラフ注意訓練を行った後、ノードの埋め込み表現Ｚ^Ｌを取得する。Ｚ^Ｌはノードの初期埋め込み表現Ｂと同様に、更新後の受診ノードの埋め込み表現Ｚ_Ｖ ^Ｌとエンティティノードの埋め込み表現Ｚ_Ｓ ^Ｌとで構成され、

である。

前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算するためのものであり、
再構築後の隣接行列

は、

であり、
ここで、（Ｚ^Ｌ）^ＴがＺ^Ｌの転置行列であり、

がｓｉｇｍｏｉｄ活性化関数である。

受診ネットワークの再構築誤差Ｌ_{ｒｅｃ－Ｇ}を計算し、

であり、
ここで、

である。

エンティティノードの埋め込み表現Ｚ_Ｓ ^ＬをＹ層ニューラルネットワークのデコーダに入力して訓練するためのものであり、ノードの第ｙ層のデコーダにおける表現がＨ^ｙであり、下記計算公式によって取得されたのであり、

であり、
ここで、Ｗ_ｄ ^ｙが第ｙ層のデコーダネットワーク重みであり、ｂ_ｄ ^ｙが偏差であり、デコーダの入力がＨ^０＝Ｚ_Ｓ ^Ｌである。デコーダの最終層の出力をエンティティノードの再構築埋め込み表現

としてエンティティノードの再構築誤差Ｌ_{ｒｅｃ－Ｓ}を計算し、

であり、
受診ノードの埋め込み表現Ｚ_Ｖ ^Ｌに対してｓｏｆｔｍａｘ回帰動作を行って、受診ノードの確率分布を取得するためのものであり、

であり、
ここで、Ｚ_Ｖ ^Ｒの次元がＮ^Ｖ×Ｋであり、Ｋがデフォルトのクラスタリングセンター数即ち受診ノードカテゴリ数であり、経験によって３、５、１０を試して結果がより良いカテゴリ数を選択する。

はｉ番目のサンプルがｊカテゴリに属する確率を示す。

前記受診ノードの確率分布に基づいてクラスタリング損失を計算し、
ｉ番目の受診サンプル及びｊ番目のクラスタに対して、学生ｔ分布によってデータ表現ｚ_ｉとクラスタリングセンターμ_ｊとの類似度を判断する。ｚ_ｉがＺ_Ｖ ^Ｒの第ｉ行であり、μ_ｊが受診ノードの確率分布Ｚ_Ｖ ^Ｒに基づいてＫ－ｍｅａｎｓ方法で初期化されたクラスタリングセンターであり、ｖが学生ｔ分布の自由度であり、ｑ_ｉｊの計算公式は、

であり、
ここで、ｑ_ｉｊはｉ番目のサンプルがｊ番目のクラスタに属する確率である。

をすべてのサンプルクラスタリング分布のセットとして設定する。クラスタリング分布Ｑを取得した後、目標分布Ｐを計算し、目標分布Ｐは一層高い信頼度のサンプル割り当てを有し、従って、Ｐに基づいてデータ分布を最適化してデータをクラスタリングセンターに更に近づけさせることができる。ＰとＱの次元がＮ^Ｖ×Ｋである。目標分布Ｐにおける各要素ｐ_ｉｊの計算公式は、

であり、
ここで、

である。目標分布Ｐにおいて、Ｑにおける各分布がいずれも二乗されるため、Ｐは一層高い信頼度を有する。クラスタリング損失の計算公式は、

であり、
受診ネットワークの再構築誤差Ｌ_{ｒｅｃ－Ｇ}、エンティティノードの再構築誤差Ｌ_{ｒｅｃ－Ｓ}及びクラスタリング損失Ｌ_ｃｌｕに基づいて、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築するためのものである。前記全体損失関数は、

であり、
ここで、γ、βが異なる損失項の重要性を調整するハイパーパラメータであり、０．１としてデフォルト設定される。

慢性腎症亜型マイニングモデル構築ユニットは、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築するためのものである。

前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布Ｑを受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択するためのものであり、受診ノード

に対応するカテゴリタグが

である。単回受診の場合の１番目の医療記録の記録時間を受診ノードの開始時間とし、最後の医療記録の記録時間を受診ノードの終了時間とし、各患者のすべての受診ノードを時間順序で配列する。

同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築するためのものであり、
同じカテゴリタグを有する２つの連続受診ノードＶ_ｉ、Ｖ_ｊに対して、Ｖ_ｉ、Ｖ_ｊカテゴリ分布間のコサイン類似度を計算し、

であり、
ここで、

がイベントＶ_ｉ、Ｖ_ｊのカテゴリ分布である。

コサイン類似度が０．８よりも大きな前後２つの受診ノードを１つの受診ノードにマージし、マージ後の受診ノードカテゴリ分布が

であり、そうではない場合に２つの受診ノードを別個に保持する。同じカテゴリタグを有する複数の連続受診ノードの場合、配列順序で前から後まで２つごとにコサイン類似度の判断を行って、マージ又は別個に保持することを決定する。

最終的に各患者の受診ノードをイベントベクトル

に配列し、ｋが受診ノードの一番多い患者のノード数であり、ノード数がｋ未満の患者の場合に０でイベントベクトルを充填する。すべての患者のイベントベクトルをイベント行列Ｈに組み合わせ、前記イベント行列Ｈは、

であり、
ここで、Ｈの次元がｎ×ｋであり、ｎが患者の総数である。

頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第１列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第１列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得するためのものである。

慢性腎症表現型亜型評価モジュールは、前記慢性腎症亜型マイニングモデルを評価し、
異なる表現型亜型患者の差異を比較し、マイニングされた異なる亜型特徴に統計学的差異があるかどうかを試験することにより、表現型亜型マイニング方法で取得された疾病亜型が臨床的意味を有するかどうかを評価するためのものである。具体的な評価スキームは以下のとおりである。

異なる表現型亜型患者の性別、年齢、糸球体濾過率などの指標を計算して、統計的試験方法によって異なる表現型亜型患者の臨床症状に差異があるかどうかを判断する。

異なる亜型患者の遺伝子組み換えヒトエリスロポエチン、メトホルミン、カンデサルタン、プラバスタチン使用量などの重要な服薬データに差異があるかどうかを統計して、統計的試験方法によって分析する。

心臓衰弱、冠状動脈性心臓病、高血圧、糖尿病、高脂血症を含む各種類の亜型患者の様々な併発症の発病人数を統計し、各併発症の割合を計算し、異なる亜型における併発症の割合に差異があるかどうかを試験する。

各亜型総人数及び異なる時点での生存人数を統計し、異なる亜型患者の生存率を比較する。異なる亜型患者が時間の変化につれて変化する生存率の差異を観察し、Ｌｏｇ－ｒａｎｋ試験によって分析する。

異なる亜型の患者グループの５０％以上の特徴に顕著な差異がある場合には、マイニングされた亜型がより良い臨床使用価値を有すると説明される。

慢性腎症亜型予測モジュールは、患者の構造化データを予測するためのものであり、
患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得するためのものであり、
前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築するためのものであり、
前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして１つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断するためのものである。

本発明は自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを提供し、グラフ注意訓練にはノードの埋め込み表現の再構築のためのデコーダを追加し、クラスタリングモデルの訓練のための自己監督損失を追加し、自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルは低階層・細粒度の慢性腎症患者情報を高階層・粗粒度の総括的な情報に集めて診療過程のマイニングに用い、過程マイニングによって縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決し、自己監督グラフクラスタリング方法に基づいて患者の単回受診内の多次元診療情報及び複数回受診間のシーケンス情報を十分に統合するとともに、横断面及び縦方向の２つの次元から電子カルテデータに対して十分な特徴マイニングを行い、受診ノードのイベントタグ分布類似度に基づいて類似する隣接イベントをマージし、過程マイニング方法を最適化し、マイニングされた診療プロセスを簡素化して、診療プロセスの代表性及びカバー率を向上させる。

以上の説明は本発明の好適な実施例に過ぎず、本発明を制限するためのものではなく、当業者であれば、本発明に対して種々の変更や変化を行うことができる。本発明の主旨及び原則内に行われるいかなる修正、等価置換、改良などは、いずれも本発明の保護範囲内に含まれるべきである。

Claims

自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、データ収集モジュール、データ抽出及び前処理モジュール、慢性腎症亜型マイニングモジュール、慢性腎症表現型亜型評価モジュール及び慢性腎症亜型予測モジュールを含み、
前記データ収集モジュールは、慢性腎症診療記録における構造化データを収集することに用いられ、
前記慢性腎症亜型マイニングモジュールは、前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられ、
前記慢性腎症亜型マイニングモジュールは、前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられ、
前記慢性腎症表現型亜型評価モジュールは、前記慢性腎症亜型マイニングモデルを評価することに用いられ、
前記慢性腎症亜型予測モジュールは、患者の構造化データを予測することに用いられ、
前記慢性腎症亜型マイニングモジュールは具体的に、受診ネットワーク構築ユニット、埋め込み表現構築ユニット、クラスタリングネットワーク構築ユニット及び慢性腎症亜型マイニングモデル構築ユニットを含み、
前記受診ネットワーク構築ユニットは、前記受診セット及び前記エンティティセットによって受診ネットワークを構築することに用いられ、
前記埋め込み表現構築ユニットは、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられ、
前記クラスタリングネットワーク構築ユニットは、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練することに用いられ、
前記慢性腎症亜型マイニングモデル構築ユニットは、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築することに用いられ、
前記慢性腎症亜型マイニングモデル構築ユニットは具体的に、
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列することに用いられることと、
同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築することに用いられることと、
頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第１列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第１列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得することに用いられることと、を含む
ことを特徴とする自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び／又は服薬データを含む
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記データ抽出及び前処理モジュールは具体的に、前記構造化データを前処理して、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの２種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイドの６種類の薬物の使用のみに関心を持ち、服薬データにおける６種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成することに用いられる
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記受診ネットワーク構築ユニットは具体的に、
前記受診セットと前記エンティティセットとでノードセットを構成することに用いられることと、
前記ノードセットにおけるノード共起関係によってエッジセットを構築することに用いられることと、
前記ノードセット及び前記エッジセットによって受診ネットワークを構築することに用いられることと、を含む
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記埋め込み表現構築ユニットは具体的に、
前記エンティティセットによってエンティティ共起行列を構築することに用いられることと、
前記エンティティ共起行列に基づいてＧｌｏＶｅアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得することに用いられることと、
すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられることと、を含む
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記クラスタリングネットワーク構築ユニットは具体的に、
前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得することに用いられることと、
前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算することに用いられることと、
前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算することに用いられることと、
前記受診ノードの埋め込み表現に対してｓｏｆｔｍａｘ回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算することに用いられることと、
前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築することに用いられることと、を含む
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
前記慢性腎症亜型予測モジュールは具体的に、
患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得することに用いられることと、
前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築することに用いられることと、
前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして１つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断することに用いられることと、を含む
ことを特徴とする請求項１に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。