JP2024027086A - 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム - Google Patents

自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム Download PDF

Info

Publication number
JP2024027086A
JP2024027086A JP2023092731A JP2023092731A JP2024027086A JP 2024027086 A JP2024027086 A JP 2024027086A JP 2023092731 A JP2023092731 A JP 2023092731A JP 2023092731 A JP2023092731 A JP 2023092731A JP 2024027086 A JP2024027086 A JP 2024027086A
Authority
JP
Japan
Prior art keywords
subtype
node
nodes
chronic nephropathy
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023092731A
Other languages
English (en)
Other versions
JP7404581B1 (ja
Inventor
▲勁▼松 李
Jingsong Li
▲勝▼▲強▼ 池
Shengqiang Chi
▲銘▼▲鴻▼ 徐
Minghong Xu
雪瑶 李
Xueyao Li
雨 田
Yu Tian
天舒 周
Tianshu Zhou
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Application granted granted Critical
Publication of JP7404581B1 publication Critical patent/JP7404581B1/ja
Publication of JP2024027086A publication Critical patent/JP2024027086A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。【解決手段】慢性腎症診療記録における構造化データを収集するためのデータ収集モジュールと、前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得するためのデータ抽出及び前処理モジュールと、前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築するための慢性腎症亜型マイニングモジュールと、前記慢性腎症亜型マイニングモデルを評価するための慢性腎症表現型亜型評価モジュールと、患者の構造化データを予測するための慢性腎症亜型予測モジュールと、を備える。本発明は、過程マイニング方法が縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決した。【選択図】図1

Description

本発明は医療健康情報の技術分野に関し、特に自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムに関する。
慢性腎症は重要な公衆衛生問題であり、我が中国の10%の人口に影響している。臨床指針に従って、慢性腎症は患者の推算糸球体濾過率(eGFR)及び尿中アルブミン-クレアチニン比(UACR)によって等級分けされる。eGFR及びUACRは慢性腎症のスクリーニング検査及び監視測定に使用され得るが、eGFR及びUACRのみによって慢性腎症患者の個体間の疾病表現型の差異を表現できない。慢性腎症は一種の高度な異質性疾病であり、糖尿病、高血圧、自己免疫疾患、遺伝傾向又は先天性異常などの全身性疾病及び状態に密接に関連している。慢性腎症の個体の間には明らかな差異があり、これらの差異は実験室による検査、病歴、服薬履歴及び社会的要素などの疾病表現型によって説明され得る。慢性腎症患者の初期表現型の差異に起因して、個体の診療過程及び併発症も千差万別である。合理的な慢性腎症の表現型の分類は異なる亜群患者を区別して、異なる亜群の疾病特徴及び潜在的な疾病病理を示すべきであり、それにより疾病の悪化過程及び進行の異なるメカニズムをより良く理解することに寄与する。
従来の慢性腎症亜型分類方法は主に患者の初期静的表現型データに基づくクラスタリング分析である。このような方法は主に研究し始める際に収集した患者の人口統計学的、バイオマーカー及び臨床特徴などの多次元データを利用して、階層クラスタリング、コンセンサスクラスタリングなどの常用のクラスタリングアルゴリズムによって慢性腎症患者の表現型分類をマイニングする。ところが、慢性腎症患者は疾病過程が長く、併発症が多いため、患者の個体間の診療過程に大きな差異がある。診療過程データは慢性腎症患者の異なる表現型を区別する重要な情報を暗に含む可能性がある。電子カルテシステムに収集及び記憶される患者診療過程データから特定の患者に対して行われた手術、検査、試験及び薬物治療などのイベント情報、並びにこれらのイベントの発生時間を抽出することができる。患者の診療過程データをクラスタリングして患者の疾病表現型モードを研究することは、異なる亜群患者の特徴を識別及び研究することに対して重要な意義を有する。疾病診療過程データのマイニングについては、よく用いられる方法は以下のとおりである。第(1)としては、過程マイニング方法であり、患者診療過程に生成したイベントログから情報を抽出し、時間順序で配列して診療イベントシーケンスを形成する。次に、診療イベントシーケンスにおける異なるモードを疾病の異なる診療過程としてマイニングすることにより患者の疾病表現型を分類する。該方法は、イベント間の共起情報を利用しにくく、縦方向の電子カルテにおける複数回受診データにおけるイベントの関連関係及び前後順位関係を処理できない。マイニングされた診療過程が複雑で、代表性及びカバー率が低い。第(2)としては、テンソル分解方法であり、患者、時間及び表現型の3つの次元の情報を3次テンソルに組み合わせ、3次テンソルを分解することにより患者の潜在的な表現型分類をマイニングする。該方法は、連続受診間の疾病表現型の変化のみを考慮し、長期の診療過程における表現型変化情報を処理できない。
このため、上記技術的問題を解決するように、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。
上記技術的問題を解決するために、本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。
本発明が用いる技術案は以下のとおりである。
自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、
慢性腎症診療記録における構造化データを収集することに用いられるデータ収集モジュールと、
前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられるデータ抽出及び前処理モジュールと、
前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモジュールと、
前記慢性腎症亜型マイニングモデルを評価することに用いられる慢性腎症表現型亜型評価モジュールと、
患者の構造化データを予測することに用いられる慢性腎症亜型予測モジュールと、を備える。
更に、前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び/又は服薬データを含む。
更に、前記データ抽出及び前処理モジュールは具体的に、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの2種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の6種類の薬物の使用のみに関心を持ち、服薬データにおける6種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成するためのものである。
更に、前記慢性腎症亜型マイニングモジュールは具体的に、
前記受診セット及び前記エンティティセットによって受診ネットワークを構築することに用いられる受診ネットワーク構築ユニットと、
前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられる埋め込み表現構築ユニットと、
前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練することに用いられるクラスタリングネットワーク構築ユニットと、
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモデル構築ユニットと、を備える。
更に、前記受診ネットワーク構築ユニットは具体的に、
前記受診セットと前記エンティティセットとでノードセットを構成することに用いられることと、
前記ノードセットにおけるノード共起関係によってエッジセットを構築することに用いられることと、
前記ノードセット及び前記エッジセットによって受診ネットワークを構築することに用いられることと、を含む。
更に、前記埋め込み表現構築ユニットは具体的に、
前記エンティティセットによってエンティティ共起行列を構築することに用いられることと、
前記エンティティ共起行列に基づいてGloVeアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得することに用いられることと、
すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられることと、を含む。
更に、前記クラスタリングネットワーク構築ユニットは具体的に、
前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得することに用いられることと、
前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算することに用いられることと、
前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算することに用いられることと、
前記受診ノードの埋め込み表現に対してsoftmax回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算することに用いられることと、
前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築することに用いられることと、を含む。
更に、前記慢性腎症亜型マイニングモデル構築ユニットは具体的に、
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列することに用いられることと、
同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築することに用いられることと、
頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第1列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第1列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得することに用いられることと、を含む。
更に、前記慢性腎症亜型予測モジュールは具体的に、
患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得することに用いられることと、
前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築することに用いられることと、
前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして1つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断することに用いられることと、を含む。
本発明の有益な効果は以下のとおりである。本発明は自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムを提供する。まず、受診、診断、実験室による検査、医学的検査、手術及び服薬などの多次元の患者診療イベント情報を含む患者の複数回受診した縦方向の電子カルテデータを受診ネットワークに構築する。次に、診療イベントの共起情報によって診療イベントのベクトル表現を取得する。自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって受診イベントをクラスタリングして、各回の受診イベントにタグを付ける。ついでに、受診の面で、患者の診療過程をマイニングして慢性腎症表現型の異なる亜型を取得する。最後に、表現型亜型の評価方法を提供し、患者の人口統計学的、服薬、併発症及び生存率などの一連の総合的な指標を含むマイニングされた異なる亜型には臨床的に解釈可能な差異があるかどうかを評価する。
その中、先に各回受診における診断、実験室による検査、医学的検査、手術及び服薬などのイベント情報を自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって訓練して、各回受診のカテゴリタグを取得し、この過程にて低階層・細粒度の情報を高階層・粗粒度の総括的な情報に集め、更に受診のカテゴリタグを診療過程のマイニングに用いることで、過程マイニング方法が縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決した。
共起情報に基づいてイベントベクトル表現を取得してグラフモデルに用いることは、過程マイニング方法がイベント共起情報を利用しにくい問題を効果的に解決し、横断面及び縦方向の電子カルテデータを同時に利用して疾病に対して十分な特徴マイニングを行うことが実現される。
提供される自己監督グラフクラスタリングアルゴリズムにおいては、患者の複数回受診情報を自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデル、訓練ノードの埋め込み表現に同時に組み入れ、長期の診療過程における表現型変化情報を処理できる。次に、それぞれ受診ネットワークにおける異なるノード及び関係に対して監督学習を行う。デコーダによって低階層ノードの埋め込み表現を再構築し、L2ノルムによってノードの再構築誤差を計算し、交差エントロピーによってグラフ関係の再構築誤差を計算し、KL発散によって受診ノードのクラスタリング誤差を計算する。
受診ノードのイベントタグ分布類似度に基づいて、類似する隣接イベントをマージし、過程マイニング方法を最適化し、マイニングされた診療プロセスを簡素化して、診療プロセスの代表性及びカバー率を向上させる。
図1は本発明に係る自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの構造模式図である。 図2は本発明に係る自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの機能プロセスを示す模式図である。 図3は本発明の実施例に係る受診ネットワークを示す図である。 図4は本発明の実施例に係る共起行列を示す図である。 図5は本発明の実施例に係る自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを示す構造図である。
以下の少なくとも1つの例示的な実施例についての説明は実際に説明のためのものであり、本発明及びその応用又は使用を制限するものではない。本発明の実施例に基づいて、当業者が創造的な労力を要することなく取得したすべての他の実施例は、いずれも本発明の保護範囲に属する。
図1を参照し、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、
慢性腎症診療記録における構造化データを収集することに用いられるデータ収集モジュールと、
前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられるデータ抽出及び前処理モジュールと、
前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられる慢性腎症亜型マイニングモジュールと、
前記慢性腎症亜型マイニングモデルを評価することに用いられる慢性腎症表現型亜型評価モジュールと、
患者の構造化データを予測することに用いられる慢性腎症亜型予測モジュールと、を備える。
図2を参照し、自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムの機能プロセスであって、下記のステップS1~ステップS5を含む。
ステップS1において、データ収集モジュールによって慢性腎症診療記録における構造化データを収集してデータセットを構築し、前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び/又は服薬データを含み、
ステップS2において、データ抽出及び前処理モジュールによって前記データセットを前処理して受診セット及びエンティティセットを取得し、これは具体的に、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの2種類に分け、異常の検査項の名称、異常のカテゴリを保持することと、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持することと、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の6種類の薬物の使用のみに関心を持ち、服薬データにおける6種類の薬物を分類し、薬物のカテゴリを保持することと、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成することと、を含む。
ステップS3において、前記受診セット及びエンティティセットを慢性腎症亜型マイニングモジュールに入力し、前記慢性腎症亜型マイニングモジュールによって慢性腎症亜型マイニングモデルを構築し、
ステップS31において、前記受診セット及び前記エンティティセットによって受診ネットワークを構築し、
ステップS311において、前記受診セットと前記エンティティセットとでノードセットを構成し、
ステップS312において、前記ノードセットにおけるノード共起関係によってエッジセットを構築し、
ステップS313において、前記ノードセット及び前記エッジセットによって受診ネットワークを構築する。
ステップS32において、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成し、
ステップS321において、前記エンティティセットによってエンティティ共起行列を構築し、
ステップS322において、前記エンティティ共起行列に基づいてGloVeアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得し、
ステップS323において、すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成する。
ステップS33において、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練し、
ステップS331において、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得し、
ステップS332において、前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算し、
ステップS333において、前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算し、
ステップS334において、前記受診ノードの埋め込み表現に対してsoftmax回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算し、
ステップS335において、前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築する。
ステップS34において、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築する。
ステップS341において、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列し、
ステップS342において、同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築し、
ステップS343において、頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第1列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第1列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得する。
ステップS4において、慢性腎症表現型亜型評価モジュールによって前記慢性腎症亜型マイニングモデルを評価し、
ステップS5において、慢性腎症亜型予測モジュールによって患者の構造化データを予測し、
ステップS51において、患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得し、
ステップS52において、前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築し、
ステップS53において、前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして1つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断する。
実施例
自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、データ収集モジュール、データ抽出及び前処理モジュール、慢性腎症亜型マイニングモジュール、受診ネットワーク構築ユニット、埋め込み表現構築ユニット、クラスタリングネットワーク構築ユニット、慢性腎症亜型マイニングモデル構築ユニット、慢性腎症表現型亜型評価モジュール、並びに慢性腎症亜型予測モジュールを備える。
データ収集モジュールは、慢性腎症診療記録における構造化データを収集してデータセットを構築するためのものであり、前記構造化データが患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び/又は服薬データを含み、
データ抽出及び前処理モジュールは、前記構造化データに対して抽出及び前処理を行って、受診セット及びエンティティセットを取得するためのものであり、具体的には、前記データセットを前処理し、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの2種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイド等の6種類の薬物の使用のみに関心を持ち、服薬データにおける6種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成するためのものである。
慢性腎症亜型マイニングモジュールは、前記受診セット及びエンティティセットを慢性腎症亜型マイニングモジュールに入力し、前記慢性腎症亜型マイニングモジュールによって慢性腎症亜型マイニングモデルを構築するためのものであり、
受診ネットワーク構築ユニットは、前記受診セット及び前記エンティティセットによって受診ネットワークを構築するためのものであり、
前記受診セットと前記エンティティセットとでノードセットを構成するためのものであり、
受診セットが
Figure 2024027086000002
であり、ここで、Nが受診数を示す。D、M、P、Lがそれぞれ診断セット、服薬セット、手術セット、試験セットであり、
Figure 2024027086000003

Figure 2024027086000004

Figure 2024027086000005

Figure 2024027086000006
であり、ここで、N、N、N、Nがそれぞれ診断種類の数、服薬種類の数、手術種類の数、試験種類の数を示す。D、M、P、Lがエンティティセット
Figure 2024027086000007
を構成し、エンティティセット種類の数がN=N+N+N+Nである。
エンティティセットが受診セットとともにノードセット
Figure 2024027086000008
を構成し、ノードの個数がN=N+N=N+N+N+N+Nであり、
前記ノードセットにおけるノード共起関係によってエッジセットを構築するためのものであり、
同一回の受診(V)に現れるエンティティをエンティティサブセット
Figure 2024027086000009
に構成し、jがエンティティサブセットS(V)におけるエンティティの数を示し、
Figure 2024027086000010
である。各エンティティサブセットがその対応する受診とともに1つの受診リンクサブセット
Figure 2024027086000011
を構成する。1つの前記受診リンクサブセットには1つの受診ノード及び今回の受診におけるすべてのエンティティノードが含まれており、1つの前記受診リンクサブセットにおけるすべてのノードに共起関係があり、ノードが2つずつ接続してエッジサブセットを構成し、すべての前記エッジサブセットがエッジセットを構成し、前記エッジセットが
Figure 2024027086000012
であり、
前記ノードセット及び前記エッジセットによって受診ネットワークG=(N,E)を構築するためのものである。
図3を参照し、受診Vにおいて、医者は甲状腺腫(D)、甲状腺結節(D)の2種類の診断を下して、甲状腺部分切除術(P)を行ってレボチロキシンナトリウム錠剤(M)の薬を出す。そうすると、
Figure 2024027086000013
が1つの受診リンクサブセットを構成し、受診ネットワークにおいてこの5つのノードが2つずつ接続している。受診Vにおいて、医者はTSH測定(L)を行ってから甲状腺機能低下症(D)の診断を下してレボチロキシンナトリウム錠剤(M)の薬を出す。そうすると、
Figure 2024027086000014
も1つの受診リンクサブセットであり、受診ネットワークにおいてこの4つのノードが2つずつ接続している。MがC(V)及びC(V)に同時に現れるため、受診ネットワークにおいてMがこの2つの受診リンクサブセットにおける他のノードにいずれも接続している。
埋め込み表現構築ユニットは、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成するためのものであり、
前記エンティティセットによってエンティティ共起行列を構築するためのものであり、
エンティティセットSによってエンティティ共起行列Xを構築し、図4を参照し、エンティティ共起行列Xの次元がN×Nであり、各行と各列がいずれもエンティティセットSにおける1つのエンティティを代表し、XijがエンティティS及びエンティティSの共起情報を示す。Xijの計算公式は、
Figure 2024027086000015
Figure 2024027086000016
であり、
エンティティSとエンティティSが受診Vにおいて同時に現れる場合、
Figure 2024027086000017
が1に等しく、そうではない場合、0と記す。ここで、S(V)が受診Vにおいて現れるすべてのエンティティで構成される1つのエンティティサブセットである。エンティティ共起行列Xが対称であり、XijとXjiが等しく、対角線上にあるものが同じエンティティの共起情報であり、0と記す。
前記エンティティ共起行列に基づいてGloVeアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得するためのものであり、
エンティティノードの初期埋め込み表現とエンティティ共起行列との関係は、
Figure 2024027086000018
と示され、
ここで、wとwがそれぞれ最終的に求める必要のあるエンティティS及びエンティティSのエンティティノードの初期埋め込み表現であり、128次元で-0.1~0.1間の値を取るランダムベクトルにランダムに初期化し、上付き文字Tが転置操作であり、bとbがそれぞれ2つのエンティティノードの初期埋め込み表現のバイアス項であり、それらの初期値が0である。
エンティティ共起行列とエンティティノードの初期埋め込み表現との関係に基づいて目標関数Jを構築し、
Figure 2024027086000019
Figure 2024027086000020
であり、
ここで、MAXが共起情報の閾値であり、αが指数パラメータである。
2つのエンティティノードが同時に現れることがなく、即ちXij=0の場合、それらが目標関数の計算に参加しない。収束するまでAdaDelta勾配降下アルゴリズムによって前記目標関数を最適化し、前記エンティティセットにおける各エンティティ
Figure 2024027086000021
に対応するエンティティノードの初期埋め込み表現
Figure 2024027086000022
を取得し、
すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成するためのものであり、
受診ノードVについては、そのすべての隣接するエンティティノードのセットが
Figure 2024027086000023
であり、Vノードの初期埋め込み表現は、
Figure 2024027086000024
であり、
ここで、jがS(V)におけるエンティティノードの数である。
ノードの初期埋め込み表現
Figure 2024027086000025
であり、Bが受診ノードの初期埋め込み表現であり、Bがエンティティノードの初期埋め込み表現である。
クラスタリングネットワーク構築ユニットは、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練するためのものであり、図5を参照し、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルはグラフ注意、オートエンコーダ及び自己監督の3つの部分で構成される。
前記受診ネットワークにおけるノード間の関係によって隣接行列Aを構築し、前記隣接行列A及び前記ノードの初期埋め込み表現Bを前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練をL回行うためのものであり、第l層のノードの埋め込み表現がZであり、計算方式は、
Figure 2024027086000026
であり、
ここで、
Figure 2024027086000027
がrelu活性化関数であり、Wが第l層のグラフ注意重みである。
Figure 2024027086000028
であり、Aが正規化された隣接行列であり、Iが単位行列であり、
Figure 2024027086000029
である。L層のグラフ注意訓練を行った後、ノードの埋め込み表現Zを取得する。Zはノードの初期埋め込み表現Bと同様に、更新後の受診ノードの埋め込み表現Z とエンティティノードの埋め込み表現Z とで構成され、
Figure 2024027086000030
である。
前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算するためのものであり、
再構築後の隣接行列
Figure 2024027086000031
は、
Figure 2024027086000032
であり、
ここで、(ZがZの転置行列であり、
Figure 2024027086000033
がsigmoid活性化関数である。
受診ネットワークの再構築誤差Lrec-Gを計算し、
Figure 2024027086000034
であり、
ここで、
Figure 2024027086000035
である。
エンティティノードの埋め込み表現Z をY層ニューラルネットワークのデコーダに入力して訓練するためのものであり、ノードの第y層のデコーダにおける表現がHであり、下記計算公式によって取得されたのであり、
Figure 2024027086000036
であり、
ここで、W が第y層のデコーダネットワーク重みであり、b が偏差であり、デコーダの入力がH=Z である。デコーダの最終層の出力をエンティティノードの再構築埋め込み表現
Figure 2024027086000037
としてエンティティノードの再構築誤差Lrec-Sを計算し、
Figure 2024027086000038
であり、
受診ノードの埋め込み表現Z に対してsoftmax回帰動作を行って、受診ノードの確率分布を取得するためのものであり、
Figure 2024027086000039
であり、
ここで、Z の次元がN×Kであり、Kがデフォルトのクラスタリングセンター数即ち受診ノードカテゴリ数であり、経験によって3、5、10を試して結果がより良いカテゴリ数を選択する。
Figure 2024027086000040
はi番目のサンプルがjカテゴリに属する確率を示す。
前記受診ノードの確率分布に基づいてクラスタリング損失を計算し、
i番目の受診サンプル及びj番目のクラスタに対して、学生t分布によってデータ表現zとクラスタリングセンターμとの類似度を判断する。zがZ の第i行であり、μが受診ノードの確率分布Z に基づいてK-means方法で初期化されたクラスタリングセンターであり、vが学生t分布の自由度であり、qijの計算公式は、
Figure 2024027086000041
であり、
ここで、qijはi番目のサンプルがj番目のクラスタに属する確率である。
Figure 2024027086000042
をすべてのサンプルクラスタリング分布のセットとして設定する。クラスタリング分布Qを取得した後、目標分布Pを計算し、目標分布Pは一層高い信頼度のサンプル割り当てを有し、従って、Pに基づいてデータ分布を最適化してデータをクラスタリングセンターに更に近づけさせることができる。PとQの次元がN×Kである。目標分布Pにおける各要素pijの計算公式は、
Figure 2024027086000043
であり、
ここで、
Figure 2024027086000044
である。目標分布Pにおいて、Qにおける各分布がいずれも二乗されるため、Pは一層高い信頼度を有する。クラスタリング損失の計算公式は、
Figure 2024027086000045
であり、
受診ネットワークの再構築誤差Lrec-G、エンティティノードの再構築誤差Lrec-S及びクラスタリング損失Lcluに基づいて、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築するためのものである。前記全体損失関数は、
Figure 2024027086000046
であり、
ここで、γ、βが異なる損失項の重要性を調整するハイパーパラメータであり、0.1としてデフォルト設定される。
慢性腎症亜型マイニングモデル構築ユニットは、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築するためのものである。
前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布Qを受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択するためのものであり、受診ノード
Figure 2024027086000047
に対応するカテゴリタグが
Figure 2024027086000048
である。単回受診の場合の1番目の医療記録の記録時間を受診ノードの開始時間とし、最後の医療記録の記録時間を受診ノードの終了時間とし、各患者のすべての受診ノードを時間順序で配列する。
同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築するためのものであり、
同じカテゴリタグを有する2つの連続受診ノードV、Vに対して、V、Vカテゴリ分布間のコサイン類似度を計算し、
Figure 2024027086000049
であり、
ここで、
Figure 2024027086000050
がイベントV、Vのカテゴリ分布である。
コサイン類似度が0.8よりも大きな前後2つの受診ノードを1つの受診ノードにマージし、マージ後の受診ノードカテゴリ分布が
Figure 2024027086000051
であり、そうではない場合に2つの受診ノードを別個に保持する。同じカテゴリタグを有する複数の連続受診ノードの場合、配列順序で前から後まで2つごとにコサイン類似度の判断を行って、マージ又は別個に保持することを決定する。
最終的に各患者の受診ノードをイベントベクトル
Figure 2024027086000052
に配列し、kが受診ノードの一番多い患者のノード数であり、ノード数がk未満の患者の場合に0でイベントベクトルを充填する。すべての患者のイベントベクトルをイベント行列Hに組み合わせ、前記イベント行列Hは、
Figure 2024027086000053
であり、
ここで、Hの次元がn×kであり、nが患者の総数である。
頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第1列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第1列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得するためのものである。
慢性腎症表現型亜型評価モジュールは、前記慢性腎症亜型マイニングモデルを評価し、
異なる表現型亜型患者の差異を比較し、マイニングされた異なる亜型特徴に統計学的差異があるかどうかを試験することにより、表現型亜型マイニング方法で取得された疾病亜型が臨床的意味を有するかどうかを評価するためのものである。具体的な評価スキームは以下のとおりである。
異なる表現型亜型患者の性別、年齢、糸球体濾過率などの指標を計算して、統計的試験方法によって異なる表現型亜型患者の臨床症状に差異があるかどうかを判断する。
異なる亜型患者の遺伝子組み換えヒトエリスロポエチン、メトホルミン、カンデサルタン、プラバスタチン使用量などの重要な服薬データに差異があるかどうかを統計して、統計的試験方法によって分析する。
心臓衰弱、冠状動脈性心臓病、高血圧、糖尿病、高脂血症を含む各種類の亜型患者の様々な併発症の発病人数を統計し、各併発症の割合を計算し、異なる亜型における併発症の割合に差異があるかどうかを試験する。
各亜型総人数及び異なる時点での生存人数を統計し、異なる亜型患者の生存率を比較する。異なる亜型患者が時間の変化につれて変化する生存率の差異を観察し、Log-rank試験によって分析する。
異なる亜型の患者グループの50%以上の特徴に顕著な差異がある場合には、マイニングされた亜型がより良い臨床使用価値を有すると説明される。
慢性腎症亜型予測モジュールは、患者の構造化データを予測するためのものであり、
患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得するためのものであり、
前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築するためのものであり、
前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして1つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断するためのものである。
本発明は自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを提供し、グラフ注意訓練にはノードの埋め込み表現の再構築のためのデコーダを追加し、クラスタリングモデルの訓練のための自己監督損失を追加し、自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルは低階層・細粒度の慢性腎症患者情報を高階層・粗粒度の総括的な情報に集めて診療過程のマイニングに用い、過程マイニングによって縦方向の電子カルテデータにおける単回受診内イベント情報及び複数回受診間イベント情報などの多粒度情報が共存することを処理できない問題を解決し、自己監督グラフクラスタリング方法に基づいて患者の単回受診内の多次元診療情報及び複数回受診間のシーケンス情報を十分に統合するとともに、横断面及び縦方向の2つの次元から電子カルテデータに対して十分な特徴マイニングを行い、受診ノードのイベントタグ分布類似度に基づいて類似する隣接イベントをマージし、過程マイニング方法を最適化し、マイニングされた診療プロセスを簡素化して、診療プロセスの代表性及びカバー率を向上させる。
以上の説明は本発明の好適な実施例に過ぎず、本発明を制限するためのものではなく、当業者であれば、本発明に対して種々の変更や変化を行うことができる。本発明の主旨及び原則内に行われるいかなる修正、等価置換、改良などは、いずれも本発明の保護範囲内に含まれるべきである。

Claims (7)

  1. 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステムであって、データ収集モジュール、データ抽出及び前処理モジュール、慢性腎症亜型マイニングモジュール、慢性腎症表現型亜型評価モジュール及び慢性腎症亜型予測モジュールを含み、
    前記データ収集モジュールは、慢性腎症診療記録における構造化データを収集することに用いられ、
    前記慢性腎症亜型マイニングモジュールは、前記構造化データに対して抽出及び前処理を行って、エンティティセット及び受診セットを取得することに用いられ、
    前記慢性腎症亜型マイニングモジュールは、前記エンティティセット及び前記受診セットによって慢性腎症亜型マイニングモデルを構築することに用いられ、
    前記慢性腎症表現型亜型評価モジュールは、前記慢性腎症亜型マイニングモデルを評価することに用いられ、
    前記慢性腎症亜型予測モジュールは、患者の構造化データを予測することに用いられ、
    前記慢性腎症亜型マイニングモジュールは具体的に、受診ネットワーク構築ユニット、埋め込み表現構築ユニット、クラスタリングネットワーク構築ユニット及び慢性腎症亜型マイニングモデル構築ユニットを含み、
    前記受診ネットワーク構築ユニットは、前記受診セット及び前記エンティティセットによって受診ネットワークを構築することに用いられ、
    前記埋め込み表現構築ユニットは、前記エンティティセットによってエンティティ共起行列を構築し、前記エンティティ共起行列によってエンティティノードの初期埋め込み表現及び受診ノードの初期埋め込み表現を取得し、前記エンティティノードの初期埋め込み表現と前記受診ノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられ、
    前記クラスタリングネットワーク構築ユニットは、前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現によって自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルを訓練することに用いられ、
    前記慢性腎症亜型マイニングモデル構築ユニットは、前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルによって慢性腎症亜型マイニングモデルを構築することに用いられ、
    前記慢性腎症亜型マイニングモデル構築ユニットは具体的に、
    前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルが取得した受診ノードのクラスタリング分布を受診ノードのカテゴリ分布とし、前記カテゴリ分布における確率が一番高いカテゴリを受診ノードのカテゴリタグとして選択し、各患者のすべての受診ノードを時間順序で配列することに用いられることと、
    同じカテゴリタグを有する連続受診ノードのカテゴリ分布間のコサイン類似度を計算することにより受診ノードをマージ又は別個に保持することを決定し、前記受診ノードを配列することによりイベント行列を構築することに用いられることと、
    頻出イベント決定ノードを検索して、順に受診ノードを接続してイベントプロセスを構成し、前記イベント行列の第1列から各列におけるイベント発生頻度が閾値よりも大きなイベントを頻出イベントとして選択し、頻出イベントをイベントプロセスにおけるノードとし、残りのイベントが直接に終了ノードに入り、頻出イベントにおける各イベントを次回検索する開始ノードとして、対応するイベントベクトルを抽出して新たなイベント行列に組み合わせ、第1列を除去した後に同様の頻出イベントの検索操作を行い、各回検索して取得したノードを開始ノードに接続することによりイベントプロセスを延長し、頻出イベントがヌルになり又はイベントプロセスの長さがイベントプロセスの最大長さになるまで、繰り返しを終了して慢性腎症亜型マイニングモデルを取得することに用いられることと、を含む
    ことを特徴とする自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  2. 前記構造化データは患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術及び/又は服薬データを含む
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  3. 前記データ抽出及び前処理モジュールは具体的に、前記構造化データを前処理して、患者の基本情報、受診記録、観察窓期間の診断、実験室による検査、医学的検査、手術データ、服薬データを含む、電子カルテシステムにおける前記慢性腎症診療記録における構造化データを抽出し、抽出された前記構造化データを前処理し、実験室による検査データについては、正常な参照範囲に準じて、異常の検査項のみに関心を持ち、異常の検査項結果を低過ぎ及び高過ぎの2種類に分け、異常の検査項の名称、異常のカテゴリを保持し、医学的検査及び手術データを簡単な自然言語処理技術にて処理し、検査部位及びカテゴリ、手術の名称を保持し、服薬データについては、抗高血糖薬、降圧薬、脂質調節薬、非ステロイド性抗炎症薬、抗血小板凝集薬、ステロイドの6種類の薬物の使用のみに関心を持ち、服薬データにおける6種類の薬物を分類し、薬物のカテゴリを保持し、診断セット、服薬セット、手術セット、試験セット、診断種類の数、服薬種類の数、手術種類の数、試験種類の数及び受診記録の数を取得し、前記診断セット、服薬セット、手術セット及び試験セットをマージしてエンティティセットに構成し、患者の受診記録を受診セットとして構成することに用いられる
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  4. 前記受診ネットワーク構築ユニットは具体的に、
    前記受診セットと前記エンティティセットとでノードセットを構成することに用いられることと、
    前記ノードセットにおけるノード共起関係によってエッジセットを構築することに用いられることと、
    前記ノードセット及び前記エッジセットによって受診ネットワークを構築することに用いられることと、を含む
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  5. 前記埋め込み表現構築ユニットは具体的に、
    前記エンティティセットによってエンティティ共起行列を構築することに用いられることと、
    前記エンティティ共起行列に基づいてGloVeアルゴリズムによって各エンティティノードの初期埋め込み表現を計算して取得することに用いられることと、
    すべての隣接するエンティティノードのエンティティノードの初期埋め込み表現の平均値を計算することにより受診ノードの初期埋め込み表現を取得し、前記受診ノードの初期埋め込み表現と前記エンティティノードの初期埋め込み表現とでノードの初期埋め込み表現を構成することに用いられることと、を含む
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  6. 前記クラスタリングネットワーク構築ユニットは具体的に、
    前記受診ネットワークにおけるノード間の関係によって隣接行列を構築し、前記隣接行列及び前記ノードの初期埋め込み表現を前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力してグラフ注意訓練を行って、受診ノードの埋め込み表現及びエンティティノードの埋め込み表現を含むノードの埋め込み表現を取得することに用いられることと、
    前記ノードの埋め込み表現によって前記受診ネットワークを再構築して、受診ネットワークの再構築誤差を計算することに用いられることと、
    前記エンティティノードの埋め込み表現をニューラルネットワークのデコーダに入力して訓練し、デコーダの最終層の出力をエンティティノードの再構築埋め込み表現としてエンティティノードの再構築誤差を計算することに用いられることと、
    前記受診ノードの埋め込み表現に対してsoftmax回帰動作を行って、受診ノードの確率分布を取得し、前記受診ノードの確率分布に基づいてクラスタリング損失を計算することに用いられることと、
    前記受診ネットワークの再構築誤差、前記エンティティノードの再構築誤差及び前記クラスタリング損失に基づいて前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルの全体損失関数を構築することに用いられることと、を含む
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
  7. 前記慢性腎症亜型予測モジュールは具体的に、
    患者の構造化データを前処理してから前記自己監督グラフクラスタリングに基づく受診ノードのクラスタリングネットワークモデルに入力して予測して、該患者の受診ノードの確率分布を取得することに用いられることと、
    前記受診ノードの確率分布によって受診ノードのクラスタリングカテゴリを判断し、受診イベントシーケンスを構築することに用いられることと、
    前記受診イベントシーケンスを前記慢性腎症亜型マイニングモデルに入力して、前記慢性腎症亜型マイニングモデルにおけるノードを順次フィッティングして1つのイベントプロセスを取得し、イベントプロセスによってどの慢性腎症亜型に属するかを判断することに用いられることと、を含む
    ことを特徴とする請求項1に記載の自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム。
JP2023092731A 2022-08-16 2023-06-05 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム Active JP7404581B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210980822.5 2022-08-16
CN202210980822.5A CN115083616B (zh) 2022-08-16 2022-08-16 一种基于自监督图聚类的慢性肾病亚型挖掘系统

Publications (2)

Publication Number Publication Date
JP7404581B1 JP7404581B1 (ja) 2023-12-25
JP2024027086A true JP2024027086A (ja) 2024-02-29

Family

ID=83244725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023092731A Active JP7404581B1 (ja) 2022-08-16 2023-06-05 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム

Country Status (2)

Country Link
JP (1) JP7404581B1 (ja)
CN (1) CN115083616B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364299B (zh) * 2023-03-30 2024-02-13 之江实验室 一种基于异构信息网络的疾病诊疗路径聚类方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417271B (zh) * 2018-01-11 2021-11-19 复旦大学 基于精神障碍亚型分类的精神抑制药物推荐方法与系统
CN108231201B (zh) * 2018-01-25 2020-12-18 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用方法
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN109920547A (zh) 2019-03-05 2019-06-21 北京工业大学 一种基于电子病历数据挖掘的糖尿病预测模型构建方法
WO2021096932A1 (en) * 2019-11-13 2021-05-20 Memorial Sloan Kettering Cancer Center Classifier models to predict tissue of origin from targeted tumor dna sequencing
CN114864107A (zh) * 2021-02-03 2022-08-05 阿里巴巴集团控股有限公司 一种临床路径变异分析方法、设备及存储介质
CN112992370B (zh) * 2021-05-06 2021-07-30 四川大学华西医院 一种无监督的基于电子病历的医疗行为合规性评估方法
CN113161001B (zh) * 2021-05-12 2023-11-17 东北大学 一种基于改进lda的过程路径挖掘方法
CN114093445B (zh) * 2021-11-18 2024-05-28 芽米科技(广州)有限公司 一种基于偏多标记学习的患者筛选标记方法
CN114242194A (zh) * 2021-12-07 2022-03-25 深圳市云影医疗科技有限公司 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法
CN114049966B (zh) * 2022-01-12 2022-04-08 中国科学院计算机网络信息中心 一种基于链接预测的食源性疾病暴发识别方法和系统
CN114664463A (zh) * 2022-03-18 2022-06-24 中南大学湘雅医院 一种全科医生诊疗辅助系统
CN114639483A (zh) * 2022-03-23 2022-06-17 浙江大学 一种基于图神经网络的电子病历检索方法及装置

Also Published As

Publication number Publication date
CN115083616A (zh) 2022-09-20
JP7404581B1 (ja) 2023-12-25
CN115083616B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN107785057B (zh) 医疗数据处理方法、装置、存储介质和计算机设备
CN106778042A (zh) 心脑血管患者相似性分析方法及系统
Abd-Elrazek et al. Predicting length of stay in hospitals intensive care unit using general admission features
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及系统
JP7404581B1 (ja) 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム
Mounika et al. Prediction of type-2 diabetes using machine learning algorithms
Shamsollahi et al. Using combined descriptive and predictive methods of data mining for coronary artery disease prediction: a case study approach
Pal et al. Data mining approach for coronary artery disease screening
Pillai et al. Prediction of heart disease using rnn algorithm
Shirazi et al. Deep learning in the healthcare industry: theory and applications
Sahoo et al. Heart failure prediction using machine learning techniques
Chou et al. Extracting drug utilization knowledge using self-organizing map and rough set theory
Sharma et al. Mortality Prediction of ICU patients using Machine Leaning: A survey
Samet et al. Predicting and staging chronic kidney disease using optimized random forest algorithm
Andry et al. Electronic health record to predict a heart attack used data mining with Naïve Bayes method
Sudharson et al. Performance analysis of enhanced adaboost framework in multifacet medical dataset
Toma et al. Discovery and integration of univariate patterns from daily individual organ-failure scores for intensive care mortality prediction
Thelagathoti et al. A data-driven approach for the analysis of behavioral disorders with a focus on classification and severity estimation
Tolentino et al. CAREdio: Health screening and heart disease prediction system for rural communities in the Philippines
Gulhane et al. Machine Learning Approach for Early Disease Prediction and Risk Analysis
Almutairi An Optimized Feature Selection and Hyperparameter Tuning Framework for Automated Heart Disease Diagnosis.
Javeed et al. Breaking barriers: a statistical and machine learning-based hybrid system for predicting dementia
AU2021102832A4 (en) System & method for automatic health prediction using fuzzy based machine learning
Padmaja et al. Diabetes Prediction using Machine learning
Tomović Patient length of stay analysis with machine learning algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230605

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231213

R150 Certificate of patent or registration of utility model

Ref document number: 7404581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150