JP2023547562A

JP2023547562A - 多中心医学診断知識グラフ表示学習方法及びシステム

Info

Publication number: JP2023547562A
Application number: JP2023535611A
Authority: JP
Inventors: ▲勁▼松李; ▲勝▼▲強▼ 池; 雨田; 天舒周
Original assignee: 之江実験室
Priority date: 2021-08-27
Filing date: 2022-08-25
Publication date: 2023-11-10
Anticipated expiration: 2042-08-25
Also published as: WO2023025255A1; CN113434626B; JP7433541B2; CN113434626A

Abstract

【課題】本発明は多中心医学診断知識グラフ表示学習方法及びシステムを提供する。【解決手段】本発明は、既存の医学診断本体に基づき、有向非巡回グラフの形式で医学診断概念の階層構造を表現し、グローバル医学診断知識グラフを構築することと、グローバル医学診断知識グラフを利用して、全ての疾患分類コードの共起マトリックスを構築し、各ペアのコードの共起情報を算出し、同時に出現するコードペアが多く、距離が近いほど、共起情報が大きくなることと、連合学習に基づき、各医療機構参加者のデータプライバシーと安全を保護する前提で、多中心データを利用し、共起情報を加算し、データ密度を高め、データの希薄性の問題を解決することと、大規模な知識グラフ及び原データを学習する過程において、知識源における人間の認知に適切する階層情報と複雑な関連関係を統合し、データ間の相関関係をマイニングし、意味情報を豊かにし、知識の高品質表現形態を学習し、知識の算出と推理を容易にすることと、を含む。【選択図】図１

Description

本発明は、医療情報技術分野に属し、特に多中心医学診断知識グラフ表示学習方法及びシステムに属する。

知識グラフは、構造化の形式で客観世界における概念、エンティティ及びそれらの関係を記述し、情報を人間の認知世界により近い形式で表現し、情報をより適切に整理、管理及び理解する能力を提供し、知識のマイニング、分析、知識間の相互関係の構築、描写及び表示に使用できる。表示学習は、研究対象の意味情報を密な低次元のエンティティベクトルとして表示することを目的とする。知識グラフ表示学習は、主に知識グラフにおけるエンティティ及び関係を表示学習し、大規模な知識グラフ及び原データの学習と訓練により、知識の低次元の密な空間での分布ベクトル表示を取得することができ、エンティティと関係の意味情報を表示し、知識の算出と推理を容易にする。

医学本体を利用して階層化臨床構造と医学概念との間の関係をエンコードし、大量のデータに対する需要を減少することができ、情報を失うことなく検索空間を効果的に減少する。幸いなことに、医療保健分野には多くの組織の良好な本体があり、例えば、国際疾患分類（ＩＣＤ）、臨床分類ソフトウェア（ＣＣＳ）または医学臨床用語システム化命名（ＳＮＯＭＥＤ）がある。医学本体において、互いに近いノード（すなわち、医学概念）は、類似する患者に関連する可能性が高く、これにより、我々はそれらの間で知識を伝達することができる。データ量がディープ学習モデルを訓練するのに不十分である場合、医学本体を使用することは有用である可能性がある。さらにデータ量が十分である場合、情報を損失しない前提で、モデルを簡略化する方法として、学習により本体構造に適合するより多くの解釈可能な表現が得られる。

医療知識グラフ構造情報に基づく知識表示学習モデルは、複雑な関係モデリングとデータの希薄性による意味表現能力低下などの問題を解決できない。既存の研究作業は、知識グラフ自体構造以外の大量のテキスト情報を利用し、知識グラフ構造情報を拡張してデータの希薄性による影響を低減する。従来方法は、データに固有の構造及び相関情報を無視している。また、プライバシー保護及びデータ安全の前提でデータ量を拡張し、知識表示学習に使用する方法が欠いている。

本発明は、従来技術の欠点に対して、多中心医学診断知識グラフ表示学習方法及びシステムを提出し、各医療機構参加者のデータプライバシーと安全を保護する前提で、多中心データを利用し、データ密度を高め、また、大規模な知識グラフ及び原データを学習する過程において、知識源における人間の認知に適合する階層情報と複雑な関連関係を統合し、データ間の相関関係をマイニングし、意味情報を豊かにし、これにより、データの希薄性による意味表現能力低下の問題を解決する。

本発明の目的は、以下の技術的解決手段により実現される。

本発明の一様態は、多中心医学診断知識グラフ表示学習方法を開示しており、当該方法は、連合学習と同型暗号化に基づき、多中心データを利用し、階層情報と複雑な関連関係を組み合わせて、構造情報の知識表示学習を実現し、具体的に、ステップ１～ステップ５を含み、
前記ステップ１では、第１のサーバがグローバル医学診断知識グラフを構築し、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの２つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記ステップ２では、第１のサーバが構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記ステップ３では、各医療機構参加者の内部で疾患診断共起情報統計を行うステップであって、具体的には、
ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計で｜Ｃ｜種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、

として記し、総計でＴ回診療し、毎回診療する疾患分類コードセットをＶ_ｔとして記し、Ｖ_ｔにおける各疾患分類コードの上層疾患分類コードをＶ_ｔに加入し、強化疾患分類コードセットを取得してＶ_ｔ’として記し、Ｖ_ｔ’におけるコードの任意の２つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

）ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスＭを構築し、共起マトリックスＭの第ｉ行の第ｊ列の元素Ｍ_ｉｊが２つのコード

と

の共起情報

を表現し、ｐが当該医療機構参加者における患者総数を表現し、ｍ^ｐ _ｉｊが２つのコード

と

の患者ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表すこととを含み、
前記ステップ４では、データ暗号化算出であって、第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードすることと、第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信することと、第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信することと、を含み、
前記ステップ５では、知識表示学習であって、第１のサーバにおいて、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、以下の目標関数Ｊを作成し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれコード

と

の表現ベクトルであり、ｂ_ｉとｂ_ｊがそれぞれ２つの表現ベクトルのバイアス項であり、Ｘ_ｉｊがグローバル共起マトリックスにおけるコード

と

の共起情報を表現し、ｆが重み関数であることと、
収束するまで目標関数を最適化し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得することとを含む。

さらに、前記第１のサーバ及び第２のサーバがいずれも第３者のサーバであり、第３者のサーバが正直である必要があり、第３者のサーバの間は相互に通信することができ、各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されず、各医療機構参加者の間は相互通信を直接的に行うことができず、第３者のサーバと通信しかできない。

さらに、グローバル医学診断知識グラフを構築する過程において、使用される医学診断本体がＩＣＤ、ＣＣＳ、ＳＮＯＭＥＤを含む。

さらに、構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が１つの疾患の階層構造情報を記録する。

さらに、強化疾患分類コードセットＶ_ｔ’の構築は具体的に、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードをＶ_ｔに繰り返して加入する必要がある。

さらに、前記ステップ３において、あるコードペアにおける２つのコードｃ_ｉ、ｃ_ｊについて、コードペアの共起情報算出式が下記の通りであり、

ここで、

がＶ_ｔ’にｃ_ｉの出現する回数であり、

がＶ_ｔ’にｃ_ｊの出現する回数であり、ｄ_ｉｊが２つのコードｃ_ｉ、ｃ_ｊ間の距離であり、

がコードペアの共起情報である。

さらに、前記ステップ３において、ｍ^ｐ _ｉｊの算出は具体的に、２つのコード

と

が患者ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’に同時に出現した場合、当該患者のこの回のＶ_ｔ’においてコードｃ_ｉがコード

に等しいことを見つけ、コードｃ_ｊがコード

に等しいことを見つけることができ、ｍ^ｐ _ｉｊが

に等しく、そうでない場合、ｍ^ｐ _ｉｊが０に等しい。

さらに、前記ステップ４は具体的に、
Ｋ個の医療機構参加者のＫ個の共起マトリックスを

として記し、任意の２つのコード

と

の共起情報を

として記することと、
第２のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムＥＮＣ、復号化アルゴリズムＤＥＣ、暗号化キーＫＥＹ_Ｅ及び復号化キーＫＥＹ_Ｄを取得し、暗号化アルゴリズムＥＮＣ及び暗号化キーＫＥＹ_Ｅを各医療機構参加者に送信することと、
安全加法重合を実現する過程において、任意の２つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、

として記し、そして暗号文を第１のサーバに送信することと、
第１のサーバが直接に暗号文を操作することと、加法同型性によれば、暗号文の積を算出するだけでよく、２つのコード

と

の暗号化後の共起情報ＥｎｃＸ_ｉｊ式が下記の通りであり、

医学診断知識グラフにおける任意の２つの疾患分類コードについて、いずれも暗号文状態における２つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスＥｎｃＸを取得することと、
第１のサーバがＥｎｃＸを第２のサーバに送信し、第２のサーバが復号化を取得してグローバル共起マトリックスＸ、すなわち、

を取得して、第１のサーバに返信することと、を含む。

さらに、前記ステップ５において、ｆが以下のセグメント関数を採用し、

ここで、ＭＡＸとαがいずれもハイパーパラメータであり、実験結果に応じて最適な値を設定し、共起情報がＭＡＸを超えた後、ｆ（Ｘ_ｉｊ）が１である一定のレベルを維持する。

本発明の別の様態は、多中心医学診断知識グラフ表示学習システムを開示しており、当該システムは、グローバル医学診断知識グラフ構築モジュール、医学診断知識グラフ配信モジュール、疾患診断共起情報統計モジュール、データ暗号化算出モジュール及び知識表示学習モジュールを含み、
前記グローバル医学診断知識グラフ構築モジュールは、第１のサーバ上でグローバル医学診断知識グラフを構築することに用いられ、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの２つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記医学診断知識グラフ配信モジュールは、第１のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記疾患診断共起情報統計モジュールは、各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計でＴ回診療し、毎回診療する疾患分類コードセットをＶ_ｔとして記し、Ｖ_ｔにおける各疾患分類コードの上層疾患分類コードをＶ_ｔに加入し、強化疾患分類コードセットを取得してＶ_ｔ’として記することと、Ｖ_ｔ’におけるコードの任意の２つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

と

の共起情報

と

の患者Ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表すこととに使用され、
前記データ暗号化算出モジュールは、第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードすることと、第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信することと、第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信することとに使用され、
前記知識表示学習モジュールは、第１のサーバに配備され、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、以下の目標関数Ｊを作成し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれコード

と

の共起情報を表現し、ｆが重み関数であることと、
収束するまで目標関数を最適化し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得することとにに使用される。

本発明の有益な効果としては、
１．既存の医学診断本体（ＩＣＤ、ＣＣＳ、ＳＮＯＭＥＤ等）に基づき、有向非巡回グラフの形式で医学診断概念の階層構造を表現し、グローバル医学診断知識グラフを構築する。グローバル医学診断知識グラフを利用して、全ての疾患分類コードの共起マトリックスを構築し、各ペアのコードの共起情報を算出し、同時に出現するコードペアが多く、距離が近いほど、共起情報が大きくなる。
２．連合学習に基づき、各医療機構参加者のデータプライバシーと安全を保護する前提で、多中心データを利用し、共起情報を加算し、データ密度を高め、データ希薄性の問題を解決する。
３．大規模な知識グラフ及び原データを学習する過程において、知識源における人間の認知に適切する階層情報と複雑な関連関係を統合し、データ間の相関関係をマイニングし、意味情報を豊かにし、知識の高品質表現形態を学習し、知識の算出と推理を容易にする。

本発明の実施例による多中心医学診断知識グラフ表示学習方法のネットワークアーキテクチャ概略図である。本発明の実施例による多中心医学診断知識グラフ表示学習方法の実現フローチャートである。本発明の実施例による医学診断知識グラフ構造示例である。

本発明の上記目的、特徴及び利点をより分かりやすくするために、以下、図面を参照して本発明の実施形態を詳細に説明する。

本発明を十分に理解するために、以下の説明では、多くの具体的な詳細が記載されているが、本発明は、ここで説明するものとは異なる他の方式で実施することもでき、当業者は、本発明の意味合いに違反することなく、同様の拡張を行うことができるため、本発明は、以下に開示される具体的な実施例に限定されない。

本発明は、多中心医学診断知識グラフ表示学習方法を提供し、当該方法は、連合学習と同型暗号化に基づき、多中心データを利用し、階層情報と複雑な関連関係を組み合わせて、構造情報の知識表示学習を実現する。当該方法は、図１に示すネットワークアーキテクチャに基づくものであり、２つの第３者のサーバ（第１のサーバと第２のサーバ）と複数の医療機構参加者を含み、第３者のサーバが正直である必要があり、第３者のサーバの間は相互通信することができる。各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されない。各医療機構参加者の間は相互通信を直接的に行うことができず、第３者のサーバと通信しかできない。

図２に示すように、本実施例による多中心医学診断知識グラフ表示学習方法のステップは、下記の通りである。

１．グローバル医学診断知識グラフ構築
第１のサーバがグローバル医学診断知識グラフの構築を担当する。グローバル医学診断知識グラフは、有向非巡回グラフの形式で医学診断概念の階層構造を表現する。グローバル医学診断知識グラフリーフノードと祖先ノードの２つの部分で構成され、ここでリーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードである。
本実施例においてＩＣＤ１０を医学診断本体として使用し、グローバル医学診断知識グラフを構築する。ここで、医学診断本体は、さらにＣＣＳ、ＳＮＯＭＥＤなどの医学分野で常用される知識源を選択してもよい。ウイルス性咽頭炎を例とし、ウイルス性咽頭炎Ｊ０２．８０１がリーフノードであり、ＩＣＤ１０における疾患階層情報に基づき、図３に示すように、その祖先ノードである呼吸器疾患Ｊ００－Ｊ９９、急性上気道感染Ｊ００－Ｊ０６、急性咽頭炎Ｊ０２を構築する。
構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が１つの疾患の階層構造情報を記録する。ウイルス性咽頭炎を例とし、階層構造情報を｛Ｊ０２．８０１：［Ｊ０２．８０１，ｒｏｏｔ，Ｊ００－Ｊ９９，Ｊ００－Ｊ０６，Ｊ０２］｝として記憶し、ｒｏｏｔがルートノードを代表する。

２．医学診断知識グラフ配信
第１のサーバが構築されたグローバル医学診断知識グラフを各医療機構参加者に配信する。知識グラフは公開されて取得されるため、暗号化されていなくてもよい。

３．各医療機構参加者の内部で疾患診断共起情報統計を行う
各医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計で｜Ｃ｜種の疾患分類コードがある。当該医療機構参加者の各患者のカルテを複数回診療とみなし、

として記し、総計でＴ回診療し、毎回診療する疾患分類コードセットをＶ_ｔとして記する。
医療機構参加者は、１回の診療Ｖ_ｔを単位とし、Ｖ_ｔに各疾患分類コードの上層疾患分類コードを加入することにより、強化疾患分類コードセットを取得してＶ_ｔ’として記し、すなわち、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードを繰り返して加入する必要がある。
各疾患分類コード及びその上層疾患分類コードのＶ_ｔ’における出現回数を算出する。Ｖ_ｔ’におけるコードの任意の２つを組み合わせてコードペアを構成し、コードペアにおける２つのコードの出現回数を乗算することにより、当該コードペアの共起情報を算出する。同時に、コードペアにおける２つのコード間の距離を算出し、すなわち、２つのノードを接続する最短経路に含まれるエッジの数を算出し、距離の逆数を重みとする。
あるコードペアにおける２つのコードｃ_ｉ、ｃ_ｊに対して、コードペアの共起情報は、下記の通りであり、

ここで、

がＶ_ｔ’にｃ_ｉの出現する回数であり、

がコードペアの共起情報である。
医学診断知識グラフにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

）。当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスＭを構築し、表１に示す通りである。Ｍ_ｉｊが２つのコード

と

の共起情報

を表現し、Ｐが当該医療機構参加者中患者の総数を表現し、ｍ^ｐ _ｉｊが２つのコード

と

の患者ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表現し、２つのコード

と

に等しいことを見つけ、コードｃ_ｊがコード

に等しいことを見つけることができ、ｍ^ｐ _ｉｊが

に等しく、そうでない場合、０として記する。共起マトリックスＭが対称し、Ｍ_ｉｊとＭ_ｊｉとが等しく、対角線が同じ疾患分類コードの共起情報であり、０として記する。
表１共起マトリックス構造示例

図３の医学診断知識グラフを例とし、仮に患者のある回で診療する疾患診断がウイルス性咽頭炎及び急性喉頭炎であるとすると、Ｖ_ｔ＝［Ｊ０２．８０１，Ｊ０４．０００］であり、上層疾患分類コードを加入することにより、Ｖ_ｔ’＝［Ｊ０２．８０１，Ｊ０２，Ｊ００－Ｊ０６，Ｊ００－Ｊ９９，ｒｏｏｔ，Ｊ０４．０００，Ｊ０４，Ｊ００－Ｊ０６，Ｊ００－Ｊ９９，ｒｏｏｔ］として強化し、コードＪ０２．８０１の出現回数が１、Ｊ００－Ｊ０６の出現回数が２、両者間の距離が２、共起情報の値が１である。

４．データ暗号化算出
第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信する。各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードする。第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信する。第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信する。プロセス全体でデータリークのリスクはない。具体的な実現流れは下記の通りである。
Ｋ個の医療機構参加者のＫ個の共起マトリックスを

として記し、任意の２つのコード

と

の共起情報を

として記する。
第２のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムＥＮＣ、復号化アルゴリズムＤＥＣ、暗号化キーＫＥＹ_Ｅ及び復号化キーＫＥＹ_Ｄを取得し、暗号化アルゴリズムＥＮＣ及び暗号化キーＫＥＹ_Ｅを各医療機構参加者に送信する。
次に、安全加法重合を実現する過程において、任意の２つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、

として記し、そして暗号文を第１のサーバに送信する。
第１のサーバは復号化操作を実行しないが、暗号文を直接操作する。加法同型性によれば、暗号文の積を算出するだけでよく、２つのコード

と

暗号化後の共起情報ＥｎｃＸ_ｉｊ式が下記の通りであり、

。
医学診断知識グラフにおける任意の２つの疾患分類コードについて、何れも上記ステップに従って、暗号文状態における２つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスＥｎｃＸを取得する。第１のサーバがＥｎｃＸを第２のサーバに送信し、第２のサーバが復号化してグローバル共起マトリックスＸ、すなわち、

を取得し、第１のサーバに返信する。

５．知識表示学習
第１のサーバにおいて、ＧｌｏＶｅアルゴリズム原理によれば、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、当該表現ベクトルとグローバル共起マトリックスの間の関係は以下の通り表現し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれ最終的に求める必要がある疾患分類コード

と

の表現ベクトルであり、１２８次元の、値が－０．１～０．１間のランダムベクトルにランダムに初期化される。上付き文字Ｔが転置操作を表現する。ｂ_ｉとｂ_ｊがそれぞれ２つの表現ベクトルのバイアス項であり、初期値が０である。Ｘ_ｉｊがグローバル共起マトリックスＸにおけるコード

と

の共起情報を表現する。
上記式に基づき、目標関数Ｊを作成し、

ここで、ｆが重み関数である。共起の多いコードペアがより高い重みを得るために、ｆが非減少関数であり、同時に、この重みが大きすぎてはならず、一定のレベルに達した後に増加してはならない。２つのコード

と

が一緒に出現しない場合、すなわち、Ｘ_ｉｊ＝０の場合、それらは目標関数の算出に参加せず、すなわち、

である。以上の要求に基づき、ｆが以下のセグメント関数を採用し、

すなわち、共起情報がしきい値ＭＡＸを超えた後、その重みが１である一定のレベルを維持する。ハイパーパラメータＭＡＸ及びαが実験結果に応じて最適な値を設定し、それぞれ１００及び０．７５に設定してもよい。
目標関数最適化過程がＡｄａＤｅｌｔａ勾配降下アルゴリズムを採用し、グローバル共起マトリックスＸにおける元素をランダムサンプリングし、学習率を０．０５として設定し、収束するまで５０回反復し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得する。
知識グラフ表示学習によって得られた表現ベクトルは、疾患間の類似性を算出するために使用できるだけでなく、それを患者カルテと組み合わせて、ディープ学習モデルに統合して予測タスクを完成することもできる。例えば、患者の履歴診療記録に基づき、次回の診療に出現する可能性がある疾患を予測する。電子カルテにおいて、各患者のカルテ記録を複数回診療とみなすことができ、毎回診療には一連の疾患分類コード、すなわち、Ｃ’のサブセットが含まれる。患者のある回で診療する疾患分類コードセットがバイナリベクトル

として表現してもよく、ここで、ｉ番目の元素は当該患者のこの回の診療にコード

が出現しているか否かを代表し、出現している場合、１であり、そうでない場合、０である。ディープ学習モデル訓練において、患者の毎回診療するバイナリベクトルｘ_ｔと表現ベクトルとを乗算して非線形変換を行い、ＲＮＮ予測モデルの入力として、次回の診療する疾患分類コードを予測取得して、出現する可能性がある疾患を予測することができる。

本発明の実施例は、多中心医学診断知識グラフ表示学習システムをさらに提供し、当該システムは、
第１のサーバ上でグローバル医学診断知識グラフを構築するためのものであって、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの２つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであるグローバル医学診断知識グラフ構築モジュールと、
第１のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信するための医学診断知識グラフ配信モジュールと、
各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

と

の共起情報

と

の患者Ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表現することとに使用される疾患診断共起情報統計モジュールと、
第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードすることと、第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信することと、第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信することとに使用されるデータ暗号化算出モジュールと、
第１のサーバに配備され、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、以下の目標関数Ｊを作成し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれコード

と

の共起情報を表現し、ｆが重み関数であることと、
収束するまで目標関数を最適化し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得することとに使用される知識表示学習モジュールと、
を備える。

以上は、本発明の好ましい実施形熊だけであり、本発明は好ましい実施例で以上のように開示されているが、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基ついて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に属する。

Claims

多中心医学診断知識グラフ表示学習方法であって、ステップ１～ステップ５を含み、
前記ステップ１では、第１のサーバがグローバル医学診断知識グラフを構築し、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの２つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記ステップ２では、第１のサーバが構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記ステップ３では、各医療機構参加者の内部で疾患診断共起情報統計を行い、具体的には、
ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計で｜Ｃ｜種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、

として記し、総計でＴ回診療し、毎回診療する疾患分類コードセットをＶ_ｔとして記し、Ｖ_ｔにおける各疾患分類コードの上層疾患分類コードをＶ_ｔに加入し、強化疾患分類コードセットを取得してＶ_ｔ’として記し、Ｖ_ｔ’におけるコードの任意の２つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、
医学診断知識グラフにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

）ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスＭを構築し、共起マトリックスＭの第ｉ行の第ｊ列の元素Ｍ_ｉｊが２つのコード

と

の共起情報

を表現し、ｐが当該医療機構参加者における患者総数を表現し、ｍ^ｐ _ｉｊが２つのコード

と

の患者ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表すこととを含み、
前記ステップ４では、データ暗号化算出であって、第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードすることと、第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信することと、第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信することとを含み、
前記ステップ５では、知識表示学習であって、第１のサーバにおいて、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、以下の目標関数Ｊを作成し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれコード

と

の表現ベクトルであり、ｂ_ｉとｂ_ｊがそれぞれ２つの表現ベクトルのバイアス項であり、Ｘ_ｉｊがグローバル共起マトリックスにおけるコード

と

の共起情報を表現し、ｆが重み関数であることと、
収束するまで目標関数を最適化し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得することとを含む
ことを特徴とする多中心医学診断知識グラフ表示学習方法。
前記第１のサーバ及び第２のサーバがいずれも第３者のサーバであり、第３者のサーバが正直である必要があり、第３者のサーバの間は相互に通信することができ、各医療機構参加者の内部にそれぞれの電子カルテデータベースが配備され、電子カルテデータベースにおける原データが各医療機構参加者から離れることは、許可されず、各医療機構参加者の間は相互通信を直接的に行うことができず、第３者のサーバと通信しかできない
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
グローバル医学診断知識グラフを構築する過程において、使用される医学診断本体がＩＣＤ、ＣＣＳ、ＳＮＯＭＥＤを含む
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
構築された医学診断知識グラフが辞書形式で記憶され、辞書における各元素が１つの疾患の階層構造情報を記録する
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
強化疾患分類コードセットＶ_ｔ’の構築は具体的に、医学診断知識グラフにおいてリーフノードに対応する祖先ノードをルックアップし、共同祖先ノードに対応する上層疾患分類コードをＶ_ｔに繰り返して加入する必要がある
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
前記ステップ３において、あるコードペアにおける２つのコードｃ_ｉ、ｃ_ｊについて、コードペアの共起情報算出式が下記の通りであり、

ここで、

がＶ_ｔ’にｃ_ｉの出現する回数であり、

がＶ_ｔ’にｃ_ｊの出現する回数であり、ｄ_ｉｊが２つのコードｃ_ｉ、ｃ_ｊ間の距離であり、

がコードペアの共起情報である
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
前記ステップ３において、ｍ^ｐ _ｉｊの算出は具体的に、２つのコード

と

が患者ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’に同時に出現した場合、当該患者のこの回のＶ_ｔ’においてコードｃ_ｉがコード

に等しいことを見つけ、コードｃ_ｊがコード

に等しいことを見つけることができ、ｍ^ｐ _ｉｊが

に等しく、そうでない場合、ｍ^ｐ _ｉｊが０に等しい
ことを特徴とする請求項６に記載の多中心医学診断知識グラフ表示学習方法。
前記ステップ４は具体的に、
Ｋ個の医療機構参加者のＫ個の共起マトリックスを

として記し、任意の２つのコード

と

の共起情報を

として記することと、
第２のサーバが加法同型暗号化アルゴリズムを利用して暗号化アルゴリズムＥＮＣ、復号化アルゴリズムＤＥＣ、暗号化キーＫＥＹ_Ｅ及び復号化キーＫＥＹ_Ｄを取得し、暗号化アルゴリズムＥＮＣ及び暗号化キーＫＥＹ_Ｅを各医療機構参加者に送信することと、
安全加法重合を実現する過程において、任意の２つのコードの共起情報に対して、各医療機構参加者がまず共起情報を暗号文として暗号化し、

として記し、そして暗号文を第１のサーバに送信することと、
第１のサーバが直接に暗号文を操作することと、加法同型性によれば、暗号文の積を算出するだけでよく、２つのコード

と

の暗号化後の共起情報ＥｎｃＸ_ｉｊ式が下記の通りであり、

医学診断知識グラフにおける任意の２つの疾患分類コードについて、いずれも暗号文状態における２つのコード共起情報を算出し、最終的に暗号文状態におけるグローバル共起マトリックスＥｎｃＸを取得することと、
第１のサーバがＥｎｃＸを第２のサーバに送信し、第２のサーバが復号化を取得してグローバル共起マトリックスＸ、すなわち、

を取得して、第１のサーバに返信することと、を含む
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
前記ステップ５において、ｆが以下のセグメント関数を採用し、

ここで、ＭＡＸとαがいずれもハイパーパラメータであり、実験結果に応じて最適な値を設定し、共起情報がＭＡＸを超えた後、ｆ（Ｘ_ｉｊ）が１である一定のレベルを維持する
ことを特徴とする請求項１に記載の多中心医学診断知識グラフ表示学習方法。
多中心医学診断知識グラフ表示学習システムであって、グローバル医学診断知識グラフ構築モジュール、医学診断知識グラフ配信モジュール、疾患診断共起情報統計モジュール、データ暗号化算出モジュール及び知識表示学習モジュールを含み、
前記グローバル医学診断知識グラフ構築モジュールは、第１のサーバ上でグローバル医学診断知識グラフを構築することに用いられ、前記グローバル医学診断知識グラフが有向非巡回グラフの形式で医学診断概念の階層構造を表現し、リーフノードと祖先ノードの２つの部分で構成され、前記リーフノードが最も小さい疾患分類コードであり、その祖先ノードがリーフノード疾患分類コードに対応する上層疾患分類コードであり、
前記医学診断知識グラフ配信モジュールは、第１のサーバで構築されたグローバル医学診断知識グラフを各医療機構参加者に配信し、
前記疾患診断共起情報統計モジュールは、各医療機構参加者に配備することと、ある医療機構参加者電子カルテにおける全ての疾患分類コードの集合を

として記し、総計で｜Ｃ｜種の疾患分類コードがあり、医療機構参加者の各患者のカルテを複数回診療とみなし、

として記し、総計でＴ回診療し、毎回診療する疾患分類コードセットをＶ_ｔとして記し、Ｖ_ｔにおける各疾患分類コードの上層疾患分類コードをＶ_ｔに加入し、強化疾患分類コードセットを取得してＶ_ｔ’として記することと、Ｖ_ｔ’におけるコードの任意の２つを組み合わせてコードペアを構成し、コードペアの共起情報を算出することと、医学診断知識グラフにおける全ての疾患分類コードの集合を

として記し、総計でＮ種の疾患分類コードがある（

）ことと、当該医療機構参加者が医学診断知識グラフにおける全ての疾患分類コードに基づいて共起マトリックスＭを構築し、共起マトリックスＭの第ｉ行の第ｊ列の元素Ｍ_ｉｊが２つのコード

と

の共起情報

を表現し、Ｐが当該医療機構参加者における患者総数を表現し、ｍ^ｐ _ｉｊが２つのコード

と

の患者Ｐのある回で診療する強化疾患分類コードセットＶ_ｔ’における共起情報を表すこととに使用され、
前記データ暗号化算出モジュールは、第２のサーバが暗号化アルゴリズム、暗号化キー、復号化アルゴリズム及び復号化キーを生成し、かつ暗号化アルゴリズム及び暗号化キーを各医療機構参加者に配信することと、各医療機構参加者が暗号化アルゴリズム及び暗号化キーを用いてその共起マトリックスを暗号化して第１のサーバにアップロードすることと、第１のサーバが暗号文状態において、同じ２つのコードの共起情報を加算し、暗号文状態におけるグローバル共起マトリックスを取得して、第２のサーバに送信することと、第２のサーバが復号化アルゴリズム及び復号化キーによりグローバル共起マトリックスを取得し、第１のサーバに返信することとに使用され、
前記知識表示学習モジュールは、第１のサーバに配備され、各疾患分類コードを実数からなる１つの表現ベクトルとして表現し、以下の目標関数Ｊを作成し、

ここで、Ｗ_ｉとＷ_ｊがそれぞれコード

と

の表現ベクトルであり、ｂ_ｉとｂ_ｊがそれぞれ２つの表現ベクトルのバイアス項であり、Ｘ_ｉｊがグローバル共起マトリックスにおけるコード

と

の共起情報を表現し、ｆが重み関数であることと、
収束するまで目標関数を最適化し、２つの表現ベクトルＷ_ｉとＷ_ｊを取得することとにに使用される
ことを特徴とする多中心医学診断知識グラフ表示学習システム。