JP7432802B2 - 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 - Google Patents
異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 Download PDFInfo
- Publication number
- JP7432802B2 JP7432802B2 JP2023536585A JP2023536585A JP7432802B2 JP 7432802 B2 JP7432802 B2 JP 7432802B2 JP 2023536585 A JP2023536585 A JP 2023536585A JP 2023536585 A JP2023536585 A JP 2023536585A JP 7432802 B2 JP7432802 B2 JP 7432802B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- medical
- neural network
- nodes
- graph neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 88
- 238000010606 normalization Methods 0.000 title claims description 48
- 238000000034 method Methods 0.000 title claims description 34
- 238000012549 training Methods 0.000 claims description 85
- 239000013598 vector Substances 0.000 claims description 50
- 229940079593 drug Drugs 0.000 claims description 19
- 239000003814 drug Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000243 solution Substances 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- GSDSWSVVBLHKDQ-UHFFFAOYSA-N 9-fluoro-3-methyl-10-(4-methylpiperazin-1-yl)-7-oxo-2,3-dihydro-7H-[1,4]oxazino[2,3,4-ij]quinoline-6-carboxylic acid Chemical compound FC1=CC(C(C(C(O)=O)=C2)=O)=C3N2C(C)COC3=C1N1CCN(C)CC1 GSDSWSVVBLHKDQ-UHFFFAOYSA-N 0.000 description 2
- WCUXLLCKKVVCTQ-UHFFFAOYSA-M Potassium chloride Chemical compound [Cl-].[K+] WCUXLLCKKVVCTQ-UHFFFAOYSA-M 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229960001699 ofloxacin Drugs 0.000 description 2
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- GSDSWSVVBLHKDQ-JTQLQIEISA-N Levofloxacin Chemical compound C([C@@H](N1C2=C(C(C(C(O)=O)=C1)=O)C=C1F)C)OC2=C1N1CCN(C)CC1 GSDSWSVVBLHKDQ-JTQLQIEISA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000002552 dosage form Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229940093181 glucose injection Drugs 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 229960003376 levofloxacin Drugs 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000011164 potassium chloride Nutrition 0.000 description 1
- 239000001103 potassium chloride Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Description
情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。
と示し、
に関し、そのノードコンテンツを
と記し、そのコンテンツコードを
と記し、ノードコンテンツが数値型であるノード
に関し、そのコンテンツコードを
は、ノード
自身の数値であり、
は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード
に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
とし、
は、基礎単位又は演算記号であり、
は、
の系列長さであり、コンテンツコードは、
は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード
に関し、予めトレーニングされた言語モデルを用いて
の意味ベクトルを
の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。
に関し、予めトレーニングされた言語モデルは、BERTモデルを採用し、計算式は、
は、BERTモデルの第
層の隠れ状態であり、
は、第
層の入力値であり、
にて求められ、
及び
は、何れもトレーニングによって取得されたパラメータであり、
は、
の次元であり、
は、BERTモデルの第k層の隠れ状態であり、BERTモデルが合計m層の構造である場合に、ノード
の初期化のコンテンツコードは、
である。
に関し、
から出発する矢印が直接指すノードのセットを
と示し、
が医療用語ノードを表すと、
は、
の一級情報ユニットセットであり、
は、
の二級情報ユニットセットであり、
の近隣ノードセット
を
のベクトル表現
は、
は、重みパラメータであり、
と
は、トレーニングによって取得された行列パラメータであり、
は、非線形活性化関数である。
と記すと、トレーニングの目標は、目標関数
を最適化することであり、
からその近隣ノード
を予測する確率を表し、
トレーニングの第2段階において、何れか2つの医療用語ノードの類似度を
と
は、医療用語知識マップにおける医療用語ノードであり、
は、
と
との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータであり、
医療用語正規化トレーニングデータにおいて、医療用語ノード
の意味と同じ意味を持つ医療用語ノードセットを
とし、
の意味と異なる意味を持つ医療用語ノードセットを
とすると、トレーニングサンプルのラベル
は、
について、トレーニング済みの異種グラフニューラルネットワークに基づいて
と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、
との類似度が最も大きい医療用語ノード
を取り、
を設定し、
の場合に、
と
との意味が同じであると見なし、
の正規化結果を取得し、そうでない場合に、
と医療用語知識マップにおける他の医療用語ノードとの意味が異なって
が独立する意味を持つと見なす。
前記ステップ(1)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記ステップ(2)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記ステップ(3)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記ステップ(4)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。
(1)各タイプの医療用語について重要な情報ユニットを定義し、医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含み、情報ユニットは、一級情報ユニットと、二級情報ユニットと、この2級の情報ユニットの間の包含関係とを含み、
(2)系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築する。
前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードである。
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階:近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階:ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とする。
一、情報ユニット構築モジュール
(1)医療用語の情報ユニットを定義する。現在、特定の単一種別の医療用語についてキー次元の情報ユニットを定義した幾つかの国際汎用の医療用語標準集が既に存在するが、異なるタイプの医療用語標準集の間に情報ユニット間の関連関係が確立されていないため、過去の医療用語正規化過程において利用された情報が単一種別の医療用語内部のみに制限され、大量の有用の情報が無視されている。本発明では、従来の国際汎用の医療用語標準集と実際臨床過程における専門家知識とを組み合わせ、各タイプの医療用語について重要な情報ユニットを統一的に定義し、詳細な一級情報ユニット及び二級情報ユニットの構造も定義する。現在、本発明で既に実現された医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含む。後で新タイプの医療用語を正規化する必要がある場合に、新タイプの医療用語について情報ユニットを定義してから、本発明のシステムに便利に拡充することができる。既に実現された医療用語の情報ユニットの具体的な定義は、表3に示される。
情報ユニット構築モジュールで構築された情報ユニットライブラリに基づいて、複数タイプの医療用語を含む知識マップを構築することは、図3に示される。それは、以下の2タイプのノードを含む。円形ノードは、医療用語ノードを表し、矩形ノードは、情報ユニットノードを表し、各タイプのノード内部は、複数種の細分種類のノードを更に含む。例えば、医療用語ノードは、「薬物用語」ノード、「疾患用語」ノード等を含み、情報ユニットノードは、「薬物剤量」ノード、「数値」ノード等を含む。辺は、以下の2種の関係、即ち、1)医療用語と情報ユニットとの間の包含関係と、2)一級情報ユニットと二級情報ユニットとの間の包含関係とを含む。一級情報ユニットと二級情報ユニットとの区分範囲は、異なるタイプの医療用語に関して変化する可能性がある。例えば、疾患用語に関し、「疾患主体」がその一級情報ユニットであるが、手術用語に関し、「疾患主体」が一級情報ユニット「疾患性質」に含まれる二級情報ユニットである。
(1)異種グラフは、ノード及び関係タイプが複雑であるグラフを指し、図3に示す医療用語知識マップは、異種グラフの1種である。一般的なグラフニューラルネットワークは、ノード及び関係タイプが比較的に単純であるグラフについて、グラフの近隣ノード情報を利用するだけで、良好な性能を取得することができる。その一方、異種グラフニューラルネットワークをトレーニングする過程において、異なるタイプのノードのコンテンツに含まれる特徴の差異が大きく、情報次元が異なるため、グラフの近隣ノード分布情報とノードコンテンツコード情報を同時に考慮する必要がある。ノードコンテンツコードを計算する際、本発明では、異なるタイプのノードについて適切な計算方法をそれぞれ設計する。
と示し、
に関し、そのノードコンテンツを
と記し、そのコンテンツコードを
と記し、異なるタイプノードのコンテンツコードを
は、ノード
自身の数値であり、
は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード
に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
とし、
は、基礎単位又は演算記号であり、
は、
の系列長さであり、コンテンツコードは、
は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード
に関し、予めトレーニングされた言語モデルを用いて
の意味ベクトルを
の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。本実施例で使用される予めトレーニングされた言語モデルは、BERTモデルであり、計算式は、
は、BERTモデルの第
層の隠れ状態であり、
は、第
層の入力値であり、
及び
は、何れもトレーニングによって取得されたパラメータであり、
は、
の次元であり、
は、BERTモデルの第k層の隠れ状態であり、BERTモデルが合計m層の構造である場合に、ノード
の初期化のコンテンツコードは、
であり、本実施例においてm=12を取る。
に関し、
から出発する矢印が直接指すノードのセットを
と示し、
が医療用語ノードを表すと、
は、
の一級情報ユニットセットであり、
は、
の二級情報ユニットセットであり、
の近隣ノードセット
を
のベクトル表現
は、
は、重みパラメータであり、ノード
のノード
に対する重要性を表し、
は、
自身又は
の近隣ノードであってもよい。
の計算式は、
と
は、トレーニングによって取得された行列パラメータであり、
は、非線形活性化関数である。本実施例では、
を取る。ノード間の相対の重要性が非対称であるため、
も非対称であり、即ち、
である。
と
は、医療用語知識マップにおける医療用語ノードであり、
は、
と
との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータである。
医療用語正規化トレーニングデータにおいて、医療用語ノード
の意味と同じ意味を持つ医療用語ノードセットを
とし、
の意味と異なる意味を持つ医療用語ノードセットを
とすると、トレーニングサンプルのラベル
は、
正規化すべき医療用語ノード
について、トレーニング済みの異種グラフニューラルネットワークに基づいて
と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、
との類似度が最も大きい医療用語ノード
を取り、
を設定し、
の場合に、
と
との意味が同じであると思われ、即ち、
の正規化結果が取得され、そうでない場合に、
と医療用語知識マップにおける他の医療用語ノードとの意味が異なって
が独立する意味を持つと思われる。本実施例では、
を取る。
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が:異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得し、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階:近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階:ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
当該ステップの実現は、異種グラフニューラルネットワークモジュールを参照可能である。
Claims (10)
- 異種グラフニューラルネットワークに基づく医療用語正規化システムであって、
情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化システム。 - 前記医療用語のタイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含むことを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
- 前記情報ユニット構築モジュールにおいて、系列ラベル付けモデルは、BiLSTM-CRFモデルであり、
トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングすることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。 - 前記情報ユニット構築モジュールにおいて、数値及びメトリック単位に対して初歩的な正規化を行い、オリジナルメトリック単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行うことを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
- 前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおける全てのノードのセットを
と示し、
に関し、そのノードコンテンツを
と記し、そのコンテンツコードを
と記し、ノードコンテンツが数値型であるノード
に関し、そのコンテンツコードを
は、ノード
自身の数値であり、
は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード
に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
とし、
は、基礎単位又は演算記号であり、
は、
の系列長さであり、コンテンツコードは、
は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード
に関し、予めトレーニングされた言語モデルを用いて
の意味ベクトルを
の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングすることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。 - 前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード
に関し、
から出発する矢印が直接指すノードのセットを
と示し、
が医療用語ノードを表すと、
は、
の一級情報ユニットセットであり、
は、
の二級情報ユニットセットであり、
の近隣ノードセット
を
のベクトル表現
は、
は、重みパラメータであり、
と
は、トレーニングによって取得された行列パラメータであり、
は、非線形活性化関数であることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。 - 前記異種グラフニューラルネットワークモジュールでは、トレーニングの第1段階において、トレーニング可能なパラメータセットを
と記すと、トレーニングの目標は、目標関数
を最適化することであり、
からその近隣ノード
を予測する確率を表し、
トレーニングの第2段階において、何れか2つの医療用語ノードの類似度を
と
は、医療用語知識マップにおける医療用語ノードであり、
は、
と
との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータであり、
医療用語正規化トレーニングデータにおいて、医療用語ノード
の意味と同じ意味を持つ医療用語ノードセットを
とし、
の意味と異なる意味を持つ医療用語ノードセットを
とすると、トレーニングサンプルのラベル
は、
- 異種グラフニューラルネットワークに基づく医療用語正規化方法であって、
ステップ(1)~ステップ(4)を含み、
前記ステップ(1)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記ステップ(2)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記ステップ(3)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記ステップ(4)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213727.4A CN113656604B (zh) | 2021-10-19 | 2021-10-19 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN202111213727.4 | 2021-10-19 | ||
PCT/CN2022/116967 WO2023065858A1 (zh) | 2021-10-19 | 2022-09-05 | 基于异构图神经网络的医疗术语规范化系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024500400A JP2024500400A (ja) | 2024-01-09 |
JP7432802B2 true JP7432802B2 (ja) | 2024-02-16 |
Family
ID=78494655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023536585A Active JP7432802B2 (ja) | 2021-10-19 | 2022-09-05 | 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7432802B2 (ja) |
CN (1) | CN113656604B (ja) |
WO (1) | WO2023065858A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN114496302A (zh) * | 2021-12-29 | 2022-05-13 | 深圳云天励飞技术股份有限公司 | 药物适应症的预测方法及相关设备 |
CN114003791B (zh) * | 2021-12-30 | 2022-04-08 | 之江实验室 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116312915B (zh) * | 2023-05-19 | 2023-09-19 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN117009839B (zh) * | 2023-09-28 | 2024-01-09 | 之江实验室 | 基于异构超图神经网络的患者聚类方法和装置 |
CN117497111B (zh) * | 2023-12-25 | 2024-03-15 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117688974B (zh) * | 2024-02-01 | 2024-04-26 | 中国人民解放军总医院 | 基于知识图谱的生成式大模型建模方法、系统及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306926A1 (en) | 2007-06-08 | 2008-12-11 | International Business Machines Corporation | System and Method for Semantic Normalization of Healthcare Data to Support Derivation Conformed Dimensions to Support Static and Aggregate Valuation Across Heterogeneous Data Sources |
CN112035451A (zh) | 2020-08-25 | 2020-12-04 | 上海灵长软件科技有限公司 | 数据校验优化的处理方法、装置、电子设备与存储介质 |
CN112541056A (zh) | 2020-12-18 | 2021-03-23 | 卫宁健康科技集团股份有限公司 | 医学术语标准化方法、装置、电子设备及存储介质 |
CN113010685A (zh) | 2021-02-23 | 2021-06-22 | 安徽科大讯飞医疗信息技术有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN113345545A (zh) | 2021-07-28 | 2021-09-03 | 北京惠每云科技有限公司 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
CN113377897A (zh) | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113436698A (zh) | 2021-08-27 | 2021-09-24 | 之江实验室 | 融合自监督和主动学习的医学术语自动标准化系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
EP3637435A1 (en) * | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Medical diagnostic aid and method |
US11381651B2 (en) * | 2019-05-29 | 2022-07-05 | Adobe Inc. | Interpretable user modeling from unstructured user data |
CN110349639B (zh) * | 2019-07-12 | 2022-01-04 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
CN111400560A (zh) * | 2020-03-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN112271001B (zh) * | 2020-11-17 | 2022-08-16 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
-
2021
- 2021-10-19 CN CN202111213727.4A patent/CN113656604B/zh active Active
-
2022
- 2022-09-05 JP JP2023536585A patent/JP7432802B2/ja active Active
- 2022-09-05 WO PCT/CN2022/116967 patent/WO2023065858A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306926A1 (en) | 2007-06-08 | 2008-12-11 | International Business Machines Corporation | System and Method for Semantic Normalization of Healthcare Data to Support Derivation Conformed Dimensions to Support Static and Aggregate Valuation Across Heterogeneous Data Sources |
CN112035451A (zh) | 2020-08-25 | 2020-12-04 | 上海灵长软件科技有限公司 | 数据校验优化的处理方法、装置、电子设备与存储介质 |
CN112541056A (zh) | 2020-12-18 | 2021-03-23 | 卫宁健康科技集团股份有限公司 | 医学术语标准化方法、装置、电子设备及存储介质 |
CN113010685A (zh) | 2021-02-23 | 2021-06-22 | 安徽科大讯飞医疗信息技术有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN113377897A (zh) | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113345545A (zh) | 2021-07-28 | 2021-09-03 | 北京惠每云科技有限公司 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
CN113436698A (zh) | 2021-08-27 | 2021-09-24 | 之江实验室 | 融合自监督和主动学习的医学术语自动标准化系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023065858A1 (zh) | 2023-04-27 |
JP2024500400A (ja) | 2024-01-09 |
CN113656604A (zh) | 2021-11-16 |
CN113656604B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7432802B2 (ja) | 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 | |
Deng et al. | A multimodal deep learning framework for predicting drug–drug interaction events | |
Kamdar et al. | A systematic analysis of term reuse and term overlap across biomedical ontologies | |
Tashkandi et al. | Efficient in-database patient similarity analysis for personalized medical decision support systems | |
Yu | Three principles of data science: predictability, computability, and stability (PCS) | |
Purkayastha et al. | Drug-drug interactions prediction based on drug embedding and graph auto-encoder | |
Sarkar et al. | QiBAM: approximate sub-string index search on quantum accelerators applied to DNA read alignment | |
Hu et al. | A novel neural network model fusion approach for improving medical named entity recognition in online health expert question-answering services | |
Abdullah et al. | B-LIME: An improvement of LIME for interpretable deep learning classification of cardiac arrhythmia from ECG signals | |
Pawar et al. | Leveraging clinical bert in multimodal mortality prediction models for covid-19 | |
Prosdocimi et al. | Initial implementation of a comparative data analysis ontology | |
Odu et al. | How to implement a decision support for digital health: Insights from design science perspective for action research in tuberculosis detection | |
Wang et al. | Xlnet-caps: Personality classification from textual posts | |
Kanakaris et al. | Making personnel selection smarter through word embeddings: A graph-based approach | |
Yan et al. | Sentiment analysis and effect of COVID-19 pandemic using college SubReddit data | |
CN111949792B (zh) | 一种基于深度学习的药物关系抽取方法 | |
Tazeen et al. | A novel ant colony based DBN framework to analyze the drug reviews | |
Chen et al. | Complex causal extraction of fusion of entity location sensing and graph attention networks | |
Hassanzadeh et al. | DeepDeath: Learning to predict the underlying cause of death with big data | |
Gishyan et al. | Time-stage driven pathfinding framework for optimized medical treatments | |
Giannakis et al. | Particular biomolecular processes as computing paradigms | |
PRASAD | An IOT-Based Computational Intelligence Model to Perform Gene Analytics in Paternity Testing And Comparison For Health 4.0 | |
Kaddi et al. | Pharma data analytics: An emerging trend | |
Chen et al. | TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets | |
Alvarez-Gonzalez et al. | Beyond Weisfeiler–Lehman with Local Ego-Network Encodings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230615 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7432802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |