JP2024500400A - 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 - Google Patents

異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 Download PDF

Info

Publication number
JP2024500400A
JP2024500400A JP2023536585A JP2023536585A JP2024500400A JP 2024500400 A JP2024500400 A JP 2024500400A JP 2023536585 A JP2023536585 A JP 2023536585A JP 2023536585 A JP2023536585 A JP 2023536585A JP 2024500400 A JP2024500400 A JP 2024500400A
Authority
JP
Japan
Prior art keywords
node
medical
neural network
graph neural
medical terminology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023536585A
Other languages
English (en)
Other versions
JP7432802B2 (ja
Inventor
▲勁▼松 李
宗峰 ▲楊▼
然 辛
雨 田
天舒 周
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2024500400A publication Critical patent/JP2024500400A/ja
Application granted granted Critical
Publication of JP7432802B2 publication Critical patent/JP7432802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

【課題】本発明は、異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法を提供する。【解決手段】まず、各タイプの医療用語について重要な情報ユニットを構築し、医療用語の構造化表現を実現し、情報ユニットに基づいて各タイプの医療用語を含む知識マップを構築する。この知識マップに基づいて各タイプの医療用語を含む異種グラフニューラルネットワークを構築し、異種グラフニューラルネットワークのトレーニング中にグラフの近隣ノード分布とノードコンテンツコードとを総合的に考慮し、医療用語の正規化に備える。本発明では、同一タイプの医療用語の情報ユニット同士の関連及び差異の知識を十分に利用可能であるとともに、各タイプの医療用語を収容し、医療分野の知識を全面的に学習可能であり、新タイプの医療用語を便利にシステムに追加することができ、新タイプの医療用語の正規化の作業量を減少させる。【選択図】図1

Description

本発明は、中国語医学用語標準化及びマルチセンター医学情報プラットフォームの技術分野に属し、特に異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法に関する。
医療情報化プロセスにおける重要な研究方向は、より高性能な機械学習及び人工知能技術を実際の臨床問題の解決に応用されることである。人工知能技術の1つの利点として、大量データから複雑な規則及び特徴を発見することができ、これによって複数の医療機関の医療データを総合的に利用して分析マイニング及びモデル設計を行い、更に医療研究、臨床意思決定作業へ支援を提供することは、医療情報化の必然的な傾向となっている。異なる医療機関が採用する情報標準が多く、且つ半構造化及び非構造化のデータがよく人為的に生成されたため、異なるソースの医療データを統合して利用することが非常に困難になる。医療用語は、医療データを構成する基礎要素であり、完備な医療用語正規化体系の確立により、異なるソースの医療データを統一的な標準及び構造に整列することができ、更に臨床意思決定及び医療研究作業へより大規模且つより高品質なデータを提供する。医療用語は、主に臨床操作過程で生成された薬物、医学検査、疾患等のタイプの用語を含む。異なるタイプの医療用語は、特定の重要次元の情報を含み、それを医療用語の情報ユニットとして定義する。例えば、薬物用語「5%グルコース注射液(基)500ミリリットル」は、表1に示す情報ユニットを含む。
(表1)薬物用語情報ユニットの例示
Figure 2024500400000002
検査用語「左指正側位_X」は、表2に示す情報ユニットを含む。
(表2)検査用語情報ユニットの例示
Figure 2024500400000003
幾つかの情報ユニットは、他のより細かい粒度の情報ユニットで構成され、それぞれ一級情報ユニット及び二級情報ユニットとして定義し、例えば、表1における薬物用語は、一級情報ユニット「薬物成分」、「薬物剤型」、「薬物剤量」及び「薬物規格」を含む。その中、「薬物規格」情報ユニットは、二級情報ユニット「数値」(500)及び「計量単位」(ミリリットル)で構成される。1グループの医療用語の情報ユニットを指定すれば、1つの完全な医療用語を特定することができる。
実際の臨床操作において各医療機関が採用する情報標準の差異及び医療従事者の個人習慣の差異等の原因により、大量の規範化しない医療用語が生成され、主に、重要情報ユニットの冗長又は欠失、表現方式の非規範化、数量単位の不統一等の問題がある。例えば、「レボフロキサシン錠(オフロキサシン)500ミリグラム」及び「オフロキサシン0.5g/錠」という薬物用語の意味が完全に同じであるが、形式上の差異が大きい。医療用語正規化の目標は、意味が完全に同じであるが字面形式が異なる医療用語を認識することにより、それらの表現方式を統一し、且つ意味の異なる医療用語も区別し、最終的に医療データ全体の正規化を促進する。
従来の医療用語正規化方法は、ある単一タイプの医療用語に対して機械学習又は人工検証の方法により各医療用語の意味を理解し、意味が同じである医療用語をラベル付けする。このような方法は、各医療用語を1つの全体として、医療用語の内部に固有の情報ユニットの構造を無視した。その主な欠点は、以下のようになる。(1)情報ユニット同士の関連と差異の知識を効果的に利用することができない。同一の医療用語の異なる次元の情報ユニットの間の関連及び差異は、豊富な医療分野知識を含み、従来のやり方は、これらの知識を明示的に構造化して利用していない。(2)異なるタイプの医療用語は、同じ又は関連する情報ユニットを含み、過去の医療用語正規化作業は、いずれも単一タイプの医療用語に対して独立したシステムをそれぞれ開発する。このように、作業量が大きすぎるだけでなく、異なるタイプの医療用語の情報ユニットにおける知識を総合的に利用することができない。(3)余分な情報を考慮範囲に入れる。表現が規範化しない等の理由により、多くの医療用語は、重要な情報ユニットの他に、幾つかの余分な文字も含み、これらの文字は、医療用語全体の意味とほとんど関連せず、且つノイズとして医療用語の意味に偏差を発生させる。
本発明の目的は、現在医療用語正規化方法の不足に対し、医療用語自身の特性に応じて、異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法を提供することにある。本発明では、全ての医療用語について新型の情報ユニットに基づく知識マップを構築し、知識マップを基に、改良された異種グラフニューラルネットワークを用いて医療用語の正規化を行い、医療用語情報ユニットにおける知識を効果的に利用し、より正確な医療用語正規化結果を取得する。
本発明の目的は、以下の解決手段によって達成される。本発明では、医療用語正規化の過程において医療用語自身に含まれる医療分野知識を十分に利用するために、まず、各タイプの医療用語について重要な情報ユニットを構築し、医療用語の構造化表現を実現し、情報ユニットに基づいて各タイプの医療用語を含む知識マップを構築する。この知識マップに基づいて各タイプの医療用語を含む異種グラフニューラルネットワークを構築し、異種グラフニューラルネットワークのトレーニング中に図の近隣ノード分布とノードコンテンツコードとを総合的に考慮し、医療用語の正規化に備える。このような方法により、本発明では、同一タイプの医療用語の情報ユニット同士の関連及び差異の知識を十分に利用可能であるとともに、システムにおいて各タイプの医療用語を収容し、医療分野の知識を全面的に学習可能であり、新タイプの医療用語を便利にシステムに追加することができ、新タイプの医療用語の正規化の作業量を減少させる。医療用語について情報ユニットを抽出する過程において余分な文字及び情報を廃棄することにより、過多のノイズ及び誤差の導入を回避する。
本発明の一態様は、異種グラフニューラルネットワークに基づく医療用語正規化システムを提供する。このシステムは、
情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。
更に、前記医療用語のタイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含む。
更に、前記情報ユニット構築モジュールにおいて、系列ラベル付けモデルは、BiLSTM-CRFモデルであり、トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングする。
更に、前記情報ユニット構築モジュールにおいて、数値及びメトリック単位に対して初歩的な正規化を行い、オリジナルメトリック単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行う。
更に、前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおける全てのノードのセットを
Figure 2024500400000004
と示し、
Figure 2024500400000005
に関し、そのノードコンテンツを
Figure 2024500400000006
と記し、そのコンテンツコードを
Figure 2024500400000007
と記し、ノードコンテンツが数値型であるノード
Figure 2024500400000008
に関し、そのコンテンツコードを
Figure 2024500400000009
により求め、
Figure 2024500400000010
は、ノード
Figure 2024500400000011
自身の数値であり、
Figure 2024500400000012
は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード
Figure 2024500400000013
に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
Figure 2024500400000014
とし、
Figure 2024500400000015
は、基礎単位又は演算記号であり、
Figure 2024500400000016
は、
Figure 2024500400000017
の系列長さであり、コンテンツコードは、
Figure 2024500400000018
にて求められ、
Figure 2024500400000019
は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
Figure 2024500400000020
は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
Figure 2024500400000021
は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード
Figure 2024500400000022
に関し、予めトレーニングされた言語モデルを用いて
Figure 2024500400000023
の意味ベクトルを
Figure 2024500400000024
の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。
更に、ノードコンテンツがテキスト型であるノード
Figure 2024500400000025
に関し、予めトレーニングされた言語モデルは、BERTモデルを採用し、計算式は、
Figure 2024500400000026
であり、
Figure 2024500400000027
は、BERTモデルの第
Figure 2024500400000028
層の隠れ状態であり、
Figure 2024500400000029
は、第
Figure 2024500400000030
層の入力値であり、
Figure 2024500400000031

にて求められ、
Figure 2024500400000032
及び
Figure 2024500400000033
は、何れもトレーニングによって取得されたパラメータであり、
Figure 2024500400000034
は、
Figure 2024500400000035
の次元であり、
Figure 2024500400000036
は、BERTモデルの第k層の隠れ状態であり、BERTモデルが合計m層の構造である場合に、ノード
Figure 2024500400000037
の初期化のコンテンツコードは、
Figure 2024500400000038
である。
更に、前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード
Figure 2024500400000039
に関し、
Figure 2024500400000040
から出発する矢印が直接指すノードのセットを
Figure 2024500400000041
と示し、
Figure 2024500400000042
が医療用語ノードを表すと、
Figure 2024500400000043
は、
Figure 2024500400000044
の一級情報ユニットセットであり、
Figure 2024500400000045
は、
Figure 2024500400000046
の二級情報ユニットセットであり、
Figure 2024500400000047
の近隣ノードセット
Figure 2024500400000048

Figure 2024500400000049
と定義し、
Figure 2024500400000050
のベクトル表現
Figure 2024500400000051
は、
Figure 2024500400000052
にて求められ、
Figure 2024500400000053
は、重みパラメータであり、
Figure 2024500400000054
にて求められ、
Figure 2024500400000055
を満たし、
Figure 2024500400000056

Figure 2024500400000057
は、トレーニングによって取得された行列パラメータであり、
Figure 2024500400000058
は、非線形活性化関数である。
更に、前記異種グラフニューラルネットワークモジュールでは、トレーニングの第1段階において、トレーニング可能なパラメータセットを
Figure 2024500400000059
と記すと、トレーニングの目標は、目標関数
Figure 2024500400000060
を最適化することであり、
Figure 2024500400000061
は、ノード
Figure 2024500400000062
からその近隣ノード
Figure 2024500400000063
を予測する確率を表し、
トレーニングの第2段階において、何れか2つの医療用語ノードの類似度を
Figure 2024500400000064
により求め、
Figure 2024500400000065

Figure 2024500400000066
は、医療用語知識マップにおける医療用語ノードであり、
Figure 2024500400000067
は、
Figure 2024500400000068

Figure 2024500400000069
との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータであり、
医療用語正規化トレーニングデータにおいて、医療用語ノード
Figure 2024500400000070
の意味と同じ意味を持つ医療用語ノードセットを
Figure 2024500400000071
とし、
Figure 2024500400000072
の意味と異なる意味を持つ医療用語ノードセットを
Figure 2024500400000073
とすると、トレーニングサンプルのラベル
Figure 2024500400000074
は、
Figure 2024500400000075
であり、第2段階の目標は、
Figure 2024500400000076
で示される損失関数Lを最小化することである。
更に、前記予測結果出力モジュールでは、正規化すべき医療用語ノード
Figure 2024500400000077
について、トレーニング済みの異種グラフニューラルネットワークに基づいて
Figure 2024500400000078
と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、
Figure 2024500400000079
との類似度が最も大きい医療用語ノード
Figure 2024500400000080
を取り、
Figure 2024500400000081
と記し、類似度について閾値
Figure 2024500400000082
を設定し、
Figure 2024500400000083
の場合に、
Figure 2024500400000084

Figure 2024500400000085
との意味が同じであると見なし、
Figure 2024500400000086
の正規化結果を取得し、そうでない場合に、
Figure 2024500400000087
と医療用語知識マップにおける他の医療用語ノードとの意味が異なって
Figure 2024500400000088
が独立する意味を持つと見なす。
本発明の別の態様は、異種グラフニューラルネットワークに基づく医療用語正規化方法を提供する。この方法は、ステップ(1)~ステップ(4)を含み、
前記ステップ(1)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記ステップ(2)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記ステップ(3)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記ステップ(4)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。
本発明は、以下の有利な作用効果を有する。本発明では、異なるタイプの医療用語について統一の情報ユニット構造を定義し、相対的に統一的な構造化表現を実現したため、医療用語の正規化を行う過程において医療分野の知識をより良好に利用可能であり、同じタイプの医療用語の間及び異なるタイプの医療用語の間に含まれる情報ユニットの関連及び差異を十分に習得することができる。全ての医療用語を知識マップに統合することにより、統一の異種グラフニューラルネットワークで異なるタイプの医療用語正規化作業を実現し、医療用語正規化作業効率を向上させつつ、出力結果の完全性及び統一性を高めることができる。
本発明の実施例に関わる異種グラフニューラルネットワークに基づく医療用語正規化システムの構成図である。 本発明の実施例に関わる系列ラベル付けモデルのトレーニングデータである。 本発明の実施例に関わる医療用語知識マップの模式図である。
本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。
本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。
本発明において、医療用語正規化は、医療分野の知識及び自然言語処理方法を組み合わせ、真の臨床環境で生成された様々な医療用語を分析し、意味が同じである医療用語を認識し且つ意味が異なる医療用語を区別し、一定の範囲内の医療用語を統一することにより、最適な秩序及び社会的利益を取得するプロセスを指す。統一された医療用語標準及び用語集を確立することは、用語の重複、内容の不明、意味表現及び理解の不一致等の問題を解決することに役立ち、医療情報のより広い範囲且つより深い階層での伝播、共有及び使用を効果的に推進することにとって重大な意義を有する。
異種グラフニューラルネットワークは、以下のことを指す。従来の深層学習方法が線形及び行列形状のデータにおいて大きな成功を取得したが、多くの実際応用シーンにおけるデータは、図形構造である。近年、研究者は、畳み込みネットワーク、循環ネットワークの思想を参考にし、グラフデータを処理するためのグラフニューラルネットワークモデルを定義して設計する。一般的なグラフニューラルネットワークは、ノード及び関係タイプが比較的に単純であるグラフについて、グラフの近隣ノード情報のみを使用すれば、良好な性能を得ることができる。実世界におけるグラフデータは、一般的にノードと関係タイプが多く、差異が大きく、このタイプのグラフは、異種グラフと呼ばれる。異種グラフニューラルネットワークをトレーニングする過程において、異なるタイプのノードのコンテンツに含まれる特徴の差異が大きく、情報次元が異なるため、グラフの近隣ノード情報を使用すると同時にノードのコンテンツコード情報を考慮する必要もある。
本発明の実施例は、異種グラフニューラルネットワークに基づく医療用語正規化システムを提供する。図1に示すように、当該システムは、以下の一~四で示されるモジュールを備える。
一、情報ユニット構築モジュール:
(1)各タイプの医療用語について重要な情報ユニットを定義し、医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含み、情報ユニットは、一級情報ユニットと、二級情報ユニットと、この2級の情報ユニットの間の包含関係とを含み、
(2)系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築する。
二、医療用語知識マップモジュール:医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向である。
三、異種グラフニューラルネットワークモジュール:医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングする。
前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードである。
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階:近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階:ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とする。
四、予測結果出力モジュール:正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。
以下では、各モジュールの実施過程を詳細に説明する。
一、情報ユニット構築モジュール
(1)医療用語の情報ユニットを定義する。現在、特定の単一種別の医療用語についてキー次元の情報ユニットを定義した幾つかの国際汎用の医療用語標準集が既に存在するが、異なるタイプの医療用語標準集の間に情報ユニット間の関連関係が確立されていないため、過去の医療用語正規化過程において利用された情報が単一種別の医療用語内部のみに制限され、大量の有用の情報が無視されている。本発明では、従来の国際汎用の医療用語標準集と実際臨床過程における専門家知識とを組み合わせ、各タイプの医療用語について重要な情報ユニットを統一的に定義し、詳細な一級情報ユニット及び二級情報ユニットの構造も定義する。現在、本発明で既に実現された医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含む。後で新タイプの医療用語を正規化する必要がある場合に、新タイプの医療用語について情報ユニットを定義してから、本発明のシステムに便利に拡充することができる。既に実現された医療用語の情報ユニットの具体的な定義は、表3に示される。
(表3)医療用語の情報ユニット
Figure 2024500400000089
(2)情報ユニットライブラリを構築する。系列ラベル付けモデルを用いて医療用語における各文字についてそれが各種の情報ユニットに属する確率を予測することにより、医療用語に含まれる全ての情報ユニットを認識し、医療用語の構造化表現を実現する。本実施例で使用される系列ラベル付けモデルは、BiLSTM-CRFモデルであり、当該モデルは、まず、BiLSTMネットワークを介して医療用語のコンテキストの情報を理解し、次に、BiLSTMネットワークの、医療用語の各文字位置での出力値に基づいて状態確率及び遷移確率行列を形成し、CRFモデルを構築し、系列ラベル付けタスクにおいて良い効果を取得した。系列ラベル付けモデルへトレーニングデータを構築する過程は、図2に示され、トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングする。これにより、後段の異種グラフニューラルネットワークへ過多のノイズを導入することは、回避される。
(3)特に表3における複数種の一級情報ユニットは、いずれも数値及び計量単位二級情報ユニットを含み、医療用語におけるオリジナルの数値及び計量単位分布のスパン及びスパース性が比較的に大きいため、異種グラフニューラルネットワークのトレーニングの難易度を増加させる。この問題を解決するために、まず、数値及び計量単位に対して初歩的な正規化を行い、オリジナル計量単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行う。ここで、基礎単位は、ml(ミリリットル)、mg(ミリグラム)、mm(ミリメートル)、s(秒)、mol(物質量)、u(単位)、iu(国際単位)、count(カウント)、クラス、グレード、ステージを含み、演算記号は、乗算及び除算を含む。合計で90個の正規化された計量単位は、生成される。例えば、オリジナル計量単位は、l(リットル)であり、対応する数値は、1であり、正規化された計量単位は、ml(ミリリットル)であり、対応する数値は、対応して1000に換算される。
二、医療用語知識マップモジュール
情報ユニット構築モジュールで構築された情報ユニットライブラリに基づいて、複数タイプの医療用語を含む知識マップを構築することは、図3に示される。それは、以下の2タイプのノードを含む。円形ノードは、医療用語ノードを表し、矩形ノードは、情報ユニットノードを表し、各タイプのノード内部は、複数種の細分種類のノードを更に含む。例えば、医療用語ノードは、「薬物用語」ノード、「疾患用語」ノード等を含み、情報ユニットノードは、「薬物剤量」ノード、「数値」ノード等を含む。辺は、以下の2種の関係、即ち、1)医療用語と情報ユニットとの間の包含関係と、2)一級情報ユニットと二級情報ユニットとの間の包含関係とを含む。一級情報ユニットと二級情報ユニットとの区分範囲は、異なるタイプの医療用語に関して変化する可能性がある。例えば、疾患用語に関し、「疾患主体」がその一級情報ユニットであるが、手術用語に関し、「疾患主体」が一級情報ユニット「疾患性質」に含まれる二級情報ユニットである。
三、異種グラフニューラルネットワークモジュール
(1)異種グラフは、ノード及び関係タイプが複雑であるグラフを指し、図3に示す医療用語知識マップは、異種グラフの1種である。一般的なグラフニューラルネットワークは、ノード及び関係タイプが比較的に単純であるグラフについて、グラフの近隣ノード情報を利用するだけで、良好な性能を取得することができる。その一方、異種グラフニューラルネットワークをトレーニングする過程において、異なるタイプのノードのコンテンツに含まれる特徴の差異が大きく、情報次元が異なるため、グラフの近隣ノード分布情報とノードコンテンツコード情報を同時に考慮する必要がある。ノードコンテンツコードを計算する際、本発明では、異なるタイプのノードについて適切な計算方法をそれぞれ設計する。
(2)異なるタイプノードのコンテンツコードを算出する。医療用語知識マップにおける全てのノードのセットを
Figure 2024500400000090
と示し、
Figure 2024500400000091
に関し、そのノードコンテンツを
Figure 2024500400000092
と記し、そのコンテンツコードを
Figure 2024500400000093
と記し、異なるタイプノードのコンテンツコードを
Figure 2024500400000094
により求め、
Figure 2024500400000095
は、ノード
Figure 2024500400000096
自身の数値であり、
Figure 2024500400000097
は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード
Figure 2024500400000098
に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
Figure 2024500400000099
とし、
Figure 2024500400000100
は、基礎単位又は演算記号であり、
Figure 2024500400000101
は、
Figure 2024500400000102
の系列長さであり、コンテンツコードは、
Figure 2024500400000103
にて求められ、
Figure 2024500400000104
は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
Figure 2024500400000105
は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
Figure 2024500400000106
は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード
Figure 2024500400000107
に関し、予めトレーニングされた言語モデルを用いて
Figure 2024500400000108
の意味ベクトルを
Figure 2024500400000109
の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。本実施例で使用される予めトレーニングされた言語モデルは、BERTモデルであり、計算式は、
Figure 2024500400000110
であり、
Figure 2024500400000111
は、BERTモデルの第
Figure 2024500400000112
層の隠れ状態であり、
Figure 2024500400000113
は、第
Figure 2024500400000114
層の入力値であり、
Figure 2024500400000115
にて求められ、
Figure 2024500400000116
及び
Figure 2024500400000117
は、何れもトレーニングによって取得されたパラメータであり、
Figure 2024500400000118
は、
Figure 2024500400000119
の次元であり、
Figure 2024500400000120
は、BERTモデルの第k層の隠れ状態であり、BERTモデルが合計m層の構造である場合に、ノード
Figure 2024500400000121
の初期化のコンテンツコードは、
Figure 2024500400000122
であり、本実施例においてm=12を取る。
(3)異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード
Figure 2024500400000123
に関し、
Figure 2024500400000124
から出発する矢印が直接指すノードのセットを
Figure 2024500400000125
と示し、
Figure 2024500400000126
が医療用語ノードを表すと、
Figure 2024500400000127
は、
Figure 2024500400000128
の一級情報ユニットセットであり、
Figure 2024500400000129
は、
Figure 2024500400000130
の二級情報ユニットセットであり、
Figure 2024500400000131
の近隣ノードセット
Figure 2024500400000132

Figure 2024500400000133
と定義し、
Figure 2024500400000134
のベクトル表現
Figure 2024500400000135
は、
Figure 2024500400000136
にて求められ、
Figure 2024500400000137
は、重みパラメータであり、ノード
Figure 2024500400000138
のノード
Figure 2024500400000139
に対する重要性を表し、
Figure 2024500400000140
は、
Figure 2024500400000141
自身又は
Figure 2024500400000142
の近隣ノードであってもよい。
Figure 2024500400000143
の計算式は、
Figure 2024500400000144
であり、
Figure 2024500400000145
を満たし、
Figure 2024500400000146

Figure 2024500400000147
は、トレーニングによって取得された行列パラメータであり、
Figure 2024500400000148
は、非線形活性化関数である。本実施例では、
Figure 2024500400000149
を取る。ノード間の相対の重要性が非対称であるため、
Figure 2024500400000150
も非対称であり、即ち、
Figure 2024500400000151
である。
(4)異種グラフニューラルネットワークのトレーニング。トレーニング過程は、2つの両段階に分けられる。1)近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、2)ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とする。
トレーニングの第1段階において、トレーニング可能なパラメータセットを
Figure 2024500400000152
と記すと、トレーニングの目標は、目標関数
Figure 2024500400000153
を最適化することであり、
Figure 2024500400000154
は、ノード
Figure 2024500400000155
からその近隣ノード
Figure 2024500400000156
を予測する確率を表す。
トレーニングの第2段階において、何れか2つの医療用語ノードの類似度を
Figure 2024500400000157
により求め、
Figure 2024500400000158

Figure 2024500400000159
は、医療用語知識マップにおける医療用語ノードであり、
Figure 2024500400000160
は、
Figure 2024500400000161

Figure 2024500400000162
との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータである。
医療用語正規化トレーニングデータにおいて、医療用語ノード
Figure 2024500400000163
の意味と同じ意味を持つ医療用語ノードセットを
Figure 2024500400000164
とし、
Figure 2024500400000165
の意味と異なる意味を持つ医療用語ノードセットを
Figure 2024500400000166
とすると、トレーニングサンプルのラベル
Figure 2024500400000167
は、
Figure 2024500400000168
であり、第2段階の目標は、
Figure 2024500400000169
で示される損失関数Lを最小化することである。
四、予測結果出力モジュール
正規化すべき医療用語ノード
Figure 2024500400000170
について、トレーニング済みの異種グラフニューラルネットワークに基づいて
Figure 2024500400000171
と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、
Figure 2024500400000172
との類似度が最も大きい医療用語ノード
Figure 2024500400000173
を取り、
Figure 2024500400000174
と記し、類似度について閾値
Figure 2024500400000175
を設定し、
Figure 2024500400000176
の場合に、
Figure 2024500400000177

Figure 2024500400000178
との意味が同じであると思われ、即ち、
Figure 2024500400000179
の正規化結果が取得され、そうでない場合に、
Figure 2024500400000180
と医療用語知識マップにおける他の医療用語ノードとの意味が異なって
Figure 2024500400000181
が独立する意味を持つと思われる。本実施例では、
Figure 2024500400000182
を取る。
例えば、薬物用語「塩化カリウム針(大塚生産)10ミリリットル*1本」を正規化する際に、表4に示すように、それと他の薬物用語ノードとの類似度を計算すると、その意味と同じである意味を持つ薬物用語ノードは、最も類似度の高い「塩化カリウム針10ml:1g大塚製薬株式会社」であることが分かる。
(表4)異種グラフニューラルネットワークによる医療用語ノード類似度の計算
Figure 2024500400000183
本発明の実施例は、異種グラフニューラルネットワークに基づく医療用語正規化方法を更に提供する。当該方法は、ステップ(1)~(4)を含む。
(1)各タイプの医療用語について重要な情報ユニットを定義し、前記情報ユニットは、一級情報ユニットと、二級情報ユニットと、この2級の情報ユニットの間の包含関係とを含み、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築する。当該ステップの実現は、情報ユニット構築モジュールを参照可能である。
(2)医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向である。
(3)医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が:異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得し、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第1段階:近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第2段階:ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
当該ステップの実現は、異種グラフニューラルネットワークモジュールを参照可能である。
(4)正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。当該ステップの実現は、予測結果出力モジュールを参照可能である。
本発明では、複数種の医療用語について定義し且つそれらに含まれる情報ユニットを認識し、医療用語の構造化表現を実現する。医療用語の構造化表現の結果は、医療用語正規化の効果を向上可能であるとともに、医療情報化作業の各形態を非常に大きく促進する。本発明では、医療用語の情報ユニットを基に医療用語に対する新型の知識マップを構築し、医療用語正規化を含める各項の医療情報化作業を効果的に促進可能である。本発明では、医療用語正規化作業について新型の異種グラフニューラルネットワークを構築し、統一のモデルで異なるタイプの医療用語の正規化を実現しつつ、異なるタイプの情報ユニットのそれぞれについて適切なコンテンツコード方式を実現し、且つ異種グラフニューラルネットワークについて段階的なトレーニング方式を設計する。
上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims (10)

  1. 異種グラフニューラルネットワークに基づく医療用語正規化システムであって、
    情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
    前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
    前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
    前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
    前記ノードコンテンツコードは、具体的に、
    ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
    ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
    ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
    トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
    トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
    前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化システム。
  2. 前記医療用語のタイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含むことを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  3. 前記情報ユニット構築モジュールにおいて、系列ラベル付けモデルは、BiLSTM-CRFモデルであり、
    トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングすることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  4. 前記情報ユニット構築モジュールにおいて、数値及びメトリック単位に対して初歩的な正規化を行い、オリジナルメトリック単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行うことを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  5. 前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおける全てのノードのセットを
    Figure 2024500400000184
    と示し、
    Figure 2024500400000185
    に関し、そのノードコンテンツを
    Figure 2024500400000186
    と記し、そのコンテンツコードを
    Figure 2024500400000187
    と記し、ノードコンテンツが数値型であるノード
    Figure 2024500400000188
    に関し、そのコンテンツコードを
    Figure 2024500400000189
    により求め、
    Figure 2024500400000190
    は、ノード
    Figure 2024500400000191
    自身の数値であり、
    Figure 2024500400000192
    は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
    ノードコンテンツがメトリック単位であるノード
    Figure 2024500400000193
    に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、
    Figure 2024500400000194
    とし、
    Figure 2024500400000195
    は、基礎単位又は演算記号であり、
    Figure 2024500400000196
    は、
    Figure 2024500400000197
    の系列長さであり、コンテンツコードは、
    Figure 2024500400000198
    にて求められ、
    Figure 2024500400000199
    は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、
    Figure 2024500400000200
    は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
    Figure 2024500400000201
    は、ベクトル繋ぎ合わせ演算子であり、
    ノードコンテンツがテキスト型であるノード
    Figure 2024500400000202
    に関し、予めトレーニングされた言語モデルを用いて
    Figure 2024500400000203
    の意味ベクトルを
    Figure 2024500400000204
    の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングすることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  6. ノードコンテンツがテキスト型であるノード
    Figure 2024500400000205
    に関し、予めトレーニングされた言語モデルは、BERTモデルを採用し、計算式は、
    Figure 2024500400000206
    であり、
    Figure 2024500400000207
    は、BERTモデルの第
    Figure 2024500400000208
    層の隠れ状態であり、
    Figure 2024500400000209
    は、第
    Figure 2024500400000210
    層の入力値であり、
    Figure 2024500400000211
    にて求められ、
    Figure 2024500400000212
    及び
    Figure 2024500400000213
    は、何れもトレーニングによって取得されたパラメータであり、
    Figure 2024500400000214
    は、
    Figure 2024500400000215
    の次元であり、
    Figure 2024500400000216
    は、BERTモデルの第k層の隠れ状態であり、BERTモデルが合計m層の構造である場合に、ノード
    Figure 2024500400000217
    の初期化のコンテンツコードは、
    Figure 2024500400000218
    であることを特徴とする請求項5に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  7. 前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード
    Figure 2024500400000219
    に関し、
    Figure 2024500400000220
    から出発する矢印が直接指すノードのセットを
    Figure 2024500400000221
    と示し、
    Figure 2024500400000222
    が医療用語ノードを表すと、
    Figure 2024500400000223
    は、
    Figure 2024500400000224
    の一級情報ユニットセットであり、
    Figure 2024500400000225
    は、
    Figure 2024500400000226
    の二級情報ユニットセットであり、
    Figure 2024500400000227
    の近隣ノードセット
    Figure 2024500400000228

    Figure 2024500400000229
    と定義し、
    Figure 2024500400000230
    のベクトル表現
    Figure 2024500400000231
    は、
    Figure 2024500400000232
    にて求められ、
    Figure 2024500400000233
    は、重みパラメータであり、
    Figure 2024500400000234
    にて求められ、
    Figure 2024500400000235
    を満たし、
    Figure 2024500400000236

    Figure 2024500400000237
    は、トレーニングによって取得された行列パラメータであり、
    Figure 2024500400000238
    は、非線形活性化関数であることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  8. 前記異種グラフニューラルネットワークモジュールでは、トレーニングの第1段階において、トレーニング可能なパラメータセットを
    Figure 2024500400000239
    と記すと、トレーニングの目標は、目標関数
    Figure 2024500400000240
    を最適化することであり、
    Figure 2024500400000241
    は、ノード
    Figure 2024500400000242
    からその近隣ノード
    Figure 2024500400000243
    を予測する確率を表し、
    トレーニングの第2段階において、何れか2つの医療用語ノードの類似度を
    Figure 2024500400000244
    により求め、
    Figure 2024500400000245

    Figure 2024500400000246
    は、医療用語知識マップにおける医療用語ノードであり、
    Figure 2024500400000247
    は、
    Figure 2024500400000248

    Figure 2024500400000249
    との類似度であり、Wとbは、何れもトレーニングによって取得されたパラメータであり、
    医療用語正規化トレーニングデータにおいて、医療用語ノード
    Figure 2024500400000250
    の意味と同じ意味を持つ医療用語ノードセットを
    Figure 2024500400000251
    とし、
    Figure 2024500400000252
    の意味と異なる意味を持つ医療用語ノードセットを
    Figure 2024500400000253
    とすると、トレーニングサンプルのラベル
    Figure 2024500400000254
    は、
    Figure 2024500400000255
    であり、第2段階の目標は、
    Figure 2024500400000256
    で示される損失関数Lを最小化することであることを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  9. 前記予測結果出力モジュールでは、正規化すべき医療用語ノード
    Figure 2024500400000257
    について、トレーニング済みの異種グラフニューラルネットワークに基づいて
    Figure 2024500400000258
    と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、
    Figure 2024500400000259
    との類似度が最も大きい医療用語ノード
    Figure 2024500400000260
    を取り、
    Figure 2024500400000261
    と記し、類似度について閾値
    Figure 2024500400000262
    を設定し、
    Figure 2024500400000263
    の場合に、
    Figure 2024500400000264

    Figure 2024500400000265
    との意味が同じであると見なし、
    Figure 2024500400000266
    の正規化結果を取得し、そうでない場合に、
    Figure 2024500400000267
    と医療用語知識マップにおける他の医療用語ノードとの意味が異なって
    Figure 2024500400000268
    が独立する意味を持つと見なすことを特徴とする請求項1に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
  10. 異種グラフニューラルネットワークに基づく医療用語正規化方法であって、
    ステップ(1)~ステップ(4)を含み、
    前記ステップ(1)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの2級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
    前記ステップ(2)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との2種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
    前記ステップ(3)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、1つのノードから医療用語知識マップの辺の方向に沿って2ホップする場合に通過する全てのノードであり、
    前記ノードコンテンツコードは、具体的に、
    ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
    ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
    ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
    トレーニングの第1段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
    トレーニングの第2段階では、ノードのベクトル表現を入力とし、何れか2つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
    前記ステップ(4)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化方法。
JP2023536585A 2021-10-19 2022-09-05 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 Active JP7432802B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111213727.4A CN113656604B (zh) 2021-10-19 2021-10-19 基于异构图神经网络的医疗术语规范化系统及方法
CN202111213727.4 2021-10-19
PCT/CN2022/116967 WO2023065858A1 (zh) 2021-10-19 2022-09-05 基于异构图神经网络的医疗术语规范化系统及方法

Publications (2)

Publication Number Publication Date
JP2024500400A true JP2024500400A (ja) 2024-01-09
JP7432802B2 JP7432802B2 (ja) 2024-02-16

Family

ID=78494655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536585A Active JP7432802B2 (ja) 2021-10-19 2022-09-05 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法

Country Status (3)

Country Link
JP (1) JP7432802B2 (ja)
CN (1) CN113656604B (ja)
WO (1) WO2023065858A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN114496302A (zh) * 2021-12-29 2022-05-13 深圳云天励飞技术股份有限公司 药物适应症的预测方法及相关设备
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116312915B (zh) * 2023-05-19 2023-09-19 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN117009839B (zh) * 2023-09-28 2024-01-09 之江实验室 基于异构超图神经网络的患者聚类方法和装置
CN117497111B (zh) * 2023-12-25 2024-03-15 四川省医学科学院·四川省人民医院 一种基于深度学习实现疾病名称标准化分级的系统
CN117688974B (zh) * 2024-02-01 2024-04-26 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788213B2 (en) 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
WO2018209254A1 (en) * 2017-05-11 2018-11-15 Hubspot, Inc. Methods and systems for automated generation of personalized messages
EP3637435A1 (en) * 2018-10-12 2020-04-15 Fujitsu Limited Medical diagnostic aid and method
US11381651B2 (en) * 2019-05-29 2022-07-05 Adobe Inc. Interpretable user modeling from unstructured user data
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112035451A (zh) 2020-08-25 2020-12-04 上海灵长软件科技有限公司 数据校验优化的处理方法、装置、电子设备与存储介质
CN112271001B (zh) * 2020-11-17 2022-08-16 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112541056B (zh) 2020-12-18 2024-05-31 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN113010685B (zh) * 2021-02-23 2022-12-06 安徽讯飞医疗股份有限公司 医学术语标准化方法、电子设备和存储介质
CN113191156A (zh) * 2021-04-29 2021-07-30 浙江禾连网络科技有限公司 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法
CN113377897B (zh) * 2021-05-27 2022-04-22 杭州莱迈医疗信息科技有限公司 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN113345545B (zh) 2021-07-28 2021-10-29 北京惠每云科技有限公司 临床数据的稽查方法、装置、电子设备及可读存储介质
CN113436698B (zh) 2021-08-27 2021-12-07 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法

Also Published As

Publication number Publication date
WO2023065858A1 (zh) 2023-04-27
JP7432802B2 (ja) 2024-02-16
CN113656604A (zh) 2021-11-16
CN113656604B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
JP7432802B2 (ja) 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法
Deng et al. A multimodal deep learning framework for predicting drug–drug interaction events
Feigenbaum Themes and case studies of knowledge engineering
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
Tashkandi et al. Efficient in-database patient similarity analysis for personalized medical decision support systems
US20220318286A1 (en) Data updating method and apparatus, electronic device and computer readable storage medium
CN111312354B (zh) 基于多智能体强化学习的乳腺病历实体识别标注增强系统
Purkayastha et al. Drug-drug interactions prediction based on drug embedding and graph auto-encoder
Sarkar et al. QiBAM: approximate sub-string index search on quantum accelerators applied to DNA read alignment
Wang et al. Xlnet-caps: Personality classification from textual posts
Odu et al. How to implement a decision support for digital health: Insights from design science perspective for action research in tuberculosis detection
Kanakaris et al. Making personnel selection smarter through word embeddings: A graph-based approach
Li et al. Conceptual design method driven by product genes
Yan et al. Sentiment analysis and effect of COVID-19 pandemic using college SubReddit data
CN111949792B (zh) 一种基于深度学习的药物关系抽取方法
Tazeen et al. A novel ant colony based DBN framework to analyze the drug reviews
Chen et al. Complex causal extraction of fusion of entity location sensing and graph attention networks
Hassanzadeh et al. DeepDeath: Learning to predict the underlying cause of death with big data
Giannakis et al. Particular biomolecular processes as computing paradigms
Kaddi et al. Pharma data analytics: An emerging trend
Kruger et al. Comparative analysis of scientific approaches in computer science: A quantitative study
Alvarez-Gonzalez et al. Beyond Weisfeiler–Lehman with Local Ego-Network Encodings
Kalla et al. Exploring The Impact of Motif-Driven Causal Temporal Analysis Using Graph Neural Network in Improving Large Language Model Performance for Pharmacovigilance
Akhila et al. A review on sentiment analysis of Twitter data for diabetes classification and prediction
Milli et al. Data Science with Semantic Technologies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230615

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7432802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150