JP7432802B2

JP7432802B2 - 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法

Info

Publication number: JP7432802B2
Application number: JP2023536585A
Authority: JP
Inventors: ▲勁▼松李; 宗峰 ▲楊▼; 然辛; 雨田; 天舒周
Original assignee: 之江実験室
Priority date: 2021-10-19
Filing date: 2022-09-05
Publication date: 2024-02-16
Anticipated expiration: 2042-09-05
Also published as: WO2023065858A1; JP2024500400A; CN113656604A; CN113656604B

Description

本発明は、中国語医学用語標準化及びマルチセンター医学情報プラットフォームの技術分野に属し、特に異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法に関する。

医療情報化プロセスにおける重要な研究方向は、より高性能な機械学習及び人工知能技術を実際の臨床問題の解決に応用されることである。人工知能技術の１つの利点として、大量データから複雑な規則及び特徴を発見することができ、これによって複数の医療機関の医療データを総合的に利用して分析マイニング及びモデル設計を行い、更に医療研究、臨床意思決定作業へ支援を提供することは、医療情報化の必然的な傾向となっている。異なる医療機関が採用する情報標準が多く、且つ半構造化及び非構造化のデータがよく人為的に生成されたため、異なるソースの医療データを統合して利用することが非常に困難になる。医療用語は、医療データを構成する基礎要素であり、完備な医療用語正規化体系の確立により、異なるソースの医療データを統一的な標準及び構造に整列することができ、更に臨床意思決定及び医療研究作業へより大規模且つより高品質なデータを提供する。医療用語は、主に臨床操作過程で生成された薬物、医学検査、疾患等のタイプの用語を含む。異なるタイプの医療用語は、特定の重要次元の情報を含み、それを医療用語の情報ユニットとして定義する。例えば、薬物用語「５％グルコース注射液（基）５００ミリリットル」は、表１に示す情報ユニットを含む。

（表１）薬物用語情報ユニットの例示

検査用語「左指正側位_X」は、表２に示す情報ユニットを含む。

（表２）検査用語情報ユニットの例示

幾つかの情報ユニットは、他のより細かい粒度の情報ユニットで構成され、それぞれ一級情報ユニット及び二級情報ユニットとして定義し、例えば、表１における薬物用語は、一級情報ユニット「薬物成分」、「薬物剤型」、「薬物剤量」及び「薬物規格」を含む。その中、「薬物規格」情報ユニットは、二級情報ユニット「数値」（５００）及び「計量単位」（ミリリットル）で構成される。１グループの医療用語の情報ユニットを指定すれば、１つの完全な医療用語を特定することができる。

実際の臨床操作において各医療機関が採用する情報標準の差異及び医療従事者の個人習慣の差異等の原因により、大量の規範化しない医療用語が生成され、主に、重要情報ユニットの冗長又は欠失、表現方式の非規範化、数量単位の不統一等の問題がある。例えば、「レボフロキサシン錠（オフロキサシン）５００ミリグラム」及び「オフロキサシン０.５ｇ／錠」という薬物用語の意味が完全に同じであるが、形式上の差異が大きい。医療用語正規化の目標は、意味が完全に同じであるが字面形式が異なる医療用語を認識することにより、それらの表現方式を統一し、且つ意味の異なる医療用語も区別し、最終的に医療データ全体の正規化を促進する。

従来の医療用語正規化方法は、ある単一タイプの医療用語に対して機械学習又は人工検証の方法により各医療用語の意味を理解し、意味が同じである医療用語をラベル付けする。このような方法は、各医療用語を１つの全体として、医療用語の内部に固有の情報ユニットの構造を無視した。その主な欠点は、以下のようになる。（１）情報ユニット同士の関連と差異の知識を効果的に利用することができない。同一の医療用語の異なる次元の情報ユニットの間の関連及び差異は、豊富な医療分野知識を含み、従来のやり方は、これらの知識を明示的に構造化して利用していない。（２）異なるタイプの医療用語は、同じ又は関連する情報ユニットを含み、過去の医療用語正規化作業は、いずれも単一タイプの医療用語に対して独立したシステムをそれぞれ開発する。このように、作業量が大きすぎるだけでなく、異なるタイプの医療用語の情報ユニットにおける知識を総合的に利用することができない。（３）余分な情報を考慮範囲に入れる。表現が規範化しない等の理由により、多くの医療用語は、重要な情報ユニットの他に、幾つかの余分な文字も含み、これらの文字は、医療用語全体の意味とほとんど関連せず、且つノイズとして医療用語の意味に偏差を発生させる。

本発明の目的は、現在医療用語正規化方法の不足に対し、医療用語自身の特性に応じて、異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法を提供することにある。本発明では、全ての医療用語について新型の情報ユニットに基づく知識マップを構築し、知識マップを基に、改良された異種グラフニューラルネットワークを用いて医療用語の正規化を行い、医療用語情報ユニットにおける知識を効果的に利用し、より正確な医療用語正規化結果を取得する。

本発明の目的は、以下の解決手段によって達成される。本発明では、医療用語正規化の過程において医療用語自身に含まれる医療分野知識を十分に利用するために、まず、各タイプの医療用語について重要な情報ユニットを構築し、医療用語の構造化表現を実現し、情報ユニットに基づいて各タイプの医療用語を含む知識マップを構築する。この知識マップに基づいて各タイプの医療用語を含む異種グラフニューラルネットワークを構築し、異種グラフニューラルネットワークのトレーニング中に図の近隣ノード分布とノードコンテンツコードとを総合的に考慮し、医療用語の正規化に備える。このような方法により、本発明では、同一タイプの医療用語の情報ユニット同士の関連及び差異の知識を十分に利用可能であるとともに、システムにおいて各タイプの医療用語を収容し、医療分野の知識を全面的に学習可能であり、新タイプの医療用語を便利にシステムに追加することができ、新タイプの医療用語の正規化の作業量を減少させる。医療用語について情報ユニットを抽出する過程において余分な文字及び情報を廃棄することにより、過多のノイズ及び誤差の導入を回避する。

本発明の一態様は、異種グラフニューラルネットワークに基づく医療用語正規化システムを提供する。このシステムは、
情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの２級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階では、ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。

更に、前記医療用語のタイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含む。

更に、前記情報ユニット構築モジュールにおいて、系列ラベル付けモデルは、ＢｉＬＳＴＭ－ＣＲＦモデルであり、トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングする。

更に、前記情報ユニット構築モジュールにおいて、数値及びメトリック単位に対して初歩的な正規化を行い、オリジナルメトリック単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行う。

更に、前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおける全てのノードのセットを

と示し、

に関し、そのノードコンテンツを

と記し、そのコンテンツコードを

と記し、ノードコンテンツが数値型であるノード

に関し、そのコンテンツコードを

により求め、

は、ノード

自身の数値であり、

は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード

に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、

とし、

は、基礎単位又は演算記号であり、

は、

の系列長さであり、コンテンツコードは、

にて求められ、

は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、

は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、

は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード

に関し、予めトレーニングされた言語モデルを用いて

の意味ベクトルを

の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。

更に、ノードコンテンツがテキスト型であるノード

に関し、予めトレーニングされた言語モデルは、ＢＥＲＴモデルを採用し、計算式は、

であり、

は、ＢＥＲＴモデルの第

層の隠れ状態であり、

は、第

層の入力値であり、

、
にて求められ、

及び

は、何れもトレーニングによって取得されたパラメータであり、

は、

の次元であり、

は、ＢＥＲＴモデルの第ｋ層の隠れ状態であり、ＢＥＲＴモデルが合計ｍ層の構造である場合に、ノード

の初期化のコンテンツコードは、

である。

更に、前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード

に関し、

から出発する矢印が直接指すノードのセットを

と示し、

が医療用語ノードを表すと、

は、

の一級情報ユニットセットであり、

は、

の二級情報ユニットセットであり、

の近隣ノードセット

を

と定義し、

のベクトル表現

は、

にて求められ、

は、重みパラメータであり、

にて求められ、

を満たし、

と

は、トレーニングによって取得された行列パラメータであり、

は、非線形活性化関数である。

更に、前記異種グラフニューラルネットワークモジュールでは、トレーニングの第１段階において、トレーニング可能なパラメータセットを

と記すと、トレーニングの目標は、目標関数

を最適化することであり、

は、ノード

からその近隣ノード

を予測する確率を表し、
トレーニングの第２段階において、何れか２つの医療用語ノードの類似度を

により求め、

と

は、医療用語知識マップにおける医療用語ノードであり、

は、

と

との類似度であり、Ｗとｂは、何れもトレーニングによって取得されたパラメータであり、
医療用語正規化トレーニングデータにおいて、医療用語ノード

の意味と同じ意味を持つ医療用語ノードセットを

とし、

の意味と異なる意味を持つ医療用語ノードセットを

とすると、トレーニングサンプルのラベル

は、

であり、第２段階の目標は、

で示される損失関数Ｌを最小化することである。

更に、前記予測結果出力モジュールでは、正規化すべき医療用語ノード

について、トレーニング済みの異種グラフニューラルネットワークに基づいて

と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、

との類似度が最も大きい医療用語ノード

を取り、

と記し、類似度について閾値

を設定し、

の場合に、

と

との意味が同じであると見なし、

の正規化結果を取得し、そうでない場合に、

と医療用語知識マップにおける他の医療用語ノードとの意味が異なって

が独立する意味を持つと見なす。

本発明の別の態様は、異種グラフニューラルネットワークに基づく医療用語正規化方法を提供する。この方法は、ステップ(１)～ステップ(４)を含み、
前記ステップ(１)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの２級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記ステップ(２)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記ステップ(３)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階では、ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記ステップ(４)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。

本発明は、以下の有利な作用効果を有する。本発明では、異なるタイプの医療用語について統一の情報ユニット構造を定義し、相対的に統一的な構造化表現を実現したため、医療用語の正規化を行う過程において医療分野の知識をより良好に利用可能であり、同じタイプの医療用語の間及び異なるタイプの医療用語の間に含まれる情報ユニットの関連及び差異を十分に習得することができる。全ての医療用語を知識マップに統合することにより、統一の異種グラフニューラルネットワークで異なるタイプの医療用語正規化作業を実現し、医療用語正規化作業効率を向上させつつ、出力結果の完全性及び統一性を高めることができる。

本発明の実施例に関わる異種グラフニューラルネットワークに基づく医療用語正規化システムの構成図である。本発明の実施例に関わる系列ラベル付けモデルのトレーニングデータである。本発明の実施例に関わる医療用語知識マップの模式図である。

本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。

本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。

本発明において、医療用語正規化は、医療分野の知識及び自然言語処理方法を組み合わせ、真の臨床環境で生成された様々な医療用語を分析し、意味が同じである医療用語を認識し且つ意味が異なる医療用語を区別し、一定の範囲内の医療用語を統一することにより、最適な秩序及び社会的利益を取得するプロセスを指す。統一された医療用語標準及び用語集を確立することは、用語の重複、内容の不明、意味表現及び理解の不一致等の問題を解決することに役立ち、医療情報のより広い範囲且つより深い階層での伝播、共有及び使用を効果的に推進することにとって重大な意義を有する。

異種グラフニューラルネットワークは、以下のことを指す。従来の深層学習方法が線形及び行列形状のデータにおいて大きな成功を取得したが、多くの実際応用シーンにおけるデータは、図形構造である。近年、研究者は、畳み込みネットワーク、循環ネットワークの思想を参考にし、グラフデータを処理するためのグラフニューラルネットワークモデルを定義して設計する。一般的なグラフニューラルネットワークは、ノード及び関係タイプが比較的に単純であるグラフについて、グラフの近隣ノード情報のみを使用すれば、良好な性能を得ることができる。実世界におけるグラフデータは、一般的にノードと関係タイプが多く、差異が大きく、このタイプのグラフは、異種グラフと呼ばれる。異種グラフニューラルネットワークをトレーニングする過程において、異なるタイプのノードのコンテンツに含まれる特徴の差異が大きく、情報次元が異なるため、グラフの近隣ノード情報を使用すると同時にノードのコンテンツコード情報を考慮する必要もある。

本発明の実施例は、異種グラフニューラルネットワークに基づく医療用語正規化システムを提供する。図１に示すように、当該システムは、以下の一～四で示されるモジュールを備える。

一、情報ユニット構築モジュール：
(１)各タイプの医療用語について重要な情報ユニットを定義し、医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含み、情報ユニットは、一級情報ユニットと、二級情報ユニットと、この２級の情報ユニットの間の包含関係とを含み、
(２)系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築する。

二、医療用語知識マップモジュール：医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向である。

三、異種グラフニューラルネットワークモジュール：医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングする。
前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードである。
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階：近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階：ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とする。

四、予測結果出力モジュール：正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。

以下では、各モジュールの実施過程を詳細に説明する。
一、情報ユニット構築モジュール
(１)医療用語の情報ユニットを定義する。現在、特定の単一種別の医療用語についてキー次元の情報ユニットを定義した幾つかの国際汎用の医療用語標準集が既に存在するが、異なるタイプの医療用語標準集の間に情報ユニット間の関連関係が確立されていないため、過去の医療用語正規化過程において利用された情報が単一種別の医療用語内部のみに制限され、大量の有用の情報が無視されている。本発明では、従来の国際汎用の医療用語標準集と実際臨床過程における専門家知識とを組み合わせ、各タイプの医療用語について重要な情報ユニットを統一的に定義し、詳細な一級情報ユニット及び二級情報ユニットの構造も定義する。現在、本発明で既に実現された医療用語タイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含む。後で新タイプの医療用語を正規化する必要がある場合に、新タイプの医療用語について情報ユニットを定義してから、本発明のシステムに便利に拡充することができる。既に実現された医療用語の情報ユニットの具体的な定義は、表３に示される。

（表３）医療用語の情報ユニット

(２)情報ユニットライブラリを構築する。系列ラベル付けモデルを用いて医療用語における各文字についてそれが各種の情報ユニットに属する確率を予測することにより、医療用語に含まれる全ての情報ユニットを認識し、医療用語の構造化表現を実現する。本実施例で使用される系列ラベル付けモデルは、ＢｉＬＳＴＭ－ＣＲＦモデルであり、当該モデルは、まず、ＢｉＬＳＴＭネットワークを介して医療用語のコンテキストの情報を理解し、次に、ＢｉＬＳＴＭネットワークの、医療用語の各文字位置での出力値に基づいて状態確率及び遷移確率行列を形成し、ＣＲＦモデルを構築し、系列ラベル付けタスクにおいて良い効果を取得した。系列ラベル付けモデルへトレーニングデータを構築する過程は、図２に示され、トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングする。これにより、後段の異種グラフニューラルネットワークへ過多のノイズを導入することは、回避される。

(３)特に表３における複数種の一級情報ユニットは、いずれも数値及び計量単位二級情報ユニットを含み、医療用語におけるオリジナルの数値及び計量単位分布のスパン及びスパース性が比較的に大きいため、異種グラフニューラルネットワークのトレーニングの難易度を増加させる。この問題を解決するために、まず、数値及び計量単位に対して初歩的な正規化を行い、オリジナル計量単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行う。ここで、基礎単位は、ｍｌ（ミリリットル）、ｍｇ（ミリグラム）、ｍｍ（ミリメートル）、ｓ（秒）、ｍｏｌ（物質量）、ｕ（単位）、ｉｕ（国際単位）、ｃｏｕｎｔ（カウント）、クラス、グレード、ステージを含み、演算記号は、乗算及び除算を含む。合計で９０個の正規化された計量単位は、生成される。例えば、オリジナル計量単位は、ｌ（リットル）であり、対応する数値は、１であり、正規化された計量単位は、ｍｌ（ミリリットル）であり、対応する数値は、対応して１０００に換算される。

二、医療用語知識マップモジュール
情報ユニット構築モジュールで構築された情報ユニットライブラリに基づいて、複数タイプの医療用語を含む知識マップを構築することは、図３に示される。それは、以下の２タイプのノードを含む。円形ノードは、医療用語ノードを表し、矩形ノードは、情報ユニットノードを表し、各タイプのノード内部は、複数種の細分種類のノードを更に含む。例えば、医療用語ノードは、「薬物用語」ノード、「疾患用語」ノード等を含み、情報ユニットノードは、「薬物剤量」ノード、「数値」ノード等を含む。辺は、以下の２種の関係、即ち、１)医療用語と情報ユニットとの間の包含関係と、２)一級情報ユニットと二級情報ユニットとの間の包含関係とを含む。一級情報ユニットと二級情報ユニットとの区分範囲は、異なるタイプの医療用語に関して変化する可能性がある。例えば、疾患用語に関し、「疾患主体」がその一級情報ユニットであるが、手術用語に関し、「疾患主体」が一級情報ユニット「疾患性質」に含まれる二級情報ユニットである。

三、異種グラフニューラルネットワークモジュール
(１)異種グラフは、ノード及び関係タイプが複雑であるグラフを指し、図３に示す医療用語知識マップは、異種グラフの１種である。一般的なグラフニューラルネットワークは、ノード及び関係タイプが比較的に単純であるグラフについて、グラフの近隣ノード情報を利用するだけで、良好な性能を取得することができる。その一方、異種グラフニューラルネットワークをトレーニングする過程において、異なるタイプのノードのコンテンツに含まれる特徴の差異が大きく、情報次元が異なるため、グラフの近隣ノード分布情報とノードコンテンツコード情報を同時に考慮する必要がある。ノードコンテンツコードを計算する際、本発明では、異なるタイプのノードについて適切な計算方法をそれぞれ設計する。

(２)異なるタイプノードのコンテンツコードを算出する。医療用語知識マップにおける全てのノードのセットを

と示し、

に関し、そのノードコンテンツを

と記し、そのコンテンツコードを

と記し、異なるタイプノードのコンテンツコードを

により求め、

は、ノード

自身の数値であり、

とし、

は、基礎単位又は演算記号であり、

は、

の系列長さであり、コンテンツコードは、

にて求められ、

に関し、予めトレーニングされた言語モデルを用いて

の意味ベクトルを

の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングする。本実施例で使用される予めトレーニングされた言語モデルは、ＢＥＲＴモデルであり、計算式は、

であり、

は、ＢＥＲＴモデルの第

層の隠れ状態であり、

は、第

層の入力値であり、

にて求められ、

及び

は、

の次元であり、

の初期化のコンテンツコードは、

であり、本実施例においてｍ＝１２を取る。

(３)異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード

に関し、

から出発する矢印が直接指すノードのセットを

と示し、

が医療用語ノードを表すと、

は、

の一級情報ユニットセットであり、

は、

の二級情報ユニットセットであり、

の近隣ノードセット

を

と定義し、

のベクトル表現

は、

にて求められ、

は、重みパラメータであり、ノード

のノード

に対する重要性を表し、

は、

自身又は

の近隣ノードであってもよい。

の計算式は、

であり、

を満たし、

と

は、非線形活性化関数である。本実施例では、

を取る。ノード間の相対の重要性が非対称であるため、

も非対称であり、即ち、

である。

(４)異種グラフニューラルネットワークのトレーニング。トレーニング過程は、２つの両段階に分けられる。１)近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、２)ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とする。

トレーニングの第１段階において、トレーニング可能なパラメータセットを

と記すと、トレーニングの目標は、目標関数

を最適化することであり、

は、ノード

からその近隣ノード

を予測する確率を表す。

トレーニングの第２段階において、何れか２つの医療用語ノードの類似度を

により求め、

と

は、医療用語知識マップにおける医療用語ノードであり、

は、

と

との類似度であり、Ｗとｂは、何れもトレーニングによって取得されたパラメータである。
医療用語正規化トレーニングデータにおいて、医療用語ノード

の意味と同じ意味を持つ医療用語ノードセットを

とし、

の意味と異なる意味を持つ医療用語ノードセットを

とすると、トレーニングサンプルのラベル

は、

であり、第２段階の目標は、

で示される損失関数Ｌを最小化することである。

四、予測結果出力モジュール
正規化すべき医療用語ノード

との類似度が最も大きい医療用語ノード

を取り、

と記し、類似度について閾値

を設定し、

の場合に、

と

との意味が同じであると思われ、即ち、

の正規化結果が取得され、そうでない場合に、

が独立する意味を持つと思われる。本実施例では、

を取る。

例えば、薬物用語「塩化カリウム針（大塚生産）１０ミリリットル＊１本」を正規化する際に、表４に示すように、それと他の薬物用語ノードとの類似度を計算すると、その意味と同じである意味を持つ薬物用語ノードは、最も類似度の高い「塩化カリウム針１０ｍｌ：１ｇ大塚製薬株式会社」であることが分かる。

（表４）異種グラフニューラルネットワークによる医療用語ノード類似度の計算

本発明の実施例は、異種グラフニューラルネットワークに基づく医療用語正規化方法を更に提供する。当該方法は、ステップ（１）～（４）を含む。

(１)各タイプの医療用語について重要な情報ユニットを定義し、前記情報ユニットは、一級情報ユニットと、二級情報ユニットと、この２級の情報ユニットの間の包含関係とを含み、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築する。当該ステップの実現は、情報ユニット構築モジュールを参照可能である。

(２)医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向である。

(３)医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードであり、前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が：異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得し、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階：近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階：ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
当該ステップの実現は、異種グラフニューラルネットワークモジュールを参照可能である。

(４)正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力する。当該ステップの実現は、予測結果出力モジュールを参照可能である。

本発明では、複数種の医療用語について定義し且つそれらに含まれる情報ユニットを認識し、医療用語の構造化表現を実現する。医療用語の構造化表現の結果は、医療用語正規化の効果を向上可能であるとともに、医療情報化作業の各形態を非常に大きく促進する。本発明では、医療用語の情報ユニットを基に医療用語に対する新型の知識マップを構築し、医療用語正規化を含める各項の医療情報化作業を効果的に促進可能である。本発明では、医療用語正規化作業について新型の異種グラフニューラルネットワークを構築し、統一のモデルで異なるタイプの医療用語の正規化を実現しつつ、異なるタイプの情報ユニットのそれぞれについて適切なコンテンツコード方式を実現し、且つ異種グラフニューラルネットワークについて段階的なトレーニング方式を設計する。

上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims

異種グラフニューラルネットワークに基づく医療用語正規化システムであって、
情報ユニット構築モジュールと、医療用語知識マップモジュールと、異種グラフニューラルネットワークモジュールと、予測結果出力モジュールとを備え、
前記情報ユニット構築モジュールは、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの２級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記医療用語知識マップモジュールは、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記異種グラフニューラルネットワークモジュールは、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階では、ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記予測結果出力モジュールは、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記医療用語のタイプは、薬物用語、疾患用語、手術用語、検証用語及び検査用語を含むことを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記情報ユニット構築モジュールにおいて、系列ラベル付けモデルは、ＢｉＬＳＴＭ－ＣＲＦモデルであり、
トレーニングデータである医療用語において各情報ユニットの区間をラベル付けし、且つ、系列ラベル付けモデルが医療用語全体意味に影響を与えない余分な文字を廃棄できるように、非情報ユニットの文字をマーキングすることを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記情報ユニット構築モジュールにおいて、数値及びメトリック単位に対して初歩的な正規化を行い、オリジナルメトリック単位を単一の基礎単位に正規化し又は複数の基礎単位を異なる演算記号で組み合わせ、数値に対して対応する換算を行うことを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおける全てのノードのセットを

と示し、

に関し、そのノードコンテンツを

と記し、そのコンテンツコードを

と記し、ノードコンテンツが数値型であるノード

に関し、そのコンテンツコードを

により求め、

は、ノード

自身の数値であり、

は、単位ベクトルを表し、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、
ノードコンテンツがメトリック単位であるノード

に関し、そのノードコンテンツは、基礎単位と演算記号とによって構成される系列であり、

とし、

は、基礎単位又は演算記号であり、

は、

の系列長さであり、コンテンツコードは、

にて求められ、

は、異種グラフニューラルネットワークのトレーニングによって取得されたパラメータ行列であり、

は、各種の基礎単位又は演算記号の意味ベクトルであり、ランダムに初期化して異種グラフニューラルネットワークのトレーニングによって取得され、

は、ベクトル繋ぎ合わせ演算子であり、
ノードコンテンツがテキスト型であるノード

に関し、予めトレーニングされた言語モデルを用いて

の意味ベクトルを

の初期化のコンテンツコードとして算出し、後段の異種グラフニューラルネットワークによってコンテンツコードを引き続きトレーニングすることを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
ノードコンテンツがテキスト型であるノード

に関し、予めトレーニングされた言語モデルは、ＢＥＲＴモデルを採用し、計算式は、

であり、

は、ＢＥＲＴモデルの第

層の隠れ状態であり、

は、第

層の入力値であり、

にて求められ、

及び

は、何れもトレーニングによって取得されたパラメータであり、

は、

の次元であり、

は、ＢＥＲＴモデルの第ｋ層の隠れ状態であり、ＢＥＲＴモデルが合計ｍ層の構造である場合に、ノード

の初期化のコンテンツコードは、

であることを特徴とする請求項５に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記異種グラフニューラルネットワークモジュールにおいて、医療用語知識マップにおけるノード自身とその近隣ノードとのコンテンツコードに基づいて各ノードのベクトル表現を算出し、医療用語知識マップにおけるノード

に関し、

から出発する矢印が直接指すノードのセットを

と示し、

が医療用語ノードを表すと、

は、

の一級情報ユニットセットであり、

は、

の二級情報ユニットセットであり、

の近隣ノードセット

を

と定義し、

のベクトル表現

は、

にて求められ、

は、重みパラメータであり、

にて求められ、

を満たし、

と

は、トレーニングによって取得された行列パラメータであり、

は、非線形活性化関数であることを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記異種グラフニューラルネットワークモジュールでは、トレーニングの第１段階において、トレーニング可能なパラメータセットを

と記すと、トレーニングの目標は、目標関数

を最適化することであり、

は、ノード

からその近隣ノード

を予測する確率を表し、
トレーニングの第２段階において、何れか２つの医療用語ノードの類似度を

により求め、

と

は、医療用語知識マップにおける医療用語ノードであり、

は、

と

との類似度であり、Ｗとｂは、何れもトレーニングによって取得されたパラメータであり、
医療用語正規化トレーニングデータにおいて、医療用語ノード

の意味と同じ意味を持つ医療用語ノードセットを

とし、

の意味と異なる意味を持つ医療用語ノードセットを

とすると、トレーニングサンプルのラベル

は、

であり、第２段階の目標は、

で示される損失関数Ｌを最小化することであることを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
前記予測結果出力モジュールでは、正規化すべき医療用語ノード

について、トレーニング済みの異種グラフニューラルネットワークに基づいて

と医療用語知識マップにおける他の医療用語ノードとの類似度を算出して順番付けし、

との類似度が最も大きい医療用語ノード

を取り、

と記し、類似度について閾値

を設定し、

の場合に、

と

との意味が同じであると見なし、

の正規化結果を取得し、そうでない場合に、

と医療用語知識マップにおける他の医療用語ノードとの意味が異なって

が独立する意味を持つと見なすことを特徴とする請求項１に記載の異種グラフニューラルネットワークに基づく医療用語正規化システム。
異種グラフニューラルネットワークに基づく医療用語正規化方法であって、
ステップ(１)～ステップ(４)を含み、
前記ステップ(１)では、各タイプの医療用語について重要な情報ユニットであって一級情報ユニットと二級情報ユニットとこの２級の情報ユニットの間の包含関係とを含む情報ユニットを定義し、系列ラベル付けモデルを用いて全ての医療用語に含まれる情報ユニットを文字レベルにおいて認識し、情報ユニットライブラリを構築し、
前記ステップ(２)では、医療用語と情報ユニットとの関係に基づいて、医療用語知識マップを構築し、知識マップのノードは、医療用語ノードと、情報ユニットノードとを含み、辺は、有向辺であり、辺は、医療用語と情報ユニットとの間の包含関係と、一級情報ユニットと二級情報ユニットとの間の包含関係との２種の関係を有し、辺の方向は、包含側から被包含側へ指す方向であり、
前記ステップ(３)では、医療用語知識マップの近隣ノード分布及びノードコンテンツコードに基づいて、異種グラフニューラルネットワークをトレーニングし、前記近隣ノードは、１つのノードから医療用語知識マップの辺の方向に沿って２ホップする場合に通過する全てのノードであり、
前記ノードコンテンツコードは、具体的に、
ノードコンテンツが数値型であるノードに関し、そのコンテンツコードが、ノード自身の数値と異種グラフニューラルネットワークのトレーニングによって取得された単位ベクトルとの積に等しく、
ノードコンテンツがメトリック単位であるノードに関し、そのコンテンツコードの算出過程が、異種グラフニューラルネットワークのトレーニングによって各種の基礎単位及び演算記号の意味ベクトルを取得し、当該ノードに含まれる全ての基礎単位及び演算記号の意味ベクトルを繋ぎ合わせた後、非線形変換を経てコンテンツコードを取得することを含み、
ノードコンテンツがテキスト型であるノードに関し、そのコンテンツコードが、予めトレーニングされた言語モデルによって取得され、
トレーニングの第１段階では、近隣ノード分布及びノードコンテンツコードを入力とし、ノードごとにその近隣ノードの当該ノードに対する条件確率を最大化して当該ノードのベクトル表現を取得することをトレーニングの目標とし、
トレーニングの第２段階では、ノードのベクトル表現を入力とし、何れか２つの医療用語ノードの類似度を算出し、意味が同じである医療用語ノードの類似度を最大化することをトレーニングの目標とし、
前記ステップ(４)では、正規化すべき医療用語ノードをトレーニング済みの異種グラフニューラルネットワークに入力し、正規化すべき医療用語ノードと医療用語知識マップにおける他の医療用語ノードとの類似度の順番を取得し、医療用語正規化結果を出力することを特徴とする異種グラフニューラルネットワークに基づく医療用語正規化方法。