JP7432801B2

JP7432801B2 - デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム

Info

Publication number: JP7432801B2
Application number: JP2023536557A
Authority: JP
Inventors: ▲勁▼松李; 然辛; 宗峰 ▲楊▼; 天舒周; 雨田
Original assignee: 之江実験室
Priority date: 2021-12-30
Filing date: 2022-09-05
Publication date: 2024-02-16
Anticipated expiration: 2042-09-05
Also published as: CN114003791A; JP2024502730A; WO2023124191A1; CN114003791B

Description

本発明は、地域性医療ビッグデータセンター、データ生産プラットフォーム分野に属し、特にデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムに関する。

医療情報化の建設及び発展に伴い、ビッグデータと医療サービスとの融合は、スマート医療技術の継続的な向上を促進する。現在、スマート医療は、既に雛形を有し、地域性医療機関は、医療機関連体又は医者共同体を構成し且つ統一された医療ビッグデータセンターを構築して後続のインテリジェント医療データ管理システムの発展の必然的な傾向を達成する。しかしながら、医療機関の形態が異なる情報プラットフォーム、ソフトウェア及び構造が複雑であるシステムは、異なる機構プラットフォームの間にデータの共有と対話を実現することができず、データが断片化し、データアイランドを形成する。地域性医療機関の間に医療ビッグデータセンターを構築するプロセスにおいて、常に機構内のデータ（特に履歴の古いデータ）が管理不足であることを発見し、情報システム文書が効果的なメンテナンスを欠いており、フィールドメモが紛失し、文書の品質が低下し、データの血縁を迅速に効果的に遡り、局所的なデータスワンプを形成することが困難である。従来の医療ビッグデータセンターの開発過程において、各医療機関情報化部門及び情報システムは、メーカーの関連担当者が医療ビッグデータセンターの開発者と協力して標準データモデル（例えば、ＯＭＯＰＣＤＭ）に基づいて開発されたデータインターフェース（データベースビュー、データ辞書を含む）に基づいてデータ発見、分類及びデータ関連マッピングタスクを完了し、且つ手動分類及び関連マッピングを完了するデータが標準データモデルに対応する標準データベースに存在する必要がある。データソースの多様性、データスワンプの密集及び予測不可能性は、一般的にデータインターフェース開発期間が長く、協調過程が複雑であり、リワーク回数が多いなどの問題をもたらし、大量の人力物資財力を消費し、地域性医療ビッグデータセンターの迅速な自動化構築を阻害すると同時に、後続の医療データの更なる利用に多くの困難をもたらす。

医療ビッグデータセンターの開発過程におけるデータ発見、分類及びデータ関連マッピングタスクは、医療データエレメントの選別、分類タスク、及び分類された医療データエレメント関連マッピングタスクに抽象化することができる。まず、プラットフォーム開発者の設計者は、標準データモデルに基づいて標準データエレメントの分類体系及び対応するデータインターフェース仕様を定義する。その後、開発者は、ルール検索及び手動検索選別によりデータインターフェース仕様に合致するデータエレメントを決定し、この過程は、データ発見と呼ばれ、データ発見プロセスは、プラットフォーム開発過程において医療機関データレイク内のどのデータエレメントが収集されるべきかを決定する。開発者は、データ発見の結果に基づいてデータインターフェースを開発し、且つデータ収集作業を完了する。最後に、開発者は、医療機関データレイク内の多源異性のデータエレメントを標準データエレメントの分類体系に応じて分類し、標準データエレメントの分類体系に統合してマッピングする。

従来技術の欠点は、主に以下の２つの点で体現される。

１)医療機関情報システムの数が多く、プロバイダのソースが異なり、データ収集プロセスが複雑であり、大量の工数に依存し、医療ビッグデータセンターの建設とビッグデータアプリケーションの効果的な展開を阻害する。三甲レベルの医療機関の情報システムの数は、１００～３００に達することができ、巨大なデータレイクを形成する。データレイク中のデータ量が大きく、関係が複雑であるため、データインターフェース開発段階のデータ発見作業が医療機関情報化部門及び情報システムプロバイダの担当者の長期的な協力に依存する必要があることは、決まっている。データインターフェースの間が互いに繋がり、データ発見動作の人件費が大きく、消費時間が長い。中のフローに故障が発生すると、問題の検査過程は、非常に複雑である。これは、医療ビッグデータセンターの開発及びビッグデータアプリケーションの効果的な展開を大幅に阻害する。

２)医療機関情報システムの更新が頻繁であり、履歴システムのドキュメントのメンテナンスが困難であり、欠けが深刻であるなどの一般的な問題は、医療機関のデータレイク内に局所的なデータスワンプを形成し、更にデータインターフェース開発の難しさを増加させる。医療データは、患者の診療プロセスにおいて生成された診療データ及び医療機関の運営過程における観測データを含み、供給源が多様であり、関係が複雑である。医療機関情報システムのバージョンのオーバラップに伴い、履歴データは、医療機関データレイク中に沈んで有効的な管理に欠け、局所的なデータスワンプを形成する。医療ビッグデータセンターの構築は、これらの履歴データを統合する必要があり、データスワンプからデータレイクへの変換を完了する。医療機関情報化部門及び情報システムのプロバイダの関連担当者が頻繁に交代し、履歴システムの文書の紛失が時々発生する。文書の紛失に対し、データインターフェース開発者は、繰り返し試行錯誤の方法で医療機関データレイク中の全ての可能なデータについて手動選別を行ってデータ発見を完了するしかできない。医療機関情報システムの数が多く且つ関連関係が複雑であるため、手動選別の方法は、医療機関データレイクのグローバル情報を効果的に利用することが困難であり、時間がかかり、エラー率が高く、データ発見動作の動作周期及び難しさを大幅に増加させる。データレイク内データ間の関連構造が複雑すぎて手動で許容できる程度を超える場合、対応するデータインターフェースの開発を放棄するしかできない。これにより、対応する種別のデータは、関連マッピング可能なデータを見つけることができず、当該分類のデータ紛失をもたらす。

医療ビッグデータセンターの構築過程において、医療機関の局所的なデータスワンプが普遍的に存在するなどの問題により、データインターフェースの開発時間が長く、メンテナンスが困難である。従来の解決手段は、手動処理に依存し、大量データのデータ発見、分類及び関連マッピング問題を大規模に完了することが困難である。医療機関データレイク内の多源異性のデータは、未知の分類のデータエレメントで構成された選別すべき医療データエレメントセットに抽象化することができる。過去の数年に、グラフニューラルネットワークの勃興及び運用の成功は、グラフ構造データの深層学習モードの発展を促進する。

本発明は、グラフニューラルネットワークに基づくデプスマップマッチングアルゴリズムを利用し、手動処理に基づくデータエレメント分類方法を改善し、情報システムデータ文書に対する依存を最大限に低減し、医療機関データレイク内の極めて少ないメタデータ情報のみを取得する条件下で、医療データテキスト意味に基づいて有効データエレメントの迅速な選別を実現し、医療機関データレイク内データの自動化データ発見を実現し、デプスマップマッチングアルゴリズムに基づいて医療データエレメントの迅速な分類を実現し、医療機関データレイク内データエレメントの標準データエレメント分類体系への自動化分類及び関連マッピングを実現し、医療ビッグデータセンターの開発過程におけるデータインターフェース開発の効率を大幅に向上させる。本発明に係るデータエレメントの分類方法は、良好な拡張可能性を有し、様々なデータスワンプからデータレイクへの変換問題の処理に適用することができる。

本発明の目的は、以下の解決手段によって実現される。

本発明の一態様は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、ステップ(１)～ステップ(３)を含み、
前記ステップ(１)では、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記ステップ(２)では、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(３)では、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
更に、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との２種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ１種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、３種の辺タイプに対応する属性情報は、何れも辺インデックスである。

更に、前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含む。

更に、前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、１対１の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、

とされ、

は、列頂点セットに対応する標準分類列中の第ｋ列且つ第ｊ行のデータを示し、

にて求められ、
ｍは、第ｊ行の全文字数であり、

は、データ

を構成する文字であり、文字

の初期ベクトル表現

は、テキスト表示モデル

で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点

においてｎ行データ

はランダムに抽出され、第ｊ行データのベクトル表現は、

にて求められ、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点

での各行のデータの相関性を算出し、列頂点

の列ベクトル表現

を取得し、

は、列頂点

のベクトル表現であり、

にて求められ、

は、

にて求められ、

は、

の次元であり、ｓｏｆｔｍａｘは、ｓｏｆｔｍａｘ関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含む。

更に、前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
選別すべき医療データエレメントグラフデータに格納された列頂点

について、

が除外された列頂点セットからｐ個の列頂点

をランダムに抽出し、列頂点

と抽出された列頂点との相関性を算出することにより、

の医療データエレメントグラフデータモデルにおける重要度スコア

を算出することを含み、

は、

によって定義され、

を満たし、

は、重要度関数である。

更に、前記医療データエレメント選別モデルのトレーニング及び予測は、具体的に、
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを

とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを

とし、
トレーニング時に、セット

からｑ個の列頂点を正のサンプルセット

としてランダムに抽出し、セット

からｑ個の列頂点を負のサンプルセット

としてランダムに抽出に、サンプル

の重要度スコアを

とし、

を第ｉ個の列頂点とし、

をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数

を

により算出し、
前記医療データエレメント選別モデルは、予測時に、閾値

を算出することにより、列頂点

に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値

計算式は、

であり、

≧０．５の場合に、列頂点

は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。

更に、前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを

とし、標準分類医療データエレメントグラフデータ中の列頂点セットを

とし、

の標準データエレメント分類体系における分類が

となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを

とし、医療データエレメント分類過程を、列頂点

との合致度が最も高い列頂点

を

において見つけ出すことに抽象化させることにより、列頂点

に対応する列の分類を

として特定し、
列頂点

について、

に対応する列から

個のデータ

をランダムに抽出し、列頂点

について、

に対応する列から

個のデータ

をランダムに抽出する、

と

との合致度

は、

にて求められ、

は、データ

のベクトル表現を表し、

に対応するシード頂点は、それとの合致度が最も高い列頂点

となり、

は、

にて求められる。

更に、前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
分類すべき医療データエレメントグラフデータ中の、

とは親子関係を有する列頂点セットを

で示し、分類すべき医療データエレメントグラフデータ中の、

とは外部キー関係を有する列頂点セットを

で示すと、シード頂点

によるカットで得られたサブグラフ

は、

にて求められ、
標準分類医療データエレメントグラフデータ中の、

とは同一の親頂点に対応付けられた列頂点セットを

で示すと、デプスマップマッチングモデルの目標は、サブグラフ

からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を

中の列頂点に１つずつマッチングさせて、

中の列頂点に対応する医療データエレメントの分類を図ることである。

前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点

のベクトル表現

を算出し、

は、

にて求められ、

、
を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中の列頂点

の列頂点

に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点

のベクトル表現

を算出し、

は、

にて求められ、

を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中の列頂点

の列頂点

に対する重み関数を示し、
列頂点

と列頂点

との合致度

は、

にて求められ、

との合致度が最も高い列頂点

は、

にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点

に対応する列の分類は、

に対応する標準データエレメント分類体系中の種別である。

本発明の別の態様は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを提供する。当該システムは、
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。

本発明は、以下の有利な作用効果を有する。
１)本発明は、医療機関データレイクに格納された極めて少ないメタデータ情報のみを利用し、医療データエレメントグラフデータモデルを使用して医療機関内の医療データエレメントの正規化収集、及び、スクリーニング、分類すべき医療データエレメントとの間の関係情報の十分な利用を実現した。
２)本発明の方法では、データ発見、分類及び関連マッピングのプロセスの医療機関情報システム履歴文書への依存度が低減され、履歴文書の欠失やエラーの医療データエレメントの分類結果に対する影響が小さい。
３)本発明の方法は、データ発見、分類及び関連マッピングのプロセスへの人工介入を大幅に減少させ、分類すべき医療データエレメントを人工知能アルゴリズムによって分類し、医療ビッグデータセンターデータのリアルタイム更新及び動的収集、深い利用需要に存在する医療データエレメント自動化分類の難関に対してヒューリスティックな解決手段を提供した。

本発明の方法の全体フローチャートである。従来の医療データエレメント分類方法のフローチャートである。本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法の実施過程の模式図である。医療データエレメントグラフデータモデルの１つの例示である。多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピングの模式図である。

本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。

本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。

以下では、まず、本発明に係る用語について説明する。

メタデータ：他のデータを記述するデータである。メタデータは、データに関するデータであり、ある単独のデータを指すものではないときもあり、データを記述するための１グループの情報グループ／データグループとして理解され得る。当該情報グループ／データグループにおける全てのデータ、情報がいずれもあるデータのある方面の特徴を記述／反映すると、当該情報グループ／データグループは、メタデータと呼ばれる。メタデータは、データについて、ある要素又は属性（名称、サイズ、データ型等）、又はその構造（長さ、フィールド、データ列）、又はその関連データ（どこに位置するか、どのように連絡するか、所有者）を説明してもよい。日常生活において、メタデータは、どこにもある。１類の物事があれば、１セットのメタデータを定義することができる。

データエレメント：データの基本的なユニットと理解され得る。衛生情報基本データエレメントは、の仕様及び医薬衛生分野における全ての関連情報の唯一の中国語名称及びコードを規定及び定義し、且つコードは、アルファベット、漢字、数字の文字列形式で示される。データエレメントは、特定の意味環境における１つの情報リソースを列挙して定義する。完全なデータエレメント名称＝対象類用語＋特徴類用語＋表現類用語＋（限定類用語）を表す。

データエレメントとメタデータの区別及び関連：メタデータは、データエレメントが表すデータを理解するために必要な全ての情報をカバーする可能性がない。データエレメントの関連情報は、何れか（組織の）のメタデータの完全な構成部分である。メタデータの各要素は、いずれも１つのデータエレメントであり、データエレメント標準に合致するメタデータ属性及び記述方法でメタデータを説明する。メタデータをライブラリに格納する。メソッド化するために、モデル化が必要である。モデル化には、データエレメントの登録システム又はライブラリからメタデータを取得する必要がある。メタデータは、一致且つ標準的な方式で表現されたデータエレメントである。メタデータとデータエレメント辞書フォーマットは、いずれも行番号、中国語名、英語名、識別子（フレーズ）、定義、制約／条件、最大出現回数、データ型、データの値域などの属性で構成される。相違点は、データエレメント辞書フォーマットには、コンテキスト及び同義語の名称等の属性が別途あることにある。

データレイク：データレイクは、システム又は格納ライブラリにネイティブフォーマットでデータを格納する方法であり、それは、様々なモード及び構造形式でデータを配置することに役立ち、一般的に対象ブロック又はファイルである。データレイクの主な思想は、企業における全てのデータを統一的に格納し、生データ（ソースシステムデータの正確なコピー）から報告、可視化、分析及び機械学習等の様々なタスクに用いられる目標データに変換することである。中国国内は、一般的にＨＤＦＳ全体をデータウェアハウス（広義）、すなわち全てのデータを格納する場所と呼ばれ、国外は、一般的にデータレイク（ｄａｔａｌａｋｅ）と呼ばれる。データレイクが管理不足である場合、データスワンプを形成する。データレイクの構築が容易であるが、データレイクに価値を発揮させることは、困難である。最終的に、データレイクは、中にデータを入れるだけであり、応用シーンが極めて少なく、出力がない又は極めて少なく、単方向レークを形成する。データレイクを使用する大部分の企業は、データの使用を真に必要とする時にデータレイク中のデータが品質が悪いため最終的に使用できなくなる場合がよくある。

グラフニューラルネットワーク：過去の数年において、ニューラルネットワークの勃興及び運用の成功は、パターン認識及びデータマイニングの研究を促進する。特徴の手動抽出に大きく依存する多くの機械学習タスク（例えば、目標検出、機械翻訳及び音声認識）は、現在、様々なエンドツーエンドの深層学習ノルムにより徹底的に変更される。従来の深層学習方法がユークリッド空間データの特徴を抽出する方面で巨大な成功を取得するが、多くの実際応用シーンにおけるデータは、非ユークリッド空間から生成される。従来の深層学習方法は、非ユークリッド空間データを処理する効果が依然として不足である。図中の各データサンプル（ノード）には、いずれも図中の他の実データサンプルに関連する辺がある。これらの情報は、実例の間の相互依存関係をキャプチャするために用いられてもよい。グラフニューラルネットワークは、グラフ構造データ（非ユークリッド空間）に適用されるニューラルネットワークである。

デプスマップマッチング：グラフマッチングは、人工知能における典型的な問題であり、幾つかの分野にも重要な応用があり、例えばコンピュータビジョンにおいて２Ｄ／３Ｄ形状にマッチングし、生体情報学においてタンパク質ネットワークにマッチングし、ソーシャルネットワークにおいて異なるネットワーク中のユーザ等にマッチングする。デプスマップマッチングは、グラフニューラルネットワークに基づいてマップマッチング問題を解決する方法である。

図１に示すように、本発明は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、以下のステップ（１）～（３）を含む。
（１）多源異性データエレメントの正規化収集及びマッピングは、
最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することと、
医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納することとを含む。
（２）選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。
（３）分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。

図２は、従来の医療データエレメント分類方法のフローチャートである。以下では、本発明の方法の各部分の実施過程は、図３に詳細に記述されている。

一、多源異性データエレメントの正規化収集及びマッピング
１.１医療データエレメントグラフデータモデルの定義
医療機関データは、集められてデータレイクを形成し、データレイクのデータは、多源異性の特性を有し、医療過程における診療過程及び医療機関の運営過程の観測データを含み、観測データベースの目的及び設計は、それぞれ異なる。診療プロセスで形成された電子カルテは、臨床実践をサポートすることを目的とし、医療機関運営データは、院内管理及び医療保障清算フローで構築される。各種類が異なる目的のために収集されるため、データは、異なる論理組織及び物理フォーマットを有する。

データモデルは、データベース設計において現実世界を抽象するためのツールであり、標準且つ統一のデータモデルを作成することにより、データ構造、データ操作、データ制約を定義し、収集されたデータ品質及びデータが表す標準の制御可能性を効果的に保証することができ、グラフデータモデルは、グラフデータベースに基づいて開発されたデータモデルである。

データレイク中のデータベースタイプが異なるため、データテーブル、データ列間の関係が複雑である。医療機関内の観測データの時間スパンが大きく、一般的にデータベース文書情報が欠失する現象が存在する。本発明に言及されたデプスマップマッチングモデルの効果を同様に極低メタデータ情報の局所的なデータスワンプの状況に適用するために、最小のメタデータ情報を使用しデータエレメントの自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証し、本発明は、データレイク内データベースの最小メタデータ情報に基づいて、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療ビッグデータセンターの確立過程における医療データエレメントの自動化分類のためにヒューリスティックな解決手段を提供する。

グラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点Ｖｅｒｔｅｘと辺Ｅｄｇｅとの２種の図要素で構成される。頂点は、ラベルと、ラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ１種又は複数種の属性を表す。頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含む。

本発明で定義される医療データエレメントグラフデータモデルの頂点の本体情報は、下の表に示される。

（表１）医療データエレメントグラフデータモデルの頂点の本体情報表

ここでｖｉｄは、図における各頂点の唯一のインデックスｉｄであり、ハッシュハッシュコードを統一して使用することができる。ｖｅｃｔｏｒ_ｅｍｂｅｄｄｌｅは、列ベクトル表現モデルで予測された列ベクトル表現結果である。

グラフデータモデルにおいて、辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、有向辺は、１つの頂点（始点ｓｒｃ）からもう１つの頂点（終点ｄｓｔ）へ指す関連関係を表す。辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含む。

本発明で定義される医療データエレメントグラフデータモデルの辺の本体情報は、下の表に示される。

（表２）医療データエレメントグラフデータモデルの辺の本体情報表

図４は、医療データエレメントグラフデータモデルの１つの例示である。

１．２多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピング
本発明のデータ収集及び関連マッピング過程において、多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成する。メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャする。列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得する。最後グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得する。図５を参照すると、具体的な実現形態は、以下に記述される。

(１)メタデータ収集ツール
ａ）データベース適応：医療機関内のデータレイクは、一般的に異なるタイプのデータベースを含み、メタデータ収集ツールは、異なるタイプのデータベースに対してデータベース適応モジュールを開発して適合を実現する必要がある。

ｂ）解析構成：最終的な関連マッピング目標は、医療データエレメントグラフデータモデルであるため、収集情報は、メタデータ中のテーブル列情報、血縁関係情報及び各列の外部キー情報のみを収集するように配置される一方、主キー、制約、インデックス、権限、トリガなどの一般的なメタデータは、収集範囲内にない。

ｃ）メタデータのキャプチャ：解析配置状況について、データレイク内の各データベースに対してメタデータのキャプチャ操作を実行する。

ｄ）データ関連：データベース適応状況に対して、異なるタイプのデータベースのフィールド型をグラフデータベースのデータ型に統一的にマッピングする。例えば、ｏｒａｃｌｅデータベースのｖａｒｃｈａｒ２型及びＭｙＳＱＬデータベースのｖａｒｃｈａｒ型は、グラフデータベースのｓｔｒｉｎｇ型に統一的にマッピングされ、他のタイプのデータベースは、同様である。

（２）列ベクトル生成器
列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出する。

ａ)列ベクトル表現モデルのトレーニング
列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列と略称される。
標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、１対１の対応関係を有する。
医療データエレメントグラフデータ中の列頂点ベクトル表現方法を取得することは、対応する医療データエレメントセットにおける列に格納されたデータをテキストデータに変換し、各列のテキストデータの頭尾にそれぞれ[ＣＬＳ]、[ＳＥＰ]を加えてデータの先頭及び終了を示す。
標準分類医療データエレメントグラフデータにおける列頂点セットは、

とされ、

にて求められ、
ｍは、第ｊ行の全文字数であり、

は、データ

を構成する文字である。テキスト表示モデル

によって文字

の初期ベクトル表現

を算出する。テキスト表示モデル

は、Ｔｒａｎｓｆｏｒｍｅｒモデルに基づくトランスフォーマーからの双方向エンコーダ表現モデル（ＢＥＲＴモデル）を採用してもよい。標準分類医療データエレメントグラフデータの列頂点

において

行データ

をランダムに抽出し、第ｊ行データのベクトル表現は、

にて求められ、
自己注意機構（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）基づいて標準分類医療データエレメントグラフデータ中の列頂点

での各行のデータの相関性を算出し、列頂点

の列ベクトル表現

を取得し、

は、列頂点

のベクトル表現であり、

にて求められ、

は、

にて求められる。
ただし、

は、列頂点

のベクトル表現であり、

は、

の次元であり、ｓｏｆｔｍａｘは、ｓｏｆｔｍａｘ関数である。

より正確な列頂点ベクトル表現を得るために、十分な量の標準分類列をトレーニングデータとして蓄積した場合に、標準分類列データを用いて列ベクトル表現モデルに対して更なる移動学習を行ってもよい。列単位で、対応する列データ中の１５％の文字をランダムに上書きし、上書きされた文字を[ＭＡＳＫ]ラベルを使用して置換する。列ベクトル表現モデルを用いて、上書きされる文字を予測して更にトレーニングしてモデルを更新する。このようにして得られた列ベクトル表現モデルは、有効データエレメントの選別タスクに一層フィットする。

ｂ）列ベクトル表現モデルの予測
列ベクトル表現モデルの予測データは、データレーク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースする。選別すべき医療データエレメントセットに存在する列データ量が大きすぎることにより列ベクトル生成器の性能が低下することを回避するために、列ベクトル表現モデルを用いて列ベクトル表現を算出する過程において、ランダム抽出の方式（例えばランダムに単列１０００個のデータを抽出し、１００回抽出する）を使用することができ、列ベクトル表現モデルを用いて列頂点

をｓ回目に抽出した列ベクトル表現

を算出する。予測の複数回の抽出された列ベクトル表現結果について平均値を求め、

の最終的な列ベクトル表現を

とし、

を医療データエレメントグラフデータモデルの列頂点

のｖｅｃｔｏｒ_ｅｍｂｅｄｄｉｎｇｓ属性内に格納する。

(３)グラフデータ関連マップ
計算して得られた選別すべき医療データエレメントセットにおける各列の列ベクトル表現、及びメタデータの収集結果を、それぞれ医療データエレメントグラフデータモデルにおける頂点と辺に対応する対象に対応付けてマッピングし、医療データエレメントグラフデータモデルをデータ標準とする選別すべき医療データエレメントグラフデータに入庫し、対応するマッピング関係は、以下の表に示される。

（表３）グラフデータ関連マッピング表

二、有効医療データエレメントの迅速且つ自動化選別
医療機関内のデータレイクに格納された情報タイプが多く、標準データモデルのデータカバー範囲に比べて、一般的に大量の情報冗長が存在し、有効医療データエレメントを迅速で自動化選別するために、医療データエレメント自動化分類タスクを行う前に、選別すべき医療データエレメントセットにおけるデータエレメントを選別し、データエレメントの分類タスクの複雑度を低下させることができる。本発明は、有効医療データエレメントを迅速で自動化選別する方法を提供し、当該方法は、以下の２つステップを含む。（１）選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出する。（２）医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、その中の有効医療データエレメントを選別して分類すべき医療データエレメントセットを構成する。

２．１列頂点ベクトル表現に基づいて列頂点の医療データエレメントグラフデータモデルにおける重要度を算出する
選別すべき医療データエレメントグラフデータに格納された列頂点と選別すべき医療データエレメントセット中の列とは、１対１の対応関係を有する。選別すべき医療データエレメントグラフデータに格納された列頂点

について、

が除外された列頂点セットからｐ個の列頂点

をランダムに抽出し、列頂点

と抽出された列頂点との相関性を算出することにより、

を算出する。

は、

によって定義され、

を満たす。

は、重要度関数である。

２．２医療データエレメント選別モデルのトレーニング及び予測
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを

とする。

トレーニング時に、セット

からｑ個の列頂点を正のサンプルセット

としてランダムに抽出し、セット

からｑ個の列頂点を負のサンプルセット

としてランダムに抽出し、サンプル

の重要度スコアを

とし、

を第ｉ個の列頂点とし、

を

により算出し、
Ａｄａｍアルゴリズムによって重要度関数を更新する際に、医療データエレメント選別モデルを更新する。

前記医療データエレメント選別モデルは、予測時に、閾値

を算出することにより、列頂点

の計算式は、

であり、

≧０．５の場合に、列頂点

は、有効列頂点であり、対応する列は、有効データエレメントであり、
最終的に選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。

三、デプスマップマッチングモデルに基づいて医療データエレメントの種別を特定する
３．１分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する
分類すべき医療データエレメントグラフデータに格納された列頂点と分類すべき医療データエレメントセット中の列とは、１対１の対応関係を有する。標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを

とし、

の標準データエレメント分類体系における分類が

とすると、医療データエレメント分類過程を、列頂点

との合致度が最も高い列頂点

を

において見つけ出すことに抽象化させてもよい。これにより、列頂点

に対応する列の分類を

として特定する。医療ビッグデータセンター開発過程におけるデータ分類及び関連マッピング過程は、標準データエレメント分類体系の全ての分類

について、合致度が最も高い

を見つけ出すことに抽象化されてもよい。

標準データモデルをデータ標準とする標準データベースにおける幾つかの列のデータのフォーマット又はコンテンツが比較的に統一であり、それとの関連マッピング関係を有する標準分類医療データエレメントセットの列のフォーマット又はコンテンツも比較的に統一となる。まずこれらの列に対応する頂点を分類すべき医療データエレメントグラフデータにおける対応する頂点（シードノードと呼ばれる）に位置決めすれば、デプスマップマッチングモデルの検索空間を絞り込むことができ、それによりその効率を向上させる。列頂点

について、

に対応する列から

個のデータ

をランダムに抽出し、分類すべき医療データエレメントグラフデータ中の列頂点

について、同様に

に対応する列から

個のデータ

をランダムに抽出すると、

と

との合致度

は、

にて求められ、

ただし、

は、データ

のベクトル表現を表し、

となり、

は、

にて求められる。

３．２シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う
分類すべき医療データエレメントグラフデータ中の、

とは親子関係を有する列頂点セットを

とは外部キー関係を有する列頂点セットを

で示すと、シード頂点

によるカットで得られたサブグラフ

は、

とは同一の親頂点に対応付けられた列頂点セットを

中の列頂点に１つずつマッチングさせて、

中の列頂点に対応する医療データエレメントの分類を図る。

３．３デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する
医療データエレメント分類過程は、以下のステップを含む。

（１）グラフ注意機構を組み合わせ、標準分類医療データエレメントグラフデータ中の列頂点

のベクトル表現

と分類すべき医療データエレメントグラフデータの列頂点

のベクトル表現

とをそれぞれ算出する。具体的に、
グラフ注意機構に基づいて、

のベクトル表現

を算出し、

は、

にて求められ、

、
を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中のある列頂点

の列頂点

に対する重み関数を表す。具体的な計算式は、

である。

は、非線形活性化関数であり、

は、トレーニングによって得られた行列パラメータである。
グラフ注意機構に基づいて、

のベクトル表現

を算出し、

は、

にて求められ、

を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中のある列頂点

の列頂点

に対する重み関数を表す。具体的な計算式は、

である。

は、非線形活性化関数であり、

は、トレーニングによって得られた行列パラメータである。

（２）全ての

と

との合致度を算出し、合致度に基づいて列頂点

の分類を算出し、それ相応に、分類すべき医療データエレメントセット中の

に対応する列の分類結果を取得する。
標準分類医療データエレメントグラフデータの列頂点

と分類すべき医療データエレメントグラフデータの列頂点

との合致度

は、

にて求められ、

との合致度が最も高い列頂点

は、

に対応する列の分類が

に対応する標準データエレメント分類体系中の種別であることを表明する。

本発明の実施例は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを更に提供する。当該システムは、多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える。
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納する。当該モジュールの実現は、上記ステップ一を参照可能である。
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。当該モジュールの実現は、上記ステップ二を参照可能である。
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。当該モジュールの実現は、上記ステップ三を参照可能である。

本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムは、以下の重要点を有する。
１）医療機構内のデータレイクの最小メタデータ情報を基に、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することにより、デプスマップマッチングモデルの効果は、同様に極低メタデータ情報の局所的なデータスワンプの状況に適用可能であり、最も少ないメタデータ情報を使用してデータエレメント自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証する。
２）表示学習方法に基づいて医療データエレメントのベクトル表現を算出し、ベクトル表現の分類により、標準データモデルへマッチング可能な有効データエレメントを迅速で自動化選別する。
３）グラフ注意機構に基づいて列頂点のベクトル表現を算出し、デプスマップマッチングモデルを構築して医療データエレメントの自動化分類を完了する。

上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims

多源異性データエレメント正規化収集及びマッピングモジュールと有効医療データエレメント選別モジュールとデプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える、デプスマップマッチングに基づく医療データエレメント自動化分類システムが実行する、デプスマップマッチングに基づく医療データエレメント自動化分類方法であって、
ステップ(１)～ステップ(３)を含み、
前記ステップ(１)では、前記多源異性データエレメント正規化収集及びマッピングモジュールが、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との２種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ１種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、３種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
前記ステップ(２)では、前記有効医療データエレメント選別モジュールが、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(３)では、前記デプスマップマッチングモデルベース医療データエレメント分類モジュールが、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含むことを特徴とする請求項１に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、１対１の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、

とされ、

は、列頂点セットに対応する標準分類列中の第ｋ列且つ第ｊ行のデータを示し、

にて求められ、ｍは、第ｊ行の全文字数であり、

は、データ

を構成する文字であり、文字

の初期ベクトル表現

は、テキスト表示モデル

で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点

においてｎ行のデータ

はランダムに抽出され、第ｊ行のデータのベクトル表現は、

にて求められ、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点

での各行のデータの相関性を算出し、列頂点

の列ベクトル表現

を取得し、

は、列頂点

のベクトル表現であり、

にて求められ、

は、

にて求められ、

は、

の次元であり、ｓｏｆｔｍａｘは、ｓｏｆｔｍａｘ関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含むことを特徴とする請求項２に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
選別すべき医療データエレメントグラフデータに格納された列頂点

について、

が除外された列頂点セットからｐ個の列頂点

をランダムに抽出し、列頂点

と抽出された列頂点との相関性を算出することにより、

の医療データエレメントグラフデータモデルにおける重要度スコア

を算出することを含み、

は、

によって定義され、

を満たし、

は、重要度関数であることを特徴とする請求項３に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記医療データエレメント選別モデルのトレーニング及び予測において、
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを

とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを

とし、
トレーニング時に、セット

からｑ個の列頂点を正のサンプルセット

としてランダムに抽出し、セット

からｑ個の列頂点を負のサンプルセット

としてランダムに抽出し、サンプル

の重要度スコアを

とし、

を第ｉ個の列頂点とし、

をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数

を

により算出し、
前記医療データエレメント選別モデルは、予測時に、閾値

を算出することにより、列頂点

に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値

の計算式は、

であり、

≧０．５の場合に、列頂点

は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成することを特徴とする請求項１に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを

とし、標準分類医療データエレメントグラフデータ中の列頂点セットを

とし、

の標準データエレメント分類体系における分類が

となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを

とし、医療データエレメント分類過程を、列頂点

との合致度が最も高い列頂点

を

において見つけ出すことに抽象化させることにより、列頂点

に対応する列の分類を

として特定し、
列頂点

について、

に対応する列から

個のデータ

をランダムに抽出し、列頂点

について、

に対応する列から

個のデータ

をランダムに抽出すると、

と

との合致度

は、

にて求められ、

は、データ

のベクトル表現を表し、

に対応するシード頂点は、それとの合致度が最も高い列頂点

となり、

は、

にて求められることを特徴とする請求項１に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
分類すべき医療データエレメントグラフデータ中の、

とは親子関係を有する列頂点セットを

で示し、分類すべき医療データエレメントグラフデータ中の、

とは外部キー関係を有する列頂点セットを

で示すと、シード頂点

によるカットで得られたサブグラフ

は、

にて求められ、
標準分類医療データエレメントグラフデータ中の、

とは同一の親頂点に対応付けられた列頂点セットを

で示すと、デプスマップマッチングモデルの目標は、サブグラフ

からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を

中の列頂点に１つずつマッチングさせて、

中の列頂点に対応する医療データエレメントの分類を図ることであることを特徴とする請求項６に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点

のベクトル表現

を算出し、

は、

にて求められ、

を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中の列頂点

の列頂点

に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点

のベクトル表現

を算出し、

は、

にて求められ、

を満たし、

は、列頂点

に対応する列からランダムに抽出された

個のデータであり、

は、

中の列頂点

の列頂点

に対する重み関数を示し、
列頂点

と列頂点

との合致度

は、

にて求められ、

との合致度が最も高い列頂点

は、

にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点

に対応する列の分類は、

に対応する標準データエレメント分類体系中の種別であることを特徴とする請求項７に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
デプスマップマッチングに基づく医療データエレメント自動化分類システムであって、
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との２種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ１種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、３種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類システム。