JP7432801B2 - デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム - Google Patents

デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム Download PDF

Info

Publication number
JP7432801B2
JP7432801B2 JP2023536557A JP2023536557A JP7432801B2 JP 7432801 B2 JP7432801 B2 JP 7432801B2 JP 2023536557 A JP2023536557 A JP 2023536557A JP 2023536557 A JP2023536557 A JP 2023536557A JP 7432801 B2 JP7432801 B2 JP 7432801B2
Authority
JP
Japan
Prior art keywords
column
vertex
data element
data
medical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023536557A
Other languages
English (en)
Other versions
JP2024502730A (ja
Inventor
▲勁▼松 李
然 辛
宗峰 ▲楊▼
天舒 周
雨 田
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2024502730A publication Critical patent/JP2024502730A/ja
Application granted granted Critical
Publication of JP7432801B2 publication Critical patent/JP7432801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Description

本発明は、地域性医療ビッグデータセンター、データ生産プラットフォーム分野に属し、特にデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムに関する。
医療情報化の建設及び発展に伴い、ビッグデータと医療サービスとの融合は、スマート医療技術の継続的な向上を促進する。現在、スマート医療は、既に雛形を有し、地域性医療機関は、医療機関連体又は医者共同体を構成し且つ統一された医療ビッグデータセンターを構築して後続のインテリジェント医療データ管理システムの発展の必然的な傾向を達成する。しかしながら、医療機関の形態が異なる情報プラットフォーム、ソフトウェア及び構造が複雑であるシステムは、異なる機構プラットフォームの間にデータの共有と対話を実現することができず、データが断片化し、データアイランドを形成する。地域性医療機関の間に医療ビッグデータセンターを構築するプロセスにおいて、常に機構内のデータ(特に履歴の古いデータ)が管理不足であることを発見し、情報システム文書が効果的なメンテナンスを欠いており、フィールドメモが紛失し、文書の品質が低下し、データの血縁を迅速に効果的に遡り、局所的なデータスワンプを形成することが困難である。従来の医療ビッグデータセンターの開発過程において、各医療機関情報化部門及び情報システムは、メーカーの関連担当者が医療ビッグデータセンターの開発者と協力して標準データモデル(例えば、OMOP CDM)に基づいて開発されたデータインターフェース(データベースビュー、データ辞書を含む)に基づいてデータ発見、分類及びデータ関連マッピングタスクを完了し、且つ手動分類及び関連マッピングを完了するデータが標準データモデルに対応する標準データベースに存在する必要がある。データソースの多様性、データスワンプの密集及び予測不可能性は、一般的にデータインターフェース開発期間が長く、協調過程が複雑であり、リワーク回数が多いなどの問題をもたらし、大量の人力物資財力を消費し、地域性医療ビッグデータセンターの迅速な自動化構築を阻害すると同時に、後続の医療データの更なる利用に多くの困難をもたらす。
医療ビッグデータセンターの開発過程におけるデータ発見、分類及びデータ関連マッピングタスクは、医療データエレメントの選別、分類タスク、及び分類された医療データエレメント関連マッピングタスクに抽象化することができる。まず、プラットフォーム開発者の設計者は、標準データモデルに基づいて標準データエレメントの分類体系及び対応するデータインターフェース仕様を定義する。その後、開発者は、ルール検索及び手動検索選別によりデータインターフェース仕様に合致するデータエレメントを決定し、この過程は、データ発見と呼ばれ、データ発見プロセスは、プラットフォーム開発過程において医療機関データレイク内のどのデータエレメントが収集されるべきかを決定する。開発者は、データ発見の結果に基づいてデータインターフェースを開発し、且つデータ収集作業を完了する。最後に、開発者は、医療機関データレイク内の多源異性のデータエレメントを標準データエレメントの分類体系に応じて分類し、標準データエレメントの分類体系に統合してマッピングする。
従来技術の欠点は、主に以下の2つの点で体現される。
1)医療機関情報システムの数が多く、プロバイダのソースが異なり、データ収集プロセスが複雑であり、大量の工数に依存し、医療ビッグデータセンターの建設とビッグデータアプリケーションの効果的な展開を阻害する。三甲レベルの医療機関の情報システムの数は、100~300に達することができ、巨大なデータレイクを形成する。データレイク中のデータ量が大きく、関係が複雑であるため、データインターフェース開発段階のデータ発見作業が医療機関情報化部門及び情報システムプロバイダの担当者の長期的な協力に依存する必要があることは、決まっている。データインターフェースの間が互いに繋がり、データ発見動作の人件費が大きく、消費時間が長い。中のフローに故障が発生すると、問題の検査過程は、非常に複雑である。これは、医療ビッグデータセンターの開発及びビッグデータアプリケーションの効果的な展開を大幅に阻害する。
2)医療機関情報システムの更新が頻繁であり、履歴システムのドキュメントのメンテナンスが困難であり、欠けが深刻であるなどの一般的な問題は、医療機関のデータレイク内に局所的なデータスワンプを形成し、更にデータインターフェース開発の難しさを増加させる。医療データは、患者の診療プロセスにおいて生成された診療データ及び医療機関の運営過程における観測データを含み、供給源が多様であり、関係が複雑である。医療機関情報システムのバージョンのオーバラップに伴い、履歴データは、医療機関データレイク中に沈んで有効的な管理に欠け、局所的なデータスワンプを形成する。医療ビッグデータセンターの構築は、これらの履歴データを統合する必要があり、データスワンプからデータレイクへの変換を完了する。医療機関情報化部門及び情報システムのプロバイダの関連担当者が頻繁に交代し、履歴システムの文書の紛失が時々発生する。文書の紛失に対し、データインターフェース開発者は、繰り返し試行錯誤の方法で医療機関データレイク中の全ての可能なデータについて手動選別を行ってデータ発見を完了するしかできない。医療機関情報システムの数が多く且つ関連関係が複雑であるため、手動選別の方法は、医療機関データレイクのグローバル情報を効果的に利用することが困難であり、時間がかかり、エラー率が高く、データ発見動作の動作周期及び難しさを大幅に増加させる。データレイク内データ間の関連構造が複雑すぎて手動で許容できる程度を超える場合、対応するデータインターフェースの開発を放棄するしかできない。これにより、対応する種別のデータは、関連マッピング可能なデータを見つけることができず、当該分類のデータ紛失をもたらす。
医療ビッグデータセンターの構築過程において、医療機関の局所的なデータスワンプが普遍的に存在するなどの問題により、データインターフェースの開発時間が長く、メンテナンスが困難である。従来の解決手段は、手動処理に依存し、大量データのデータ発見、分類及び関連マッピング問題を大規模に完了することが困難である。医療機関データレイク内の多源異性のデータは、未知の分類のデータエレメントで構成された選別すべき医療データエレメントセットに抽象化することができる。過去の数年に、グラフニューラルネットワークの勃興及び運用の成功は、グラフ構造データの深層学習モードの発展を促進する。
本発明は、グラフニューラルネットワークに基づくデプスマップマッチングアルゴリズムを利用し、手動処理に基づくデータエレメント分類方法を改善し、情報システムデータ文書に対する依存を最大限に低減し、医療機関データレイク内の極めて少ないメタデータ情報のみを取得する条件下で、医療データテキスト意味に基づいて有効データエレメントの迅速な選別を実現し、医療機関データレイク内データの自動化データ発見を実現し、デプスマップマッチングアルゴリズムに基づいて医療データエレメントの迅速な分類を実現し、医療機関データレイク内データエレメントの標準データエレメント分類体系への自動化分類及び関連マッピングを実現し、医療ビッグデータセンターの開発過程におけるデータインターフェース開発の効率を大幅に向上させる。本発明に係るデータエレメントの分類方法は、良好な拡張可能性を有し、様々なデータスワンプからデータレイクへの変換問題の処理に適用することができる。
本発明の目的は、以下の解決手段によって実現される。
本発明の一態様は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、ステップ(1)~ステップ(3)を含み、
前記ステップ(1)では、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記ステップ(2)では、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(3)では、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
更に、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスである。
更に、前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含む。
更に、前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、
Figure 0007432801000001
とされ、
Figure 0007432801000002
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
Figure 0007432801000003
にて求められ、
mは、第j行の全文字数であり、
Figure 0007432801000004
は、データ
Figure 0007432801000005
を構成する文字であり、文字
Figure 0007432801000006
の初期ベクトル表現
Figure 0007432801000007
は、テキスト表示モデル
Figure 0007432801000008
で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
Figure 0007432801000009
においてn行データ
Figure 0007432801000010
はランダムに抽出され、第j行データのベクトル表現は、
Figure 0007432801000011
にて求められ、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
Figure 0007432801000012
での各行のデータの相関性を算出し、列頂点
Figure 0007432801000013
の列ベクトル表現
Figure 0007432801000014
を取得し、
Figure 0007432801000015
は、列頂点
Figure 0007432801000016
のベクトル表現であり、
Figure 0007432801000017
にて求められ、
Figure 0007432801000018
は、
Figure 0007432801000019
にて求められ、
Figure 0007432801000020
は、
Figure 0007432801000021
の次元であり、softmaxは、softmax関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含む。
更に、前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
選別すべき医療データエレメントグラフデータに格納された列頂点
Figure 0007432801000022
について、
Figure 0007432801000023
が除外された列頂点セットからp個の列頂点
Figure 0007432801000024
をランダムに抽出し、列頂点
Figure 0007432801000025
と抽出された列頂点との相関性を算出することにより、
Figure 0007432801000026
の医療データエレメントグラフデータモデルにおける重要度スコア
Figure 0007432801000027
を算出することを含み、
Figure 0007432801000028
は、
Figure 0007432801000029
によって定義され、
Figure 0007432801000030
を満たし、
Figure 0007432801000031
は、重要度関数である。
更に、前記医療データエレメント選別モデルのトレーニング及び予測は、具体的に、
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
Figure 0007432801000032
とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
Figure 0007432801000033
とし、
トレーニング時に、セット
Figure 0007432801000034
からq個の列頂点を正のサンプルセット
Figure 0007432801000035
としてランダムに抽出し、セット
Figure 0007432801000036
からq個の列頂点を負のサンプルセット
Figure 0007432801000037
としてランダムに抽出に、サンプル
Figure 0007432801000038
の重要度スコアを
Figure 0007432801000039
とし、
Figure 0007432801000040
を第i個の列頂点とし、
Figure 0007432801000041
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
Figure 0007432801000042

Figure 0007432801000043
により算出し、
前記医療データエレメント選別モデルは、予測時に、閾値
Figure 0007432801000044
を算出することにより、列頂点
Figure 0007432801000045
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
Figure 0007432801000046
計算式は、
Figure 0007432801000047
であり、
Figure 0007432801000048
≧0.5の場合に、列頂点
Figure 0007432801000049
は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
更に、前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
Figure 0007432801000050
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
Figure 0007432801000051
とし、
Figure 0007432801000052
の標準データエレメント分類体系における分類が
Figure 0007432801000053
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
Figure 0007432801000054
とし、医療データエレメント分類過程を、列頂点
Figure 0007432801000055
との合致度が最も高い列頂点
Figure 0007432801000056

Figure 0007432801000057
において見つけ出すことに抽象化させることにより、列頂点
Figure 0007432801000058
に対応する列の分類を
Figure 0007432801000059
として特定し、
列頂点
Figure 0007432801000060
について、
Figure 0007432801000061
に対応する列から
Figure 0007432801000062
個のデータ
Figure 0007432801000063
をランダムに抽出し、列頂点
Figure 0007432801000064
について、
Figure 0007432801000065
に対応する列から
Figure 0007432801000066
個のデータ
Figure 0007432801000067
をランダムに抽出する、
Figure 0007432801000068

Figure 0007432801000069
との合致度
Figure 0007432801000070
は、
Figure 0007432801000071
にて求められ、
Figure 0007432801000072
は、データ
Figure 0007432801000073
のベクトル表現を表し、
Figure 0007432801000074
に対応するシード頂点は、それとの合致度が最も高い列頂点
Figure 0007432801000075
となり、
Figure 0007432801000076
は、
Figure 0007432801000077
にて求められる。
更に、前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
分類すべき医療データエレメントグラフデータ中の、
Figure 0007432801000078
とは親子関係を有する列頂点セットを
Figure 0007432801000079
で示し、分類すべき医療データエレメントグラフデータ中の、
Figure 0007432801000080
とは外部キー関係を有する列頂点セットを
Figure 0007432801000081
で示すと、シード頂点
Figure 0007432801000082
によるカットで得られたサブグラフ
Figure 0007432801000083
は、
Figure 0007432801000084
にて求められ、
標準分類医療データエレメントグラフデータ中の、
Figure 0007432801000085
とは同一の親頂点に対応付けられた列頂点セットを
Figure 0007432801000086
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
Figure 0007432801000087
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
Figure 0007432801000088
中の列頂点に1つずつマッチングさせて、
Figure 0007432801000089
中の列頂点に対応する医療データエレメントの分類を図ることである。
前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
Figure 0007432801000090
のベクトル表現
Figure 0007432801000091
を算出し、
Figure 0007432801000092
は、
Figure 0007432801000093
にて求められ、
Figure 0007432801000094

を満たし、
Figure 0007432801000095
は、列頂点
Figure 0007432801000096
に対応する列からランダムに抽出された
Figure 0007432801000097
個のデータであり、
Figure 0007432801000098
は、
Figure 0007432801000099
中の列頂点
Figure 0007432801000100
の列頂点
Figure 0007432801000101
に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
Figure 0007432801000102
のベクトル表現
Figure 0007432801000103
を算出し、
Figure 0007432801000104
は、
Figure 0007432801000105
にて求められ、
Figure 0007432801000106
を満たし、
Figure 0007432801000107
は、列頂点
Figure 0007432801000108
に対応する列からランダムに抽出された
Figure 0007432801000109
個のデータであり、
Figure 0007432801000110
は、
Figure 0007432801000111
中の列頂点
Figure 0007432801000112
の列頂点
Figure 0007432801000113
に対する重み関数を示し、
列頂点
Figure 0007432801000114
と列頂点
Figure 0007432801000115
との合致度
Figure 0007432801000116
は、
Figure 0007432801000117
にて求められ、
Figure 0007432801000118
との合致度が最も高い列頂点
Figure 0007432801000119
は、
Figure 0007432801000120
にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点
Figure 0007432801000121
に対応する列の分類は、
Figure 0007432801000122
に対応する標準データエレメント分類体系中の種別である。
本発明の別の態様は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを提供する。当該システムは、
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
本発明は、以下の有利な作用効果を有する。
1)本発明は、医療機関データレイクに格納された極めて少ないメタデータ情報のみを利用し、医療データエレメントグラフデータモデルを使用して医療機関内の医療データエレメントの正規化収集、及び、スクリーニング、分類すべき医療データエレメントとの間の関係情報の十分な利用を実現した。
2)本発明の方法では、データ発見、分類及び関連マッピングのプロセスの医療機関情報システム履歴文書への依存度が低減され、履歴文書の欠失やエラーの医療データエレメントの分類結果に対する影響が小さい。
3)本発明の方法は、データ発見、分類及び関連マッピングのプロセスへの人工介入を大幅に減少させ、分類すべき医療データエレメントを人工知能アルゴリズムによって分類し、医療ビッグデータセンターデータのリアルタイム更新及び動的収集、深い利用需要に存在する医療データエレメント自動化分類の難関に対してヒューリスティックな解決手段を提供した。
本発明の方法の全体フローチャートである。 従来の医療データエレメント分類方法のフローチャートである。 本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法の実施過程の模式図である。 医療データエレメントグラフデータモデルの1つの例示である。 多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピングの模式図である。
本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。
本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。
以下では、まず、本発明に係る用語について説明する。
メタデータ:他のデータを記述するデータである。メタデータは、データに関するデータであり、ある単独のデータを指すものではないときもあり、データを記述するための1グループの情報グループ/データグループとして理解され得る。当該情報グループ/データグループにおける全てのデータ、情報がいずれもあるデータのある方面の特徴を記述/反映すると、当該情報グループ/データグループは、メタデータと呼ばれる。メタデータは、データについて、ある要素又は属性(名称、サイズ、データ型等)、又はその構造(長さ、フィールド、データ列)、又はその関連データ(どこに位置するか、どのように連絡するか、所有者)を説明してもよい。日常生活において、メタデータは、どこにもある。1類の物事があれば、1セットのメタデータを定義することができる。
データエレメント:データの基本的なユニットと理解され得る。衛生情報基本データエレメントは、の仕様及び医薬衛生分野における全ての関連情報の唯一の中国語名称及びコードを規定及び定義し、且つコードは、アルファベット、漢字、数字の文字列形式で示される。データエレメントは、特定の意味環境における1つの情報リソースを列挙して定義する。完全なデータエレメント名称=対象類用語+特徴類用語+表現類用語+(限定類用語)を表す。
データエレメントとメタデータの区別及び関連:メタデータは、データエレメントが表すデータを理解するために必要な全ての情報をカバーする可能性がない。データエレメントの関連情報は、何れか(組織の)のメタデータの完全な構成部分である。メタデータの各要素は、いずれも1つのデータエレメントであり、データエレメント標準に合致するメタデータ属性及び記述方法でメタデータを説明する。メタデータをライブラリに格納する。メソッド化するために、モデル化が必要である。モデル化には、データエレメントの登録システム又はライブラリからメタデータを取得する必要がある。メタデータは、一致且つ標準的な方式で表現されたデータエレメントである。メタデータとデータエレメント辞書フォーマットは、いずれも行番号、中国語名、英語名、識別子(フレーズ)、定義、制約/条件、最大出現回数、データ型、データの値域などの属性で構成される。相違点は、データエレメント辞書フォーマットには、コンテキスト及び同義語の名称等の属性が別途あることにある。
データレイク:データレイクは、システム又は格納ライブラリにネイティブフォーマットでデータを格納する方法であり、それは、様々なモード及び構造形式でデータを配置することに役立ち、一般的に対象ブロック又はファイルである。データレイクの主な思想は、企業における全てのデータを統一的に格納し、生データ(ソースシステムデータの正確なコピー)から報告、可視化、分析及び機械学習等の様々なタスクに用いられる目標データに変換することである。中国国内は、一般的にHDFS全体をデータウェアハウス(広義)、すなわち全てのデータを格納する場所と呼ばれ、国外は、一般的にデータレイク(data lake)と呼ばれる。データレイクが管理不足である場合、データスワンプを形成する。データレイクの構築が容易であるが、データレイクに価値を発揮させることは、困難である。最終的に、データレイクは、中にデータを入れるだけであり、応用シーンが極めて少なく、出力がない又は極めて少なく、単方向レークを形成する。データレイクを使用する大部分の企業は、データの使用を真に必要とする時にデータレイク中のデータが品質が悪いため最終的に使用できなくなる場合がよくある。
グラフニューラルネットワーク:過去の数年において、ニューラルネットワークの勃興及び運用の成功は、パターン認識及びデータマイニングの研究を促進する。特徴の手動抽出に大きく依存する多くの機械学習タスク(例えば、目標検出、機械翻訳及び音声認識)は、現在、様々なエンドツーエンドの深層学習ノルムにより徹底的に変更される。従来の深層学習方法がユークリッド空間データの特徴を抽出する方面で巨大な成功を取得するが、多くの実際応用シーンにおけるデータは、非ユークリッド空間から生成される。従来の深層学習方法は、非ユークリッド空間データを処理する効果が依然として不足である。図中の各データサンプル(ノード)には、いずれも図中の他の実データサンプルに関連する辺がある。これらの情報は、実例の間の相互依存関係をキャプチャするために用いられてもよい。グラフニューラルネットワークは、グラフ構造データ(非ユークリッド空間)に適用されるニューラルネットワークである。
デプスマップマッチング:グラフマッチングは、人工知能における典型的な問題であり、幾つかの分野にも重要な応用があり、例えばコンピュータビジョンにおいて2D/3D形状にマッチングし、生体情報学においてタンパク質ネットワークにマッチングし、ソーシャルネットワークにおいて異なるネットワーク中のユーザ等にマッチングする。デプスマップマッチングは、グラフニューラルネットワークに基づいてマップマッチング問題を解決する方法である。
図1に示すように、本発明は、デプスマップマッチングに基づく医療データエレメント自動化分類方法を提供する。当該方法は、以下のステップ(1)~(3)を含む。
(1)多源異性データエレメントの正規化収集及びマッピングは、
最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することと、
医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納することとを含む。
(2)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。
(3)分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
図2は、従来の医療データエレメント分類方法のフローチャートである。以下では、本発明の方法の各部分の実施過程は、図3に詳細に記述されている。
一、多源異性データエレメントの正規化収集及びマッピング
1.1 医療データエレメントグラフデータモデルの定義
医療機関データは、集められてデータレイクを形成し、データレイクのデータは、多源異性の特性を有し、医療過程における診療過程及び医療機関の運営過程の観測データを含み、観測データベースの目的及び設計は、それぞれ異なる。診療プロセスで形成された電子カルテは、臨床実践をサポートすることを目的とし、医療機関運営データは、院内管理及び医療保障清算フローで構築される。各種類が異なる目的のために収集されるため、データは、異なる論理組織及び物理フォーマットを有する。
データモデルは、データベース設計において現実世界を抽象するためのツールであり、標準且つ統一のデータモデルを作成することにより、データ構造、データ操作、データ制約を定義し、収集されたデータ品質及びデータが表す標準の制御可能性を効果的に保証することができ、グラフデータモデルは、グラフデータベースに基づいて開発されたデータモデルである。
データレイク中のデータベースタイプが異なるため、データテーブル、データ列間の関係が複雑である。医療機関内の観測データの時間スパンが大きく、一般的にデータベース文書情報が欠失する現象が存在する。本発明に言及されたデプスマップマッチングモデルの効果を同様に極低メタデータ情報の局所的なデータスワンプの状況に適用するために、最小のメタデータ情報を使用しデータエレメントの自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証し、本発明は、データレイク内データベースの最小メタデータ情報に基づいて、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療ビッグデータセンターの確立過程における医療データエレメントの自動化分類のためにヒューリスティックな解決手段を提供する。
グラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点Vertexと辺Edgeとの2種の図要素で構成される。頂点は、ラベルと、ラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表す。頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含む。
本発明で定義される医療データエレメントグラフデータモデルの頂点の本体情報は、下の表に示される。
(表1)医療データエレメントグラフデータモデルの頂点の本体情報表
Figure 0007432801000123
ここでvidは、図における各頂点の唯一のインデックスidであり、ハッシュハッシュコードを統一して使用することができる。vector_embeddleは、列ベクトル表現モデルで予測された列ベクトル表現結果である。
グラフデータモデルにおいて、辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、有向辺は、1つの頂点(始点src)からもう1つの頂点(終点dst)へ指す関連関係を表す。辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含む。
本発明で定義される医療データエレメントグラフデータモデルの辺の本体情報は、下の表に示される。
(表2)医療データエレメントグラフデータモデルの辺の本体情報表
Figure 0007432801000124
図4は、医療データエレメントグラフデータモデルの1つの例示である。
1.2 多源異性データエレメントの医療データエレメントグラフデータモデルへのマッピング
本発明のデータ収集及び関連マッピング過程において、多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成する。メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャする。列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得する。最後グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得する。図5を参照すると、具体的な実現形態は、以下に記述される。
(1)メタデータ収集ツール
a)データベース適応:医療機関内のデータレイクは、一般的に異なるタイプのデータベースを含み、メタデータ収集ツールは、異なるタイプのデータベースに対してデータベース適応モジュールを開発して適合を実現する必要がある。
b)解析構成:最終的な関連マッピング目標は、医療データエレメントグラフデータモデルであるため、収集情報は、メタデータ中のテーブル列情報、血縁関係情報及び各列の外部キー情報のみを収集するように配置される一方、主キー、制約、インデックス、権限、トリガなどの一般的なメタデータは、収集範囲内にない。
c)メタデータのキャプチャ:解析配置状況について、データレイク内の各データベースに対してメタデータのキャプチャ操作を実行する。
d)データ関連:データベース適応状況に対して、異なるタイプのデータベースのフィールド型をグラフデータベースのデータ型に統一的にマッピングする。例えば、oracleデータベースのvarchar2型及びMySQLデータベースのvarchar型は、グラフデータベースのstring型に統一的にマッピングされ、他のタイプのデータベースは、同様である。
(2)列ベクトル生成器
列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出する。
a)列ベクトル表現モデルのトレーニング
列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列と略称される。
標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有する。
医療データエレメントグラフデータ中の列頂点ベクトル表現方法を取得することは、対応する医療データエレメントセットにおける列に格納されたデータをテキストデータに変換し、各列のテキストデータの頭尾にそれぞれ[CLS]、[SEP]を加えてデータの先頭及び終了を示す。
標準分類医療データエレメントグラフデータにおける列頂点セットは、
Figure 0007432801000125
とされ、
Figure 0007432801000126
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
Figure 0007432801000127
にて求められ、
mは、第j行の全文字数であり、
Figure 0007432801000128
は、データ
Figure 0007432801000129
を構成する文字である。テキスト表示モデル
Figure 0007432801000130
によって文字
Figure 0007432801000131
の初期ベクトル表現
Figure 0007432801000132
を算出する。テキスト表示モデル
Figure 0007432801000133
は、Transformerモデルに基づくトランスフォーマーからの双方向エンコーダ表現モデル(BERTモデル)を採用してもよい。標準分類医療データエレメントグラフデータの列頂点
Figure 0007432801000134
において
Figure 0007432801000135
行データ
Figure 0007432801000136
をランダムに抽出し、第j行データのベクトル表現は、
Figure 0007432801000137
にて求められ、
自己注意機構(self-attention)基づいて標準分類医療データエレメントグラフデータ中の列頂点
Figure 0007432801000138
での各行のデータの相関性を算出し、列頂点
Figure 0007432801000139
の列ベクトル表現
Figure 0007432801000140
を取得し、
Figure 0007432801000141
は、列頂点
Figure 0007432801000142
のベクトル表現であり、
Figure 0007432801000143
にて求められ、
Figure 0007432801000144
は、
Figure 0007432801000145
にて求められる。
ただし、
Figure 0007432801000146
は、列頂点
Figure 0007432801000147
のベクトル表現であり、
Figure 0007432801000148
は、
Figure 0007432801000149
の次元であり、softmaxは、softmax関数である。
より正確な列頂点ベクトル表現を得るために、十分な量の標準分類列をトレーニングデータとして蓄積した場合に、標準分類列データを用いて列ベクトル表現モデルに対して更なる移動学習を行ってもよい。列単位で、対応する列データ中の15%の文字をランダムに上書きし、上書きされた文字を[MASK]ラベルを使用して置換する。列ベクトル表現モデルを用いて、上書きされる文字を予測して更にトレーニングしてモデルを更新する。このようにして得られた列ベクトル表現モデルは、有効データエレメントの選別タスクに一層フィットする。
b)列ベクトル表現モデルの予測
列ベクトル表現モデルの予測データは、データレーク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースする。選別すべき医療データエレメントセットに存在する列データ量が大きすぎることにより列ベクトル生成器の性能が低下することを回避するために、列ベクトル表現モデルを用いて列ベクトル表現を算出する過程において、ランダム抽出の方式(例えばランダムに単列1000個のデータを抽出し、100回抽出する)を使用することができ、列ベクトル表現モデルを用いて列頂点
Figure 0007432801000150
をs回目に抽出した列ベクトル表現
Figure 0007432801000151
を算出する。予測の複数回の抽出された列ベクトル表現結果について平均値を求め、
Figure 0007432801000152
の最終的な列ベクトル表現を
Figure 0007432801000153
とし、
Figure 0007432801000154
を医療データエレメントグラフデータモデルの列頂点
Figure 0007432801000155
のvector_embeddings属性内に格納する。
(3)グラフデータ関連マップ
計算して得られた選別すべき医療データエレメントセットにおける各列の列ベクトル表現、及びメタデータの収集結果を、それぞれ医療データエレメントグラフデータモデルにおける頂点と辺に対応する対象に対応付けてマッピングし、医療データエレメントグラフデータモデルをデータ標準とする選別すべき医療データエレメントグラフデータに入庫し、対応するマッピング関係は、以下の表に示される。
(表3)グラフデータ関連マッピング表
Figure 0007432801000156
二、有効医療データエレメントの迅速且つ自動化選別
医療機関内のデータレイクに格納された情報タイプが多く、標準データモデルのデータカバー範囲に比べて、一般的に大量の情報冗長が存在し、有効医療データエレメントを迅速で自動化選別するために、医療データエレメント自動化分類タスクを行う前に、選別すべき医療データエレメントセットにおけるデータエレメントを選別し、データエレメントの分類タスクの複雑度を低下させることができる。本発明は、有効医療データエレメントを迅速で自動化選別する方法を提供し、当該方法は、以下の2つステップを含む。(1)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出する。(2)医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、その中の有効医療データエレメントを選別して分類すべき医療データエレメントセットを構成する。
2.1 列頂点ベクトル表現に基づいて列頂点の医療データエレメントグラフデータモデルにおける重要度を算出する
選別すべき医療データエレメントグラフデータに格納された列頂点と選別すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。選別すべき医療データエレメントグラフデータに格納された列頂点
Figure 0007432801000157
について、
Figure 0007432801000158
が除外された列頂点セットからp個の列頂点
Figure 0007432801000159
をランダムに抽出し、列頂点
Figure 0007432801000160
と抽出された列頂点との相関性を算出することにより、
Figure 0007432801000161
の医療データエレメントグラフデータモデルにおける重要度スコア
Figure 0007432801000162
を算出する。
Figure 0007432801000163
は、
Figure 0007432801000164
によって定義され、
Figure 0007432801000165
を満たす。
Figure 0007432801000166
は、重要度関数である。
2.2 医療データエレメント選別モデルのトレーニング及び予測
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
Figure 0007432801000167
とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
Figure 0007432801000168
とする。
トレーニング時に、セット
Figure 0007432801000169
からq個の列頂点を正のサンプルセット
Figure 0007432801000170
としてランダムに抽出し、セット
Figure 0007432801000171
からq個の列頂点を負のサンプルセット
Figure 0007432801000172
としてランダムに抽出し、サンプル
Figure 0007432801000173
の重要度スコアを
Figure 0007432801000174
とし、
Figure 0007432801000175
を第i個の列頂点とし、
Figure 0007432801000176
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
Figure 0007432801000177

Figure 0007432801000178
により算出し、
Adamアルゴリズムによって重要度関数を更新する際に、医療データエレメント選別モデルを更新する。
前記医療データエレメント選別モデルは、予測時に、閾値
Figure 0007432801000179
を算出することにより、列頂点
Figure 0007432801000180
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
Figure 0007432801000181
の計算式は、
Figure 0007432801000182

であり、
Figure 0007432801000183
≧0.5の場合に、列頂点
Figure 0007432801000184
は、有効列頂点であり、対応する列は、有効データエレメントであり、
最終的に選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
三、デプスマップマッチングモデルに基づいて医療データエレメントの種別を特定する
3.1 分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する
分類すべき医療データエレメントグラフデータに格納された列頂点と分類すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
Figure 0007432801000185
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
Figure 0007432801000186
とし、
Figure 0007432801000187
の標準データエレメント分類体系における分類が
Figure 0007432801000188
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
Figure 0007432801000189
とすると、医療データエレメント分類過程を、列頂点
Figure 0007432801000190
との合致度が最も高い列頂点
Figure 0007432801000191

Figure 0007432801000192
において見つけ出すことに抽象化させてもよい。これにより、列頂点
Figure 0007432801000193
に対応する列の分類を
Figure 0007432801000194
として特定する。医療ビッグデータセンター開発過程におけるデータ分類及び関連マッピング過程は、標準データエレメント分類体系の全ての分類
Figure 0007432801000195
について、合致度が最も高い
Figure 0007432801000196
を見つけ出すことに抽象化されてもよい。
標準データモデルをデータ標準とする標準データベースにおける幾つかの列のデータのフォーマット又はコンテンツが比較的に統一であり、それとの関連マッピング関係を有する標準分類医療データエレメントセットの列のフォーマット又はコンテンツも比較的に統一となる。まずこれらの列に対応する頂点を分類すべき医療データエレメントグラフデータにおける対応する頂点(シードノードと呼ばれる)に位置決めすれば、デプスマップマッチングモデルの検索空間を絞り込むことができ、それによりその効率を向上させる。列頂点
Figure 0007432801000197
について、
Figure 0007432801000198
に対応する列から
Figure 0007432801000199
個のデータ
Figure 0007432801000200
をランダムに抽出し、分類すべき医療データエレメントグラフデータ中の列頂点
Figure 0007432801000201
について、同様に
Figure 0007432801000202
に対応する列から
Figure 0007432801000203
個のデータ
Figure 0007432801000204
をランダムに抽出すると、
Figure 0007432801000205

Figure 0007432801000206
との合致度
Figure 0007432801000207
は、
Figure 0007432801000208
にて求められ、

ただし、
Figure 0007432801000209
は、データ
Figure 0007432801000210
のベクトル表現を表し、
Figure 0007432801000211
に対応するシード頂点は、それとの合致度が最も高い列頂点
Figure 0007432801000212
となり、
Figure 0007432801000213
は、
Figure 0007432801000214
にて求められる。
3.2 シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う
分類すべき医療データエレメントグラフデータ中の、
Figure 0007432801000215
とは親子関係を有する列頂点セットを
Figure 0007432801000216
で示し、分類すべき医療データエレメントグラフデータ中の、
Figure 0007432801000217
とは外部キー関係を有する列頂点セットを
Figure 0007432801000218
で示すと、シード頂点
Figure 0007432801000219
によるカットで得られたサブグラフ
Figure 0007432801000220
は、
Figure 0007432801000221
にて求められ、
標準分類医療データエレメントグラフデータ中の、
Figure 0007432801000222
とは同一の親頂点に対応付けられた列頂点セットを
Figure 0007432801000223
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
Figure 0007432801000224
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
Figure 0007432801000225
中の列頂点に1つずつマッチングさせて、
Figure 0007432801000226
中の列頂点に対応する医療データエレメントの分類を図る。
3.3 デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する
医療データエレメント分類過程は、以下のステップを含む。
(1)グラフ注意機構を組み合わせ、標準分類医療データエレメントグラフデータ中の列頂点
Figure 0007432801000227
のベクトル表現
Figure 0007432801000228
と分類すべき医療データエレメントグラフデータの列頂点
Figure 0007432801000229
のベクトル表現
Figure 0007432801000230
とをそれぞれ算出する。具体的に、
グラフ注意機構に基づいて、
Figure 0007432801000231
のベクトル表現
Figure 0007432801000232
を算出し、
Figure 0007432801000233
は、
Figure 0007432801000234
にて求められ、
Figure 0007432801000235

を満たし、
Figure 0007432801000236
は、列頂点
Figure 0007432801000237
に対応する列からランダムに抽出された
Figure 0007432801000238
個のデータであり、
Figure 0007432801000239
は、
Figure 0007432801000240
中のある列頂点
Figure 0007432801000241
の列頂点
Figure 0007432801000242
に対する重み関数を表す。具体的な計算式は、
Figure 0007432801000243
である。
Figure 0007432801000244
は、非線形活性化関数であり、
Figure 0007432801000245
は、トレーニングによって得られた行列パラメータである。
グラフ注意機構に基づいて、
Figure 0007432801000246
のベクトル表現
Figure 0007432801000247
を算出し、
Figure 0007432801000248
は、
Figure 0007432801000249
にて求められ、
Figure 0007432801000250
を満たし、
Figure 0007432801000251
は、列頂点
Figure 0007432801000252
に対応する列からランダムに抽出された
Figure 0007432801000253
個のデータであり、
Figure 0007432801000254
は、
Figure 0007432801000255
中のある列頂点
Figure 0007432801000256
の列頂点
Figure 0007432801000257
に対する重み関数を表す。具体的な計算式は、
Figure 0007432801000258
である。
Figure 0007432801000259
は、非線形活性化関数であり、
Figure 0007432801000260
は、トレーニングによって得られた行列パラメータである。
(2)全ての
Figure 0007432801000261

Figure 0007432801000262
との合致度を算出し、合致度に基づいて列頂点
Figure 0007432801000263
の分類を算出し、それ相応に、分類すべき医療データエレメントセット中の
Figure 0007432801000264
に対応する列の分類結果を取得する。
標準分類医療データエレメントグラフデータの列頂点
Figure 0007432801000265
と分類すべき医療データエレメントグラフデータの列頂点
Figure 0007432801000266
との合致度
Figure 0007432801000267
は、
Figure 0007432801000268
にて求められ、
Figure 0007432801000269
との合致度が最も高い列頂点
Figure 0007432801000270
は、
Figure 0007432801000271
にて求められ、
分類すべき医療データエレメントグラフデータ中の列頂点
Figure 0007432801000272
に対応する列の分類が
Figure 0007432801000273
に対応する標準データエレメント分類体系中の種別であることを表明する。
本発明の実施例は、デプスマップマッチングに基づく医療データエレメント自動化分類システムを更に提供する。当該システムは、多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える。
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納する。当該モジュールの実現は、上記ステップ一を参照可能である。
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。当該モジュールの実現は、上記ステップ二を参照可能である。
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。当該モジュールの実現は、上記ステップ三を参照可能である。
本発明に関わるデプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステムは、以下の重要点を有する。
1)医療機構内のデータレイクの最小メタデータ情報を基に、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することにより、デプスマップマッチングモデルの効果は、同様に極低メタデータ情報の局所的なデータスワンプの状況に適用可能であり、最も少ないメタデータ情報を使用してデータエレメント自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証する。
2)表示学習方法に基づいて医療データエレメントのベクトル表現を算出し、ベクトル表現の分類により、標準データモデルへマッチング可能な有効データエレメントを迅速で自動化選別する。
3)グラフ注意機構に基づいて列頂点のベクトル表現を算出し、デプスマップマッチングモデルを構築して医療データエレメントの自動化分類を完了する。
上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims (9)

  1. 多源異性データエレメント正規化収集及びマッピングモジュールと有効医療データエレメント選別モジュールとデプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える、デプスマップマッチングに基づく医療データエレメント自動化分類システムが実行する、デプスマップマッチングに基づく医療データエレメント自動化分類方法であって、
    ステップ(1)~ステップ(3)を含み、
    前記ステップ(1)では、前記多源異性データエレメント正規化収集及びマッピングモジュールが、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
    前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
    前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
    前記ステップ(2)では、前記有効医療データエレメント選別モジュールが、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
    前記ステップ(3)では、前記デプスマップマッチングモデルベース医療データエレメント分類モジュールが、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類方法
  2. 前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
    多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
    メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
    列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
    グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含むことを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  3. 前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
    前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
    標準分類医療データエレメントグラフデータにおける列頂点セットは、
    Figure 0007432801000274
    とされ、
    Figure 0007432801000275
    は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
    Figure 0007432801000276
    にて求められ、mは、第j行の全文字数であり、
    Figure 0007432801000277
    は、データ
    Figure 0007432801000278
    を構成する文字であり、文字
    Figure 0007432801000279
    の初期ベクトル表現
    Figure 0007432801000280
    は、テキスト表示モデル
    Figure 0007432801000281
    で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
    Figure 0007432801000282
    においてn行のデータ
    Figure 0007432801000283
    はランダムに抽出され、第j行のデータのベクトル表現は、
    Figure 0007432801000284
    にて求められ、
    前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
    Figure 0007432801000285
    での各行のデータの相関性を算出し、列頂点
    Figure 0007432801000286
    の列ベクトル表現
    Figure 0007432801000287
    を取得し、
    Figure 0007432801000288
    は、列頂点
    Figure 0007432801000289
    のベクトル表現であり、
    Figure 0007432801000290
    にて求められ、
    Figure 0007432801000291
    は、
    Figure 0007432801000292
    にて求められ、
    Figure 0007432801000293
    は、
    Figure 0007432801000294
    の次元であり、softmaxは、softmax関数であり、
    前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含むことを特徴とする請求項2に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  4. 前記選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出することは、
    選別すべき医療データエレメントグラフデータに格納された列頂点
    Figure 0007432801000295
    について、
    Figure 0007432801000296
    が除外された列頂点セットからp個の列頂点
    Figure 0007432801000297
    をランダムに抽出し、列頂点
    Figure 0007432801000298
    と抽出された列頂点との相関性を算出することにより、
    Figure 0007432801000299
    の医療データエレメントグラフデータモデルにおける重要度スコア
    Figure 0007432801000300
    を算出することを含み、
    Figure 0007432801000301
    は、
    Figure 0007432801000302
    によって定義され、
    Figure 0007432801000303
    を満たし、
    Figure 0007432801000304
    は、重要度関数であることを特徴とする請求項3に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  5. 前記医療データエレメント選別モデルのトレーニング及び予測において、
    標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
    Figure 0007432801000305
    とし、標準分類医療データエレメントセットを構築する過程において手動選別によって除外された列に対応する列頂点セットを
    Figure 0007432801000306
    とし、
    トレーニング時に、セット
    Figure 0007432801000307
    からq個の列頂点を正のサンプルセット
    Figure 0007432801000308
    としてランダムに抽出し、セット
    Figure 0007432801000309
    からq個の列頂点を負のサンプルセット
    Figure 0007432801000310
    としてランダムに抽出し、サンプル
    Figure 0007432801000311
    の重要度スコアを
    Figure 0007432801000312
    とし、
    Figure 0007432801000313
    を第i個の列頂点とし、
    Figure 0007432801000314
    をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
    Figure 0007432801000315

    Figure 0007432801000316
    により算出し、
    前記医療データエレメント選別モデルは、予測時に、閾値
    Figure 0007432801000317
    を算出することにより、列頂点
    Figure 0007432801000318
    に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
    Figure 0007432801000319
    の計算式は、
    Figure 0007432801000320
    であり、
    Figure 0007432801000321
    ≧0.5の場合に、列頂点
    Figure 0007432801000322
    は、有効列頂点であり、対応する列は、有効データエレメントであり、
    選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成することを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  6. 前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
    標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
    Figure 0007432801000323
    とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
    Figure 0007432801000324
    とし、
    Figure 0007432801000325
    の標準データエレメント分類体系における分類が
    Figure 0007432801000326
    となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
    Figure 0007432801000327
    とし、医療データエレメント分類過程を、列頂点
    Figure 0007432801000328
    との合致度が最も高い列頂点
    Figure 0007432801000329

    Figure 0007432801000330
    において見つけ出すことに抽象化させることにより、列頂点
    Figure 0007432801000331
    に対応する列の分類を
    Figure 0007432801000332
    として特定し、
    列頂点
    Figure 0007432801000333
    について、
    Figure 0007432801000334
    に対応する列から
    Figure 0007432801000335
    個のデータ
    Figure 0007432801000336
    をランダムに抽出し、列頂点
    Figure 0007432801000337
    について、
    Figure 0007432801000338
    に対応する列から
    Figure 0007432801000339
    個のデータ
    Figure 0007432801000340
    をランダムに抽出すると、
    Figure 0007432801000341

    Figure 0007432801000342
    との合致度
    Figure 0007432801000343
    は、
    Figure 0007432801000344
    にて求められ、
    Figure 0007432801000345
    は、データ
    Figure 0007432801000346
    のベクトル表現を表し、
    Figure 0007432801000347
    に対応するシード頂点は、それとの合致度が最も高い列頂点
    Figure 0007432801000348
    となり、
    Figure 0007432801000349
    は、
    Figure 0007432801000350
    にて求められることを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  7. 前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
    分類すべき医療データエレメントグラフデータ中の、
    Figure 0007432801000351
    とは親子関係を有する列頂点セットを
    Figure 0007432801000352
    で示し、分類すべき医療データエレメントグラフデータ中の、
    Figure 0007432801000353
    とは外部キー関係を有する列頂点セットを
    Figure 0007432801000354
    で示すと、シード頂点
    Figure 0007432801000355
    によるカットで得られたサブグラフ
    Figure 0007432801000356
    は、
    Figure 0007432801000357
    にて求められ、
    標準分類医療データエレメントグラフデータ中の、
    Figure 0007432801000358
    とは同一の親頂点に対応付けられた列頂点セットを
    Figure 0007432801000359
    で示すと、デプスマップマッチングモデルの目標は、サブグラフ
    Figure 0007432801000360
    からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
    Figure 0007432801000361
    中の列頂点に1つずつマッチングさせて、
    Figure 0007432801000362
    中の列頂点に対応する医療データエレメントの分類を図ることであることを特徴とする請求項6に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  8. 前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
    グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
    Figure 0007432801000363
    のベクトル表現
    Figure 0007432801000364
    を算出し、
    Figure 0007432801000365
    は、
    Figure 0007432801000366
    にて求められ、
    Figure 0007432801000367
    を満たし、
    Figure 0007432801000368
    は、列頂点
    Figure 0007432801000369
    に対応する列からランダムに抽出された
    Figure 0007432801000370
    個のデータであり、
    Figure 0007432801000371
    は、
    Figure 0007432801000372
    中の列頂点
    Figure 0007432801000373
    の列頂点
    Figure 0007432801000374
    に対する重み関数を示し、
    グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
    Figure 0007432801000375
    のベクトル表現
    Figure 0007432801000376
    を算出し、
    Figure 0007432801000377
    は、
    Figure 0007432801000378
    にて求められ、
    Figure 0007432801000379
    を満たし、
    Figure 0007432801000380
    は、列頂点
    Figure 0007432801000381
    に対応する列からランダムに抽出された
    Figure 0007432801000382
    個のデータであり、
    Figure 0007432801000383
    は、
    Figure 0007432801000384
    中の列頂点
    Figure 0007432801000385
    の列頂点
    Figure 0007432801000386
    に対する重み関数を示し、
    列頂点
    Figure 0007432801000387
    と列頂点
    Figure 0007432801000388
    との合致度
    Figure 0007432801000389
    は、
    Figure 0007432801000390
    にて求められ、
    Figure 0007432801000391
    との合致度が最も高い列頂点
    Figure 0007432801000392
    は、
    Figure 0007432801000393
    にて求められ、
    分類すべき医療データエレメントグラフデータ中の列頂点
    Figure 0007432801000394
    に対応する列の分類は、
    Figure 0007432801000395
    に対応する標準データエレメント分類体系中の種別であることを特徴とする請求項7に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。
  9. デプスマップマッチングに基づく医療データエレメント自動化分類システムであって、
    多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
    前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
    前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
    前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
    前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
    前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類システム。
JP2023536557A 2021-12-30 2022-09-05 デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム Active JP7432801B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111649231.1A CN114003791B (zh) 2021-12-30 2021-12-30 基于深度图匹配的医疗数据元自动化分类方法及系统
CN202111649231.1 2021-12-30
PCT/CN2022/116971 WO2023124191A1 (zh) 2021-12-30 2022-09-05 基于深度图匹配的医疗数据元自动化分类方法及系统

Publications (2)

Publication Number Publication Date
JP2024502730A JP2024502730A (ja) 2024-01-23
JP7432801B2 true JP7432801B2 (ja) 2024-02-16

Family

ID=79932292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536557A Active JP7432801B2 (ja) 2021-12-30 2022-09-05 デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム

Country Status (3)

Country Link
JP (1) JP7432801B2 (ja)
CN (1) CN114003791B (ja)
WO (1) WO2023124191A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN117312435A (zh) * 2023-11-23 2023-12-29 首都信息发展股份有限公司 数据采集方法、装置及电子设备
CN117349401B (zh) * 2023-12-06 2024-03-15 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备
CN117763129B (zh) * 2024-02-22 2024-05-28 神州医疗科技股份有限公司 基于生成式预训练模型的病历检索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193584A (ja) 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2021534493A (ja) 2018-08-16 2021-12-09 オラクル・インターナショナル・コーポレイション 限られた知識ドメイン内でナレッジグラフを構築するための技術

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354266A (zh) * 2015-10-23 2016-02-24 北京航空航天大学 一种基于富图模型RichGraph的图数据管理方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN109471945B (zh) * 2018-11-12 2021-11-23 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN109948680B (zh) * 2019-03-11 2021-06-11 合肥工业大学 病历数据的分类方法及系统
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
US11481623B2 (en) * 2019-09-25 2022-10-25 International Business Machines Corporation Systems and methods for training a model using a few-shot classification process
US20210158161A1 (en) * 2019-11-22 2021-05-27 Fraud.net, Inc. Methods and Systems for Detecting Spurious Data Patterns
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台
CN112185515A (zh) * 2020-10-12 2021-01-05 安徽动感智能科技有限公司 一种基于动作识别的病患辅助系统
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193584A (ja) 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2021534493A (ja) 2018-08-16 2021-12-09 オラクル・インターナショナル・コーポレイション 限られた知識ドメイン内でナレッジグラフを構築するための技術

Also Published As

Publication number Publication date
CN114003791A (zh) 2022-02-01
JP2024502730A (ja) 2024-01-23
WO2023124191A1 (zh) 2023-07-06
CN114003791B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
US11500818B2 (en) Method and system for large scale data curation
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
US9361358B2 (en) Syntactic loci and fields in a functional information system
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN111428054A (zh) 一种网络空间安全领域知识图谱的构建与存储方法
Froeschl Metadata management in statistical information processing: a unified framework for metadata-based processing of statistical data aggregates
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN111243748A (zh) 针推康数据标准化系统
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN111858567A (zh) 一种通过标准数据元进行政务数据清洗的方法和系统
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
CN114880483A (zh) 一种元数据知识图谱构建方法、存储介质及系统
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
JP6081609B2 (ja) データ分析システム及びその方法
Su et al. [Retracted] Design and Application of Intelligent Management Platform Based on Big Data
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing
CN117251605B (zh) 基于深度学习的多源数据查询方法及系统
CN112132534B (zh) 一种武器装备全寿命周期综合保障数据的管理方法及系统
Yang et al. Construction and analysis of scientific and technological personnel relational graph for group recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230615

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7432801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150