JP7432801B2 - デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム - Google Patents
デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム Download PDFInfo
- Publication number
- JP7432801B2 JP7432801B2 JP2023536557A JP2023536557A JP7432801B2 JP 7432801 B2 JP7432801 B2 JP 7432801B2 JP 2023536557 A JP2023536557 A JP 2023536557A JP 2023536557 A JP2023536557 A JP 2023536557A JP 7432801 B2 JP7432801 B2 JP 7432801B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- vertex
- data element
- data
- medical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000013499 data model Methods 0.000 claims description 75
- 238000013507 mapping Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims 1
- 238000011161 development Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Image Analysis (AREA)
Description
前記ステップ(1)では、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記ステップ(2)では、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(3)では、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
更に、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスである。
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含む。
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
mは、第j行の全文字数であり、
は、データ
を構成する文字であり、文字
の初期ベクトル表現
は、テキスト表示モデル
で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
においてn行データ
はランダムに抽出され、第j行データのベクトル表現は、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
での各行のデータの相関性を算出し、列頂点
の列ベクトル表現
を取得し、
は、列頂点
のベクトル表現であり、
は、
は、
の次元であり、softmaxは、softmax関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含む。
選別すべき医療データエレメントグラフデータに格納された列頂点
について、
が除外された列頂点セットからp個の列頂点
をランダムに抽出し、列頂点
と抽出された列頂点との相関性を算出することにより、
の医療データエレメントグラフデータモデルにおける重要度スコア
を算出することを含み、
は、
は、重要度関数である。
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
トレーニング時に、セット
からq個の列頂点を正のサンプルセット
としてランダムに抽出し、セット
からq個の列頂点を負のサンプルセット
としてランダムに抽出に、サンプル
の重要度スコアを
とし、
を第i個の列頂点とし、
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
を
前記医療データエレメント選別モデルは、予測時に、閾値
を算出することにより、列頂点
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
計算式は、
≧0.5の場合に、列頂点
は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
とし、
の標準データエレメント分類体系における分類が
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
とし、医療データエレメント分類過程を、列頂点
との合致度が最も高い列頂点
を
において見つけ出すことに抽象化させることにより、列頂点
に対応する列の分類を
として特定し、
列頂点
について、
に対応する列から
個のデータ
をランダムに抽出し、列頂点
について、
に対応する列から
個のデータ
をランダムに抽出する、
と
との合致度
は、
は、データ
のベクトル表現を表し、
に対応するシード頂点は、それとの合致度が最も高い列頂点
となり、
は、
分類すべき医療データエレメントグラフデータ中の、
とは親子関係を有する列頂点セットを
で示し、分類すべき医療データエレメントグラフデータ中の、
とは外部キー関係を有する列頂点セットを
で示すと、シード頂点
によるカットで得られたサブグラフ
は、
標準分類医療データエレメントグラフデータ中の、
とは同一の親頂点に対応付けられた列頂点セットを
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
中の列頂点に1つずつマッチングさせて、
中の列頂点に対応する医療データエレメントの分類を図ることである。
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
のベクトル表現
を算出し、
は、
を満たし、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中の列頂点
の列頂点
に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
のベクトル表現
を算出し、
は、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中の列頂点
の列頂点
に対する重み関数を示し、
列頂点
と列頂点
との合致度
は、
との合致度が最も高い列頂点
は、
分類すべき医療データエレメントグラフデータ中の列頂点
に対応する列の分類は、
に対応する標準データエレメント分類体系中の種別である。
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
1)本発明は、医療機関データレイクに格納された極めて少ないメタデータ情報のみを利用し、医療データエレメントグラフデータモデルを使用して医療機関内の医療データエレメントの正規化収集、及び、スクリーニング、分類すべき医療データエレメントとの間の関係情報の十分な利用を実現した。
2)本発明の方法では、データ発見、分類及び関連マッピングのプロセスの医療機関情報システム履歴文書への依存度が低減され、履歴文書の欠失やエラーの医療データエレメントの分類結果に対する影響が小さい。
3)本発明の方法は、データ発見、分類及び関連マッピングのプロセスへの人工介入を大幅に減少させ、分類すべき医療データエレメントを人工知能アルゴリズムによって分類し、医療ビッグデータセンターデータのリアルタイム更新及び動的収集、深い利用需要に存在する医療データエレメント自動化分類の難関に対してヒューリスティックな解決手段を提供した。
(1)多源異性データエレメントの正規化収集及びマッピングは、
最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することと、
医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納することとを含む。
(2)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。
(3)分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。
1.1 医療データエレメントグラフデータモデルの定義
医療機関データは、集められてデータレイクを形成し、データレイクのデータは、多源異性の特性を有し、医療過程における診療過程及び医療機関の運営過程の観測データを含み、観測データベースの目的及び設計は、それぞれ異なる。診療プロセスで形成された電子カルテは、臨床実践をサポートすることを目的とし、医療機関運営データは、院内管理及び医療保障清算フローで構築される。各種類が異なる目的のために収集されるため、データは、異なる論理組織及び物理フォーマットを有する。
本発明のデータ収集及び関連マッピング過程において、多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成する。メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャする。列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得する。最後グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得する。図5を参照すると、具体的な実現形態は、以下に記述される。
a)データベース適応:医療機関内のデータレイクは、一般的に異なるタイプのデータベースを含み、メタデータ収集ツールは、異なるタイプのデータベースに対してデータベース適応モジュールを開発して適合を実現する必要がある。
列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出する。
列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列と略称される。
標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有する。
医療データエレメントグラフデータ中の列頂点ベクトル表現方法を取得することは、対応する医療データエレメントセットにおける列に格納されたデータをテキストデータに変換し、各列のテキストデータの頭尾にそれぞれ[CLS]、[SEP]を加えてデータの先頭及び終了を示す。
標準分類医療データエレメントグラフデータにおける列頂点セットは、
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
mは、第j行の全文字数であり、
は、データ
を構成する文字である。テキスト表示モデル
によって文字
の初期ベクトル表現
を算出する。テキスト表示モデル
は、Transformerモデルに基づくトランスフォーマーからの双方向エンコーダ表現モデル(BERTモデル)を採用してもよい。標準分類医療データエレメントグラフデータの列頂点
において
行データ
をランダムに抽出し、第j行データのベクトル表現は、
自己注意機構(self-attention)基づいて標準分類医療データエレメントグラフデータ中の列頂点
での各行のデータの相関性を算出し、列頂点
の列ベクトル表現
を取得し、
は、列頂点
のベクトル表現であり、
は、
ただし、
は、列頂点
のベクトル表現であり、
は、
の次元であり、softmaxは、softmax関数である。
列ベクトル表現モデルの予測データは、データレーク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースする。選別すべき医療データエレメントセットに存在する列データ量が大きすぎることにより列ベクトル生成器の性能が低下することを回避するために、列ベクトル表現モデルを用いて列ベクトル表現を算出する過程において、ランダム抽出の方式(例えばランダムに単列1000個のデータを抽出し、100回抽出する)を使用することができ、列ベクトル表現モデルを用いて列頂点
をs回目に抽出した列ベクトル表現
を算出する。予測の複数回の抽出された列ベクトル表現結果について平均値を求め、
の最終的な列ベクトル表現を
を医療データエレメントグラフデータモデルの列頂点
のvector_embeddings属性内に格納する。
計算して得られた選別すべき医療データエレメントセットにおける各列の列ベクトル表現、及びメタデータの収集結果を、それぞれ医療データエレメントグラフデータモデルにおける頂点と辺に対応する対象に対応付けてマッピングし、医療データエレメントグラフデータモデルをデータ標準とする選別すべき医療データエレメントグラフデータに入庫し、対応するマッピング関係は、以下の表に示される。
医療機関内のデータレイクに格納された情報タイプが多く、標準データモデルのデータカバー範囲に比べて、一般的に大量の情報冗長が存在し、有効医療データエレメントを迅速で自動化選別するために、医療データエレメント自動化分類タスクを行う前に、選別すべき医療データエレメントセットにおけるデータエレメントを選別し、データエレメントの分類タスクの複雑度を低下させることができる。本発明は、有効医療データエレメントを迅速で自動化選別する方法を提供し、当該方法は、以下の2つステップを含む。(1)選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出する。(2)医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、その中の有効医療データエレメントを選別して分類すべき医療データエレメントセットを構成する。
選別すべき医療データエレメントグラフデータに格納された列頂点と選別すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。選別すべき医療データエレメントグラフデータに格納された列頂点
について、
が除外された列頂点セットからp個の列頂点
をランダムに抽出し、列頂点
と抽出された列頂点との相関性を算出することにより、
の医療データエレメントグラフデータモデルにおける重要度スコア
を算出する。
は、
は、重要度関数である。
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
からq個の列頂点を正のサンプルセット
としてランダムに抽出し、セット
からq個の列頂点を負のサンプルセット
としてランダムに抽出し、サンプル
の重要度スコアを
とし、
を第i個の列頂点とし、
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
を
Adamアルゴリズムによって重要度関数を更新する際に、医療データエレメント選別モデルを更新する。
を算出することにより、列頂点
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
の計算式は、
であり、
≧0.5の場合に、列頂点
は、有効列頂点であり、対応する列は、有効データエレメントであり、
最終的に選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成する。
3.1 分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する
分類すべき医療データエレメントグラフデータに格納された列頂点と分類すべき医療データエレメントセット中の列とは、1対1の対応関係を有する。標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
とし、
の標準データエレメント分類体系における分類が
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
とすると、医療データエレメント分類過程を、列頂点
との合致度が最も高い列頂点
を
において見つけ出すことに抽象化させてもよい。これにより、列頂点
に対応する列の分類を
として特定する。医療ビッグデータセンター開発過程におけるデータ分類及び関連マッピング過程は、標準データエレメント分類体系の全ての分類
について、合致度が最も高い
を見つけ出すことに抽象化されてもよい。
について、
に対応する列から
個のデータ
をランダムに抽出し、分類すべき医療データエレメントグラフデータ中の列頂点
について、同様に
に対応する列から
個のデータ
をランダムに抽出すると、
と
との合致度
は、
ただし、
は、データ
のベクトル表現を表し、
に対応するシード頂点は、それとの合致度が最も高い列頂点
となり、
は、
分類すべき医療データエレメントグラフデータ中の、
とは親子関係を有する列頂点セットを
で示し、分類すべき医療データエレメントグラフデータ中の、
とは外部キー関係を有する列頂点セットを
で示すと、シード頂点
によるカットで得られたサブグラフ
は、
標準分類医療データエレメントグラフデータ中の、
とは同一の親頂点に対応付けられた列頂点セットを
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
中の列頂点に1つずつマッチングさせて、
中の列頂点に対応する医療データエレメントの分類を図る。
医療データエレメント分類過程は、以下のステップを含む。
のベクトル表現
と分類すべき医療データエレメントグラフデータの列頂点
のベクトル表現
とをそれぞれ算出する。具体的に、
グラフ注意機構に基づいて、
のベクトル表現
を算出し、
は、
を満たし、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中のある列頂点
の列頂点
に対する重み関数を表す。具体的な計算式は、
は、トレーニングによって得られた行列パラメータである。
グラフ注意機構に基づいて、
のベクトル表現
を算出し、
は、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中のある列頂点
の列頂点
に対する重み関数を表す。具体的な計算式は、
は、トレーニングによって得られた行列パラメータである。
と
との合致度を算出し、合致度に基づいて列頂点
の分類を算出し、それ相応に、分類すべき医療データエレメントセット中の
に対応する列の分類結果を取得する。
標準分類医療データエレメントグラフデータの列頂点
と分類すべき医療データエレメントグラフデータの列頂点
との合致度
は、
との合致度が最も高い列頂点
は、
分類すべき医療データエレメントグラフデータ中の列頂点
に対応する列の分類が
に対応する標準データエレメント分類体系中の種別であることを表明する。
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納する。当該モジュールの実現は、上記ステップ一を参照可能である。
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成する。当該モジュールの実現は、上記ステップ二を参照可能である。
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得する。当該モジュールの実現は、上記ステップ三を参照可能である。
1)医療機構内のデータレイクの最小メタデータ情報を基に、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義することにより、デプスマップマッチングモデルの効果は、同様に極低メタデータ情報の局所的なデータスワンプの状況に適用可能であり、最も少ないメタデータ情報を使用してデータエレメント自動化分類を完了するという目的を達成するとともに、グラフデータモデル標準で収集されたグラフ構造データがデプスマップマッチングモデルのトレーニングに適用されることを保証する。
2)表示学習方法に基づいて医療データエレメントのベクトル表現を算出し、ベクトル表現の分類により、標準データモデルへマッチング可能な有効データエレメントを迅速で自動化選別する。
3)グラフ注意機構に基づいて列頂点のベクトル表現を算出し、デプスマップマッチングモデルを構築して医療データエレメントの自動化分類を完了する。
Claims (9)
- 多源異性データエレメント正規化収集及びマッピングモジュールと有効医療データエレメント選別モジュールとデプスマップマッチングモデルベース医療データエレメント分類モジュールとを備える、デプスマップマッチングに基づく医療データエレメント自動化分類システムが実行する、デプスマップマッチングに基づく医療データエレメント自動化分類方法であって、
ステップ(1)~ステップ(3)を含み、
前記ステップ(1)では、前記多源異性データエレメント正規化収集及びマッピングモジュールが、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
前記ステップ(2)では、前記有効医療データエレメント選別モジュールが、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記ステップ(3)では、前記デプスマップマッチングモデルベース医療データエレメント分類モジュールが、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - 前記多源異性のデータエレメントを医療データエレメントグラフデータモデルへマッピングすることは、
多源異性の医療データをデータレイクから収集し、選別すべき医療データエレメントセットを構成することと、
メタデータ収集ツールを用いてデータレイクに格納されたメタデータをキャプチャすることと、
列ベクトル生成器を用いて、選別すべき医療データエレメントセットにおける各テーブルの各列に格納されたデータをトラバースし、列ベクトル表現モデルで予測して各テーブルの各列の列ベクトル表現を取得することと、
グラフデータの関連マッピングにより、収集されたメタデータと生成された列ベクトル表現とを医療データエレメントグラフデータモデルへ対応付けてマッピングし、選別すべき医療データエレメントグラフデータを取得することと、を含むことを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - 前記列ベクトル生成器は、データテーブル中の単列をデータエレメント単位とし、列ベクトル表現モデルを用いて各列に格納されたデータを変換し、各列のベクトル表現を算出し、
前記列ベクトル表現モデルのトレーニングにおいて、列ベクトル表現モデルのトレーニングデータは、標準データベースに格納された、医療データエレメントの分類を手動的に完了した列データであってデータ構造が標準データモデルに合致する列データであり、標準分類列とされ、標準分類医療データエレメントグラフデータ中の列頂点と対応する標準分類列とは、1対1の対応関係を有し、
標準分類医療データエレメントグラフデータにおける列頂点セットは、
は、列頂点セットに対応する標準分類列中の第k列且つ第j行のデータを示し、
は、データ
を構成する文字であり、文字
の初期ベクトル表現
は、テキスト表示モデル
で算出されたものであり、標準分類医療データエレメントグラフデータの列頂点
においてn行のデータ
はランダムに抽出され、第j行のデータのベクトル表現は、
前記デプスマップマッチングに基づく医療データエレメント自動化分類方法において、自己注意機構に基づいて標準分類医療データエレメントグラフデータ中の列頂点
での各行のデータの相関性を算出し、列頂点
の列ベクトル表現
を取得し、
は、列頂点
のベクトル表現であり、
は、
は、
の次元であり、softmaxは、softmax関数であり、
前記列ベクトル表現モデルの予測は、列ベクトル表現モデルの予測データがデータレイク中の各データベースにおける各テーブルの各列で構成される選別すべき医療データエレメントセットであり、列をトラバース単位として選別すべき医療データエレメントセットをトラバースすることと、列頂点について毎回ランダムに抽出された列ベクトル表現を列ベクトル表現モデルを用いて算出することと、予測の複数回でランダムに抽出された列ベクトル表現結果の平均値を前記列頂点の最終的な列ベクトル表現として求めることと、を含むことを特徴とする請求項2に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - 前記医療データエレメント選別モデルのトレーニング及び予測において、
標準データエレメント分類体系と手動分類と関連マッピングとに基づいて構築された標準分類医療データエレメントセットを標準分類医療データエレメントグラフデータに変換し、標準分類医療データエレメントグラフデータに格納された列頂点セットを
トレーニング時に、セット
からq個の列頂点を正のサンプルセット
としてランダムに抽出し、セット
からq個の列頂点を負のサンプルセット
としてランダムに抽出し、サンプル
の重要度スコアを
とし、
を第i個の列頂点とし、
をサンプル実種別とすると、重要度スコアに基づいて以下の数式で医療データエレメント選別モデルの損失関数
を
前記医療データエレメント選別モデルは、予測時に、閾値
を算出することにより、列頂点
に対応する選別すべき医療データエレメントセット中の列が有効データエレメントであるか否かを判断し、閾値
の計算式は、
≧0.5の場合に、列頂点
は、有効列頂点であり、対応する列は、有効データエレメントであり、
選別後の有効列頂点セットは、対応付けられて分類すべき医療データエレメントグラフデータを構成し、対応する選別後の列セットは、分類すべき医療データエレメントセットを構成することを特徴とする請求項1に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - 前記分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定する過程において、
標準データモデルで定義された標準データエレメント分類体系における全ての標準分類セットを
とし、標準分類医療データエレメントグラフデータ中の列頂点セットを
とし、
の標準データエレメント分類体系における分類が
となり、分類すべき医療データエレメントグラフデータに格納された列頂点セットを
とし、医療データエレメント分類過程を、列頂点
との合致度が最も高い列頂点
を
において見つけ出すことに抽象化させることにより、列頂点
に対応する列の分類を
として特定し、
列頂点
について、
に対応する列から
個のデータ
をランダムに抽出し、列頂点
について、
に対応する列から
個のデータ
をランダムに抽出すると、
と
との合致度
は、
は、データ
のベクトル表現を表し、
に対応するシード頂点は、それとの合致度が最も高い列頂点
となり、
は、
- 前記シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行う過程において、
分類すべき医療データエレメントグラフデータ中の、
とは親子関係を有する列頂点セットを
で示し、分類すべき医療データエレメントグラフデータ中の、
とは外部キー関係を有する列頂点セットを
で示すと、シード頂点
によるカットで得られたサブグラフ
は、
標準分類医療データエレメントグラフデータ中の、
とは同一の親頂点に対応付けられた列頂点セットを
で示すと、デプスマップマッチングモデルの目標は、サブグラフ
からサブグラフを検索することにより、検索されたサブグラフ中の列頂点を
中の列頂点に1つずつマッチングさせて、
中の列頂点に対応する医療データエレメントの分類を図ることであることを特徴とする請求項6に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - 前記デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータ中の列頂点の分類を完了する過程において、
グラフ注意機構に基づいて、標準分類医療データエレメントグラフデータ中の列頂点
のベクトル表現
を算出し、
は、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中の列頂点
の列頂点
に対する重み関数を示し、
グラフ注意機構に基づいて、分類すべき医療データエレメントグラフデータの列頂点
のベクトル表現
を算出し、
は、
は、列頂点
に対応する列からランダムに抽出された
個のデータであり、
は、
中の列頂点
の列頂点
に対する重み関数を示し、
列頂点
と列頂点
との合致度
は、
との合致度が最も高い列頂点
は、
分類すべき医療データエレメントグラフデータ中の列頂点
に対応する列の分類は、
に対応する標準データエレメント分類体系中の種別であることを特徴とする請求項7に記載のデプスマップマッチングに基づく医療データエレメント自動化分類方法。 - デプスマップマッチングに基づく医療データエレメント自動化分類システムであって、
多源異性データエレメント正規化収集及びマッピングモジュールと、有効医療データエレメント選別モジュールと、デプスマップマッチングモデルベース医療データエレメント分類モジュールとを備え、
前記多源異性データエレメント正規化収集及びマッピングモジュールは、最小メタデータ情報に基づく医療データエレメントグラフデータモデルを定義し、医療機構内のデータレイクに格納された多源異性のデータエレメントを選別すべき医療データエレメントセットとして構成し、前記医療データエレメントグラフデータモデルへの自動化マッピングを行い、マッピング結果を選別すべき医療データエレメントグラフデータとして格納し、前記医療データエレメントグラフデータモデルは、有向属性グラフを用いてモデル化され、グラフは、頂点と辺との2種類の図要素で構成され、
前記頂点は、ラベルとラベルに対応する属性グループとで構成され、ラベルは、頂点のタイプを表し、属性グループは、ラベルが持つ1種又は複数種の属性を表し、前記頂点の本体情報は、頂点タイプと、各タイプの頂点に対応する属性情報とを含み、前記頂点タイプは、データベース頂点、テーブル頂点及び列頂点を含み、前記データベース頂点に対応する属性情報は、データベース頂点インデックス及びデータベースタイプ情報を含み、前記テーブル頂点に対応する属性情報は、テーブル頂点インデックスを含み、前記列頂点に対応する属性情報は、列頂点インデックス、列データ型情報及び列ベクトル表現を含み、
前記辺は、辺タイプと辺属性とで構成され、何れの辺も有向辺であり、前記辺の本体情報は、辺タイプと、各タイプの辺に対応する属性情報とを含み、前記辺タイプは、始点がデータベース頂点であり且つ終点がテーブル頂点である親子関連と、始点がテーブル頂点であり且つ終点が列頂点である親子関連と、始点及び終点が何れも列頂点である外部キーとを含み、3種の辺タイプに対応する属性情報は、何れも辺インデックスであり、
前記有効医療データエレメント選別モジュールは、選別すべき医療データエレメントグラフデータに格納された各列頂点の、医療データエレメントグラフデータモデルにおける重要度を算出し、医療データエレメント選別モデルを構築し、各列頂点の重要度に基づいて、各列頂点に対応する列が標準データモデルにマッピングされる尤度を算出し、有効列頂点を選別し、対応する列が有効医療データエレメントであり、有効列頂点セットを対応付けさせて分類すべき医療データエレメントグラフデータを構成し、有効列頂点に対応する列セットで分類すべき医療データエレメントセットを構成し、
前記デプスマップマッチングモデルベース医療データエレメント分類モジュールは、分類すべき医療データエレメントグラフデータから標準分類医療データエレメントグラフデータのシード頂点セットを特定し、シード頂点セットに基づいて分類すべき医療データエレメントグラフデータのサブグラフ分割を行い、デプスマップマッチングモデルを用いて分類すべき医療データエレメントグラフデータにおける列頂点の分類を行うことにより、列頂点に対応する医療データエレメントの分類を取得することを特徴とするデプスマップマッチングに基づく医療データエレメント自動化分類システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111649231.1A CN114003791B (zh) | 2021-12-30 | 2021-12-30 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
CN202111649231.1 | 2021-12-30 | ||
PCT/CN2022/116971 WO2023124191A1 (zh) | 2021-12-30 | 2022-09-05 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024502730A JP2024502730A (ja) | 2024-01-23 |
JP7432801B2 true JP7432801B2 (ja) | 2024-02-16 |
Family
ID=79932292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023536557A Active JP7432801B2 (ja) | 2021-12-30 | 2022-09-05 | デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7432801B2 (ja) |
CN (1) | CN114003791B (ja) |
WO (1) | WO2023124191A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003791B (zh) * | 2021-12-30 | 2022-04-08 | 之江实验室 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
CN116166698B (zh) * | 2023-01-12 | 2023-09-01 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
CN117312435A (zh) * | 2023-11-23 | 2023-12-29 | 首都信息发展股份有限公司 | 数据采集方法、装置及电子设备 |
CN117349401B (zh) * | 2023-12-06 | 2024-03-15 | 之江实验室 | 一种非结构化数据的元数据存储方法、装置、介质及设备 |
CN117763129B (zh) * | 2024-02-22 | 2024-05-28 | 神州医疗科技股份有限公司 | 基于生成式预训练模型的病历检索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009193584A (ja) | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
JP2021534493A (ja) | 2018-08-16 | 2021-12-09 | オラクル・インターナショナル・コーポレイション | 限られた知識ドメイン内でナレッジグラフを構築するための技術 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354266A (zh) * | 2015-10-23 | 2016-02-24 | 北京航空航天大学 | 一种基于富图模型RichGraph的图数据管理方法 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
CN105808712A (zh) * | 2016-03-07 | 2016-07-27 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN109471945B (zh) * | 2018-11-12 | 2021-11-23 | 中山大学 | 基于深度学习的医疗文本分类方法、装置及存储介质 |
CN110021439B (zh) * | 2019-03-07 | 2023-01-24 | 平安科技(深圳)有限公司 | 基于机器学习的医疗数据分类方法、装置和计算机设备 |
CN109948680B (zh) * | 2019-03-11 | 2021-06-11 | 合肥工业大学 | 病历数据的分类方法及系统 |
CN110349639B (zh) * | 2019-07-12 | 2022-01-04 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
US11481623B2 (en) * | 2019-09-25 | 2022-10-25 | International Business Machines Corporation | Systems and methods for training a model using a few-shot classification process |
US20210158161A1 (en) * | 2019-11-22 | 2021-05-27 | Fraud.net, Inc. | Methods and Systems for Detecting Spurious Data Patterns |
CN111523003A (zh) * | 2020-04-27 | 2020-08-11 | 北京图特摩斯科技有限公司 | 一种以时序动态图谱为核心的数据应用方法及平台 |
CN112185515A (zh) * | 2020-10-12 | 2021-01-05 | 安徽动感智能科技有限公司 | 一种基于动作识别的病患辅助系统 |
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN114003791B (zh) * | 2021-12-30 | 2022-04-08 | 之江实验室 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
-
2021
- 2021-12-30 CN CN202111649231.1A patent/CN114003791B/zh active Active
-
2022
- 2022-09-05 JP JP2023536557A patent/JP7432801B2/ja active Active
- 2022-09-05 WO PCT/CN2022/116971 patent/WO2023124191A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009193584A (ja) | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
JP2021534493A (ja) | 2018-08-16 | 2021-12-09 | オラクル・インターナショナル・コーポレイション | 限られた知識ドメイン内でナレッジグラフを構築するための技術 |
Also Published As
Publication number | Publication date |
---|---|
CN114003791A (zh) | 2022-02-01 |
JP2024502730A (ja) | 2024-01-23 |
WO2023124191A1 (zh) | 2023-07-06 |
CN114003791B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7432801B2 (ja) | デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
US11500818B2 (en) | Method and system for large scale data curation | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
US9361358B2 (en) | Syntactic loci and fields in a functional information system | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Froeschl | Metadata management in statistical information processing: a unified framework for metadata-based processing of statistical data aggregates | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN113779272A (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN111243748A (zh) | 针推康数据标准化系统 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN111858567A (zh) | 一种通过标准数据元进行政务数据清洗的方法和系统 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
CN113127650A (zh) | 一种基于图数据库的技术图谱构建方法和系统 | |
JP6081609B2 (ja) | データ分析システム及びその方法 | |
Su et al. | [Retracted] Design and Application of Intelligent Management Platform Based on Big Data | |
Wei et al. | A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing | |
CN117251605B (zh) | 基于深度学习的多源数据查询方法及系统 | |
CN112132534B (zh) | 一种武器装备全寿命周期综合保障数据的管理方法及系统 | |
Yang et al. | Construction and analysis of scientific and technological personnel relational graph for group recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230615 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7432801 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |