JP2023552912A - 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム - Google Patents

小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム Download PDF

Info

Publication number
JP2023552912A
JP2023552912A JP2023536800A JP2023536800A JP2023552912A JP 2023552912 A JP2023552912 A JP 2023552912A JP 2023536800 A JP2023536800 A JP 2023536800A JP 2023536800 A JP2023536800 A JP 2023536800A JP 2023552912 A JP2023552912 A JP 2023552912A
Authority
JP
Japan
Prior art keywords
medical
event
factor
type
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023536800A
Other languages
English (en)
Other versions
JP7464800B2 (ja
Inventor
▲勁▼松 李
天舒 周
雨 田
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2023552912A publication Critical patent/JP2023552912A/ja
Application granted granted Critical
Publication of JP7464800B2 publication Critical patent/JP7464800B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】本発明は、小サンプル弱ラベル付け条件での医療イベント認識方法及びシステムを提供する。【解決手段】本発明では、医療イベントライブラリを構築し、小サンプル弱ラベル付け条件において医療因子に対して自動ラベル付けを行うことを遠隔教師あり方法で実現し、複数の次元から医療因子及びイベントメタ学習モデルを構築し、小サンプル弱ラベル付け条件において医療イベント認識モデルの凡化性が悪くてラベル付けデータが不足である問題を解決し、医療因子及びイベントメタ学習モデルを用いて負サンプリングを行い、ラベルなし医療因子を低い範囲に抑制し、遠隔教師あり方法によるラベル漏れ問題を減少させ、医療因子認識モデルの性能を向上させ、医療イベントライブラリ及び専門家知識に基づいて医療因子重要度を算出し、医療因子重要度と医療因子及びイベントメタ学習モデルとを用いて医療イベントに対して分類認識を行い、医療イベントのトリガ単語が定義されにくい問題を解決する。【選択図】図1

Description

本発明は、医療情報技術分野に属し、特に小サンプル弱ラベル付け条件での医療イベント認識方法及びシステムに関する。
病院の電子化プロセスの発展に伴い、大量の医学知識は、電子カルテの形式で様々な医療情報システムに記憶される。これらのデータは、医者の臨床実践の蓄積により生成され、豊富な臨床経験知識を含む。その中からこれらの医学知識を自動的に認識し、医療健康サービスをインテリジェント化することは、重要な意味を有する。医療イベント認識は、電子カルテテキストから医療イベントを認識し且つ構造化して表示することを目的とし、それらは、医療イベント種別、関与する医療因子及びそれに対応する種別等を含む。イベント認識により得られた情報は、複雑で多様化した医学知識を深く説明可能である。
近年、イベント認識の方法は、主にルールに基づく方法と深層学習に基づく方法とに分けられる。ルールに基づく方法に基づき、イベント認識テンプレートを人為的又は半自動的に定義し、テキストとルールについてマッチングを行ってイベントを認識する。深層学習技術の発展に伴い、畳み込みニューラルネットワーク、循環ニューラルネットワーク、注意力ネットワーク等の深層学習モデルの医療イベント認識における応用が徐々に増加する。深層学習イベント認識モデルは、一般的にイベントトリガ単語を認識することで対応するイベントを認識し、次に、対応するイベントから関連するイベント因子を認識する。
小サンプル弱ラベル付け条件で、遠隔教師あり方法は、知識ライブラリを用いてデータを自動的にラベル付けし、トレーニングサンプルの迅速な拡張を実現することができ、関係認識タスクに広く応用される。それとともに、メタ学習方法は、モデル化の点から、モデルに事前知識を利用させ、学習タスクの過程を習得させることにより、モデルの小サンプル弱ラベル付け条件での認識性能を向上させる。
現在の医療イベント認識が直面する主な問題は、小サンプル弱ラベル付けであり、従来の方法は、この問題をうまく解決できていない。まず、ルールに基づく方法は、人為的にイベント認識ルールを定義する必要がある。医療イベント認識のルール体系は、構築されにくく、ルールに基づく方法は、凡化性が低く、カバーできるイベントの状況が少ない。また、異なる病院の電子カルテのフォーマットの差異が大きく、且つルールを定義するプロセスが主観的であり、異なる専門家が異なるルールを制定し、統一の医療イベントルール体系を作成することが困難である。
その一方、深層学習に基づく方法は、一般的に大量のラベル付けコーパスを必要とし、現在医療分野に公開されているイベントデータセットが少なく、医学背景知識を持つ人員が大量のテキストをラベル付けし、且つラベル付けプロセスにおいてイベントに対して一致性チェックを行う等が必要であるため、所要な人件費が大きい。深層学習方法に関し、現在のイベント認識は、一般的にトリガ単語を判断する方式でイベント認識を行うが、医療分野における様々なイベントが複雑であり、1つのトリガ単語で1つの医療イベントを表すことが困難であり、トリガ単語を判断する方式により医療イベントを効果的に認識することができない。
本発明の目的は、現在の医療イベント認識方法の不足に対し、小サンプル弱ラベル付け条件において遠隔教師あり方法とメタ学習とを融合する医療イベント認識方法及びシステムを提供することである。
本発明は、主に以下の2通りの方法により小サンプル弱ラベル付け問題を解決する。まず、本発明は、遠隔教師あり方法を利用し、医療イベントライブラリを構築することにより中国語電子カルテテキストへの自動ラベル付けを実現し、サンプル量が少ない場合にサンプルデータを効果的に拡張し、モデルの小サンプルに対する認識の凡化性を向上させる。その一方、本発明は、少サンプル学習分野におけるメタ学習方法を用いて医療因子及びイベントを認識する。事前知識を十分に利用することにより、医療イベント認識方法の凡化性が低く、ルールが統一されにくく、大量の人件費を必要とするという問題を効果的に解決し、医療イベント認識結果の正確性を向上させるとともに、提供されたイベント認識方法は、優れた拡張可能性を有し、大量の電子カルテテキストの大規模な抽出に役立つ。医療イベント認識に関し、医療分野イベントが複雑であり、そのトリガ単語が定義されにくいことを考慮し、本発明は、医療因子を優先的に認識し、医療因子を利用して医療イベントを認識する。
本発明の目的は、以下の解決手段によって実現される。
本発明の一態様は、小サンプル弱ラベル付け条件での医療イベント認識方法を提供する。当該方法は、
医療イベントライブラリの構築及びデータのラベル付けを行うステップ一と、
医療因子及びイベントのメタ学習を行うステップ二と、
医療因子を認識するステップ三と、
医療イベントを認識するステップ四とを含み、
前記ステップ一では、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成し、
前記ステップ二は、サブステップ2.1~サブステップ2.4を含み、
前記サブステップ2.1では、各分野に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得し、
前記サブステップ2.2では、トレーニング―サポートセットに基づいて、対応するイベント及び因子のプロトタイプ表現を構築し、
前記サブステップ2.3では、因子及びイベントのプロトタイプ表現に基づいて、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新し、
前記サブステップ2.4では、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得し、
前記ステップ三は、サブステップ3.1~サブステップ3.4を含み、
前記サブステップ3.1では、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、
前記サブステップ3.2では、遠隔教師あり方法でラベル付けして得られた医療因子断片について、取得された文字レベルの意味ベクトル表現に基づいて、医療因子断片の特徴表現を算出し、
前記サブステップ3.3では、医療因子断片の特徴表現に基づいて、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得し、
前記サブステップ3.4では、医療因子種別の重みに基づいて、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、前記医療因子認識モデルのパラメータを更新し、
前記ステップ四は、サブステップ4.1~サブステップ4.3を含み、
前記サブステップ4.1では、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得し、
前記サブステップ4.2では、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、医療因子重要度スコアと組み合わせ、各種別の医療イベントの確率分布を取得し、
前記サブステップ4.3では、医療因子及びイベントメタ学習モデルを用いて、中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、ステップ4.2における各種別の医療イベントの確率分布と組み合わせ、対応する医療イベント種別を計算によって取得する。
更に、前記ステップ一では、前記医療イベントライブラリのデータは、小サンプル医療因子及びイベントデータセットと外部医学資源とに由来し、前記医療イベント種別は、個人基本情報イベント、家族疾患イベント、過去疾患イベント、投薬イベント、アレルギーイベント、手術イベント、症状イベント、治療イベント及び診断イベントを含む。
更に、前記ステップ一では、医療因子ライブラリを構築してから医療イベントライブラリを構築し、
前記医療因子ライブラリの構築過程は、
小サンプル医療因子及びイベントデータセットにおける2回以上現れた医療因子を対応する医療因子種別に応じて対応する種別の医療因子ライブラリに加えるステップa)と、
公開された高品質の外部医学資源の一部を選別して処理して対応する医療因子ライブラリに加えるステップb)とを含み、
前記医療イベントライブラリの構築において、小サンプル医療因子及びイベントデータセットにおけるラベル付けの小サンプル医療イベント及び医療因子種別を統計し、各ラベル付けのイベント及び因子について、対応関係を確立して記憶記録を行う。
更に、前記ステップ一では、遠隔教師あり方法を用いて医療因子をラベル付けすることは、処理a)と、処理b)と、処理c)と、を含み、
前記処理a)では、中国語電子カルテテキスト
Figure 2023552912000002
に対して無効文字のクリア、大文字小文字変換、句読点変換、文分割処理を行い、
前記処理b)では、中国語電子カルテテキスト
Figure 2023552912000003
について、医療因子ライブラリを用いてマッチングを行い、疾患、薬物、症状、手術、原因、治療、診断との7種別に属さない医療因子について、医療因子ライブラリにマッチングする方法でラベル付けすることなく、ルールに基づく方式でラベル付け及び抽出を行い、
前記処理c)では、医療因子ライブラリにおける医療因子の最大断片長さ
Figure 2023552912000004
を統計し、遠隔教師あり方法でラベル付けするときに断片の最大長さを
Figure 2023552912000005
と規定し、マッチングによって得られた医療因子断片テキストに対して断片ラベル付けの方式でラベル付けを行い、医療因子としてマッチングされていない他のテキスト断片を負サンプルとしてラベル付けし、ラベル付けされたサンプルを
Figure 2023552912000006
と記し、サンプル断片を
Figure 2023552912000007
と記し、
Figure 2023552912000008
は、サンプル断片
Figure 2023552912000009
のテキスト
Figure 2023552912000010
における開始位置と終了位置をそれぞれ示し、
Figure 2023552912000011
は、サンプルに対応する種別である。
更に、前記ステップ2.2において、トレーニング―サポートセットに基づいて、対応するイベント及び因子のプロトタイプ表現を構築することは、各種別のサンプルの意味ベクトルを高次元の特徴空間に投影し、各サンプルの特徴を次元に応じて加算平均して種別のプロトタイプ表現とすることを含む。
更に、前記ステップ2.3において、距離類似度スコアは、Bregmanダイバージェンス
Figure 2023552912000012
と余弦類似度スコア
Figure 2023552912000013
との2つの部分を含み、
Bregmanダイバージェンス
Figure 2023552912000014
は、
Figure 2023552912000015
にて求められ、
Figure 2023552912000016
は、ユークリッド距離の計算関数であり、
Figure 2023552912000017
は、因子又はイベントサンプル
Figure 2023552912000018
の特徴表現であり、
Figure 2023552912000019
は、種別
Figure 2023552912000020
のプロトタイプ表現であり、
余弦類似度スコア
Figure 2023552912000021
は、
Figure 2023552912000022
にて求められ、
Figure 2023552912000023
は、種別
Figure 2023552912000024
の特徴表現であり、
Figure 2023552912000025
は、トレーニングパラメータであり、
サンプル
Figure 2023552912000026
が種別
Figure 2023552912000027
に属する距離類似度スコア
Figure 2023552912000028

Figure 2023552912000029
により求め、
Figure 2023552912000030
は、トレーニングパラメータであり、
サンプル
Figure 2023552912000031
が種別
Figure 2023552912000032
として予測される確率
Figure 2023552912000033

Figure 2023552912000034
により求め、
Figure 2023552912000035
は、トレーニング―検索セット
Figure 2023552912000036
中の何れかの種別であり、
トレーニング―検索セットにおけるサンプル種別の実際結果及び認識結果に基づいて、メタ学習モデルの損失を算出し、Adamアルゴリズムで逆伝播を行ってパラメータを更新し、メタ学習モデルの損失関数
Figure 2023552912000037

Figure 2023552912000038
により求める。
更に、前記ステップ三において、遠隔教師あり方法でラベル付けされた医療因子を用いて医療因子認識モデルをトレーニングすることは、具体的に、
入力された中国語電子カルテテキストを
Figure 2023552912000039
(ただし、
Figure 2023552912000040
は、入力されたテキスト長さである)と記し、遠隔教師あり方法でラベル付けして得られたサンプルを
Figure 2023552912000041
と記し、サンプル断片を
Figure 2023552912000042
と記し、
Figure 2023552912000043
は、サンプル断片
Figure 2023552912000044
のテキスト
Figure 2023552912000045
における開始位置と終了位置をそれぞれ示し、
Figure 2023552912000046
は、サンプルに対応する種別であり、
系列エンコーダモデルを用いてテキストの文字レベルの意味ベクトル表現を取得し、即ち、医療因子の認識時に、テキスト
Figure 2023552912000047
について、系列エンコーダモデルを介して各文字の意味ベクトル
Figure 2023552912000048
を取得し、
サンプル
Figure 2023552912000049
について、サンプル断片
Figure 2023552912000050
の特徴表現
Figure 2023552912000051

Figure 2023552912000052
により求め、
Figure 2023552912000053
は、ベクトルのつなぎ合わせを示し、
Figure 2023552912000054
は、ベクトルの対応する位置における要素の内積演算を示し、
サンプル断片の特徴表現を非線形変換し、サンプルが各種別に属する確率分布
Figure 2023552912000055

Figure 2023552912000056
により求めて出力し、
Figure 2023552912000057
は、トレーニングパラメータであり、
Figure 2023552912000058
の出力次元は、サンプル種別数であり、
Figure 2023552912000059
とし、
Figure 2023552912000060
にて示され、
Figure 2023552912000061
は、サンプル断片
Figure 2023552912000062
が種別
Figure 2023552912000063
に属する確率を示す。
更に、前記ステップ三では、全てのサンプルセットを
Figure 2023552912000064
とし、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片数を
Figure 2023552912000065
とし、
Figure 2023552912000066
個のサンプルをランダムにサンプリングして負サンプリングサンプルセット
Figure 2023552912000067
(ただし、
Figure 2023552912000068
)を構成し、負サンプリングサンプルセットを医療因子及びイベントメタ学習モデルに送り込み、負サンプリングサンプル
Figure 2023552912000069
が各種別の医療因子に属する確率を取得し、確率値を重み
Figure 2023552912000070
とし、
Figure 2023552912000071
と示し、
Figure 2023552912000072
は、予測されたサンプル種別であり、合計
Figure 2023552912000073
種別の医療因子があるとすると、グローバル損失関数
Figure 2023552912000074

Figure 2023552912000075
に構成し、
損失関数
Figure 2023552912000076
を用いて勾配逆伝播を経て医療因子認識モデルのパラメータを更新する
更に、医療因子を医療イベントの基本次元とし、複数の専門家が同時に医療因子について採点したとし、専門家
Figure 2023552912000077
が医療イベント種別
Figure 2023552912000078
中の医療因子種別
Figure 2023552912000079
について採点したスコアが
Figure 2023552912000080
であり、スコアが整数であり且つ同一の専門家が各医療因子について採点したスコアが必ず異なると規定し、スコアの値範囲を
Figure 2023552912000081
とし、
Figure 2023552912000082
は、医療イベント種別
Figure 2023552912000083
中の医療因子種別の総数であり、最終の医療イベント種別
Figure 2023552912000084
中の医療因子種別
Figure 2023552912000085
の正規化された専門家スコア
Figure 2023552912000086

Figure 2023552912000087
により求め、
Figure 2023552912000088
は、専門家数であり、医療因子種別
Figure 2023552912000089
の医療イベント種別
Figure 2023552912000090
における最終重要度スコア
Figure 2023552912000091

Figure 2023552912000092
により求め、
入力された中国語電子カルテテキストを
Figure 2023552912000093
と記し、
Figure 2023552912000094
は、入力されたテキスト長さであり、医療因子認識モデルの予測によって得られた医療因子を
Figure 2023552912000095
と記し、
Figure 2023552912000096
は、テキストにおける医療因子数であり、医療イベント種別が合計Η個あるとし、医療因子重要度スコアと組み合わせ、テキスト
Figure 2023552912000097
が医療イベント種別
Figure 2023552912000098
に属する確率分布
Figure 2023552912000099

Figure 2023552912000100
により求め、
中国語電子カルテテキスト
Figure 2023552912000101
を医療因子及びイベントメタ学習モデルに送り込み、テキストと各種別の医療イベントの距離類似度スコア
Figure 2023552912000102
を算出し、距離類似度スコアと医療イベントの確率分布とを組み合わせ、テキスト
Figure 2023552912000103
が医療イベント種別
Figure 2023552912000104
に属するスコア
Figure 2023552912000105

Figure 2023552912000106
により求め、スコアが最も高い医療イベント種別
Figure 2023552912000107
を最終テキスト
Figure 2023552912000108
の医療イベントとし、
Figure 2023552912000109
と示す。
本発明の別の態様は、小サンプル弱ラベル付け条件での医療イベント認識システムを提供する。当該システムは、
医療イベントライブラリ構築及びデータラベル付けモジュールと、医療因子及びイベントメタ学習モジュールと、医療因子認識モジュールと、医療イベント認識モジュールとを備え、
前記医療イベントライブラリ構築及びデータラベル付けモジュールは、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成し、
前記医療因子及びイベントメタ学習モジュールは、各分野に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得し、トレーニング―サポートセットに基づいて対応するイベント及び因子のプロトタイプ表現を構築し、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新し、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得し、
前記医療因子認識モジュールは、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、遠隔教師あり方法でラベル付けして得られた医療因子断片について、医療因子断片の特徴表現を算出し、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得し、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、医療因子認識モデルのパラメータを更新し、
前記医療イベント認識モジュールは、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得し、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、各種別の医療イベント確率分布を取得し、医療因子及びイベントメタ学習モデルを用いて中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、各種別の医療イベント確率分布と組み合わせ、対応する医療イベント種別を取得する。
本発明は、以下の有利な作用効果を有する。
1.医療イベントライブラリを構築し、遠隔教師あり方法を用いて、小サンプル弱ラベル付け条件での医療因子に対する自動ラベル付けを実現する。
2.複数の次元から医療因子及びイベントメタ学習モデルを構築し、小サンプル弱ラベル付け条件において医療イベント認識モデルの凡化性が悪くてラベル付けデータが不足である問題を解決する。
3.医療因子及びイベントメタ学習モデルを用いて負サンプリングを行い、ラベルなし医療因子を低い範囲に抑制し、遠隔教師あり方法によるラベル漏れ問題を減少させ、医療因子認識モデルの性能を向上させる。
4.医療イベントライブラリ及び専門家知識に基づいて医療因子重要度を算出し、医療因子重要度と医療因子及びイベントメタ学習モデルとを用いて医療イベントに対して分類認識を行い、医療イベントのトリガ単語が定義されにくい問題を解決する。
本発明の実施例に関わる小サンプル弱ラベル付け条件での医療イベント認識方法のフローチャートである。 本発明の実施例に関わる医療因子及びイベントのメタ学習の実現形態のブロック図である。 本発明の実施例に関わる医療因子の認識の実現形態のブロック図である。 本発明の実施例に関わる医療イベントの認識の実現形態のブロック図である。 本発明の実施例に関わる小サンプル弱ラベル付け条件での医療イベント認識システムの構成ブロック図である。
本発明の上記目的、特徴及びメリットがより明白且つ分かりやすくなるように、以下では、図面を参照しながら本発明の具体的な実施形態について詳細に説明する。
本発明が十分に理解されるように以下の説明において詳細が多く記述されているが、本発明は、更に、ここで記述された形態と異なる形態で実施され得る。当業者は、本発明の要旨に反しない場合に、類似する拡張を行うことができる。したがって、本発明は、以下に開示された具体的な実施例に限定されない。
本発明において、医療イベントは、中国語電子カルテテキストにおいて治療過程に重要な影響を有する一連の医学的状態変化の集合を指す。1つの医療イベントは、医療イベント種別と、医療因子と、医療因子種別とを含む。例えば、テキスト「腹痛3か月余り、10日間重くなる」に対して、それは、患者の症状の変化を記述するイベントであり、医療イベント種別は、症状であり、医療因子は、「腹痛」(医療因子種別:症状)、「3か月余り」(医療因子種別:時間)、「10日間重くなる」(医療因子種別:傾向)である。
小サンプル弱ラベル付け条件は、モデル学習時に少量の限られたラベル付けデータと大量のラベルなしデータがあり、且つラベル付けデータが完全ではなく、ノイズが存在する状況を指す。
メタ学習は、新たなタスクを習得する能力をモデルに取得させることを目指し、モデルに対して、事前知識を取得した上で新たなタスクを迅速に学習させ得ることを指す。メタ学習は、まず、複数回のトレーニングタスクを構築し、次に毎回のトレーニングタスクにおいてタスクに対応するデータを構築してトレーニングを行う。メタ学習は、関数を見つけることを目標とし、関数を出力することができ、関数は、新たなタスクを良く学習することができる。
断片ラベル付けは、テキスト中の全ての可能なテキスト断片を配列し、対応する医療イベントライブラリにおける断片を対応する種別としてラベル付けし、他の断片を負サンプルとしてラベル付けすることを指す。
ラベル付けなしの医療因子は、下記のことを指す。遠隔教師ありでラベル付けしたときに、医療イベントライブラリが全ての医療因子をカバーすることが不可能であるため、ラベル付けの結果は、医療イベントライブラリにない医療因子を見逃す。医療イベントライブラリでカバーされていないこれらの医療因子は、ラベル付けなしの医療因子と呼ばれる。
図1に示すように、本実施例に関わる小サンプル弱ラベル付け条件での医療イベント認識方法は、以下のステップを含む。
ステップ一では、医療イベントライブラリの構築及びデータのラベル付けを行う。即ち、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリのデータは、小サンプル医療因子及びイベントデータセットと、外部医学資源等とに由来し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成する。
(1)医療イベントライブラリの構築
(1.1)医療イベント及び対応医療因子の定義:大量の中国語電子カルテテキストの特点に応じて、専門医者の指導の下で、9種の汎用の医療イベント種別、即ち、個人基本情報イベント、家族疾患イベント、過去疾患イベント、投薬イベント、アレルギーイベント、手術イベント、症状イベント、治療イベント、診断イベントを初歩的に定義する。また、各種のイベントについて、対応する医療因子を定義する。例えば、個人基本情報イベントにおいて、性別、年齢、身長、体重、婚姻状況、喫煙歴、飲酒歴をイベントの因子として定義する。症状イベントにおいて、症状、時間、頻度、傾向、再発状況、原因をイベント因子として定義する。更に例えば、過去疾患イベントにおいて、疾患、時間、治療方法をイベント因子として定義する。医療イベント及び因子の具体的な定義は、以下の表に示される。
Figure 2023552912000110
(1.2)医療因子ライブラリの構築:小サンプル弱ラベル付け条件において少ないラベル付けの医療イベント及び因子があることを考慮し、本発明では、公開された高品質の医学コーパスを導入して医療因子ライブラリを構築する。医療因子ライブラリは、主に7種の医療因子、即ち、疾患、薬物、症状、手術、原因、治療、診断を含む。医療因子ライブラリの具体的な構築過程は、以下のようになる。
a)小サンプル医療因子及びイベントデータセットにおける2回以上現れた医療因子を対応する医療因子種別に応じて対応する種別の医療因子ライブラリに加える。
b)上記方法では非常に少ない医療因子のみが取得され得るため、本発明では、現在公開された高品質の外部医学資源の一部を選別して処理して対応する医療因子ライブラリに加える。医学資源をクローリングし且つ情報に対して認識及び整理を行うことにより、医療因子ライブラリを取得する。
c)上記7種の種別、例えば、如:時間、性別、年齢、身長、体重、頻度、傾向、喫煙歴、飲酒歴に属さない医療因子について、本発明では、医療因子ライブラリにマッチングする方法でラベル付けすることなく、ルールに基づく方式でラベル付け及び抽出を行う。
(1.3)医療イベントライブラリの構築:小サンプル医療因子及びイベントデータセットにおけるラベル付けの小サンプル医療イベント及び医療因子種別を統計し、各ラベル付けのイベント及び因子について、対応関係を確立して記憶記録を行う。
例えば、小サンプル医療因子及びイベントデータが集中する家族疾患イベント「類似する患者が家族にない。父は、亡くなり、死因:自然死。母は、5年肝硬変している。兄弟姉妹の健康状況:7人の兄弟姉妹、1人の姉と1人の弟が肝癌で亡くなり、1人の姉が脳出血である。」について、対応する医療イベントライブラリを確立して統計し、下の表に示す。
Figure 2023552912000111
(2)遠隔教師あり方法を用いて医療因子をラベル付けする
ヒューリスティックな仮定に基づいて、医療因子断片が医療因子ライブラリにおいてある種別の医療因子としてラベル付けされた場合に、ラベル付けなしの中国語電子カルテテキスト中の当該因子断片は、何れも対応する種別の医療因子としてラベル付けされる。具体的な自動ラベル付けのステップは、下記のようになる。
a)中国語電子カルテテキスト
Figure 2023552912000112
に対して無効文字のクリア、大文字小文字変換、句読点変換、文分割処理等の前処理操作を行う。
b)中国語電子カルテテキスト
Figure 2023552912000113
について、医療因子ライブラリを用いてマッチングを行い、7種別に属さない医療因子、例えば、時間、性別、年齢等の情報について、ルールに基づく方式でマッチングを行う。
c)医療因子ライブラリにおける医療因子の最大断片長さ
Figure 2023552912000114
を統計し、遠隔教師あり方法でラベル付けするときに断片の最大長さを
Figure 2023552912000115
と規定する。マッチングによって得られた医療因子断片テキストに対して断片ラベル付けの方式でラベル付けを行い、医療因子としてマッチングされていない他のテキスト断片を負サンプルとしてラベル付けする。ラベル付けされたサンプルを
Figure 2023552912000116
と記し、サンプル断片を
Figure 2023552912000117
と記し、
Figure 2023552912000118
は、サンプル断片
Figure 2023552912000119
のテキスト
Figure 2023552912000120
における開始位置と終了位置をそれぞれ示し、
Figure 2023552912000121
は、サンプルに対応する種別である。
例えば、テキスト「突発上腹部疼痛3か月、摂食後嘔吐を伴う。」について、症状断片セット{「上腹部疼痛」、「疼痛」、「嘔吐」}、原因断片セット{「摂食後」}、時間断片セット{「3か月」}をマッチングによって取得する。本発明は、「上腹部疼痛」、「疼痛」を症状としてラベル付けし、「摂食後」を原因としてラベル付けし、「嘔吐」を症状としてラベル付けし、「3か月」を時間としてラベル付けするなど。マッチングされていない他の断片は、例えば、「突」を負サンプルとしてラベル付けし、「発上」を負サンプルとしてラベル付けする。
ステップ二では、医療因子認識モデル及び医療イベント認識モデルの小サンプル弱ラベル付け条件での学習能力を向上させるように、医療因子及びイベントのメタ学習を行い、主に以下の4つのステップを含む。
2.1では、各分野(医療分野に限定されない。医療分野イベント認識データが限られているから)に高品質に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得する。
2.2では、トレーニング―サポートセットに基づいて、対応するイベント及び因子のプロトタイプ表現を構築する。具体的に、各種別のサンプルの意味ベクトルを高次元の特徴空間に投影し、各サンプルの特徴を次元に応じて加算平均して種別のプロトタイプ表現とする。
2.3では、因子及びイベントのプロトタイプ表現に基づいて、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新する。
2.4では、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得し、図2に示される。
具体的な実施の詳細は、下記のようになる。
a)小サンプル弱ラベル付け条件において、小サンプル医療因子及びイベントデータセットトレーニング医療イベント認識モデルをそのまま使用すると、ラベル付けデータが少なく過ぎて深刻なオーバーフィッティングを引き起こす。メタ学習方法では、他の分野の大量のラベル付けコーパスを用いて、小サンプルデータのみを含むトレーニングタスクを複数構築し、小サンプルデータにおいて新たなタスクを迅速に習得する能力を有するモデルをトレーニングして取得する。
b)サンプリング小サンプル医療因子及びイベントデータセット中のサンプルをテストセットとし、
Figure 2023552912000122
と記し、
Figure 2023552912000123
中の医療因子及びイベントが合計N種別があるとし、各種別にT個のサンプルがある。サンプルを3:2で更にサポートセット
Figure 2023552912000124
と検索セット
Figure 2023552912000125
とに区分し、
Figure 2023552912000126
での各種別にK個のサンプルがあるとし、
Figure 2023552912000127
のメタ学習タスクを構築する。医療因子及びイベントラベル付けコーパスが少ないため、本発明では、各分野の高品質に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとし、
Figure 2023552912000128
と記し、
Figure 2023552912000129
でのイベント及び因子種別と医療イベント及び因子種別とが異なる。
Figure 2023552912000130
を用いて
Figure 2023552912000131
のメタ学習モデルをトレーニングする。テストセットサンプル構造過程に基づいて、トレーニングセット
Figure 2023552912000132
からM回サンプリングし、毎回N種別のサンプルをサンプリングし、各種のサンプルに関し、K個のサンプルをサポートセット
Figure 2023552912000133
としてサンプリングし、
Figure 2023552912000134
中の同じ種別のサンプル数を検索セット
Figure 2023552912000135
としてサンプリングする。
Figure 2023552912000136
及び
Figure 2023552912000137
を用いてM回のメタ学習モデルトレーニングを行うことにより、メタ学習モデルを
Figure 2023552912000138
条件において医療因子及びイベント認識タスクを迅速に習得する能力を持たせる。得られたメタ学習モデルを更に医療因子及びイベントサンプルサポートセット
Figure 2023552912000139
においてトレーニングして医療因子及びイベントメタ学習モデルを取得する。
c)因子及びイベントメタ学習モデルは、系列エンコーダモデルと分類モデルとによって構成される。系列エンコーダモデルは、双方向自己注意言語モデル(BERT)であることが好ましい。系列エンコーダモデルは、入力されたテキスト
Figure 2023552912000140
を意味ベクトル
Figure 2023552912000141
に符号化し、
Figure 2023552912000142
は、入力されたテキスト長さであり、
Figure 2023552912000143
は、第
Figure 2023552912000144
個の文字であり、次に、
Figure 2023552912000145
関数を用いて因子及びイベントの特徴を算出し、因子又はイベントサンプルを
Figure 2023552912000146
とし、
Figure 2023552912000147
をサンプル長さをとすると、その特徴表現は、
Figure 2023552912000148
であり、
Figure 2023552912000149
は、トレーニングパラメータである。
そして、分類モデルにおいて
Figure 2023552912000150
中のN個の種別サンプルについてプロトタイプモデル化を行い、種別
Figure 2023552912000151
に関し、
Figure 2023552912000152
を種別
Figure 2023552912000153
のサンプルセットとし、種別
Figure 2023552912000154
のプロトタイプ表現は、
Figure 2023552912000155
は、
Figure 2023552912000156
にて求められ、
Figure 2023552912000157
中の各因子及びイベントとプロトタイプ表現
Figure 2023552912000158
の距離類似度スコアを算出し、距離類似度スコアは、Bregmanダイバージェンス
Figure 2023552912000159
と余弦類似度スコア
Figure 2023552912000160
との2つの部分を含む。
Bregmanダイバージェンスは、ユークリッド距離であってもよく、即ち、
Figure 2023552912000161
にて求められ、
Figure 2023552912000162
は、ユークリッド距離の計算関数である。
それとともに、因子及びイベントと種別
Figure 2023552912000163
の余弦類似度スコア
Figure 2023552912000164
を算出し、
Figure 2023552912000165
を種別
Figure 2023552912000166
の特徴表現として選択し、
Figure 2023552912000167
は、トレーニングパラメータであり、
Figure 2023552912000168
にて求められ、サンプル
Figure 2023552912000169
が種別
Figure 2023552912000170
に属する距離類似度スコア
Figure 2023552912000171

Figure 2023552912000172
により求め、スコアが大きいほど、サンプル
Figure 2023552912000173
は、種別
Figure 2023552912000174
に類似する。
Figure 2023552912000175
は、トレーニングパラメータであり、一般的に(0,1)とし、本発明では、2つの側面を考慮し、距離類似度スコアをより全面的且つ正確に算出することができる。
サンプル
Figure 2023552912000176
が種別
Figure 2023552912000177
として予測される確率
Figure 2023552912000178

Figure 2023552912000179
により求め、
Figure 2023552912000180
は、
Figure 2023552912000181
中の何れかの種別である。
Figure 2023552912000182
中のサンプル種別の実際結果及び認識結果に基づいて、メタ学習モデルの損失を算出し、Adamアルゴリズムで逆伝播を行ってパラメータを更新し、メタ学習モデルの損失関数
Figure 2023552912000183

Figure 2023552912000184
により求め、上記過程を合計M回行い、予めトレーニングされた医療因子及びイベントメタ学習モデルをトレーニングによって取得する。
d)取得された予めトレーニングされた医療因子及びイベントメタ学習モデルを引き続き
Figure 2023552912000185
においてトレーニングし、モデルのパラメータを最適化し、医療因子及びイベントメタ学習モデルを取得する。認識時に、
Figure 2023552912000186
中の医療因子及びイベントサンプルを医療因子及びイベントメタ学習モデルに送り込み、対応する種別を取得する。
ステップ三、医療因子の認識:系列エンコーダモデル及び負サンプリング方法に基づいて、医療因子に対して分類認識を行い、主に以下の4つのステップを含む。
3.1では、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、系列エンコーダモデルは、双方向自己注意言語モデル(BERT)であることが好ましい。
3.2では、遠隔教師あり方法でラベル付けして得られた医療因子断片について、取得された文字レベルの意味ベクトル表現に基づいて、医療因子断片の特徴表現を算出する。
3.3では、医療因子断片の特徴表現に基づいて、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得する。
3.4では、医療因子種別の重みに基づいて、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、医療因子認識モデルのパラメータを更新し、図3に示される。
具体的な実施の詳細は、下記のようになる。
a)遠隔教師あり方法でラベル付けされた医療因子を用いて医療因子認識モデルをトレーニングする
入力された中国語電子カルテテキストを
Figure 2023552912000187
と記し、
Figure 2023552912000188
は、入力されたテキスト長さである。遠隔教師あり方法でラベル付けして得られたサンプルを
Figure 2023552912000189
と記し、サンプル断片を
Figure 2023552912000190
と記し、
Figure 2023552912000191
は、サンプル断片
Figure 2023552912000192
のテキスト
Figure 2023552912000193
における開始位置と終了位置をそれぞれ示し、
Figure 2023552912000194
は、サンプルに対応する種別である。
双方向自己注意言語モデルを用いてテキストの文字レベルの意味ベクトル表現を取得する。双方向自己注意言語モデルは、トレーニングと同時にテキストの正方向と逆方向のコンテキスト情報を用いてトレーニングを行い、テキストの意味ベクトルを非常に良好に表すことができる。双方向自己注意言語モデルにおけるネットワークの入力は、1つ上の階層のネットワーク自己注意メカニズムの出力に由来する。
医療因子の認識時に、テキスト
Figure 2023552912000195
について、双方向自己注意言語モデルによってその各文字の意味ベクトル
Figure 2023552912000196
を取得する。
次に、サンプル
Figure 2023552912000197
について、サンプル断片
Figure 2023552912000198
の特徴表現
Figure 2023552912000199

Figure 2023552912000200
により求め、
Figure 2023552912000201
は、ベクトルのつなぎ合わせを示し、
Figure 2023552912000202
は、ベクトルの対応する位置における要素の内積演算を示す。
最後に、サンプル断片の特徴表現を非線形変換し、サンプルが各種別に属する確率分布
Figure 2023552912000203

Figure 2023552912000204
により求めて出力し、
Figure 2023552912000205
は、トレーニングパラメータであり、
Figure 2023552912000206
の出力次元は、サンプル種別数であり、
Figure 2023552912000207
とし、即ち、
Figure 2023552912000208
にて示され、
Figure 2023552912000209
は、サンプル断片
Figure 2023552912000210
が種別
Figure 2023552912000211
に属する確率を示す。
b)医療因子及びイベントメタ学習モデルに基づいて負サンプリングを行ってラベルなし医療因子断片の影響を軽減する
遠隔教師あり方法でデータをラベル付けする時に、構築された医療イベントライブラリと使用されるルールが限られた医療因子断片のみをカバーでき、全ての医療因子をカバーできず、真の医療因子断片が負サンプルとしてラベル付けされる場合もあり、これらの医療因子としてラベル付けされていない断片が医療因子認識モデルの結果へ大きな影響を与える。本発明では、トレーニング時に、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片に対して負サンプリングを行うとともに、医療因子及びイベントメタ学習モデルを用いてサンプリングサンプルの種別重みを取得することにより、医療因子認識モデルの小サンプル弱ラベル付け条件での凡化性を向上させる。
全てのサンプルセットを
Figure 2023552912000212
とし、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片数を
Figure 2023552912000213
とし、
Figure 2023552912000214
個のサンプルをランダムにサンプリングし、負サンプリングサンプルセット
Figure 2023552912000215
を構成し、
Figure 2023552912000216
とする。負サンプリングサンプルセットを医療因子及びイベントメタ学習モデルに送り込み、負サンプリングサンプル
Figure 2023552912000217
が各種別の医療因子に属する確率を取得し、当該確率値作為重み
Figure 2023552912000218

Figure 2023552912000219
と示し、
Figure 2023552912000220
は、予測されたサンプル種別であり、合計
Figure 2023552912000221
種別の医療因子があるとすると、構造グローバル損失関数
Figure 2023552912000222

Figure 2023552912000223
に構成し、この損失関数を用いて勾配逆伝播を経て医療因子認識モデルのパラメータを更新する。
ステップ四、医療イベント認識:医療因子重要度と医療イベントの距離類似度スコアに基づいて、医療イベントに対して分類認識を行い、主に以下の3つのステップを含む。
4.1では、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、複数の専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得する。
4.2では、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、医療因子重要度スコアと組み合わせ、各種別の医療イベントの確率分布を取得する。
4.3では、医療因子及びイベントメタ学習モデルを用いて、中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、ステップ4.2における各種別の医療イベントの確率分布と組み合わせ、対応する医療イベント種別を計算によって取得し、図4に示される。
具体的な実施の詳細は、下記のようになる。
医療イベントテキストの意味が複雑であり、形式も統一されにくく、医療イベントのトリガ単語が定義されにくい問題を考慮し、本発明では、医療因子に基づいて医療イベントを認識する。それとともに、小サンプル弱ラベル付け条件でのモデルの凡化性及び正確性を向上させるために、医療因子及びイベントメタ学習モデルを用いて中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアの側面から医療イベントをモデル化して認識する。
a)医療イベントライブラリ及び専門家の採点状況を用いて医療因子重要度スコアを算出し、同一の医療イベントにおいて、異なる医療因子の重要度合いが異なる。例えば、症状イベントに関し、時間、頻度等の医療因子よりも、症状は、重要因子であり、また、1つの医療イベントの記述テキストが全ての定義の医療因子をカバーできないことは、一般的である。医療因子を用いて医療イベントを認識するときに、構築された医療イベントライブラリ及び専門家の採点状況に基づいて各種別の医療イベントにおける異なる医療因子の重要度スコアを算出し、医療因子認識モデルから出力された医療因子断片と組み合わせて医療イベントを認識する。
b)構築された医療イベントライブラリについて、医療因子種別
Figure 2023552912000224
の医療イベント種別
Figure 2023552912000225
における共起性スコア
Figure 2023552912000226

Figure 2023552912000227
により求め、
Figure 2023552912000228
は、医療イベントライブラリにおいて医療因子種別
Figure 2023552912000229
と医療イベント種別
Figure 2023552912000230
とがともに現れた回数を表し、
Figure 2023552912000231
は、医療イベントライブラリにおいて医療イベント種別
Figure 2023552912000232
が現れた回数を表す。
医療因子と医療イベントの関連性スコアを算出し、異なる医療因子種別と医療イベント関連性を区分する。同一の種別医療因子が非常に多い医療イベント種別に現れた場合に、当該類医療因子と各種別の医療イベントとの関連性が悪いと考えられる。
Figure 2023552912000233
と示し、
Figure 2023552912000234
は、医療因子種別
Figure 2023552912000235
と医療イベント種別
Figure 2023552912000236
の関連性スコアを表し、
Figure 2023552912000237
は、医療イベントライブラリにおいて医療因子種別
Figure 2023552912000238
が現れた回数を表す。
医療因子種別
Figure 2023552912000239
の医療イベント種別
Figure 2023552912000240
における重要度スコア
Figure 2023552912000241

Figure 2023552912000242
により求める。
c)医学専門家の指導の下で、具体的なルールを定めて医療因子の重要度スコアを更に算出する。医療因子を医療イベントの基本次元とし、複数の専門家が同時に医療因子について採点したとし、専門家数を
Figure 2023552912000243
とする。専門家
Figure 2023552912000244
が医療イベント種別
Figure 2023552912000245
中の医療因子種別
Figure 2023552912000246
について採点したスコアを
Figure 2023552912000247
とし、スコアが整数であり且つ同一の専門家が各医療因子について採点したスコアが必ず異なると規定し、スコアの値範囲を
Figure 2023552912000248
とし、
Figure 2023552912000249
は、医療イベント種別
Figure 2023552912000250
中の医療因子種別の総数である。最終の医療イベント種別
Figure 2023552912000251
中の医療因子種別
Figure 2023552912000252
の正規化された専門家スコア
Figure 2023552912000253

Figure 2023552912000254
により求める。例えば、投薬イベントに関し、3人の専門家が採点に参加することを例とし、3人の専門家は、それぞれ医療因子について採点し、下記のようになる。
Figure 2023552912000255
複数の専門家の採点状況に基づいて、各投薬イベント中薬物、投薬方式、時間のスコアを算出して
Figure 2023552912000256
という結果を得る。
医療因子種別
Figure 2023552912000257
の医療イベント種別
Figure 2023552912000258
における最終重要度スコア
Figure 2023552912000259

Figure 2023552912000260
により求める。
d)入力された中国語電子カルテテキストを
Figure 2023552912000261
と記し、
Figure 2023552912000262
は、入力されたテキスト長さであり、医療因子認識モデルの予測によって得られた医療因子を
Figure 2023552912000263
と記し、
Figure 2023552912000264
は、テキストにおける医療因子数であり、医療イベント種別が合計Η個あるとする。医療因子重要度スコアと組み合わせ、テキスト
Figure 2023552912000265
が医療イベント種別
Figure 2023552912000266
に属する確率分布
Figure 2023552912000267

Figure 2023552912000268
により求める。
e)中国語電子カルテテキスト
Figure 2023552912000269
を医療因子及びイベントメタ学習モデルに送り込み、テキストと各種別の医療イベントの距離類似度スコア
Figure 2023552912000270
を算出し、距離類似度スコアと医療イベントの確率分布とを組み合わせ、テキスト
Figure 2023552912000271
が医療イベント種別
Figure 2023552912000272
に属するスコア
Figure 2023552912000273

Figure 2023552912000274
により求め、スコアが最も高い医療イベント種別
Figure 2023552912000275
を最終テキスト
Figure 2023552912000276
の医療イベントとし、
Figure 2023552912000277
と示す。
本発明の別の態様は、小サンプル弱ラベル付け条件での医療イベント認識システムを提供し、図5に示すように、当該システムは、医療イベントライブラリ構築及びデータラベル付けモジュールと、医療因子及びイベントメタ学習モジュールと、医療因子認識モジュールと、医療イベント認識モジュールとを備える。
医療イベントライブラリ構築及びデータラベル付けモジュールは、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成する。当該モジュールの実施は、上記ステップ一を参照可能である。
医療因子及びイベントメタ学習モジュールは、各分野に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得し、トレーニング―サポートセットに基づいて対応するイベント及び因子のプロトタイプ表現を構築し、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新し、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得する。当該モジュールの実施は、上記ステップ二を参照可能である。
医療因子認識モジュールは、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、遠隔教師あり方法でラベル付けして得られた医療因子断片について、医療因子断片の特徴表現を算出し、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得し、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、医療因子認識モデルのパラメータを更新する。当該モジュールの実施は、上記ステップ三を参照可能である。
医療イベント認識モジュールは、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得し、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、各種別の医療イベント確率分布を取得し、医療因子及びイベントメタ学習モデルを用いて中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、各種別の医療イベント確率分布と組み合わせ、対応する医療イベント種別を取得する。当該モジュールの実施は、上記ステップ四を参照可能である。
また、システムは、医療イベント種別を表示するための認識結果表示モジュールを更に備える。
本発明は、小サンプル弱ラベル付け条件において大規模の中国語電子カルテテキストにおける医療イベント及び因子の自動認識を実現し、従来のイベント認識方法及びシステムの凡化性が悪く、ルールが統一されにくく、大量の人件費を必要とするという問題を解決する。また、本発明は、医療イベントのトリガ単語が定義されにくい問題を解決し、医療イベントを効果的に認識することができる。
上述したのは、本発明の好適な実施形態に過ぎない。本発明が好ましい実施例で上述されたが、これらの実施例は、本発明を限定するものではない。当業者であれば、本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基づいて以上の実施例に対して行われたいかなる簡単な修正、均等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に含まれる。

Claims (9)

  1. 小サンプル弱ラベル付け条件での医療イベント認識方法であって、
    医療イベントライブラリの構築及びデータのラベル付けを行うステップ一と、
    医療因子及びイベントのメタ学習を行うステップ二と、
    医療因子を認識するステップ三と、
    医療イベントを認識するステップ四とを含み、
    前記ステップ一では、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成し、
    前記ステップ二は、サブステップ2.1~サブステップ2.4を含み、
    前記サブステップ2.1では、各分野に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得し、
    前記サブステップ2.2では、トレーニング―サポートセットに基づいて、対応するイベント及び因子のプロトタイプ表現を構築し、
    前記サブステップ2.3では、因子及びイベントのプロトタイプ表現に基づいて、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新し、
    前記サブステップ2.4では、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得し、
    前記ステップ三は、サブステップ3.1~サブステップ3.4を含み、
    前記サブステップ3.1では、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、入力された中国語電子カルテテキストを
    Figure 2023552912000278
    (ただし、
    Figure 2023552912000279
    は、入力されたテキスト長さである)と記し、遠隔教師あり方法でラベル付けして得られたサンプルを
    Figure 2023552912000280
    と記し、サンプル断片を
    Figure 2023552912000281
    と記し、
    Figure 2023552912000282
    は、サンプル断片
    Figure 2023552912000283
    のテキスト
    Figure 2023552912000284
    における開始位置と終了位置をそれぞれ示し、
    Figure 2023552912000285
    は、サンプルに対応する種別であり、
    前記サブステップ3.2では、遠隔教師あり方法でラベル付けして得られた医療因子断片について、取得された文字レベルの意味ベクトル表現に基づいて、医療因子断片の特徴表現を算出し、医療因子の認識時に、テキスト
    Figure 2023552912000286
    について、系列エンコーダモデルを介して各文字の意味ベクトル
    Figure 2023552912000287
    を取得し、
    サンプル
    Figure 2023552912000288
    について、サンプル断片
    Figure 2023552912000289
    の特徴表現
    Figure 2023552912000290

    Figure 2023552912000291
    により求め、
    Figure 2023552912000292
    は、ベクトルのつなぎ合わせを示し、
    Figure 2023552912000293
    は、ベクトルの対応する位置における要素の内積演算を示し、
    サンプル断片の特徴表現を非線形変換し、サンプルが各種別に属する確率分布
    Figure 2023552912000294

    Figure 2023552912000295
    により求めて出力し、
    Figure 2023552912000296
    は、トレーニングパラメータであり、
    Figure 2023552912000297
    の出力次元は、サンプル種別数であり、
    Figure 2023552912000298
    とし、
    Figure 2023552912000299
    にて示され、
    Figure 2023552912000300
    は、サンプル断片
    Figure 2023552912000301
    が種別
    Figure 2023552912000302
    に属する確率を示し、
    前記サブステップ3.3では、医療因子断片の特徴表現に基づいて、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得し、
    前記サブステップ3.4では、医療因子種別の重みに基づいて、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、前記医療因子認識モデルのパラメータを更新し、
    前記ステップ四は、サブステップ4.1~サブステップ4.3を含み、
    前記サブステップ4.1では、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得し、
    前記サブステップ4.2では、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、医療因子重要度スコアと組み合わせ、各種別の医療イベントの確率分布を取得し、
    前記サブステップ4.3では、医療因子及びイベントメタ学習モデルを用いて、中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、ステップ4.2における各種別の医療イベントの確率分布と組み合わせ、対応する医療イベント種別を計算によって取得することを特徴とする小サンプル弱ラベル付け条件での医療イベント認識方法。
  2. 前記ステップ一では、前記医療イベントライブラリのデータは、小サンプル医療因子及びイベントデータセットと外部医学資源とに由来し、前記医療イベント種別は、個人基本情報イベント、家族疾患イベント、過去疾患イベント、投薬イベント、アレルギーイベント、手術イベント、症状イベント、治療イベント及び診断イベントを含むことを特徴とする請求項1に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  3. 前記ステップ一では、医療因子ライブラリを構築してから医療イベントライブラリを構築し、
    前記医療因子ライブラリの構築過程は、
    小サンプル医療因子及びイベントデータセットにおける2回以上現れた医療因子を対応する医療因子種別に応じて対応する種別の医療因子ライブラリに加えるステップa)と、
    公開された高品質の外部医学資源の一部を選別して処理して対応する医療因子ライブラリに加えるステップb)とを含み、
    前記医療イベントライブラリの構築において、小サンプル医療因子及びイベントデータセットにおけるラベル付けの小サンプル医療イベント及び医療因子種別を統計し、各ラベル付けのイベント及び因子について、対応関係を確立して記憶記録を行うことを特徴とする請求項2に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  4. 前記ステップ一では、遠隔教師あり方法を用いて医療因子をラベル付けすることは、処理a)と、処理b)と、処理c)と、を含み、
    前記処理a)では、中国語電子カルテテキスト
    Figure 2023552912000303
    に対して無効文字のクリア、大文字小文字変換、句読点変換、文分割処理を行い、
    前記処理b)では、中国語電子カルテテキスト
    Figure 2023552912000304
    について、医療因子ライブラリを用いてマッチングを行い、疾患、薬物、症状、手術、原因、治療、診断との7種別に属さない医療因子について、医療因子ライブラリにマッチングする方法でラベル付けすることなく、ルールに基づく方式でラベル付け及び抽出を行い、
    前記処理c)では、医療因子ライブラリにおける医療因子の最大断片長さ
    Figure 2023552912000305
    を統計し、遠隔教師あり方法でラベル付けするときに断片の最大長さを
    Figure 2023552912000306
    と規定し、マッチングによって得られた医療因子断片テキストに対して断片ラベル付けの方式でラベル付けを行い、医療因子としてマッチングされていない他のテキスト断片を負サンプルとしてラベル付けし、ラベル付けされたサンプルを
    Figure 2023552912000307
    と記し、サンプル断片を
    Figure 2023552912000308
    と記し、
    Figure 2023552912000309
    は、サンプル断片
    Figure 2023552912000310
    のテキスト
    Figure 2023552912000311
    における開始位置と終了位置をそれぞれ示し、
    Figure 2023552912000312
    は、サンプルに対応する種別であることを特徴とする請求項3に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  5. 前記ステップ2.2において、トレーニング―サポートセットに基づいて、対応するイベント及び因子のプロトタイプ表現を構築することは、各種別のサンプルの意味ベクトルを高次元の特徴空間に投影し、各サンプルの特徴を次元に応じて加算平均して種別のプロトタイプ表現とすることを含むことを特徴とする請求項1に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  6. 前記ステップ2.3において、距離類似度スコアは、Bregmanダイバージェンス
    Figure 2023552912000313
    と余弦類似度スコア
    Figure 2023552912000314
    との2つの部分を含み、
    Bregmanダイバージェンス
    Figure 2023552912000315
    は、
    Figure 2023552912000316
    にて求められ、
    Figure 2023552912000317
    は、ユークリッド距離の計算関数であり、
    Figure 2023552912000318
    は、因子又はイベントサンプル
    Figure 2023552912000319
    の特徴表現であり、
    Figure 2023552912000320
    は、種別
    Figure 2023552912000321
    のプロトタイプ表現であり、
    余弦類似度スコア
    Figure 2023552912000322
    は、
    Figure 2023552912000323
    にて求められ、
    Figure 2023552912000324
    は、種別
    Figure 2023552912000325
    の特徴表現であり、
    Figure 2023552912000326
    は、トレーニングパラメータであり、
    サンプル
    Figure 2023552912000327
    が種別
    Figure 2023552912000328
    に属する距離類似度スコア
    Figure 2023552912000329

    Figure 2023552912000330
    により求め、
    Figure 2023552912000331
    は、トレーニングパラメータであり、
    サンプル
    Figure 2023552912000332
    が種別
    Figure 2023552912000333
    として予測される確率
    Figure 2023552912000334

    Figure 2023552912000335
    により求め、
    Figure 2023552912000336
    は、トレーニング―検索セット
    Figure 2023552912000337
    中の何れかの種別であり、
    トレーニング―検索セットにおけるサンプル種別の実際結果及び認識結果に基づいて、メタ学習モデルの損失を算出し、Adamアルゴリズムで逆伝播を行ってパラメータを更新し、メタ学習モデルの損失関数
    Figure 2023552912000338

    Figure 2023552912000339
    により求めることを特徴とする請求項5に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  7. 前記ステップ三では、全てのサンプルセットを
    Figure 2023552912000340
    とし、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片数を
    Figure 2023552912000341
    とし、
    Figure 2023552912000342
    個のサンプルをランダムにサンプリングして負サンプリングサンプルセット
    Figure 2023552912000343
    (ただし、
    Figure 2023552912000344
    )を構成し、負サンプリングサンプルセットを医療因子及びイベントメタ学習モデルに送り込み、負サンプリングサンプル
    Figure 2023552912000345
    が各種別の医療因子に属する確率を取得し、確率値を重み
    Figure 2023552912000346
    とし、
    Figure 2023552912000347
    と示し、
    Figure 2023552912000348
    は、予測されたサンプル種別であり、合計
    Figure 2023552912000349
    種別の医療因子があるとすると、グローバル損失関数
    Figure 2023552912000350

    Figure 2023552912000351
    に構成し、
    損失関数
    Figure 2023552912000352
    を用いて勾配逆伝播を経て医療因子認識モデルのパラメータを更新することを特徴とする請求項1に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  8. 前記ステップ四では、構築された医療イベントライブラリについて、医療因子種別
    Figure 2023552912000353
    の医療イベント種別
    Figure 2023552912000354
    における重要度スコア
    Figure 2023552912000355

    Figure 2023552912000356
    により求め、
    Figure 2023552912000357
    は、医療因子種別
    Figure 2023552912000358
    の医療イベント種別
    Figure 2023552912000359
    における共起性スコアであり、
    Figure 2023552912000360
    は、医療因子種別
    Figure 2023552912000361
    と医療イベント種別
    Figure 2023552912000362
    との関連性スコアであり、
    医療因子を医療イベントの基本次元とし、複数の専門家が同時に医療因子について採点したとし、専門家
    Figure 2023552912000363
    が医療イベント種別
    Figure 2023552912000364
    中の医療因子種別
    Figure 2023552912000365
    について採点したスコアが
    Figure 2023552912000366
    であり、スコアが整数であり且つ同一の専門家が各医療因子について採点したスコアが必ず異なると規定し、スコアの値範囲を
    Figure 2023552912000367
    とし、
    Figure 2023552912000368
    は、医療イベント種別
    Figure 2023552912000369
    中の医療因子種別の総数であり、最終の医療イベント種別
    Figure 2023552912000370
    中の医療因子種別
    Figure 2023552912000371
    の正規化された専門家スコア
    Figure 2023552912000372

    Figure 2023552912000373
    により求め、
    Figure 2023552912000374
    は、専門家数であり、医療因子種別
    Figure 2023552912000375
    の医療イベント種別
    Figure 2023552912000376
    における最終重要度スコア
    Figure 2023552912000377

    Figure 2023552912000378
    により求め、
    入力された中国語電子カルテテキストを
    Figure 2023552912000379
    と記し、
    Figure 2023552912000380
    は、入力されたテキスト長さであり、医療因子認識モデルの予測によって得られた医療因子を
    Figure 2023552912000381
    と記し、
    Figure 2023552912000382
    は、テキストにおける医療因子数であり、医療イベント種別が合計Η個あるとし、医療因子重要度スコアと組み合わせ、テキスト
    Figure 2023552912000383
    が医療イベント種別
    Figure 2023552912000384
    に属する確率分布
    Figure 2023552912000385

    Figure 2023552912000386
    により求め、
    中国語電子カルテテキスト
    Figure 2023552912000387
    を医療因子及びイベントメタ学習モデルに送り込み、テキストと各種別の医療イベントの距離類似度スコア
    Figure 2023552912000388
    を算出し、距離類似度スコアと医療イベントの確率分布とを組み合わせ、テキスト
    Figure 2023552912000389
    が医療イベント種別
    Figure 2023552912000390
    に属するスコア
    Figure 2023552912000391

    Figure 2023552912000392
    により求め、スコアが最も高い医療イベント種別
    Figure 2023552912000393
    を最終テキスト
    Figure 2023552912000394
    の医療イベントとし、
    Figure 2023552912000395
    と示すことを特徴とする請求項1に記載の小サンプル弱ラベル付け条件での医療イベント認識方法。
  9. 小サンプル弱ラベル付け条件での医療イベント認識システムであって、
    医療イベントライブラリ構築及びデータラベル付けモジュールと、医療因子及びイベントメタ学習モジュールと、医療因子認識モジュールと、医療イベント認識モジュールとを備え、
    前記医療イベントライブラリ構築及びデータラベル付けモジュールは、専門家知識に基づいて、医療イベント種別と各種別に対応する医療因子とを含む医療イベントライブラリを定義して構築し、医療イベントライブラリに基づいて遠隔教師あり方法を用いて中国語電子カルテテキストに対して医療因子のラベル付けを行い、医療因子認識モデルのトレーニングデータを生成し、
    前記医療因子及びイベントメタ学習モジュールは、各分野に公開された中国語イベント及び因子ラベル付けコーパスをトレーニングセットとして選択してサンプリングし、対応するトレーニング―サポートセット及びトレーニング―検索セットを複数回のサンプリングによって取得し、トレーニング―サポートセットに基づいて対応するイベント及び因子のプロトタイプ表現を構築し、トレーニング―検索セットサンプルとプロトタイプ表現の距離類似度スコアを算出し、実際結果及び認識結果に基づいてメタ学習モデルの損失を算出し、前記メタ学習モデルのパラメータを更新し、小サンプル医療因子及びイベントデータセットをテストセットとし、対応するテスト―サポートセット及びテスト―検索セットをサンプリングによって取得し、トレーニングによって得られたメタ学習モデルをテスト―サポートセットにおいて更にトレーニングして医療因子及びイベントメタ学習モデルを取得し、
    前記医療因子認識モジュールは、中国語電子カルテテキストの系列エンコーダモデルをトレーニングし、テキストの文字レベルの意味ベクトル表現を取得し、遠隔教師あり方法でラベル付けして得られた医療因子断片について、医療因子断片の特徴表現を算出し、意味類似度を用いて医療因子断片を分類し、医療因子認識モデルがトレーニング中に予測した全ての非医療因子断片について、負サンプリングサンプルを構築し、医療因子及びイベントメタ学習モデルを用いて医療因子種別の重みを取得し、医療因子と負サンプリングサンプルとの医療因子認識モデルにおける損失を算出し、医療因子認識モデルのパラメータを更新し、
    遠隔教師あり方法でラベル付けされた医療因子を用いて医療因子認識モデルをトレーニングすることは、
    入力された中国語電子カルテテキストを
    Figure 2023552912000396
    (ただし、
    Figure 2023552912000397
    は、入力されたテキスト長さである)と記し、遠隔教師あり方法でラベル付けして得られたサンプルを
    Figure 2023552912000398
    と記し、サンプル断片を
    Figure 2023552912000399
    と記し、
    Figure 2023552912000400
    は、サンプル断片
    Figure 2023552912000401
    のテキスト
    Figure 2023552912000402
    における開始位置と終了位置をそれぞれ示し、
    Figure 2023552912000403
    は、サンプルに対応する種別であり、
    系列エンコーダモデルを用いてテキストの文字レベルの意味ベクトル表現を取得し、医療因子の認識時に、テキスト
    Figure 2023552912000404
    について、系列エンコーダモデルを介して各文字の意味ベクトル
    Figure 2023552912000405
    を取得し、
    サンプル
    Figure 2023552912000406
    について、サンプル断片
    Figure 2023552912000407
    の特徴表現
    Figure 2023552912000408

    Figure 2023552912000409
    により求め、
    Figure 2023552912000410
    は、ベクトルのつなぎ合わせを示し、
    Figure 2023552912000411
    は、ベクトルの対応する位置における要素の内積演算を示し、
    サンプル断片の特徴表現を非線形変換し、サンプルが各種別に属する確率分布
    Figure 2023552912000412

    Figure 2023552912000413
    により求めて出力し、
    Figure 2023552912000414
    は、トレーニングパラメータであり、
    Figure 2023552912000415
    の出力次元は、サンプル種別数であり、
    Figure 2023552912000416
    とし、
    Figure 2023552912000417
    にて示され、
    Figure 2023552912000418
    は、サンプル断片
    Figure 2023552912000419
    が種別
    Figure 2023552912000420
    に属する確率を示し、
    前記医療イベント認識モジュールは、医療イベントライブラリに基づいて各種別の医療イベントにおける医療因子の共起性及びイベント関連性特徴を算出し、専門家が医療イベント種別中の医療因子種別について採点した状況と組み合わせ、各種別の医療イベントの医療因子重要度スコアを取得し、医療因子認識モデルから出力された中国語電子カルテテキストに存在する医療因子断片を基に、各種別の医療イベント確率分布を取得し、医療因子及びイベントメタ学習モデルを用いて中国語電子カルテテキストと各種別の医療イベントの距離類似度スコアを算出し、各種別の医療イベント確率分布と組み合わせ、対応する医療イベント種別を取得することを特徴とする小サンプル弱ラベル付け条件での医療イベント認識システム。
JP2023536800A 2021-10-26 2022-09-05 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム Active JP7464800B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202111247796.7A CN113688248B (zh) 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统
CN202111247796.7 2021-10-26
PCT/CN2022/116968 WO2023071530A1 (zh) 2021-10-26 2022-09-05 一种小样本弱标注条件下的医疗事件识别方法及系统

Publications (2)

Publication Number Publication Date
JP2023552912A true JP2023552912A (ja) 2023-12-19
JP7464800B2 JP7464800B2 (ja) 2024-04-09

Family

ID=78588046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536800A Active JP7464800B2 (ja) 2021-10-26 2022-09-05 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム

Country Status (3)

Country Link
JP (1) JP7464800B2 (ja)
CN (1) CN113688248B (ja)
WO (1) WO2023071530A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117390090B (zh) * 2023-12-11 2024-04-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117435747B (zh) * 2023-12-18 2024-03-29 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117520484B (zh) * 2024-01-04 2024-04-16 中国电子科技集团公司第十五研究所 基于大数据语义的相似事件检索方法、系统、设备和介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357924B (zh) * 2017-07-25 2020-04-24 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
US11250331B2 (en) * 2017-10-31 2022-02-15 Microsoft Technology Licensing, Llc Distant supervision for entity linking with filtering of noise
US11322256B2 (en) 2018-11-30 2022-05-03 International Business Machines Corporation Automated labeling of images to train machine learning
CN110473192B (zh) 2019-04-10 2021-05-14 腾讯医疗健康(深圳)有限公司 消化道内镜图像识别模型训练及识别方法、装置及系统
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN112365464B (zh) 2020-11-09 2021-08-10 成都信息工程大学 一种基于gan的医学图像病变区域弱监督定位方法
CN112488996A (zh) 2020-11-18 2021-03-12 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
CN112598622B (zh) 2020-12-03 2022-08-09 天津理工大学 一种融合深度多示例学习和包间相似性的乳腺癌检测方法
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统

Also Published As

Publication number Publication date
CN113688248A (zh) 2021-11-23
WO2023071530A1 (zh) 2023-05-04
JP7464800B2 (ja) 2024-04-09
CN113688248B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
JP2023552912A (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
US10929420B2 (en) Structured report data from a medical text report
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
Hussain et al. A multimodal deep log-based user experience (UX) platform for UX evaluation
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
Porturas et al. Forty years of emergency medicine research: Uncovering research themes and trends through topic modeling
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
CN110569343B (zh) 一种基于问答的临床文本结构化方法
CN106844351A (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN112466462B (zh) 一种基于图深度学习的emr信息关联及演化方法
WO2021114635A1 (zh) 患者分群模型构建方法、患者分群方法及相关设备
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
CN110674641A (zh) 基于gpt-2模型的中文电子病历实体识别方法
CN115171871A (zh) 一种基于知识图谱与注意力机制的心血管疾病预测方法
CN111259664B (zh) 医学文本信息的确定方法、装置、设备及存储介质
Liu et al. Knowledge-aware deep dual networks for text-based mortality prediction
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
CN110400610B (zh) 基于多通道随机森林的小样本临床数据分类方法及系统
An Construction and application of Chinese breast cancer knowledge graph based on multi-source heterogeneous data
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Yuan et al. Numerical Feature Transformation-Based Sequence Generation Model for Multi-Disease Diagnosis
Sheu et al. Phenotyping Antidepressant Treatment Response with Deep Learning in Electronic Health Records
CN113553840A (zh) 一种文本信息处理方法、装置、设备及存储介质
Sinha et al. Automated detection of coronary artery disease using machine learning algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230615

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240328

R150 Certificate of patent or registration of utility model

Ref document number: 7464800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150