JP2021111411A - 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム - Google Patents

医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021111411A
JP2021111411A JP2021003206A JP2021003206A JP2021111411A JP 2021111411 A JP2021111411 A JP 2021111411A JP 2021003206 A JP2021003206 A JP 2021003206A JP 2021003206 A JP2021003206 A JP 2021003206A JP 2021111411 A JP2021111411 A JP 2021111411A
Authority
JP
Japan
Prior art keywords
medical
fact
paragraph
text
medical fact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021003206A
Other languages
English (en)
Other versions
JP7143456B2 (ja
Inventor
ファン、チョウ
Zhou Fang
リー、ショアンチエ
Shuangjie Li
シー、ヤーピン
Yabing Shi
チアン、イェー
Ye Jiang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111411A publication Critical patent/JP2021111411A/ja
Application granted granted Critical
Publication of JP7143456B2 publication Critical patent/JP7143456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】医学的事実検証の分野において、深層学習モデルを適用して医療情報抽出効果を向上させる検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供する。【解決手段】医学的事実の検証方法は、医学的事実の記述テキストを取得するステップ201と、医学文書から医学的事実の記述テキストに関連する関連段落を選別するステップ202と、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性の判別を行うことで医学的事実の検証結果を得るステップ203と、を含む。判別モデルは、医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整される。【選択図】図2

Description

本開示の実施形態は、データ処理技術の技術分野に関する。具体的には、自然言語処理に基づく医療データ処理の技術分野に関し、特に、医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。
医学的事実検証は、与えられた医学的事実の真実性又は信頼性を検証する技術である。例えば、医学的事実が「腎臓結石、症状、腹水」である場合、検証技術は、当該医学的事実の信頼度を判定するために大量の医学知識を使用して、裏付け証拠を提供することができる。医学的事実の検証技術は、医学知識グラフの構築を支援するために使用できる。
人工知能及び深層学習の更なる研究に伴い、自然言語処理に関連する技術が飛躍的に発展してきた。自然言語処理技術に基づく情報抽出方法は、一般的に、大規模なラベル付けデータを基に訓練する必要がある。医学的事実検証の分野において、大規模なサンプルデータのラベル付けは高い専門的知識レベルを求めており、ラベル付けコストが高い。従って、大量のラベル付けサンプルを得ることが難しく、深層学習モデルを適用して医療情報抽出効果を向上させることが困難である。
本開示の実施形態は、医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提案する。
第1の態様では、本開示の実施形態は、医学的事実の検証方法であって、医学的事実の記述テキストを取得することと、医学文書から前記医学的事実の記述テキストに関連する関連段落を選別することと、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性に関する判別を行うことで、医学的事実の検証結果を得ることであって、判別モデルは、医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整される、ことと、を含む医学的事実の検証方法を提供する。
いくつかの実施形態では、上述した医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性に関する判別を行うことで、医学的事実の検証結果を得ることは、訓練された判別モデルを用いて関連段落から医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、医学的事実が正確な記述であると確定することを含む。
いくつかの実施形態では、上述した医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性に関する判別を行うことで、医学的事実の検証結果を得ることは、訓練された判別モデルを用いて確定された関連段落と医学的事実の記述テキストとの関連度が何れも予め設定された閾値に達していないと確定されたことに応じて、医学的事実が誤った記述であると確定することをさらに含む。
いくつかの実施形態では、上述した訓練された判別モデルは、同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出し、医療テキスト段落ペアのポジティブサンプル及びネガティブサンプルに基づいて、構築された初期の判別モデルを事前訓練し、医学的事実サンプルが正確な記述であるか否かをラベル付けするためのラベル情報を含む真実性ラベル情報を含む医学的事実サンプルセットを取得し、医学的事実サンプルセットに基づいて、事前訓練された判別モデルを反復調整すること、によって訓練されて得る。
いくつかの実施形態では、上述した真実性ラベル情報は、医学的事実サンプルが正確な記述である場合、医学的事実サンプルの裏付け証拠となる医学文書の段落をさらに含み、医学的事実の検証結果は、医学的事実が正確な記述であるか否かの検証結果と、医学的事実が正確な記述である場合における医学的事実の裏付け証拠となる医学文書の段落と、を含む。
第2の態様では、本開示の実施形態は、医学的事実の検証装置であって、医学的事実の記述テキストを取得するように構成される取得手段と、医学文書から医学的事実の記述テキストと関連する関連段落を選別するように構成される選別手段と、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性に関する判別を行うことで、医学的事実の検証結果を得るように構成される判別手段であって、判別モデルは、医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整される、判別手段と、を含む医学的事実の検証装置を提供する。
いくつかの実施形態では、上述した判別手段は、訓練された判別モデルを用いて関連段落から医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、医学的事実が正確な記述であると確定することで、医学的事実を検証するように構成される。
いくつかの実施形態では、上述した判別手段は、訓練された判別モデルを用いて確定された関連段落と医学的事実の記述テキストとの関連度が何れも予め設定された閾値に達していないと確定されたことに応じて、医学的事実が誤った記述であると確定することで、医学的事実を検証するようにさらに構成される。
いくつかの実施形態では、上述した装置は、同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出し、医療テキスト段落ペアのポジティブサンプル及びネガティブサンプルに基づいて、構築された初期の判別モデルを事前訓練し、医学的事実サンプルが正確な記述であるか否かをラベル付けするためのラベル情報を含む真実性ラベル情報を含む医学的事実サンプルセットを取得し、医学的事実サンプルセットに基づいて事前訓練後の判別モデルを反復調整することで訓練された判別モデルを得ることで、訓練された判別モデルを生成するように構成される訓練手段をさらに含む。
いくつかの実施形態では、上述した真実性ラベル情報は、医学的事実サンプルが正確な記述である場合、医学的事実サンプルの裏付け証拠となる医学文書の段落をさらに含み、医学的事実の検証結果は、医学的事実が正確な記述であるか否かの検証結果と、医学的事実が正確な記述である場合における医学的事実の裏付け証拠となる医学文書の段落と、を含む。
第3の態様では、本開示の実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置とを含み、一つ又は複数のプログラムが一つ又は複数のプロセッサに実行されると、一つ又は複数のプロセッサに第1の態様に記載の医学的事実の検証方法を実現させる電子機器を提供する。
第4の態様では、本開示の実施形態は、プロセッサに実行されると第1の態様に記載の医学的事実の検証方法が実現されるコンピュータプログラムが記憶されているコンピュータ可読媒体を提供する。
第5の態様では、本出願の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、第1の態様に記載の医学的事実の検証方法を実現する、コンピュータプログラムを提供する。
本開示の上記実施形態の医学的事実の検証方法及び検証装置は、医学的事実の記述テキストを取得することにより、医学文書から医学的事実の記述テキストに関連する関連段落を選別し、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別し、医学的事実の検証結果を得る。判別モデルは医学文書から抽出した医学文書の段落ペアに基づいて事前訓練を行い、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整を行うことで、少ないアノテーションサンプルに基づいて訓練して得られた医学的事実判別モデルによる医学的事実の正確な検証が実現され、深層学習法を用いた医学的事実検証の検証コストを削減できる。また、本開示における判別モデルは、広範囲の医学文書を学習することができるため、大量且つ幅広い医学的事実の検証に適用することができ、医療情報抽出の効率及び精度の向上に寄与する。
本開示の他の特徴、目的および利点は、添付図面を参照して非限定的な実施形態について行った詳細な説明から、より明らかになるであろう。
図1は本開示の実施形態を適用できる例示的なシステムアーキテクチャを示す図である。 図2は本開示に係る医学的事実の検証方法の一実施形態のフローチャートである。 図3は判別モデルの訓練方法のフローチャートである。 図4は判別モデルの構造概略図である。 図5は本開示に係る医学的事実の検証装置の一実施形態の構造概略図である。 図6は本開示の実施形態を実現するための電子機器に適するコンピュータシステムの構造概略図である。
本開示は、添付の図面および実施形態を参照して、以下でさらに詳細に説明される。本明細書に記載される特定の実施形態は、発明を限定するものではなく、本開示の単なる例示であることを理解されたい。また、説明の便宜上、発明に関連する部分のみが図面に示されていることにも留意されたい。
矛盾しない前提では、本開示の実施形態および実施形態における特徴は相互に組み合わせることができる。以下、添付図面を参照しつつ実施形態を踏まえて、本開示を詳しく説明する。
図1は、本開示に係る医学的事実の検証方法または医学的事実の検証装置を適用できる例示的なシステムアーキテクチャ100を示している。
図1に示されるように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105と、を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクのための媒体を提供する。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含むことができる。
端末装置101、102、103はネットワーク104を介して、メッセージ等を受信または送信するために、サーバ105と対話することができる。端末装置101、102、103は様々なクライアントアプリケーションがインストールされていてもよいユーザ端末装置であってもよい。
端末装置101、102、103は、ハードウェアであってもソフトウェアであってもよいことに留意されたい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。また、複数のソフトウェアもしくはソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)として実施されることも、または単一のソフトウェアもしくはソフトウェアモジュールとして実施されることも可能である。ここでは特に限定しない。
サーバ105は、医学知識ライブラリ保守サービス又は医療診断支援サービスなどの各種サービスを実行できるサーバであってもよい。サーバ105は端末装置101、102、103から、アップロードされた医療関連データ、例えばカルテ、診断、投薬報告、医学的事実の記述情報、医学知識データ、医療検索データ、医学的事実サンプルのラベル付けデータなどを取得することができる。サーバ105は、端末装置101、102、103などから医学的事実の検証リクエストを受信し、医学的事実の検証リクエストを解析し、その中の医学的事実を検証し、その検証結果を端末装置101、102、103にフィードバックすることもできる。サーバ105はまた、医学的事実の検証結果に基づいて医療グラフの作成を行うことができ、例えば医学的事実が正確に記述されていると判定された場合、当該医学的事実に記載された医学知識を医療グラフに追加することができる。
本開示の実施形態によって提供される医学的事実の検証方法は、一般的に、サーバ105によって実行されることに留意されたい。従って、医学的事実の検証装置は、一般的に、サーバ105に設置される。
いくつかのシナリオでは、サーバ105は、データベース、メモリまたは他のデバイスから処理すべき医学的事実データを取得することができる。この場合、例示的なシステムアーキテクチャ100は、端末装置101、102、103及び/又はネットワーク104を含まなくてもよい。
なお、サーバ105はハードウェアであってもソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実施されることも、単一のサーバとして実施されることも可能である。サーバ105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供する複数のソフトウェアまたはソフトウェアモジュールを提供するため)として実施されることも、単一のソフトウェアまたはソフトウェアモジュールとして実施されることも可能である。ここでは特に限定しない。
図1の端末装置、ネットワーク、およびサーバの数は単なる例示であることを理解されたい。実施のニーズに応じて、任意数の端末装置、ネットワーク、およびサーバを有してもよい。
更に、本開示に係る医学的事実の検証方法の一実施形態の流れ200が示される図2を参照する。該医学的事実の検証方法の流れ200は、次のステップを含む。
ステップ201:医学的事実の記述テキストを取得する。
本実施形態では、医学的事実の検証方法の実行主体(例えば、図1に示すサーバ)は、判別すべき医学的事実の記述テキストを取得することができる。ここでは、医学的事実は、疾患、症状、感染経路、治療方法、投薬方法または適用対象などの医療活動のトピックの中の任意の2つまたはそれ以上のトピック間の対応関係の記述であってもよい。医学的事実の記述テキストは、上記の対応関係を記述するテキストを含むことができる。
本実施形態では、医学的事実が「s、p、o」の形態で記述されてもよい。ここで、s、oは医療活動のうちのいずれか2つの上記トピックを表し、pはsとoの関係を表す。一例として、「腎臓結石、症状、腹水」という医学的事実があり、「腎臓結石」は疾患を表し、「腹水」は「腎臓結石」の「症状」である。別の例として、「麻疹、感染経路、飛沫」があり、「麻疹」は疾患を表し、「飛沫」は「麻疹」の「感染経路」である。
本実施形態では、医学的事実の記述テキストは手動で作成されてもよい。医学研究または実践活動において、医療活動の二つのトピックの間に何らかの関係があることが発見された場合、対応する医学的事実を作成し、医学的事実の検証技術を用いて作成された医学的事実が正確に記述されているかどうかを検証することができる。
ステップ202:医学文書から医学的事実の記述テキストに関連する関連段落を選別する。
本実施形態では、予め構築された医学文書集合を取得することができる。実際には、医療分野における関連文献、書籍、カルテまたは治療マニュアルなどの信頼性が高い医学文書を収集して、医学文書集合を構築することができる。
次に、医学文書集合内の医学文書を前処理し、文書の内容を読み取り、文書内のフォント、画像内容のフォーマットおよび特定の位置識別子(例えば、改行符)を通じて、文書を段落粒度に分割して、複数の医学文書段落を得ることができる。
次に、医学文書段落とステップ201で取得した医学的事実の記述テキストに対し相関解析を行い、医学的事実の記述テキストに関連する関連段落を選別することができる。
具体的には、医学的事実の記述テキストに対し単語分割を行い、その中から医学キーワードを抽出し、例えば症状、疾患、薬品、投薬方法および感染方式などの特徴を記述する医学キーワードを抽出することができる。そして、医学文書の段落が抽出した医学キーワードにヒットしたか否かを判断することができる。ヒットした場合、当該医学文書の段落は医学的事実の記述テキストに関連する関連段落であると判断することができ、そうでなければ、当該医学文書の段落は医学的事実の記述テキストに関連する関連段落ではないと判断することができる。
医学文書の段落が医学的事実の記述テキストから抽出された医学キーワードにヒットしたかどうかを判断する場合、完全マッチングや意味類似度に基づくマッチングというヒット判定方法を採用することができる。ここで完全マッチングの判定方法は、医学文書の段落には上記医学的事実の記述テキストから抽出された医学キーワードが含まれているかどうかを判断することである。意味類似度に基づくマッチング方法は、具体的に以下のように実行される。まず、医学テキストの段落を単語列に分割し、単語列と医学的事実の記述テキストにおける医学キーワードを対応する特徴ベクトルに変換した後、単語列における各単語と医学的事実の記述テキストにおける医学キーワードとの意味類似度を計算する。両者の意味類似度が予め設定された意味類似度の閾値を超えた場合、当該医学文書の段落が医学的事実の記述テキストにおける医学キーワードにヒットしたと確定される。
ステップ203:医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別し、医学的事実の検証結果を得る。
医学的事実の記述テキストと、ステップ202で確定された医学的事実の記述テキストに関連する関連段落を訓練された判別モデルに入力することができる。訓練された判別モデルは、畳み込みニューラルネットワーク、循環ニューラルネットワークなどのニューラルネットワーク構造に基づいて構築され、訓練された判別モデルは、医学的事実の記述テキストが各関連段落の記述と一致するかどうかを判断することができる。判別モデルの判別結果としてステップ202で確定されたすべての関連段落に、医学的事実の記述テキストと意味が一致する段落が存在していない場合、医学的事実の記述が誤ったと判定することができる。しかし、判別モデルの判別結果として医学的事実の記述テキストと意味が一致する関連段落が存在している場合、医学的事実の記述が正確であると判定することができる。
上記の判別モデルは、医学文書から抽出した医学テキスト段落ペアに基づいて事前訓練され、事前訓練後に真実性ラベル情報を含む医学的事実サンプルセットを利用して反復調整されるように訓練されたものである。
具体的には、事前訓練中に、医学文書から医療テキスト段落ペアを抽出することができ、各医療テキスト段落ペアには、2つの関連または関連しない医療テキスト段落が含まれる。判別モデルによる医療テキスト段落ペアにおける二つの医療段落の関連性に関する判定結果の偏差により、判別モデルのパラメータを調整することができる。
事前訓練後、小規模の医学的事実サンプルセットを利用して、判別モデルのパラメータをさらに最適化するために、判別モデルを教師あり学習させることができる。医学的事実サンプルセットには、真実性ラベル情報を有する医学的事実サンプルを含む。真実性ラベル情報は、医学的事実サンプルが正しく記述されたかどうかを表すラベル情報である。判別モデルによって、医学的事実サンプルの真正性判別結果と医学的事実サンプルの真実性ラベル情報との差異に基づいて損失関数を構築し、損失関数が所定の収束条件に達するまで、判別モデルのパラメータを損失関数に基づいて反復調整して、上記訓練された判別モデルを得ることができる。
上記実施形態の医学的事実の検証方法は、医学的事実の記述テキストを取得することにより、医学文書から医学的事実の記述テキストに関連する関連段落を選別し、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別し、医学的事実の検証結果を得る。判別モデルは医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整されることで、深層学習モデルに基づく医学的事実の検証が実現された。本開示の方法は、少ないラベル付けサンプルに基づいて訓練することにより得られた医学的事実の判別モデルを用いて、医学的事実を正確に検証することができ、深層学習法を用いた医学的事実検証のサンプルラベル付けコストを削減することができ、それによって医学的事実の検証コストを削減することができる。さらに、本解決策における判別モデルは、幅広い医学文書を学習することができ、大量で且つ幅広い医学的事実の検証に適用することができる。
本実施形態のいくつかの代替的な実施形態では、訓練された判別モデルを用いて、関連段落から医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、前記医学的事実が正確な記述であると判定することにより、医学的事実の検証結果を得ることができる。
具体的には、訓練された判別モデルによって、医学的事実の記述テキストと各関連段落との関連度を採点し、得点順に応じて、関連度が最も高い関連段落を目標関連段落として選択し、さらに、目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達したか否かを判定し、閾値に達した場合、医学的事実が正確な記述であると判定する。
更に、医学的事実の記述テキストの目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達していないと判定された場合、または、医学的事実の記述テキストの各関連段落と医学的事実の記述テキストとの関連度がいずれも予め設定された閾値に達していないと判定された場合、医学的事実が誤った記述であると判定されることができる。
このように、各関連段落における医学的事実の記述テキストとの関連度の最大値が予め設定された閾値に達しているか否かを判定することにより、医学的事実の記述テキストが信頼できるか否かをさらに判定し、検証結果の信頼性を更に向上させることができる。
上記判別モデルは、事前訓練され、且つ上記医学的事実の検証方法の実行主体に記憶されてもよい。あるいは、他の電子機器によって訓練され、上記医学的事実の検証方法の実行主体で実行されてもよい。さらに図3を参照すると、判別モデルの訓練方法の一実施形態の概略フローチャートが示されている。図3に示すように、上記判別モデルは、以下の流れ300に従って訓練され得る。
ステップ301:同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出する。
多くの医学文書から段落を抽出して段落ペアを形成し、医療テキスト段落ペアを構築することができる。同一の医学文書において隣接する二つの段落は通常に連続しており、記載された医学知識には一貫性がある。二つの医学文書からそれぞれランダムに抽出された段落は、通常自然に連続されていない。例えば、一つの医学文書からランダムに抽出された段落のトピックは感染性疾患の予防であり、他の医学文書からランダムに抽出された段落は腎臓結石の治療方法であり、これらの二つの段落は自然に連続するものではない場合が多い。同一医学文書から抽出された二つの連続段落に基づいて判別モデルを事前訓練するためのポジティブサンプルを構築し、異なる医学文書からランダムに抽出された二つの段落を、判別モデルを訓練するネガティブサンプルとすることができる。
上記医療テキスト段落ペアのポジティブサンプルとネガティブサンプルは、手動で付与されたラベル情報を含まなくてもよい。
ステップ302:医療テキスト段落ペアのポジティブサンプルとネガティブサンプルに基づいて、構築された初期の判別モデルに対し事前訓練を行う。
畳み込みニューラルネットワークや循環ニューラルネットワークなどに基づいて初期の判別モデルを構築し、初期の判別モデルのパラメータを設定することができる。
上記判別モデルの構造概略図が示されている図4を参照してください。本実施形態では、図4に示す構造に従い初期の判別モデルを構築することができる。図4に示すように、判別モデルは入力層、埋め込み層、モデル層および出力層を含んでもよい。
入力層はモデルの入力を表し、モデルの入力は二つのテキスト段落または二つの段落を分割した単語列である。二つの段落が実際のテキストにおいて隣接するか又は二つの段落の記述が一致しているかどうかを識別するために、単語列の先頭にタグ要素(CLSなど)を追加することができる。二つのテキスト段落または二つの段落の記述の間に、二者の分割位置を識別するための別のタグ要素(SEPなど)を追加することができる。図4において、w11、w12、w13、...は一番目のテキスト段落を分割した単語列を表し、w21、w22、...は二番目のテキスト段落を分割した単語列を表す。
埋め込み層は、複数の埋め込みモジュールを含むことができる。各埋め込みモジュールは入力層によって入力された単語列に対し、単語埋め込み、位置埋め込みおよび段落セグメント埋め込み等の方法を利用して特徴抽出を実行することができる。ここで、単語埋め込みは、語彙表を用いて、入力された単語を対応する単語タグに変換し、埋め込み方式によって対応する単語ベクトルに圧縮する。位置埋め込みは、入力された単語列における単語の位置情報を埋め込み方法によって対応する位置ベクトルに変換する。段落セグメント埋め込みは、埋め込み方法によって、各単語が属する段落を表す情報を対応する段落セグメントベクトルに変換する。図4において、EAは単語の属する段落が一番目のテキスト段落であることを示し、EBは単語の属する段落が二番目のテキスト段落であることを示している。E0、E1、E2、E3、…、En、En+1、En+2は入力層の各単語と一対一対応する位置埋め込みベクトルを表し、E−CLS、E−w11、E−w12、E−w13、…、E−w21、E−w22、…は入力層の各単語と一対一対応する単語ベクトルを表す。
各モデル層は複数の変換手段(transformer ユニット)を含むことができる。変換手段は、埋め込み層から抽出された特徴をさらに変換して計算する。変換手段は、エンコーダ及びデコーダを含むことができる。エンコーダは、自己注意層(Self Attention)及びフィードフォワードニューラルネットワークを含むことができ、デコーダも自己注意層及びフィードフォワードニューラルネットワークを含むことができる。モデル層の各変換手段は、入力層の要素、埋め込み層の各埋め込みモジュールと一対一対応する。同一層上の各変換手段は互いに接続されていなく、隣接する2層の変換手段同士は接続される。図4は2層の変換手段を示しており、第1層の変換手段はt11、t12、t13、t14、…、t1n、t1n+1、t1n+2、...を含み、第2層の変換手段はt21、t22、t23、t24、…、t2n、t2n+1、t2n+2、…を含む。第1層の変換手段t11と第2層の各変換手段がそれぞれ接続されていることは概略的に示されている。
出力層の出力は、入力された二つのテキスト段落または二つの段落の記述が自然に連続するものであるか否かの判定結果であり、分類タグであってもよい。
初期判別モデルを取得した後、医療テキスト段落ペアのポジティブサンプルとネガティブサンプルを判別モデルに入力する。判別モデルは、入力された医療テキスト段落ペアが自然に連続する二つの段落であるか否かを判定することができる。事前訓練された損失関数は、判別モデルの判定誤差に基づいて構築される。損失関数の現在値が事前訓練の収束条件を満たしていない場合、勾配降下法を用いて判別モデルのパラメータを調整し、パラメータ調整後の判別モデルを用いて医療テキスト段落ペアに対し再判定を行う。判定誤差に基づいて算出された損失関数が事前訓練の収束条件を満たしていない場合、判別モデルのパラメータを引き続き調整する。このように、判別モデルのパラメータを複数回繰り返し調整することにより、判別モデルの判定誤差を徐々に縮小させ、判別モデルの誤差が所定の範囲まで縮小された場合、または判別モデルのパラメータ調整動作が所定回数実行された場合に、判別モデルのパラメータを一定にし、事前訓練済み判別モデルを得ることができる。
ステップ303:真実性ラベル情報を含む医学的事実サンプルセットを取得する。
ここで、真実性ラベル情報には、医学的事実サンプルが正しく記述されているか否かをラベル付けするためのラベル情報が含まれている。当該真実性ラベル情報は、手動で付けられたラベル情報であってもよい。実際には、小規模の医学的事実サンプルを構築することができ、各医学的事実サンプルの真実性についてラベル付けすることができる。
ステップ304:医学的事実サンプルセットに基づいて、事前訓練された判別モデルを反復調整して、訓練された判別モデルを取得する。
事前訓練後の判別モデルを用いて、医学的事実サンプルセットにおける医学的事実サンプルの真実性を判定することができる。具体的には、医学文書集合から、医学的事実サンプルの記述テキストに関連する関連段落を選別することができる。次いで、医学的事実サンプルの記述テキストと対応する関連段落を事前訓練された判別モデルに入力し、事前訓練された判別モデルを用いて、医学的事実サンプルの記述テキストと対応する関連段落とが自然に連続するテキストであるか否かを判定する。判別モデルの出力は、医学的事実サンプルの記述テキストと対応する関連段落が自然に連続するテキストの信頼度を示す確率値であってもよいし、その確率値にマッピングされる「正確な記述」、「誤った記述」の二つのカテゴリに対応するカテゴリタグであってもよい。判別モデルは医学的事実サンプルの記述テキストと対応する関連段落とが自然に連続するテキストであると判断した場合、当該医学的事実サンプルが正確な記述であると判定され、そうでなければ、当該医学的事実サンプルが誤った記述であると判定される。
医学的事実サンプルセットの真実性ラベル情報に基づいて判別モデルの判定誤差を算出し、事前訓練後の判別モデルのパラメータを複数回反復調整することにより、医学的事実サンプルセットに対する判別モデルの判定誤差を徐々に縮小することができる。予め設定された回数の反復調整動作が完了したかまたは判別モデルの医学的事実サンプルセットに対する判定誤差が予め設定された範囲まで縮小された場合、判別モデルのパラメータの調整が停止され、訓練された判別モデルが得られる。
いくつかの実施形態では、上記真実性ラベル情報は、医学的事実サンプルが正確な記述である場合における医学的事実サンプルの裏付け証拠となる医学文書段落をさらに含む。すなわち、ラベル付けの際に、医学文書から正確な医学的事実サンプルのテキスト記述とマッチングされ、且つ意味が一貫した医療段落を当該正確な医学的事実サンプルの裏付け証拠として選択することも可能である。この場合、上記医学的事実の検証結果には、医学的事実が正確な記述であるか否かの検証結果及び医学的事実が正確な記述である場合における医学的事実の裏付け証拠となる医療テキスト段落が含まれる。
このように、医学的事実サンプルセットに基づいて判別モデルを訓練する過程において、判別モデルは、複数の関連段落から正確な医学的事実の裏付け証拠としての内在的な論理の選別を学習することができ、それによって判別モデルは医学的事実の検証結果のためのいっそう信頼性の高い証拠サポートを提供することができる。
上記医学的事実の検証方法は、医療グラフの構築に適用することができる。いくつかの実施形態では、医学的事実の検証方法の流れは、医学的事実が正確な記述である検証結果に基づいて医学知識ライブラリを更新し、更新された医学知識ライブラリに基づいて医学知識グラフを更新する。このようにすると、高精度に医学的事実を検証することで効率的かつ確実に医学知識グラフを拡張することができる。
いくつかの実施形態では、ユーザに医学的事実の検証結果をプッシュし、ユーザがこの検証結果を補助情報として知識ライブラリを更新し、それによって、医学知識の抽出および医学知識ライブラリの構築の効率化に寄与することができる。
図5を参照すると、上記医学的事実の検証方法の実施形態として、本開示は、様々な電子機器に具体的に適用できる医学的事実の検証装置の一実施形態を提供し、該検証装置の実施形態は図2に示す方法の実施形態に対応する。
図5に示すように、本実施形態の医学的事実の検証装置500は、取得手段501、選別手段502及び判別手段503を備える。取得手段501は医学的事実の記述テキストを取得するように構成され、選別手段502は医学文書から医学的事実の記述テキストに関連する関連段落を選択するように構成され、判定手段503は、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性判別を行い、医学的事実の検証結果を得るように構成されている。判別モデルは医学文書から抽出した医療テキスト段落ペアに基づいて事前訓練を行い、事前訓練後に真実性ラベル情報を含む医学的事実サンプルセットを利用して反復調整を行う。
いくつかの実施形態では、上記判別手段503は、訓練された判別モデルを用いて、関連段落から医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、目標関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、医学的事実が正確な記述であると判定するように構成される。
いくつかの実施形態では、上記判別手段503は、訓練された判別モデルを用いて確定された関連段落と医学的事実の記述テキストとの関連度が予め設定された閾値に達していないと確定されたことに応じて、医学的事実が誤った記述であると判定することで、医学的事実を検証するように更に構成される。
いくつかの実施形態では、上記の装置は更に訓練手段を含む。前記訓練手段は、同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出し、医療テキスト段落ペアのポジティブサンプルとネガティブサンプルに基づいて、すでに構築された初期の判別モデルを事前訓練し、真実性ラベル情報を含む医学的事実サンプルセットを取得し、真実性ラベル情報には医学的事実サンプルが正確な記述であるか否かをラベル付けするためのラベル情報が含まれている。医学的事実サンプルセットに基づいて、事前訓練された判別モデルを反復調整し、訓練された判別モデルを得るように構成される。
いくつかの実施形態では、上記真実性ラベル情報は、医学的事実サンプルが正確な記述である場合における医学的事実サンプルの裏付け証拠となる医学文書段落をさらに含み、医学的事実の検証結果は、医学的事実が正確な記述であるかどうかの検証結果と、医学的事実が正確な記述である場合における医学的事実の裏付け証拠となる医学文書段落を含む。
上記装置500の各手段は図2を参照して説明した方法におけるステップに対応する。従って、上記の医学的事実の検証方法について説明した動作、特徴、および達成可能な技術的効果は、装置500及びその中に含まれる手段にも同様に適用可能であり、ここではそれらの説明を省略する。
次に、図6を参照すると、本開示の実施形態を実現するための電子機器(例えば、図1に示すサーバ)600の構造概略図が示されている。図6に示される電子機器は、あくまでも一例にすぎず、本開示の実施形態の機能及び使用範囲に如何なる制限も課すべきではない。
図6に示されるように、電子機器600は、読み出し専用メモリ(ROM、Read Only Memory)602に記憶されたプログラムまたは記憶装置608からランダムアクセスメモリ(RAM、Random Access Memory)603にロードされたプログラムにより、様々な適切な動作や処理を実行できる処理装置(例えば、中央処理装置、グラフィックプロセッサなど)601を備えてもよい。RAM603には、電子機器600の動作に必要な各種プログラムやデータも記憶されている。処理装置601、ROM602及びRAM603は、バス604を介して相互に接続されている。入出力(I/O、Input/Output)インタフェース605もバス604に接続されている。
通常、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置606、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置607、ハードディスクなどを含む記憶装置608及び通信装置609をI/Oインタフェース605に接続することができる。通信装置609は、電子機器600が他の機器との間で無線通信または有線通信を行い、データを交換することができるようにしてもよい。図6は様々な装置を有する電子機器600を示しているが、図示されている全ての装置を実施または備える必要がないことを理解されたい。代替的に、より多くまたはより少ない装置を実施または備えることができる。図6に示す各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を表してもよい。
特に、本開示の実施形態によると、上述のフローチャートを参照して説明されるプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品が含まれる。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、当該コンピュータプログラムは、通信装置609を介してネットワークからダウンロードされインストールされてもよく、または記憶装置608からインストールされてもよく、またはROM602からインストールされてもよい。当該コンピュータプログラムは、処理装置601によって実行されると、本開示の実施形態の方法において限定された上述の機能を実行する。本開示の実施形態で説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読媒体、または上記2つの任意の組み合わせであってもよいことに留意されたい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置またはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読媒体のより具体的な例は、1本または複数のワイヤを有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。当該プログラムは、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されてもよい。本開示の実施形態では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されるプログラムを送信、伝播、または伝送できるコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、有線、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。
上記のコンピュータ可読媒体は、上記の電子機器に含まれてもよく、または電子機器に組み込まれていないスタンドアロンのものであってもよい。上記コンピュータ可読媒体には、1つまたは複数のプログラムが担持される。上記1つまたは複数のプログラムが電子機器によって実行される場合、医学的事実の記述テキストを取得し、医学文書から医学的事実の記述テキストと関連する関連段落を選別し、医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性判定を行い、医学的事実の検証結果を得、判別モデルは医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練を行い、事前訓練後に真実性ラベル情報を含む医学的事実サンプルセットを利用して反復調整を行うことをこの電子機器に実行させる。
本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語、またはそれらの組み合わせで作成することができる。プログラミング言語はJava、Smalltalk、C++などのオブジェクト指向のプログラミング言語や、「C」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザのコンピュータ上で実行されることも、部分的にユーザのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバ上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてもよい。または、外部のコンピュータに接続されてもよい(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
添付図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための1つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
本開示の実施形態において説明された手段は、ソフトウェアまたはハードウェアによって実施され得る。説明された手段はプロセッサに内蔵されてもよい。例えば、「取得手段、選別手段と、判別手段とを含むプロセッサ」と説明することができる。ここで、これらの手段の名称は、その手段自体に対する制限を構成しない場合がある。例えば、取得手段は「医学的事実の記述テキストを取得する手段」と説明することができる。
上記の説明は、あくまでも本開示の好ましい実施形態および応用技術原理の説明にすぎない。本開示に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本開示に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

Claims (13)

  1. 医学的事実の記述テキストを取得することと、
    医学文書から前記医学的事実の記述テキストに関連する関連段落を選別することと、
    前記医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別することで、前記医学的事実の検証結果を得ることであって、前記判別モデルは、医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整される、ことと、
    を含む医学的事実の検証方法。
  2. 前記した前記医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別することで、前記医学的事実の検証結果を得ることは、
    前記訓練された判別モデルを用いて前記関連段落から前記医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、前記目標関連段落と前記医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、前記医学的事実が正確な記述であると確定することを含む請求項1に記載の方法。
  3. 前記した前記医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別することで、前記医学的事実の検証結果を得ることは、
    前記訓練された判別モデルを用いて確定された前記関連段落と前記医学的事実の記述テキストとの関連度が何れも前記予め設定された閾値に達していないと確定されたことに応じて、前記医学的事実が誤った記述であると確定することをさらに含む請求項2に記載の方法。
  4. 前記訓練された判別モデルは、
    同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出し、
    医療テキスト段落ペアのポジティブサンプル及びネガティブサンプルに基づいて、構築された初期の判別モデルを事前訓練し、
    医学的事実サンプルが正確な記述であるか否かをラベル付けするためのラベル情報を含む真実性ラベル情報を含む医学的事実サンプルセットを取得し、
    前記医学的事実サンプルセットに基づいて、事前訓練された判別モデルを反復調整する
    ことによって訓練されて得る、請求項1〜3のいずれか1項に記載の方法。
  5. 前記真実性ラベル情報は、前記医学的事実サンプルが正確な記述である場合、前記医学的事実サンプルの裏付け証拠となる医学文書の段落をさらに含み、
    前記医学的事実の検証結果は、前記医学的事実が正確な記述であるか否かの検証結果と、前記医学的事実が正確な記述である場合における前記医学的事実の裏付け証拠となる医学文書の段落と、を含む請求項4に記載の方法。
  6. 医学的事実の記述テキストを取得するように構成される取得手段と、
    医学文書から前記医学的事実の記述テキストと関連する関連段落を選別するように構成される選別手段と、
    前記医学的事実の記述テキスト及び対応する関連段落を訓練された判別モデルに入力して真実性を判別することで、前記医学的事実の検証結果を得るように構成される判別手段であって、前記判別モデルは、医学文書から抽出された医療テキスト段落ペアに基づいて事前訓練され、事前訓練後、真実性ラベル情報を含む医学的事実サンプルセットを用いて反復調整される、判別手段と、
    を含む医学的事実の検証装置。
  7. 前記判別手段は、前記訓練された判別モデルを用いて前記関連段落から前記医学的事実の記述テキストとの関連度が最も高い目標関連段落を選別し、前記目標関連段落と前記医学的事実の記述テキストとの関連度が予め設定された閾値に達したと確定されたことに応じて、前記医学的事実が正確な記述であると確定することで、前記医学的事実を検証するように構成される請求項6に記載の装置。
  8. 前記判別手段は、前記訓練された判別モデルを用いて確定された前記関連段落と前記医学的事実の記述テキストとの関連度が何れも前記予め設定された閾値に達していないと確定されたことに応じて、前記医学的事実が誤った記述であると確定することで、前記医学的事実を検証するようにさらに構成される請求項7に記載の装置。
  9. 前記装置は、同一の医学文書から隣接する二つの段落を医療テキスト段落ペアのポジティブサンプルとして抽出し、異なる二つの医学文書からそれぞれ一つの段落を医療テキスト段落ペアのネガティブサンプルとして抽出し、
    医療テキスト段落ペアのポジティブサンプル及びネガティブサンプルに基づいて、構築された初期の判別モデルを事前訓練し、
    医学的事実サンプルが正確な記述であるか否かをラベル付けするためのラベル情報を含む真実性ラベル情報を含む医学的事実サンプルセットを取得し、
    前記医学的事実サンプルセットに基づいて事前訓練後の判別モデルを反復調整することで前記訓練された判別モデルを得ることで、
    前記訓練された判別モデルを生成するように構成される訓練手段をさらに含む請求項6〜8のいずれか1項に記載の医学的事実の検証装置。
  10. 前記真実性ラベル情報は、前記医学的事実サンプルが正確な記述である場合、前記医学的事実サンプルの裏付け証拠となる医学文書の段落をさらに含み、
    前記医学的事実の検証結果は、前記医学的事実が正確な記述であるか否かの検証結果と、前記医学的事実が正確な記述である場合における前記医学的事実の裏付け証拠となる医学文書段落と、を含む請求項9に記載の装置。
  11. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムを記憶するための記憶装置とを含み、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサに実行されると、前記一つ又は複数のプロセッサに請求項1〜5の何れか1項に記載の方法を実現させる電子機器。
  12. プロセッサに実行されると請求項1〜5の何れか1項に記載の方法が実現されるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜5のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2021003206A 2020-01-14 2021-01-13 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Active JP7143456B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010036477.0 2020-01-14
CN202010036477.0A CN111259112B (zh) 2020-01-14 2020-01-14 医疗事实的验证方法和装置

Publications (2)

Publication Number Publication Date
JP2021111411A true JP2021111411A (ja) 2021-08-02
JP7143456B2 JP7143456B2 (ja) 2022-09-28

Family

ID=70954029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021003206A Active JP7143456B2 (ja) 2020-01-14 2021-01-13 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11636936B2 (ja)
EP (1) EP3851998A1 (ja)
JP (1) JP7143456B2 (ja)
KR (1) KR102504498B1 (ja)
CN (1) CN111259112B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259112B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置
US11423094B2 (en) * 2020-06-09 2022-08-23 International Business Machines Corporation Document risk analysis
CN111859982B (zh) * 2020-06-19 2024-04-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111931488B (zh) * 2020-09-24 2024-04-05 北京百度网讯科技有限公司 用于验证判断结果准确性的方法、装置、电子设备及介质
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备
CN113539409B (zh) * 2021-07-28 2024-04-26 平安科技(深圳)有限公司 治疗方案推荐方法、装置、设备及存储介质
US20230418868A1 (en) * 2022-06-24 2023-12-28 Adobe Inc. Virtual knowledge graph construction for zero-shot domain-specific document retrieval
CN116759042B (zh) * 2023-08-22 2023-12-22 之江实验室 一种基于环形一致性的反事实医疗数据生成系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295988B1 (en) * 2000-05-25 2007-11-13 William Reeves Computer system for optical scanning, storage, organization, authentication and electronic transmitting and receiving of medical records and patient information, and other sensitive legal documents
US8533840B2 (en) * 2003-03-25 2013-09-10 DigitalDoors, Inc. Method and system of quantifying risk
US8095544B2 (en) * 2003-05-30 2012-01-10 Dictaphone Corporation Method, system, and apparatus for validation
US7840511B2 (en) * 2006-09-06 2010-11-23 Siemens Medical Solutions Usa, Inc. Learning or inferring medical concepts from medical transcripts using probabilistic models with words or phrases identification
JP4858864B2 (ja) * 2010-11-01 2012-01-18 純一 北折 Ojt模擬研修システム及びファイリングシステム
US8768723B2 (en) * 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US9904768B2 (en) * 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US20130085781A1 (en) * 2011-09-29 2013-04-04 Eclinicalworks, Llc Systems and methods for generating and updating electronic medical records
BR112015017954A2 (pt) 2013-01-29 2017-07-11 Molecular Health Gmbh sistemas e métodos para o suporte de decisão clínica
EP2946322A1 (en) * 2013-03-01 2015-11-25 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US11024406B2 (en) * 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
AU2015336146B2 (en) * 2014-10-20 2018-11-22 Solventum Intellectual Properties Company Identification of codable sections in medical documents
US11152084B2 (en) * 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
CN105894088B (zh) * 2016-03-25 2018-06-29 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
US10552468B2 (en) * 2016-11-01 2020-02-04 Quid, Inc. Topic predictions based on natural language processing of large corpora
US10860685B2 (en) * 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
CN106777966B (zh) * 2016-12-13 2020-02-07 天津迈沃医药技术股份有限公司 基于医疗信息平台的数据互动训练方法及系统
US20180373844A1 (en) * 2017-06-23 2018-12-27 Nuance Communications, Inc. Computer assisted coding systems and methods
CN107908635B (zh) * 2017-09-26 2021-04-16 百度在线网络技术(北京)有限公司 建立文本分类模型以及文本分类的方法、装置
CN107729319B (zh) * 2017-10-18 2021-03-09 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11024424B2 (en) * 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
US11250331B2 (en) * 2017-10-31 2022-02-15 Microsoft Technology Licensing, Llc Distant supervision for entity linking with filtering of noise
US10679345B2 (en) * 2017-12-20 2020-06-09 International Business Machines Corporation Automatic contour annotation of medical images based on correlations with medical reports
CN108228567B (zh) * 2018-01-17 2021-09-28 百度在线网络技术(北京)有限公司 用于提取组织机构的简称的方法和装置
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
CN109192299A (zh) * 2018-08-13 2019-01-11 中国科学院计算技术研究所 一种基于卷积神经网络的医疗分析辅助系统
US20200125928A1 (en) * 2018-10-22 2020-04-23 Ca, Inc. Real-time supervised machine learning by models configured to classify offensiveness of computer-generated natural-language text
US10861439B2 (en) * 2018-10-22 2020-12-08 Ca, Inc. Machine learning model for identifying offensive, computer-generated natural-language text or speech
US20200125639A1 (en) * 2018-10-22 2020-04-23 Ca, Inc. Generating training data from a machine learning model to identify offensive language
CN110162779B (zh) * 2019-04-04 2023-08-04 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
US20200356825A1 (en) * 2019-05-10 2020-11-12 Apixio, Inc. Model for health record classification
US11379660B2 (en) * 2019-06-27 2022-07-05 International Business Machines Corporation Deep learning approach to computing spans
CN110297908B (zh) * 2019-07-01 2021-09-21 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110427486B (zh) * 2019-07-25 2022-03-01 北京百度网讯科技有限公司 身体病况文本的分类方法、装置及设备
CN111259112B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JAMES THORNE 他3名, FEVER:A LARGE-SCALE DATASET FOR FACT EXTRACTION AND VERIFICATION[ONLINE], JPN6022011244, 14 March 2018 (2018-03-14), ISSN: 0004734551 *

Also Published As

Publication number Publication date
JP7143456B2 (ja) 2022-09-28
CN111259112A (zh) 2020-06-09
EP3851998A1 (en) 2021-07-21
KR20210091671A (ko) 2021-07-22
US11636936B2 (en) 2023-04-25
US20210217504A1 (en) 2021-07-15
KR102504498B1 (ko) 2023-02-28
CN111259112B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
JP7143456B2 (ja) 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
JP7100087B2 (ja) 情報を出力する方法および装置
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
US10162812B2 (en) Natural language processing system to analyze mobile application feedback
US20180068222A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus
US10977155B1 (en) System for providing autonomous discovery of field or navigation constraints
US20210027889A1 (en) System and Methods for Predicting Identifiers Using Machine-Learned Techniques
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
US11532387B2 (en) Identifying information in plain text narratives EMRs
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN117454884B (zh) 历史人物信息纠错方法、系统、电子设备和存储介质
KR20210147368A (ko) 개체명 인식을 위한 학습 데이터 생성 방법 및 장치
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
US20210311985A1 (en) Method and apparatus for image processing, electronic device, and computer readable storage medium
US10929761B2 (en) Systems and methods for automatically detecting and repairing slot errors in machine learning training data for a machine learning-based dialogue system
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
US20230418971A1 (en) Context-based pattern matching for sensitive data detection
US11080335B2 (en) Concept-based autosuggest based on previously identified items
CN117131152B (zh) 信息存储方法、装置、电子设备和计算机可读介质
CN115048906B (zh) 一种文档结构化方法、装置、电子设备和存储介质
US11636134B2 (en) Systems and methods for automatic change request management using similarity metric computations
CN117312520A (zh) 表格处理方法、装置、设备和介质
WO2024102783A1 (en) System and method for artificial intelligence and artificial intelligence-human hybrid moderation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220914

R150 Certificate of patent or registration of utility model

Ref document number: 7143456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150