JP2021190071A - 医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム - Google Patents

医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP2021190071A
JP2021190071A JP2020193010A JP2020193010A JP2021190071A JP 2021190071 A JP2021190071 A JP 2021190071A JP 2020193010 A JP2020193010 A JP 2020193010A JP 2020193010 A JP2020193010 A JP 2020193010A JP 2021190071 A JP2021190071 A JP 2021190071A
Authority
JP
Japan
Prior art keywords
evidence
candidate
target
medical
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020193010A
Other languages
English (en)
Other versions
JP7097423B2 (ja
Inventor
ファン,ジョウ
Zhou Fang
シー,ヤンビン
Yabing Shi
ジャン,イェ
Ye Jiang
チャイ,チュングァン
Chunguang Chai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021190071A publication Critical patent/JP2021190071A/ja
Application granted granted Critical
Publication of JP7097423B2 publication Critical patent/JP7097423B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

【課題】医療ファクトの検証にかかる人件費を効果的にダウンさせる医療ファクト検証方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】医療ファクト検証方法は、ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得することと、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを属性判定モデルに入力して、判定属性を得ることと、ターゲット属性と判定属性とが一致する場合に、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを関連度判定モデルに入力して、候補エビデンスの関連度を得ることと、候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証することと、を含む。【選択図】図1

Description

本発明は、コンピュータ技術分野に関し、特に人工知能分野に関する。本発明は、ナレッジグラフ分野に応用可能である。
従来の医療ファクトの検証方法は、主な方法の一つとして、人手による検索とラベル付けによって検証を行う方式があり、当該方法は医療の専門知識を有するラベル付け人員が必要で、人件費が比較的高く、大規模な医療データを処理することは困難である。また、もう一つの方法として、人手により予めテキストテンプレートや品詞テンプレートを設定して医療文書に現れるファクトを抽出し、抽出したファクトと検証されるべきファクトとを比較して検証を行う方式がある。しかし、人手により定義されたルールは、一般性が比較的乏しく、また、同様に人件費がかかり、大規模な医療専門データを処理することは困難である。
本発明は、上記の技術課題における少なくとも1つを解決するために、医療ファクト検証方法、装置、電子デバイス、及び記憶媒体を提供する。
第1態様において、本発明の実施形態は、医療ファクト検証方法を提供している。当該医療ファクト検証方法は、
ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得することと、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを属性判定モデルに入力して、判定属性を得ることと、
ターゲット属性と判定属性とが一致する場合に、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを関連度判定モデルに入力して、候補エビデンスの関連度を得ることと、
候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証することと、を含む。
第2態様において、本発明の実施形態は、医療ファクト検証装置を提供している。当該医療ファクト検証装置は、
ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得する第1取得モジュールと、
前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを属性判定モデルに入力して、判定属性を得る第1判定モジュールと、
前記ターゲット属性と前記判定属性とが一致する場合に、前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得る第2判定モジュールと、
前記候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証する第1検証モジュールと、を備える。
第3態様において、本発明の実施形態は、電子デバイスを提供する。当該電子デバイスは、
1つ又は複数のプロセッサと、
1つ又は複数のプロセッサに通信接続されるメモリとを含み、
メモリには、前記1つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
1つ又は複数のプロセッサは、1つ又は複数のコマンドを実行する場合、第1態様のいずれか1項に記載のターゲット検出方法を実行させる。
第4態様において、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供し、コンピュータコマンドが第1態様のいずれか1項に記載のターゲット検出方法を実行させる。
本発明における少なくとも1つの実施形態は、下記のメリット或いは有益な効果を有する。即ち、属性判定モデルと関連度判定モデルを用いて、属性と関連度の判定を順次に完成することで、候補エビデンスに記載されている属性がターゲット属性を満たし、かつ、関連度が条件を満たす場合に医療ファクトが正しいことを検証する技術手段となり、従来の人手による検証に必要なコストが高くなってしまう技術問題を克服し、人件費をダウンでき、さらに大規模なデータを処理することに適するようになった。
上記の選択可能な実施形態の有する他の効果については、下記において具体的な実施形態を参照しながら説明する。
添付図面は、本開示の理解を促すためのものであり、いかなる限定をも目的としない。
本発明の実施形態による医療ファクト検証方法のフローチャート1である。 本発明の実施形態による医療ファクト検証方法のフローチャート2である。 本発明の実施形態による属性判定モデルの模式図である。 本発明の実施形態による関連度判定モデルの模式図である。 本発明の実施形態による医療ファクト検証装置の構成図1である。 本発明の実施形態による医療ファクト検証装置の構成図2である。 本発明の実施形態による医療ファクト検証装置の構成図3である。 本発明の実施形態による医療ファクト検証装置の構成図4である。 本発明の実施形態による医療ファクト検証装置の構成図5である。 本発明の実施形態による医療ファクト検証方法を実現するための電子デバイスのブロック図である。
以下、図面を参照しながら本発明の例示的な実施形態を説明するが、本発明の実施形態の様々な詳細が理解を容易にするために含まれており、それらは単なる例示と考えられるべきである。したがって、当業者は、本発明の範囲及び旨から逸脱することなく、本発明明細書に記載された実施形態に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、以下の説明では、公知な機能及び構造についての説明は、明瞭かつ簡明のために省略される。
本発明の実施形態は、医療ファクト検証方法を提供していて、電子デバイスに応用可能であり、数値計算、論理演算、データ記憶などのデータ処理機能を備えることができる。図1に示すように、図1は、本発明の実施形態に係る医療ファクト検証方法のフローチャートであり、当該方法は下記のステップを含む。
S101において、ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得する。
S102において、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを属性判定モデルに入力して、判定属性を得る。
S103において、ターゲット属性と判定属性とが一致する場合に、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを関連度判定モデルに入力して、候補エビデンスの関連度を得る。
S104において、候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証する。
本発明の実施形態において、各医療ファクトはSPOの三次元の形式により表現でき、Sはエンティティを表し、Pは属性を表し、Oは属性値を表す。医療ファクト<麻疹、症状、斑状丘疹状皮疹>を例として、エンティティSは麻疹であり、属性Pは症状であり、属性値Oは斑状丘疹状皮疹である。
相応的に、上記ステップS101〜S103の処理は、今回検証されるべき医療ファクトに対して処理を行ってもよく、かつ、異なる回では異なる検証されるべき医療ファクトに対して処理を行ってもよい。本発明では、毎回検検証されるべき医療ファクトにおけるエンティティ、属性及び属性値を、ターゲットエンティティ、ターゲット属性及びターゲット属性値とする。
選択的に、医療ファクトの属性は、臨床的特徴、病因病理、治療方案、推奨薬、合併症及び医薬品作用のうちの少なくとも1つを含むことができる。
選択的に、候補エビデンスは医療ファクトが正しいか否かを検証するための候補エビデンスであり、候補エビデンスは、検証されるべき医療ファクトに基づいて指定された医療データベースから検索して得ることができる。指定された医療データベースは、書籍、雑誌及び論文などを含む権威のある医療資料を記憶することができる。
本実施形態は、医療ナレッジグラフの構築に用いることができる医療ナレッジグラフの構築の過程において、例えば、<麻疹、症状、斑状丘疹状皮疹>などの医療ファクトを機械により抽出し、候補エビデンスは検証されるべき医療ファクトに基づいて指定された医療文書ベースにおいて検索して得ることができる。ステップS101〜S104により提供された検証方法により当該医療ファクトの検証を完成させ、検証が正しければ、当該医療ファクトを医療ナレッジグラフに加えると正式に決定するとともに、候補エビデンスの関連度を用いて対応する支持的なエビデンスを決定でき、医療ナレッジグラフの精度の向上を図ることができる。
上記実施形態において、検証されるべき医療ファクトと候補エビデンスとについて、まず、属性判定モデルにより候補エビデンスに記載されているターゲットエンティティとターゲット属性値とが対応している属性を判定し、判定属性を得る。当該判定属性がターゲット属性と一致する場合に、さらに関連度判定モデルにより候補エビデンスに対して、ターゲットエンティティと前記ターゲット属性値に関する関連度を判定する。候補エビデンスの関連度が所定の条件を満たす場合に、医療ファクトが正しいことを検証する。
本発明の実施形態は、属性判定モデルと相関判定モデルにより、属性と関連度の判定の二重判定を完了し、候補エビデンスに記載されている属性がターゲット属性を満たし、かつ、関連度が条件を満たす場合に医療ファクトが正しいことを検証し、医療ファクトと候補エビデンスとの関連判定を強化し、検証結果の厳密性を高め、さらに医療専門データ処理の要求を満たす。かつ、人手によるラベル付けや人手により定義されたルールを借りる必要がなく、人件費をダウンし、さらに大規模なデータ処理に適する。
1つの実施形態において、図2に示すように、ステップS101の前に、さらに、検証されるべき医療ファクトに基づいて、予め構築された医療文書ベースから検索して、検証されるべき医療ファクトに対応する複数の候補エビデンスを得る、ステップS100を含む。
1つの実施形態において、図2に示すように、ステップS102の後に、さらに、ターゲット属性と前記判定属性とが同じでない場合に、候補エビデンスにより前記検証されるべき医療ファクトが正しいことを検証できないと決定する、S201を含む。例えば、検証されるべき医療ファクトが<麻疹、症状、斑状丘疹状皮疹>である場合、ステップS102において、ある候補エビデンスに基づき得た判定属性が「治療方案」であり、ターゲット属性の「症状」と異なるとき、当該候補エビデンスは検証されるべき医療ファクトが正しいことを検証できないと決定される。
本実施形態では、属性判定モデルにより属性が一致しないと判定された場合、候補エビデンスは検証されるべき医療ファクトが正しいことを検証できないと直接判断し、現在の当該候補エビデンスの検証を停止することにより、計算効率を効果的に向上し、特に大規模な医療専門データを処理するとき、検証効率を大幅に向上することができる。
1つの実施形態において、図3に示すよう、図3はステップS102に用いられる属性判定モデルの模式図であり、前記属性判定モデルは、第1自然言語処理モデルと第1分類器とを含む。
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを属性判定モデルに入力して、判定属性を得るステップS102は、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを第1自然言語処理モデルに入力して、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとの第1特徴ベクトルを得ることと、
第1特徴ベクトルを第1分類器に入力して、判定属性を得ることと、を含む。
上記実施形態において、属性判定モデルとしては、自然言語処理モデルと分類器との構造を用いて、まずエンティティと属性値とを、候補エビデンスと特徴の抽出を行い、特徴に基づいて分類を行うことで所属属性を判定するため、構造が簡単な上に、属性判定を実現することができる。
上記実施形態における属性判定モデルの構造は、選択可能な方式であり、その実施形態において、当業者が他のモデルの構造を通して、ターゲットエンティティ、ターゲット属性値、及び候補エビデンスに基づく属性の判断を同様に実現した実施形態も、本発明の実施形態の保護範囲内にある。
選択的に、第1自然言語処理モデルは知識統合による拡張表現モデル(ERNIE,enhanced representation from knowledge integration)を用いる。他の選択可能な形態において、第1自然言語処理モデルはBERTモデルを用いでもよい。
選択的に、第1分類器はSoftMax分類器を用いる。他の分類器を用いて、同様に自然言語処理モデルに基づいて分析した特徴ベクトルを処理し、分類を行うことで対応する属性を決定する実施形態も、本発明の実施形態の保護範囲内にある。
選択的に、図3に示すよう、ステップS102において、「SO[SEP]PARA」の形式を用いてターゲットエンティティS、ターゲット属性値O、及び候補エビデンスPARAを属性判定モデルに入力し、[SEP]を区切り記号とする。また、図3の「P CLS」は属性Pの出力を表し、「CLS」は出力を表す。例えば、検証されるべき医療ファクトが<麻疹、症状、斑状丘疹状皮疹>であり、候補エビデンスが「XXXXX」である場合、「麻疹斑状丘疹状皮疹[SEP]XXXXX」を属性判定モデルに入力し、属性判定モデルは出力に基づいて属性を「症状」と判定する。
1つの実施形態において、ステップS102において用いられる属性判定モデルの構築方式は、
医療用言語資料に基づき予め訓練して得られた第1自然言語処理モデルと、第1分類器とを用いて、属性判定モデルを構築することと、
構築した属性判定モデルを、正しい医療ファクトと支持的なエビデンスをそれぞれ含む複数の第1サンプルデータを用いて訓練することと、を含む。
上記実施形態において、医療用言語資料で予め訓練した第1自然言語処理モデルを用いるため、属性判定モデルの訓練は微調整を行えばよく、即ち少量のサンプルデータを用いて訓練を行えばよい。これにより、サンプルデータの数量に対する要求を大幅にダウンし、人手によりサンプルデータのラベル付けを行うコストをダウンすることができる。
1つの実施形態において、図4に示すよう、図4はステップS103において用いられる関連度判定モデルの模式図であり、関連度判定モデルは、第2自然言語処理モデルと、2つの第2分類器と、全結合層(fully connected layers,FC)と、第3分類器とを含む。
対応的に、S103においてターゲットエンティティと、ターゲット属性値と、候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得ることは、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを第2自然言語処理モデルに入力して、ターゲットエンティティと候補エビデンスの第1層特徴ベクトル、及びターゲット属性値と候補エビデンスの第1層特徴ベクトルを得ることと、
ターゲットエンティティと候補エビデンスの第1層特徴ベクトル、及びターゲット属性値と候補エビデンスの第1層特徴ベクトルをそれぞれ2つの第2分類器に入力して、ターゲットエンティティと候補エビデンスの第2層特徴ベクトル、及びターゲット属性値と候補エビデンスの第2層特徴ベクトルを得ることと、
ターゲットエンティティと候補エビデンスの第2層特徴ベクトル、及びターゲット属性値と候補エビデンスの第2層特徴ベクトルを、全結合層にて処理した後に第3分類器に入力して、候補エビデンスの関連度を得ることと、を含む。
上記実施形態において、自然言語処理モデルと分類器とを用いた上で、自然言語処理モデルより出力されたデータを、エンティティと候補エビデンスの特徴ベクトル、及び属性値と候補エビデンスの特徴ベクトルに分け、2つの分類器によりそれぞれ単独に処理した後、候補エビデンスのエンティティと属性値との間の関連をそれぞれ効果的に高め、関連度の精度を高める。
全結合層の出力層のニューロンと入力層のそれぞれのニューロンは接続されている。そのため、上記実施形態は全結合層を用いることで、ターゲットエンティティと候補エビデンスの第2層特徴ベクトル、及びターゲット属性値と候補エビデンスの第2層特徴ベクトルを一つの列ベクトルとして処理し、後の第3分類器の処理を容易にする。
選択的に、第2自然言語処理モデルはERNIEモデルを用いる。他の選択可能な形態において、第1自然言語処理モデルはBERTモデルを用いでもよい。
選択的に、2つの第2分類器と第3分類器はどちらもSoftMax分類器を用いることができる。
選択的に、図4に示すよう、ステップS103において、「S[SEP]O[SEP]PARA」の形式を用いてターゲットエンティティS、ターゲット属性値O、及び候補エビデンスPARAを関連度判定モデルに入力する。例えば、検証されるべき医療ファクトが<麻疹、症状、斑状丘疹状皮疹>であり、候補エビデンスが「XXXXX」である場合、「麻疹[SEP]斑状丘疹状皮疹[SEP]XXXXX」を関連度判定モデルに入力する。
また、図4の「X CLS」はXの出力を表し、Xは候補エビデンスの関連度である。
1つの実施形態において、ステップS103における関連度判定モデルの構築方式は、
医療用言語資料に基づき予め訓練して得られた第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを用いて関連度判定モデルを構築することと、
構築した関連度判定モデルを、正しい医療ファクトと支持的なエビデンス、及び正しい医療ファクトと支持的なエビデンスの関連度をそれぞれ含む複数の第2サンプルデータを用いて訓練することと、を含む。
上記実施形態において、医療用言語資料で予め訓練した第2自然言語処理モデルを用いるため、関連度判定モデルの訓練は微調整を行えばよく、即ち少量のサンプルデータを用いて訓練を行えばよい。これにより、サンプルデータの数量に対する要求を大幅にダウンし、人手によりサンプルデータのラベル付けを行うコストをダウンすることができる。
選択的に、第2サンプルデータは、既存の医療ナレッジベースにおいて既知の三次元SPOとエビデンス検索モジュールにより返された結果に基づいて得ることができる。
選択的に、第2サンプルデータにおいて、医療ファクトと支持的なエビデンスの関連度は人手によるラベル付けで得ることができる。
上記実施形態において、医療用言語資料で予め訓練した第2自然言語処理モデルを用いるため、関連度判定モデルの訓練は微調整を行えばよく、即ち少量のサンプルデータを用いて訓練を行えばよい。これにより、サンプルデータの数量に対する要求を大幅にダウンし、人手によりサンプルデータのラベル付けを行うコストをダウンすることができる。
1つの例において、ステップS103の関連度判定モデルが出力する候補エビデンスの関連度は1つの数値であってもよく、例えば、区間[0、1]の任意の数である。候補エビデンスの関連度が大きいほど、候補エビデンスの関連度は高く、候補エビデンスがさらに当該医療ファクトが正しいことを裏付けることとなり、当該医療ファクトが正しい確率がさらに高いことを側面から物語る。
他の業界に比べて、医療業界はデータ全体的の正確性に対してされに厳密で厳格である。そのため、上記実施形態が提供する属性判定モデルと関連度判定モデルの、そのモデル構造は巧妙であり、検証結果の正確性の向上に貢献し、さらに医療業界のデータに対する厳密な要求を満たす。その上、本発明の実施形態のモデルは、基礎的な特徴を通して、適切なディープランニングモデル構造を設計し、かつ、大規模なラベル付けされたデータにおいて訓練するため、人手により定義された高レベル特徴に依頼せず、より高い精度とリコール率を取得し、人件費をダウンすることができる。
1つの実施形態において、ステップS104は、
複数の候補エビデンスのうち少なくとも1つの候補エビデンスの関連度が所定の閾値よりも大きい場合、検証されるべき医療ファクトが正しいことを検証し、かつ、少なくとも1つの候補エビデンスのうち、相関連度が最も高い候補エビデンスを医療ファクトが正しいことを検証する支持的なエビデンスとすること、を含む。
属性判定モデルの検証を既に経ているため、関連度が所定の閾値よりも大きければ、医療ファクトが正しいことを検証でき、判定は簡単であり、かつ、正確度が高い。同時に、相関連度が最も高い候補エビデンスを支持的なエビデンスとし、医療ファクトが正しいことを検証する根拠を提供する。
上記ステップS104に対して、説明すべきなのは、複数の候補エビデンスのうち1つの候補エビデンスの関連度のみが所定の閾値よりも大きい場合、この1つの関連度が所定の閾値よりも大きい候補エビデンスを直接関連度が最も高い候補エビデンスと認識する。また、医療ファクトが1つの候補エビデンスにのみ対応している場合、候補エビデンスの関連度が所定の閾値よりも大きければ、即ち検証されるべき医療ファクトが正しいことを検証し、かつ、関連度が最も高い候補エビデンスを医療ファクトが正しいことを検証する支持的なエビデンスとする。
他の実施形態において、ステップS104において予め設定する条件は、他の条件を設定してもよく、例えば、所定の数量を超えた候補エビデンスの関連度は所定の閾値よりも大きいと設定し、所定の数量は1より大きいとする。また、例えば、複数の候補エビデンスのうち関連度が所定の閾値よりも大きい候補エビデンスの割合は所定の割合より大きいと設定する。
他の実施形態において、ステップS104において関連度の順序が前の複数の候補エビデンスを支持的なエビデンスに置き換えてもよく、かつ、複数の支持的なエビデンスを関連度に基づいて並べ替えて提示することもできる。
1つの実施形態において、本実施形態はさらに、
関連度が所定の閾値よりも大きい少なくとも1つの候補エビデンスが存在しない場合、医療ファクトが正しくないことを検証する。そのうち、関連度が所定の閾値よりも大きい少なくとも1つの候補エビデンスが存在しないことは、すべての候補エビデンスの関連度が所定の閾値よりも小さい、及び候補エビデンスはいずれも対応する関連度がない(即ち、ステップS102で得られた判定属性はいずれもターゲット属性値と一致しない)ことを含む。
以下、1つの例により上記ステップS101〜ステップS104について詳しく説明する。
ステップS101において、検証されるべき医療ファクト及び候補エビデンスを取得する。そのうち、検証されるべき医療ファクトを<麻疹、症状、斑状丘疹状皮疹>、
ターゲットエンティティを「麻疹」、
ターゲット属性を「症状」、
ターゲット属性値を「斑状丘疹状皮疹」とする。
候補エビデンス「麻疹(measles)」は、麻疹ウイルス(measles virus)により引き起こされるウイルス感染症であり、我が国における法定感染症の中で乙類感染症に属し、その主な臨床症状に発熱、咳、鼻水などのカタル症状と目の結膜炎があり、特徴的な症状はコプリック斑及び斑状丘疹状皮疹である。
ステップS102において、ターゲットエンティティ「麻疹」、ターゲット属性値「斑状丘疹状皮疹」、及び上記の候補エビデンスを属性判定モデルに入力し、「麻疹」と「斑状丘疹状皮疹」とに対応する判定属性「症状」を得る。
具体的に、図3を参照でき、属性判定モデルは、第1自然言語処理モデルと第1分類器とを含む。まず、第1自然言語処理モデルを通して「麻疹」、「斑状丘疹状皮疹」及び候補エビデンスの第1特徴ベクトルを得、次に、第1分類器を通して、第1特徴ベクトルに基づき判定属性を「症状」と決定する。
ステップS103において、ターゲット属性「症状」と判定属性「症状」が一致するため、続けてターゲットエンティティ「麻疹」とターゲット属性値「斑状丘疹状皮疹」とを関連度判定モデルに入力し、上記候補エビデンスのターゲットエンティティ「麻疹」とターゲット属性値「斑状丘疹状皮疹」とに関する関連度を得、仮に上記候補エビデンスの関連度を0.8とする。
具体的に、図4を参照でき、関連度判定モデルは、第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを含む。第一に、第2自然言語処理モデルを通して「麻疹」と候補エビデンスの第1層特徴ベクトル、及び「斑状丘疹状皮疹」と候補エビデンスの第1層特徴ベクトルを得る。第二に、2つの第2分類器を通して、それぞれ「麻疹」と候補エビデンスの第1層特徴ベクトル、及び「斑状丘疹状皮疹」と候補エビデンスの第1層特徴ベクトルに基づき対応する「麻疹」と候補エビデンスの第2層特徴ベクトル、及び「斑状丘疹状皮疹」と候補エビデンスの第2層特徴ベクトルを得る。第三に、「麻疹」と候補エビデンスの第2層特徴ベクトル、及び「斑状丘疹状皮疹」と候補エビデンスの第2層特徴ベクトルを全結合層にて処理した後に第3分類器に入力し、第3分類器により出力された候補エビデンスの関連度を得る。
ステップS104において、仮に所定の条件を関連度が0.7よりも大きいとすると、0.8>0.7より、候補エビデンスの関連度0.8は所定の条件に相応しく、検証されるべき医療ファクト<麻疹、症状、斑状丘疹状皮疹>は正しく、かつ、上記候補エビデンスを<麻疹、症状、斑状丘疹状皮疹>が正しいことを検証する支持的なエビデンスとすることができる。
上記提供したのは候補エビデンスの検証過程の例であり、複数の候補エビデンスが存在する場合、例えば、候補エビデンスA、候補エビデンスB、候補エビデンスCが存在し、同様に、ステップS101〜ステップS104を通して、候補エビデンスA、候補エビデンスB、候補エビデンスCの関連度をそれぞれ求め、関連度を順に0.3、0.75、0.8と得、関連度が0.7よりも大きい候補エビデンスが存在するため、当該医療ファクトは成立することを検証でき、同時に、関連度が最も高い候補エビデンスCを支持的なエビデンスとすることができる。
以下は、出力された医療ファクト検証結果の一例であり、具体的に、
「S」を「麻疹」、
「P」を「症状」、
「O」を「斑状丘疹状皮疹」、
「label」を「1」、
「evidence」を「第五節 麻疹候補エビデンス「麻疹(measles)」は、麻疹ウイルス(measles virus)により引き起こされるウイルス感染症であり、我が国における法定感染症の中で乙類感染症に属し、その主な臨床症状に発熱、咳、鼻水などのカタル症状と目の結膜炎があり、特徴的な症状はコプリック斑及び斑状丘疹状皮疹である。」
このうち、labelは医療ファクトの検証結果を表し、label=1は検証が正しいことを表し、label=0は検証が間違っていることを表す。evidenceは医療ファクトが正しいことを検証する支持的なエビデンスを表す。そのため、上記の例において、検証されるべき医療ファクトSPO<麻疹、症状、斑状丘疹状皮疹>に対して、検証結果は正しく、かつ、『感染症学』第8版により上記evidenceの段を選択し、当該医療ファクト検証が正しいことの支持的なエビデンスとする。
本発明の実施形態で実現される方法は、事前学習言語モデルに基づく医療ファクト検証方法であり、医療データにおけるファクト検証の効果問題を効果的に向上する。本発明の実施形態によって提供される方法は、下記の少なくとも一つのメリットを有する。
1.汎用性が強く、大量かつ広範な医療ファクト検証問題を処理することができる。
2.人件費が低く、主に次の二点に現れている。第一に、新しいファクト型や新しい文書セット、新しい表現方法に対して、抽出のルールを改めて人手により定義する必要がなく、モデル自体の一般化性によって正しい結果を得ることができる。第二に、事前学習と微調整とを組み合わせる方法でモデルを構築することにより、ラベル付きサンプルの数量に対する要求をダウンし、人手によるサンプルのラベル付けコストをダウンすることができる。
3.通常のファクト検証方法と比べて、本発明の実施形態は医療ファクト検証に適用でき、かつ、データに対する要求が比較的厳密であり、医療データに一定の効果向上をもたらすことができる。
対応敵に、本発明の実施形態は、さらに医療ファクト検証装置を提供し、当該装置に含まれる各モジュールは、電子デバイスのハードウェアに搭載または設定されてもよく、例えば、コンピュータのメモリは、コンピュータの中央プロセッサ(CPU、central processing unit)がメモリ内の各モジュールを実行するために、当該装置の各モジュールを搭載することができる。
図5に示すように、図5は当該医療ファクト検証装置500の構成図であり、装置500は、
ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得する第1取得モジュール501と、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを属性判定モデルに入力して、判定属性を得る第1判定モジュール502と、
ターゲット属性と判定属性とが一致する場合に、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得る第2判定モジュール503と、
候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証する第1検証モジュール504と、を備える。
1つの実施形態において、図6に示すように、医療ファクト検証装置600はさらに、
ターゲット属性と判定属性とが一致しない場合に、候補エビデンスにより検証されるべき医療ファクトが正しいことを検証できないと決定する第2検証モジュール601を備える。
1つの実施形態において、属性判定モデルは、第1自然言語処理モデルと第1分類器とを含み、
図7に示すように、第1判定モジュール502は、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを第1自然言語処理モデルに入力して、ターゲットエンティティと、ターゲット属性値と、候補エビデンスとの第1特徴ベクトルを得る特徴サブモジュール701と、
第1特徴ベクトルを第1分類器に入力して、判定属性を得る属性判定サブモジュール702と、を備える。
1つの実施形態において、属性判定モデルの構築方式は、
医療用言語資料に基づき予め訓練して得られた第1自然言語処理モデルと、第1分類器とを用いて、属性判定モデルを構築することと、
構築した属性判定モデルを、正しい医療ファクトと支持的なエビデンスをそれぞれ含む複数の第1サンプルデータを用いて訓練することと、を含む。
1つの実施形態において、関連度判定モデルは、第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを含み、
図8に示すように、第2判定モジュール503は、
ターゲットエンティティと、ターゲット属性値と、候補エビデンスとを第2自然言語処理モデルに入力して、ターゲットエンティティと候補エビデンスの第1層特徴ベクトル、及びターゲット属性値と候補エビデンスの第1層特徴ベクトルを得る第1層特徴サブモジュール801と、
ターゲットエンティティと候補エビデンスの第1層特徴ベクトル、及びターゲット属性値と候補エビデンスの第1層特徴ベクトルをそれぞれ2つの第2分類器に入力して、ターゲットエンティティと候補エビデンスの第2層特徴ベクトル、及びターゲット属性値と候補エビデンスの第2層特徴ベクトルを得る第2層特徴サブモジュール802と、
ターゲットエンティティと候補エビデンスの第2層特徴ベクトル、及びターゲット属性値と候補エビデンスの第2層特徴ベクトルを、全結合層にて処理した後に第3分類器に入力して、候補エビデンスの関連度を得る関連度判定サブモジュール803と、を備える。
1つの実施形態において、関連度判定モデルの構築方式は、
医療用言語資料に基づき予め訓練して得られた第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを用いて関連度判定モデルを構築することと、
構築した関連度判定モデルを、正しい医療ファクトと支持的なエビデンス、及び正しい医療ファクトと支持的なエビデンスの関連度をそれぞれ含む複数の第2サンプルデータを用いて訓練することと、を含む。
1つの実施形態において、図9に示すように、第1検証モジュール504は、
複数の候補エビデンスのうち少なくとも1つの候補エビデンスの関連度が所定の閾値よりも大きい場合、検証されるべき医療ファクトが正しいことを検証する検証サブモジュール901と、
少なくとも1つの候補エビデンスのうち、相関連度が最も高い候補エビデンスを医療ファクトが正しいことを検証する支持的なエビデンスとするエビデンスサブモジュール902と、を備える。
本発明の実施形態に係る各装置における各モジュールの機能は、上述の方法における対応する説明を参照できるため、ここでは説明を省略する。
本発明に係る実施形態は、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。
図10に示すように、本発明の実施形態による医療ファクト検証方法を実現する電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本発明で説明されたもの及び/または要求される本発明の実施を制限することは意図されない。
図10に示すように、当該電子デバイスは、1つ又は複数のプロセッサ1001と、メモリ1002と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス(例えば、インターフェースに接続された表示デバイス)にグラフィックユーザインターフェース(Graphical User Interface,GUI)を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/または複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供する。図10においてプロセッサ1001を例とする。
メモリ1002は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される医療ファクト検証方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された医療ファクト検証方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ1002は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよく、本発明の実施形態における医療ファクト検証方法に対応するプログラム命令/モジュール(例えば、図5に示される第1取得モジュール501、第1判定モジュール502、第2判定モジュール503及び第1検証モジュール504)のようなものである。プロセッサ1001は、メモリ1002に記憶されている非一過性のソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係る医療ファクト検証方法を実行する。
メモリ1002は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、ターゲット検出方法に係る電子デバイスの使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ1002はオプションとして、プロセッサ1001に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して医療ファクト検証方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
当該電子デバイスは、入力装置1003と出力装置1004とをさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バスまたは他の方法で接続されてもよく、図10ではバスを介して接続されている。
入力装置1003は、入力された数字または文字を受信し、ターゲット検出方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置1004は、表示装置、補助照明装置(例えばLED)、及び触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、発光ダイオード(Light Emitting Diode、LED)ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本発明におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(Application Specific Integrated Circuits、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実装されてもよく、この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び/または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置より、データと命令を受信し、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に、データと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス(programmable logic device、PLD)を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置(例えば、CRT(Cathode Ray Tube、ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本発明で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、または中間部構成要素を含む計算システム(例えば、アプリケーションサーバ)、または、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ)に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク(Local Area Network,LAN)、広域ネットワーク(Wide Area Network,WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本発明の実施形態の技術案によると、属性判定モデルと関連度判定モデルを用いて、属性と関連度の判定を順次に完成することで、候補エビデンスに記載されている属性がターゲット属性を満たし、かつ、関連度が条件を満たす場合に医療ファクトが正しいことを検証する技術手段となり、従来の人手による検証が必要なためにコストが高くなってしまう技術問題を克服し、人件費をダウンでき、さらに大規模なデーターを処理することに適するようになった。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。



Claims (17)

  1. ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得することと、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを属性判定モデルに入力して、判定属性を得ることと、
    前記ターゲット属性と前記判定属性とが一致する場合に、前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得ることと、
    前記候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証することと、を含む、
    ことを特徴とする医療ファクト検証方法。
  2. 前記ターゲット属性と前記判定属性とが一致しない場合に、前記候補エビデンスにより前記検証されるべき医療ファクトが正しいことを検証できないと決定する、
    ことを特徴とする請求項1に記載の医療ファクト検証方法。
  3. 前記属性判定モデルは、第1自然言語処理モデルと第1分類器とを含み、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを属性判定モデルに入力して、判定属性を得ることは、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを前記第1自然言語処理モデルに入力して、前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとの第1特徴ベクトルを得ることと、
    前記第1特徴ベクトルを前記第1分類器に入力して、前記判定属性を得ることと、を含む、
    ことを特徴とする請求項1に記載の医療ファクト検証方法。
  4. 前記属性判定モデルの構築方式は、
    医療用言語資料に基づき予め訓練して得られた前記第1自然言語処理モデルと、前記第1分類器とを用いて、前記属性判定モデルを構築することと、
    前記構築した属性判定モデルを、正しい医療ファクトと支持的なエビデンスをそれぞれ含む複数の第1サンプルデータを用いて訓練することと、を含む、
    ことを特徴とする請求項3に記載の医療ファクト検証方法。
  5. 前記関連度判定モデルは、第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを含み、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得ることは、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを前記第2自然言語処理モデルに入力して、前記ターゲットエンティティと前記候補エビデンスの第1層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第1層特徴ベクトルを得ることと、
    前記ターゲットエンティティと前記候補エビデンスの第1層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第1層特徴ベクトルをそれぞれ前記2つの第2分類器に入力して、前記ターゲットエンティティと前記候補エビデンスの第2層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第2層特徴ベクトルを得ることと、
    前記ターゲットエンティティと前記候補エビデンスの第2層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第2層特徴ベクトルを、前記全結合層にて処理した後に前記第3分類器に入力して、前記候補エビデンスの関連度を得ることと、を含む、
    ことを特徴とする請求項1に記載の医療ファクト検証方法。
  6. 前記関連度判定モデルの構築方式は、
    医療用言語資料に基づき予め訓練して得られた前記第2自然言語処理モデルと、前記2つの第2分類器と、前記全結合層と、前記第3分類器とを用いて前記関連度判定モデルを構築することと、
    前記構築した関連度判定モデルを、正しい医療ファクトと支持的なエビデンス、及び正しい医療ファクトと支持的なエビデンスの関連度をそれぞれ含む複数の第2サンプルデータを用いて訓練することと、を含む、
    ことを特徴とする請求項5に記載の医療ファクト検証方法。
  7. 前記候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証することは、
    複数の候補エビデンスのうち少なくとも1つの候補エビデンスの関連度が所定の閾値よりも大きい場合、前記検証されるべき医療ファクトが正しいことを検証し、かつ、前記少なくとも1つの候補エビデンスのうち、前記関連度が最も高い候補エビデンスを前記医療ファクトが正しいことを検証する支持的なエビデンスとする、
    ことを特徴とする請求項1に記載の医療ファクト検証方法。
  8. ターゲットエンティティと、ターゲット属性と、ターゲット属性値とを含む、検証されるべき医療ファクト及び候補エビデンスを取得する第1取得モジュールと、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを属性判定モデルに入力して、判定属性を得る第1判定モジュールと、
    前記ターゲット属性と前記判定属性とが一致する場合に、前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを関連度判定モデルに入力して、前記候補エビデンスの関連度を得る第2判定モジュールと、
    前記候補エビデンスの関連度が所定の条件を満たす場合に、検証されるべき医療ファクトが正しいことを検証する第1検証モジュールと、を備える、
    ことを特徴とする医療ファクト検証装置。
  9. 前記ターゲット属性と前記判定属性とが一致しない場合に、前記候補エビデンスにより前記検証されるべき医療ファクトが正しいことを検証できないと決定する第2検証モジュールを備える
    ことを特徴とする請求項8に記載の医療ファクト検証装置。
  10. 前記属性判定モデルは、第1自然言語処理モデルと第1分類器とを含み、
    第1判定モジュールは、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを前記第1自然言語処理モデルに入力して、前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとの第1特徴ベクトルを得る特徴サブモジュールと、
    前記第1特徴ベクトルを前記第1分類器に入力して、前記判定属性を得る属性判定サブモジュールと、を備える、
    ことを特徴とする請求項8に記載の医療ファクト検証装置。
  11. 前記属性判定モデルの構築方式は、
    医療用言語資料に基づき予め訓練して得られた前記第1自然言語処理モデルと、前記第1分類器とを用いて、前記属性判定モデルを構築することと、
    前記構築した属性判定モデルを、正しい医療ファクトと支持的なエビデンスをそれぞれ含む複数の第1サンプルデータを用いて訓練することと、を含む、
    ことを特徴とする請求項10に記載の医療ファクト検証装置。
  12. 前記関連度判定モデルは、第2自然言語処理モデルと、2つの第2分類器と、全結合層と、第3分類器とを含み、
    第2判定モジュールは、
    前記ターゲットエンティティと、前記ターゲット属性値と、前記候補エビデンスとを前記第2自然言語処理モデルに入力して、前記ターゲットエンティティと前記候補エビデンスの第1層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第1層特徴ベクトルを得る第1層特徴サブモジュールと、
    前記ターゲットエンティティと前記候補エビデンスの第1層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第1層特徴ベクトルをそれぞれ前記2つの第2分類器に入力して、前記ターゲットエンティティと前記候補エビデンスの第2層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第2層特徴ベクトルを得る第2層特徴サブモジュールと、
    前記ターゲットエンティティと前記候補エビデンスの第2層特徴ベクトル、及び前記ターゲット属性値と前記候補エビデンスの第2層特徴ベクトルを、前記全結合層にて処理した後に前記第3分類器に入力して、前記候補エビデンスの関連度を得る関連度判定サブモジュールと、を備える、
    ことを特徴とする請求項8に記載の医療ファクト検証装置。
  13. 前記関連度判定モデルの構築方式は、
    医療用言語資料に基づき予め訓練して得られた前記第2自然言語処理モデルと、前記2つの第2分類器と、前記全結合層と、前記第3分類器とを用いて前記関連度判定モデルを構築することと、
    前記構築した関連度判定モデルを、正しい医療ファクトと支持的なエビデンス、及び正しい医療ファクトと支持的なエビデンスの関連度をそれぞれ含む複数の第2サンプルデータを用いて訓練することと、を含む、
    ことを特徴とする請求項12に記載の医療ファクト検証装置。
  14. 第1検証モジュールは、
    複数の候補エビデンスのうち少なくとも1つの候補エビデンスの関連度が所定の閾値よりも大きい場合、前記検証されるべき医療ファクトが正しいことを検証する検証サブモジュールと、
    前記少なくとも1つの候補エビデンスのうち、前記関連度が最も高い候補エビデンスを前記医療ファクトが正しいことを検証する支持的なエビデンスとするエビデンスサブモジュールと、を備える、
    ことを特徴とする請求項8に記載の医療ファクト検証装置。
  15. 1つ又は複数のプロセッサと、
    前記1つ又は複数のプロセッサに通信接続されるメモリとを備え、
    前記メモリには、前記1つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、
    前記1つ又は複数のプロセッサは、前記1つ又は複数のコマンドを実行する場合、請求項1〜7のいずれか1項に記載の医療ファクト検証方法を実行させる、
    ことを特徴とする電子デバイス。
  16. 請求項1〜7のいずれか1項に記載のターゲット検出方法をコンピュータに実行させるためのコンピュータコマンドを記憶した非一過性のコンピュータ可読記憶媒体。
  17. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜7のいずれか1項に記載の医療ファクト検証方法を実現することを特徴とするプログラム。
JP2020193010A 2020-05-29 2020-11-20 医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム Active JP7097423B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010473438.7 2020-05-29
CN202010473438.7A CN111640511B (zh) 2020-05-29 2020-05-29 医疗事实验证的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021190071A true JP2021190071A (ja) 2021-12-13
JP7097423B2 JP7097423B2 (ja) 2022-07-07

Family

ID=72329517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020193010A Active JP7097423B2 (ja) 2020-05-29 2020-11-20 医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US20210374576A1 (ja)
EP (1) EP3916738B1 (ja)
JP (1) JP7097423B2 (ja)
KR (1) KR102456535B1 (ja)
CN (1) CN111640511B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111473433B (zh) 2020-04-14 2021-12-28 北京小米移动软件有限公司 一种新风空调系统及风口调节方法
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备
CN112509690B (zh) * 2020-11-30 2023-08-04 北京百度网讯科技有限公司 用于控制质量的方法、装置、设备和存储介质
CN113220841B (zh) * 2021-05-17 2023-11-17 北京百度网讯科技有限公司 确定鉴别信息的方法、装置、电子设备和存储介质
CN116383239B (zh) * 2023-06-06 2023-08-15 中国人民解放军国防科技大学 一种基于混合证据的事实验证方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026638A1 (en) * 2017-07-24 2019-01-24 Boe Technology Group Co., Ltd. Knowledge verification method, knowledge verification device and storage medium
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796390B2 (en) 2006-07-03 2020-10-06 3M Innovative Properties Company System and method for medical coding of vascular interventional radiology procedures
CN107092605B (zh) * 2016-02-18 2019-12-31 北大方正集团有限公司 一种实体链接方法及装置
US10380251B2 (en) 2016-09-09 2019-08-13 International Business Machines Corporation Mining new negation triggers dynamically based on structured and unstructured knowledge
EP3306501A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient of a medical institution
CN106777966B (zh) * 2016-12-13 2020-02-07 天津迈沃医药技术股份有限公司 基于医疗信息平台的数据互动训练方法及系统
US11024424B2 (en) * 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN109299285A (zh) 2018-09-11 2019-02-01 中国医学科学院医学信息研究所 一种药物基因组学知识图谱构建方法及系统
CN109273098B (zh) * 2018-10-23 2024-05-14 平安科技(深圳)有限公司 一种基于智能决策的药品疗效预测方法和装置
CN109783651B (zh) * 2019-01-29 2022-03-04 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN110390003A (zh) * 2019-06-19 2019-10-29 北京百度网讯科技有限公司 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN110263083B (zh) * 2019-06-20 2022-04-05 北京百度网讯科技有限公司 知识图谱的处理方法、装置、设备和介质
CN110427486B (zh) * 2019-07-25 2022-03-01 北京百度网讯科技有限公司 身体病况文本的分类方法、装置及设备
CN110675954A (zh) * 2019-10-11 2020-01-10 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049964A (ja) * 2017-06-30 2019-03-28 アクセンチュア グローバル ソリューションズ リミテッド 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US20190026638A1 (en) * 2017-07-24 2019-01-24 Boe Technology Group Co., Ltd. Knowledge verification method, knowledge verification device and storage medium

Also Published As

Publication number Publication date
US20210374576A1 (en) 2021-12-02
EP3916738B1 (en) 2024-01-31
CN111640511A (zh) 2020-09-08
EP3916738A1 (en) 2021-12-01
KR102456535B1 (ko) 2022-10-19
JP7097423B2 (ja) 2022-07-07
CN111640511B (zh) 2023-08-04
KR20210148813A (ko) 2021-12-08

Similar Documents

Publication Publication Date Title
JP7097423B2 (ja) 医療ファクト検証方法、医療ファクト検証装置、電子デバイス、記憶媒体、及びプログラム
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US20210201198A1 (en) Method, electronic device, and storage medium for generating node representations in heterogeneous graph
US20210407642A1 (en) Drug recommendation method and device, electronic apparatus, and storage medium
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
US11847164B2 (en) Method, electronic device and storage medium for generating information
JP7126542B2 (ja) データセット処理方法、装置、電子機器及び記憶媒体
JP7369740B2 (ja) 検索語の推薦方法と装置、目的モデルの訓練方法と装置、電子デバイス、記憶媒体、及びプログラム
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
EP3937032A1 (en) Search result determination method, device, apparatus, and computer storage medium
WO2021114590A1 (zh) 会话推荐方法、装置以及电子设备
JP7269913B2 (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20140059038A1 (en) Filtering structured data using inexact, culture-dependent terms
US20210357469A1 (en) Method for evaluating knowledge content, electronic device and storage medium
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
JP7285893B2 (ja) 医療データ検証方法、装置及び電子機器
JP2021103569A (ja) セマンティック処理方法、装置、電子機器及び媒体
WO2020000764A1 (zh) 一种面向印地语的多语言混合输入方法及装置
JP7300475B2 (ja) エンティティ関係マイニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US9158839B2 (en) Systems and methods for training and classifying data
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
EP3848816A1 (en) Method, apparatus, and storage medium for storing determinant text
US20210096814A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
US8504579B1 (en) Filtering a data set using trees on a computing device
KR102523034B1 (ko) 의료 충돌을 탐지하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R150 Certificate of patent or registration of utility model

Ref document number: 7097423

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150