JP2021149935A - 情報処理装置および方法 - Google Patents

情報処理装置および方法 Download PDF

Info

Publication number
JP2021149935A
JP2021149935A JP2020200902A JP2020200902A JP2021149935A JP 2021149935 A JP2021149935 A JP 2021149935A JP 2020200902 A JP2020200902 A JP 2020200902A JP 2020200902 A JP2020200902 A JP 2020200902A JP 2021149935 A JP2021149935 A JP 2021149935A
Authority
JP
Japan
Prior art keywords
vector
text data
tokens
numerical
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020200902A
Other languages
English (en)
Inventor
マッチェイ・パヤック
Pajak Maciej
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Medical Systems Corp
Original Assignee
Canon Medical Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Medical Systems Corp filed Critical Canon Medical Systems Corp
Publication of JP2021149935A publication Critical patent/JP2021149935A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】数値情報を含むテキストから、数値情報とテキスト情報とが保持された状態でモデルに入力可能な情報処理装置及び方法を提供する。【解決手段】テキスト処理装置50は、第1の受付部、変換部、割り当て部及び生成部としての前処理回路64を備える。第1の受付部は、数値情報を含まないトークンと個別の数値情報を夫々含むトークンとを含むテキストデータを受け付ける。変換部は、複数のトークンの夫々をエンベッディングベクトルに変換する。割り当て部は、個別の数値ベクトルを複数のトークンの夫々に割り当てる。生成部は、エンベッディングベクトルと数値ベクトルを組み合わせることで、テキストデータがベクトル表現された拡張エンベッディングベクトルセットを生成する。テキストデータのうち個別の数値情報を含むトークンは、同一のエンベッディングベクトルで表現される。個別の数値情報を含むトークンは、個別の数値ベクトルが割り当てられる。【選択図】図4

Description

本明細書及び図面に開示の実施形態は、情報処理装置および方法に関する。
フリーテキストまたは非構造化テキストを処理して所望の情報を得る、自然言語処理(NLP)を実行することが知られている。例えば、医療コンテクスト(medical context)において、分析対象のテキストは臨床医のテキストメモでもよい。当該テキストは、例えば、医療条件(medical condition)または治療区分(type of treatment)についての情報を得るために分析され得る。自然言語処理は、深層学習方法、例えば、ニューラルネットワークを使って実行されてもよい。
自然言語処理を実行するためには、まず、テキストを前処理し、当該テキストの表現、例えばベクトル表現を得るだろう。その後、当該テキストの表現は、深層学習モデルに入力されるだろう。
現在、深層学習自然言語処理(NLP)に使用されるテキストの表現は、エンベッディング(embedding:埋め込み)に基づく表現であり得る。エンベッディングに基づく表現において、当該テキストは単語トークンセットであるとみなされる。単語トークンとは、例えば、単一の単語、単語群、または単語の一部であり得る。其々のエンベッディングベクトルが各単語トークンに割り当てられる。
エンベッディングベクトルは、密ベクトル(dense vector)である。エンベッディングベクトルは、例えば、100個から1000個の間の要素を含み得る。
エンベッディングベクトルは、多次元エンベッディング空間における単語トークン間の意味的類似性(semantic similarity)を捉える。ある例として、単語である「acetaminophen」は多次元エンベッディング空間において「apap」および「paracetamol」に近い。なぜなら、「acetaminophen」「apap」、「paracetamol」はいずれも同一の薬品を指しているからである。
ある場合では、ワードピース(word-piece)レベルまたは文字レベルのエンベッディングを使ってもよい。
エンベッディングベクトルは、深層学習モデル、例えば、ニューラルネットワークへの入力として使用される。エンベッディングベクトルからの類似性情報により、当該ニューラルネットワークは類義語および密接に関連する用語に対して汎化(generalize)でき得る。
単語のエンベッディング空間を学習する法は複数知られており、例えば、Word2vec(例えば、US9037464B1 and Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013) Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781を参照)、GloVe(例えば、Pennington, J., Socher, R., & Manning, C. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543)を参照)、fastText(例えば、Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759)を参照)などが知られている。
多くの既知の方法において、エンベッディングは有限量のトークンのためにのみ学習される。エンベッディングは、学習対象であるトレーニングコーパスにおいて頻出するトークンのために学習される。
図1は、入力にテキストを使用したタスクのための典型的な深層学習ワークフローである。図1の例において、入力は生テキスト10の一節である。生テキスト10がN個のトークンを含むと考えてもよい。Nはドキュメントサイズとみなし得る。
図1において、生テキスト10は患者に関する臨床メモである。生テキスト10に対してはいずれの前処理も行われていない。
図1,2,3に示す生テキストの例を下記に示す。
「She agrees with our treatment for this patient. The patient was on aspirin 325 mg and also on Zocor 20 mg once a day. We also ordered fasting blood lipids, which showed cholesterol of 165, triglycerides 180, HDL cholesterol 22, LDL cholesterol 107.」
生テキスト10を前処理して、当該生テキストの表現12を得る。表現12はN多次元ベクトルを含む数字の密行列(dense matrix)であり、Nは当該生テキスト内のトークンの数である。多次元ベクトルはまた、エンベッディングベクトルとみなし得る。エンベッディングベクトルは、単語トークン間の意味近似性を捉えられる多次元である。
表現12はニューラルネットワーク14のための入力として使われる。ニューラルネットワーク14を訓練して1つまたは複数の出力16,18,20,22を生成してもよい。例えば、ニューラルネットワークを訓練して、生テキスト10の翻訳文16を生成してもよい。ニューラルネットワークを訓練して、患者が過去に投薬された薬剤群18を特定してもよい。ニューラルネットワークを訓練して、患者の生存率20を出力してもよい。ニューラルネットワークを訓練して、患者の禁忌22、例えばヘパリン注射の禁忌を特定してもよい。
上述のように、エンベッディングはトレーニングデータセット内の有限数のトークンのためにのみ学習してもよい。例えば、エンベッディングを異なる40000ワードのために学習してもよい。エンベッディングは、トレーニングテキスト内での頻度が低い単語のために学習されことがある。ある状況において、エンベッディングの結果、テキスト10からの数値情報が喪失することがある。
図2,3はエンベッディングの際に数字を取り扱う既知の方法を示す。図2は数字を単語として扱う例を示す。いくつかの数字は、例えば、いくつかの概数は、そのためにエンベッディングを学習する程度に高頻出であるかもしれない。例えば、投薬量としてしばしば使われる数字(10,20,50,100など)は、トレーニングデータセットにおいて、エンベッディングがこれらの数字のためにトレーニングデータセットから学習される程度に頻出しているだろう。他の数字の頻度は低く、当該トレーニングデータセットにおいて出現しない、またはしばしば出現していないだろう。エンベッディングを学習する程度に頻出していない数字は、無情報トークン(non-informative tokens)として扱ってもよい。無情報トークンはまた、未知トークン(unknown tokens)とみなし得る。いくつかの方法において、無情報トークンには全ゼロ値のベクトル(vector of all zeros)を割り当ててもよい。
図2に示す例において、テキスト10内の2種類の数字30が、学習済みエンベッディングをもつ程度に頻出する。エンベッディングをもつ数字30は325と20である。その他の4種類の数字32は学習済みエンベッディングをもたない。学習済みエンベッディングをもたない数字32は165,180,22,107である。
学習済みエンベッディングをもたない数字は無情報の未知トークンとして扱われる。生テキスト10は新規テキスト34に変換され、その中では学習済みエンベッディングをもたない数字は未知トークンのインジケータ36(indicator 36)に置き換えられている、とみなし得る。エンベッディング行列38が得られる。当該エンベッディング行列において、未知トークン36にはゼロ値のベクトル(vector of zeros)が割り当てられている。
数字を単語として扱うエンベッディングを使って訓練したモデルにおいて、数字順序への理解が現れているかもしれない。しかし、この理解は限られた範囲の数字、例えば、学習済エンベッディングをもつ数字にのみ及ぼされるだけだろう。
図3は、数字を扱う異なる方法を示す。図3の例において、生テキスト10内の全ての数字30,32が等しく扱われ、単純に廃棄される。生テキスト10は、全ての数字を省略した新規テキスト40に変換されたとみなし得る。全ての数字を未知トークンとして扱うエンベッディング行列(不図示)が得られるだろう。
図2,3の方法はそれぞれ、生テキスト10に存在する数値情報の喪失をもたらす。ある状況においては、失われた情報が、当該テキストが入力されるニューラルネットワークにより実行するタスクにとって有益であり得る。例えば、コレステロール値に関する数値情報は、通常のコレステロール値を必要とする処置に対する禁忌の有無を予測するために有益であり得る。測定値に関する数値情報は二時点間での測定値の下降を検出するために有益であり得る。
図2の方法において共通する数字のエンベッディングベクトルでさえ、算術的類似性及び/又は当該数字の順序を表していない。
米国特許出願公開第2019/005019号明細書
本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、数値情報を含むテキストから、数値情報とテキスト情報とが保持された状態でモデルに入力可能な入力データを得ることである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
実施形態に係る情報処理装置は、第1の受付部と、変換部と、第1の割り当て部と、生成部と、を備える。第1の受付部は、数値情報を含まないトークンと個別の数値情報をそれぞれ含むトークンとを含むテキストデータを受け付ける。変換部は、テキストデータに含まれる複数のトークンのそれぞれをエンベッディングベクトルに変換する。第1の割り当て部は、個別の数値ベクトルを複数のトークンのそれぞれに割り当てる。生成部は、エンベッディングベクトルと数値ベクトルを組み合わせることにより、テキストデータがベクトル表現された、モデルに入力可能な拡張エンベッディングベクトルセットを生成する。テキストデータのうち、個別の数値情報を含むトークンは、同一のエンベッディングベクトルにより表現される。個別の数値情報を含むトークンは、当該トークンの数値情報に応じた個別の数値ベクトルが割り当てられる。
ここで、いくつかの実施形態が、限定にならない例として説明され、以下の図に示される。
図1は、1つまたは複数の出力を得るために、テキストの表現を得てニューラルネットワークを使って当該表現を処理する方法の概略を示すフローチャートである。 図2は、エンベッディングベクトルを使ってテキスト内の数字を表現する方法の概略を示すフローチャートである。 図3は、前処理においてテキストから数字を除去する方法の概略を示すフローチャートである。 図4は、一実施形態によるテキスト処理装置の概略図である。 図5は、一実施形態によるテキストデータを前処理するためにモデルを訓練する方法の概略を示すフローチャートである。 図6は、3種類の可能な数値(numerical value)表現を示す図である。 図7は、テキストを処理するためにニューラルネットワークを訓練する方法の概略を示すフローチャートである。 図8は、一実施形態による、1つまたは複数の出力を得るために、テキストの表現を得てニューラルネットワークを使って当該表現を処理する方法の概略を示すフローチャートである。 図9は、エンベッディングベクトルを深層学習モデルに入力する概略図である。 図10は、一実施形態による、拡張エンベッディングベクトルを深層学習モデルに入力する概略図である。 図11は、試作品の結果を示す図であり、結果は変更方向予測の正確性を含む。 図12は、2つの数字の差を示す概略図である。
一実施形態によるテキスト処理装置50を図4において概略的に示す。本実施形態において、テキスト処理装置50は医療テキストを処理するように構成される。医療テキストは、例えば、臨床メモを含んでもよい。別の実施形態では、テキスト処理装置50は適切と思われるいかなるテキストをも処理するように構成してもよい。テキスト処理装置50は、本実施形態における情報処理装置の一例である。
テキスト処理装置50は、この場合ではパーソナルコンピュータ(PC)またはワークステーションであるコンピューティング装置52を備える。コンピューティング装置52は表示スクリーン56または他の表示装置、および、コンピュータキーボードやマウスなどの入力装置または装置58に接続される。
コンピューティング装置52はデータ記憶部60から医療テキストを受け付ける。他の実施例においては、コンピューティング装置52は、データ記憶部60の代わりに、または、データ記憶部60に加えて、1つまたは複数の他のデータ記憶部(不図示)から医療テキストを受け付ける。例えば、コンピューティング装置52は、医療用画像管理システム(Picture Archiving and Communication System: PACS)またはその他の情報処理システムの一部を形成する1つまたは複数の遠隔データ記憶部(不図示)から医療テキストを受け付けてもよい。
コンピューティング装置52は、医療テキストデータを自動的または半自動的に処理するための処理リソースを提供する。コンピューティング装置52は処理装置62を備える。処理装置62は、テキストを前処理して当該テキストの表現を得るように構成された前処理回路64と、エンベッディングを訓練するように構成されたエンベッディングトレーニング回路65と、モデルを訓練するように構成されたモデルトレーニング回路66と、テキストの表現を当該トレーニング済モデルに入力して1つまたは複数の出力を得るように構成されたテキスト処理回路67とを備える。前処理回路64は、本実施形態における第1の受付部、変換部、第1の割り当て部、第2の割り当て部、生成部、及び表示制御部の一例である。また、テキスト処理回路67は、本実施形態における第2の受付部および出力部の一例である。
本実施形態では、回路64,65,66,67は、各々、実施形態の方法を行うために実行可能であるコンピュータが読み出し可能な命令を有するコンピュータプログラムによりコンピューティング装置52に実装される。しかし、他の実施形態において、種々の回路は、1つまたは複数の特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)として実装されてもよい。
また、コンピューティング装置52は、ハードディスクドライブや、RAM、ROM、データバス、様々なデバイスドライバを含むオペレーティングシステム、グラフィックカードを含むハードウェアデバイスを含むPCの他のコンポーネントを含む。そのようなコンポーネントは、明瞭化のために図4に示されない。
テキスト処理装置50はエンベッディングモデルを訓練し、拡張エンベッディングベクトルセットを含むテキストの表現を得るように当該テキストの前処理にトレーニング済のエンベッディングモデルを使い、拡張エンベッディングベクトルセットから1つまたは複数の所望の出力を得るようにニューラルネットワークを訓練して、当該ニューラルネットワークを前処理済テキストに適用して当該1つまたは複数の所望の出力を得るように構成される。他の実施形態において、エンベッディングモデルの訓練及び/又はニューラルネットワークの訓練に別の装置を使ってもよい。さらに別の実施形態において、適切と思われるいかなる装置の組み合わせを使って、図5,7,8を参照して下記で説明するいかなるステップを実行してもよい。
図5は一実施形態によるトレーニング方法の概略を示すフローチャートである。当該トレーニング方法の開始において、前処理回路64が単語エンベッディングを訓練するためにトレーニングテキスト70を受け付ける。トレーニングテキスト70は多数の患者またはその他の被検体に関する生テキストを含んでもよい。例えば、トレーニングテキスト70は数万以上のテキストサンプルを含んでもよい。トレーニングテキスト70は数万以上の被検体に関連してもよい。
図5において、トレーニングテキスト70は、図1〜3の生データ10を表すために使用したテキストと同一のもので表すが、実際のところは、トレーニングテキスト70は大量の医療テキストを含む。結果としてのトレーニング済エンベッディングは、トレーニングテキスト70の一部ではない医療テキストを含む、いかなる医療テキストにも適用され得る。
前処理回路64は、トレーニングテキスト70を、単語または数字をそれぞれ含むトークンセットに分割する。ステージ72において、前処理回路64は数字トークンを、トレーニングデータ70内のそれぞれの数字に割り当て、新規テキスト74を得る。この新規テキストにおいて、同一の数字トークンが、数字を含むオリジナルテキスト70内のそれぞれのトークンに割り当てられている。割り当てられる数字トークンは数字の値に依存しておらず、同一の数字トークンが全ての数字に共通している。
前処理回路64は、トレーニングテキスト70内の各トークンに数値を割り当てる。トレーニングテキスト70内の各トークンは、個別の数値を割り当てられる。数値は、単語を含むトークンにも、数字を含むトークンにも同様に割り当てられる。
図5の実施形態において、前処理回路64は、ゼロの数値を、すべての単語を含むトークンに割り当てる。その他の実施形態において、適切と思われるいかなる数値を、単語を含むトークンに割り当ててもよい。ある実施形態では、共通のデフォルト数値がすべての単語を含むトークンに割り当てられる。ある実施形態において、NAN(数字ではない)値がすべての単語を含むトークンに割り当てられる。
それぞれの数字を含むトークンについては、前処理回路64がその数字の値を、当該トークンの数値として割り当てる。いかなる数値を割り当ててもよい。数値は、例えば、辞書にあるような限定された数字セットに制限されない。
数値割り当ての出力は、トレーニングテキスト70内のトークン数に対応する長さをもつ数値配列76である。
図5のステージ78において、エンベッディングトレーニング回路65は単語エンベッディングトレーニングを行う。例えばWord2vec、GloVe、fastTextなど、適切と思われる単語エンベッディングトレーニング方法であればいかなるものを使ってもよい。単語エンベッディングモデルは、共通する数字トークンに数字が置き換えられたトレーニングテキスト70のバージョン74内の単語のエンベッディングを学習する。
トレーニングまたは推論(inference)時にテキスト74が単語エンベッディングモデルを通ることにより、トークンは固定長をもつエンベッディングとして表現される。数字はテキスト74において同一の数字トークンにより表現されているため、各数字は同一のエンベッディングベクトルにより表現される。別の実施形態として、全ての数字に共通エンベッディングトークンを得るものであれば、適切と思われるいかなる方法を使ってもよい。
ステージ78における単語エンベッディングトレーニングの出力は、テキストをエンベッディングベクトルセットに変換するようにトレーニングされたエンベッディングモデルである。ステージ78における更なる出力は、トレーニングテキスト70の一部または全てに対するエンベッディングベクトルセット84である。
ステージ80において前処理回路64は、配列76内の各数値を、固有長ベクトル86として表現する。単語を含むトークンは、ゼロまたはその他の共通のデフォルト数値等に置き換えられるため、単語を含むトークンを表す固有長ベクトル86は同一の値となる。このような固有長ベクトル86は、本実施形態における同一の数値ベクトルの一例である。
図6は、数値を表現し得るいくつかの可能な方法を示す図である。図6において、数字107は表現するべき数字の例として使われている。3種類の可能な表現90,92,94が図6に示されている。第1の表現90では、当該数字を長さ1のベクトルとして表す。当該ベクトルは数字そのものの値(この場合では107)を含む。
第2の表現92では、当該数字を長さ2のベクトルとして表す。当該ベクトルは当該数字の仮数および指数を含む。第2の表現92は第1の表現90よりも適切に数字の動的範囲を捉えうる。数字107の場合は、1.07e+2と表現されるだろう。従って、当該長さ2のベクトルの値は、1.07と2である。
第3の表現94では、関数群96を使ってベクトル98として当該数字を表す。本実施形態では、関数群96は重なり合う異なる動的範囲を捉えるk個の弱単調関数群(set of k weakly monotonic functions)である。図6のグラフ95は、関数96の一部をライン96a,96b,96c,96d,96e,96fとして示す。関数の範囲は重なり合う。当該数字(この場合は107)を表すライン97はいくつかの関数96d,96e,96fと交差するように見える。当該数字と関数96の交差点は、ベクトル98を形成するために使われる。ある状況において、単調増加関数群を横断する点で当該数字を表すことにより、他の表現よりも適切に数字の動的範囲を捉え得る。
別の実施形態において、複数の数字についての自然な順序を捉えて加算および減算の近似を可能にするいかなる表現によって、数字を表してもよい。例えば、数値情報を長さkのベクトルとして表す適切と思われるk個の関数群であれば、いかなるものを使用してもよい。
前処理回路64は、ステージ78で得たエンベッディングベクトルそれぞれを、エンベッディングベクトルが関連するトークンの数値の表現により拡張する。図5に示す実施形態では、各数値を仮数および指数をもつ長さ2のベクトルとして表す。
前処理回路64は、トレーニングテキスト70内の各トークンの個別の拡張エンベッディングベクトルを含む出力82を生成する。各拡張エンベッディングベクトルは数値の固定長表現86によって拡張されたエンベッディングベクトル84を含む。数的トークンの数値は、明示的にエンベッディングベクトルに含まれる。
ある状況において、拡張エンベッディングベクトルは、従来のエンベッディング方法(例えば、図1〜3を参照して説明した方法)で喪失しうる数値情報を保持する。
図7はテキストを処理するためにニューラルネットワークを訓練する方法の概略を示すフローチャートである。モデルトレーニング回路66はトレーニングテキスト70の表現を受け付ける。当該表現は、トレーニングテキスト70の拡張エンベッディングベクトルセットを含んでいる。本実施形態では、モデルトレーニング回路66はまた、グラウンドトゥルースデータセット100(set of ground truth data 100)を受け付ける。例えば、グラウンドトゥルースデータ100は、生トレーニングテキスト70にも含まれる情報を表す構造化データセットを含んでもよい。別の実施形態において、モデルトレーニングをグラウンドトゥルースデータなしに実行してもよい。
ステージ102において、モデルトレーニング回路66は、トレーニングデータ70の表現82を使って所望の出力を生成するようにモデルを訓練する、トレーニング処理を実行する。本実施形態において、モデルはニューラルネットワークを含む。別の実施形態において、適切なモデル、例えば、適切な深層学習モデルであればいかなるものを使ってもよい。モデルは深層学習アルゴリズムを含んでもよい。トレーニング済モデルはニューラルネットワーク、例えば、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、密に結合されたネットワーク(densely connected network)、変換器言語モデル(transformer language model)、または上記の組み合わせのアーキテクチャを含んでもよい。別の実施形態において、モデルは機械学習の適切と思われるいかなるフォーム、例えば、サポートベクターマシン(SVM)またはランダムフォレストを含んでもよい。さらに別の実施形態では、モデルは深層学習モデルでなくてもよい。モデルは、入力として拡張エンベッディングベクトルを含む表現を取るものであれば、いかなるモデルでもよい。
所望の出力には、例えば、テキスト70の翻訳文、患者が過去に投薬された薬剤群、生存率、または禁忌の特定が含まれ得る。所望の出力には、値が所定の範囲内にあるかの評価を含んでもよい。所望の出力には、値が経時的に変化したかの評価を含んでもよい。所望の出力には、自然言語での質問に対する、フリーテキストの回答を含んでもよい。当該フリーテキスト回答はテキスト70に基づく。所望の出力には、オリジナルテキスト70の意味を留めた長いテキスト70の要約を含んでもよい。トレーニング済モデルをテキストマイニング、例えば、大量のテキスト処理に使ってもよい。
ステージ104で、モデルトレーニング回路66はトレーニング済モデルを出力する。当該モデルは、テキストの表現を受け付け、所望の出力を出力するように訓練された。
図8は所望の出力を得るためにトレーニング済ニューラルネットワークを適用する方法の概略を示す。前処理回路64は、生テキスト110の一節を受け付ける。この生テキスト110の一節はテキストデータまたは入力テキストとして記載されてもよい。本実施形態では、生テキスト110もまた表示スクリーン56に表示される。
前処理回路64は生テキスト110を前処理し、本実施の形態においては拡張エンベッディングベクトルセット112である生テキスト110の表現112を得る。
前処理では、各数字を共通の数字トークンに置き換え、トレーニング済エンベッディングモデルを適用して、エンベッディングベクトルセットを得る。さらに前処理では、図5を参照して上述したように数値配列を得て、エンベッディングベクトルを数値により拡張する。
テキスト処理回路67は表現112をトレーニング済ニューラルネットワーク114の入力として使う。図8に示す実施形態では、ニューラルネットワーク114は4つの出力116,118,120,122を生成するように訓練される。テキスト処理回路67は、ディスプレイ画面56に当該出力を表示する。
ニューラルネットワーク114は、コレステロール値が正常範囲内にあるかを示す判断116を提供するように訓練される。ニューラルネットワーク114は、治療後に1つ又は複数の値が変化したか、例えば、値が上昇したかを示す判断118を提供するように訓練される。ニューラルネットワーク114は、生存率120を出力するように訓練される。ニューラルネットワーク114は禁忌122を出力するように訓練される。
別の実施形態では、ニューラルネットワーク114が適切と思われるいかなる出力を提供するように訓練してもよい。ニューラルネットワーク114が数値と数値とを、数値と間隔とを、または数値と1つ又は複数の目標値とを比較するように訓練してもよい。ニューラルネットワーク114が数値114を番号順にするように訓練してもよい。
数値情報を保持したテキスト110の前処理により、他の表現では入手不可能な出力を得ることができるだろう。例えば、数値情報が廃棄された表現においては、値が正常範囲であるか、または、値が上昇したかに関する情報を得ることはできないだろう。数値情報が保持された表現により、数値と数値とを、数値と間隔とを、または数値と1つ又は複数の目標値とを比較することが可能となり得る。モデルは算術演算を近似させるように学習し得る。
数値情報を保持したテキスト110の前処理により、いくつかの出力の正確性が上昇する。例えば、改善した生存率の推定値を提供し得る。図8に示す実施形態では生存率は0.27であるが、図1では同じ入力データで0.38であった。図8の値がより正確であろう。
改善した禁忌に関する情報を提供し得る。例えば、図8において1つの禁忌が見つかっている。図1の方法では、同じ入力データで禁忌は見つからなかった。
図8の方法は、適した病気または条件に対する臨床決定サポートを提供するために使われ得る。図8の方法を実装するスマート関連性エンジンにより情報検索を行ってもよい。
テキスト処理回路67は、ニューラルネットワーク114からの出力を使って、臨床ワークフローにとって重要な情報を自動的に指摘してもよい。トレーニングにおいて、ニューラルネットワーク114は、所与の臨床ワークフローにとってどの情報が重要かを自動的に発見してもよい。ニューラルネットワーク114は、数字間の微細な依存性(dependencies)、例えば、臨床メモの異なる場所で起きる数字間の依存性を学習してもよい。ある状況において、臨床メモの異なる場所で起きる数字間の依存性は、臨床医によるテキストリーディングで見落とされやすいものかもしれない。おそらく人間は、テキスト内の1つの場所だけに注目するだろう。アルゴリズム、例えば、深層学習アルゴリズムはテキスト全体の依存性を発見できるかもしれない。
コード付文書を分類するようにニューラルネットワーク114を訓練して、当該患者の履歴要約を提示してもよい。当該コードは、例えば、症状、病気、及び/又は処置のコードであり得る。ニューラルネットワーク114が、異常な数字または数字の組み合わせを強調した要約を生成するように構成してもよい。ある実施形態では、正常であると判断された数字を当該要約から省いてもよい。
その他の患者の医療履歴に基づいてナレッジ(knowledge)を作成してもよい。トレーニングデータに基づく予測及び/又は処方(prediction and/or prescription)を行うように、ニューラルネットワーク114を訓練してもよい。例えば、ニューラルネットワークは、過去の類似する患者であって、治療からポジティブなアウトカム(outcome)を示した患者からの情報を使ってもよい。
算術演算を近似させるようにモデルを学習させることで、スケーラブルな(scalable)テキスト処理方法、具体的には、フリーテキスト処理方法を得られるかもしれない。具体的には、テキスト、例えば、臨床メモ内の同一情報をフレージング(phrasing)する方法は様々ある。ある状況では、規則に基づくテキスト処理方法、例えば、テンプレートを使った方法は、前述の異なる可能な情報ワーディング方法にスケーリング(scale)できないかもしれない。ニューラルネットワーク方法は、十分なトレーニングデータが与えられれば、最小限の人間の介入でスケーリングし得る。
医療記録においては、フリーテキストで大量の数値情報が手に入ることがしばしばあり得る。ある場合において、数字情報は構造化された方法で別の場所で複製されていることがある。しかし、ある状況において、当該構造化データへのアクセスはより困難であり得る。例えば非構造化フリーテキストデータは、構造化数値情報とは別のシステム内に記録されることがある。ある状況では、構造化データとして記録された数字がテキスト文脈を喪失しているかもしれない。上記方法により数字のテキスト文脈を使い、深層学習トレーニングを介して当該数字に意味を与えられるかもしれない。例えば、数字の周囲にある単語を使って、その数字に意味を与えられるかもしれない。
フリーテキストでは、その重要性についてのコメントがないままに数字が提示されることがしばしばあり得る。例えば、体温39℃と報告し、39℃が異常に高い体温であることをコメントしていないことがあり得る。この文書を書いた人は、39℃が異常に高い体温であると読者は知っている、と考えている。この場合、数値情報は、周囲のテキストからだけでは得られない情報を与え得る。症状または病気ラベル付のドキュメントを、数値情報へのアクセスなしに分類する試みが行われていれば、体温異常が失われてしまうかもしれない。テキスト内の数値情報を使うことで、単語からのみで入手できる以上の追加情報が得られうる。
図5,7,8のいずれかに関連して上述した方法を、適切と思われるいかなる医療データ、例えば、検査データ、症状データ、生命兆候データ、投与量データ、測定値データ、またはゲノムデータなどの処理に使ってもよい。
図5,7,8のいずれかに関連して上述した方法を、多くの異なる医療コンテクストに使ってもよい。下記に医療コンテクストの例を挙げる。
ある実施形態において、テキスト、例えば、臨床メモ内に記載されるパラメータの変化の方向を検出するように、ニューラルネットワーク114を訓練する。当該パラメータには、例えば、検査測定値または投薬量が含まれ得る。数学演算x<yを学習するように、ニューラルネットワーク114を訓練してもよい。xとyは両方とも当該テキストに存在する数値を示す。
ある実施形態において、パラメータの値が正常か異常かを判断するように、ニューラルネットワーク114を訓練する。例えば、当該パラメータは臨床メモに含まれる検査結果であってもよい。ある実施形態において、なにが正常範囲であるかの明確なコンテクストなしに、値が正常か異常かを判断するように、ニューラルネットワーク114を訓練してもよい。当該範囲および比較をトレーニングデータから学習してもよい。数学演算x<定数A、x>定数Bを学習するように、ニューラルネットワークを訓練してしてもよい。xはテキスト内にある。
数字がある適切な間隔内にあるかを判断するように、ニューラルネットワーク114を訓練してもよい。ある状況において、当該間隔は可変でもよい。当該間隔はテキスト内の文脈情報に依存してもよい。
ある実施形態において、所与の健康アウトカムのためのパラメータ値(例えば、測定値及び/又は投薬量)の組み合わせの予測値の暗黙的学習(implicit learning)のために、ニューラルネットワーク114を訓練してもよい。ニューラルネットワーク114で近似される数式は、適切と思われるいかなるものでもよい。
ある実施形態において、意思決定プロセスに関連する数値情報を強調するように、ニューラルネットワーク114を訓練してもよい。関連情報は、適切と思われるいかなる注意メカニズムを使って強調してもよい。例えば、生テキスト110の一部を色、フォントタイプ、ボックス、又は矢印を使って強調してもよい。カーソルまたはスクロール位置を変えて、ユーザの注意を生テキスト110内の関連情報に向けさせてもよい。強調により、どの数字にアルゴリズムが注目しているかをユーザに示すことができるだろう。ニューラルネットワークの結果の根拠をユーザに説明するために、数字からの暗黙的学習をユーザに曝してもよい。
ある実施形態において、ユーザがフリー形式の臨床メモをとる間に、ユーザの入力の妥当性をニューラルネットワーク114によって確認することができる。ニューラルネットワーク114は、数字がタイプされたときに、その数字と正常または異常範囲とを比較してもよい。ニューラルネットワーク114を使ってミスタイプされた数字を捉えてもよい。ミスタイプされた数字を任意の適切な方法により強調してもよい。ユーザにヒントを表示してもよい。例えば、「『1日当たりパラセタモール5000mg』でよろしいでしょうか」というテキストとともに、テキストボックスをディスプレイ画面56に表示してもよい。
また、図5,7,8のいずれかによる方法を、非医療テキストの処理に使ってもよい。当該テキストは、数値情報を含むものであればいかなるテキストでもよく、例えば、フリー形式または非構造化テキストメモでもよい。例えば、当該テキストは財務テキストでもよい。財務テキストの表現を、数値情報を保持したまま生成してもよい。財務テキストから出力を得るように、モデルを訓練してもよい。例えば、財務テキスト内の異なる数字の関係を得る、または数字と数字とを、数字と間隔とを、または数字と目標とを比較するように、モデルを訓練してもよい。別の実施形態では、テキストはフリーテキストレポートのその他の形式、例えば、機械検査に関する産業レポートも含まれ得る。
図5,7,8を参照して上述した実施形態において、トークンは、当該トークン間の意味的類似性を捉える密エンベッディングベクトルによって表現される。別の実施形態において、単語またはワードピーストークンの別のベクトル表現を使ってもよい。ベクトル表現は、いずれかの長さをもつ疎または密ベクトルをも含まれ得る。ある実施形態において、ベクトル表現はトークンの意味的類似性を捉える。別の実施形態において、ベクトル表現はトークンの意味的類似性を捉えないかもしれない。例えば、ベクトル表現を疎なワンホットエンコーディング(sparse one-hot encoding)によって得てもよい。
数値情報を保持した表現を使うことで容易になるタスクの種類を実証するために、実施形態に応じた単純な試作品を開発した。この試作品では、値の差の方向を検出する単純化されたタスクをモデルに与えた。
トレーニングテキストの複数のサンプルが生成された。当該トレーニングテキストを入力テキストとみなしてもよい。当該テキストのサンプルはそれぞれ下記のフォーマットをもつ。
Figure 2021149935
num_A>num_Bであるサンプルは、減少に分類された。num_A<num_Bであるサンプルは増加に分類された。
当該モデルは当該トレーニングテキストのサンプルで訓練された。当該モデルは、サンプルを増加または減少に分類するためのモデル学習を目的として訓練された。当該モデルには当該サンプルの分類を与えなかった。
2種類のトレーニング条件が当該モデルに使用された。当該2種類のトレーニング条件を、それぞれ図9,10により表す。
図9に表された第1のトレーニング条件では、当該入力テキスト内の単語トークンを標準word2vec エンベッディングにより表現した。word2vec エンベッディングとしての当該入力テキストの表現132は、深層学習モデル130の訓練に使用された。
図10に表された第2のトレーニング条件では、word2vec エンベッディングを数値情報により拡張し、上述の図5で参照した拡張エンベッディングベクトルを得た。数字は、上述した図5で示したエンベッディングの前に、共通の数字トークンに置き換えた。数値情報を仮数および指数を含む長さ2のベクトルで表現した。拡張エンベッディングベクトルとしての当該入力テキストの表現142は、深層学習モデル140の訓練に使用された。
この試作品において、モデル130,140は、可変長テキストのマルチラベル分類のための注意メカニズムをもつ畳み込みニューラルネットワークである。
当該試作品の結果を図11のグラフ150に示す。結果は、モデルによるサンプルの増加または減少分類に対する正確性を示す。
標準エンベッディング(モデル130、図11の棒152)において、増加または減少の分類結果はチャンスレベル(正確性50%)であった。当該モデルは数値情報を利用できなかった。
拡張エンベッディング(モデル140、図11の棒154)において、正確性は98%に達した。
図12は数字Aと数字Bの差160を示す。差160は、トレーニングでエンカウントした考え得る数字の全域162の割合である。
当該試作品において、数字の最小差が、サンプル対象の数字の入手可能な範囲162の6%より大きければ、正確な分類が可能であることがわかった。なお、互いに値が近い数字をもつメモは、誤分類される可能性が最も高かった。
当該試作品は、表現に数値情報が含まれることにより、数値情報を廃棄した表現では実行できないであろうタスクが、実行可能となり得ることが示された。
ある状況において、より複雑な数値情報の表現を使うことにより、当該試作品の正確性を、より広い範囲162に亘って、及び/又は、より小さい差160に対して改善し得る。
なお、当該試作モデルが訓練されるタスクは、パターン照合と所定のタスクを行うロジックとに基づくルールベースの方法を使って解決可能である。しかし、規則に基づくテンプレートは、同一情報が多様な方法で表現され得るフリーテキスト入力を考慮すると、十分にスケーリングできないかもしれない。多くの異なる可能なフレージングから数学演算を得るように、ニューラルネットワークを訓練してもよい。
上記実施形態において、テキストを表すために使った表現は、各単語または数字のための個別の拡張エンベッディングベクトルを含んでいる。別の実施形態において、当該表現は、フリーテキスト内の複数のトークンそれぞれのための各拡張エンベッディングベクトルを含んでもよい。各トークンは、例えば、単語、単語の一部(いずれの長さであってもよい)、単語群、数字、記号(例えば、句読点)、又は任意の組み合わせ、例えば、1つ又は複数の数字と1つ又は複数の単語の組み合わせを含んでもよい。上記実施形態を、ワードピーストークン化を使って実行してもよい。
さらなる実施形態において、各トークンの数値情報を保持した適切と思われるいかなる表現をも使ってもよい。
さらなる実施形態において、テキスト処理回路67は、上記のような表現、例えば、トークンを拡張エンベッディングベクトルで表した表現を利用しない。各数字の文脈上適切な意味論的意味(contextualized semantic meaning)を、当該数字の周囲のトークンの文脈情報(contextual information)から、例えば、当該数字の周囲の文から学習する。数字の値を直列的に通過させて、別のシステムにおいて推論を得てもよい。数字の値を、当該値を利用する他のアルゴリズムに通してもよい。
ある実施形態では、自然言語処理アルゴリズムを提供して、トレーニングデータ例から学習し、非構造化テキスト内の数値情報に依拠する情報を出力する。
1.1 各トークンのエンベッディングベクトルに付加された各トークンの数値の表現をもつ、入力テキスト内のトークンを密エンベッディングベクトルとして表すニューラルネットワークアーキテクチャ
1.2 ゼロより大きい任意の固定長を占め、数の自然順序を捉えた、トークンの数値の表現
1.3 数値への依存性を、規則またはテンプレートであらかじめ決められていないトレーニングデータから学ぶ。
自然言語処理アルゴリズムを、1.1および1.2で記載した表現なしに与えてもよい。この場合、数字の意味をコンテクストトークンから排他的に学習し、数字の値を直列的に通過させて、別のシステムで推論を行う。
トークンの数値の表現は、具体的に、当該数字そのものを含む長さ1のベクトルであってもよい。
トークンの数値の表現は、具体的に、指数表現の係数および指数を含む長さ2のベクトルであってもよい。
トークンの数値の表現は、重なり合う動的範囲をもつk個の弱単調関数を当該数字に適用して形成した長さkのベクトルであってもよい。
アルゴリズムは、非構造化臨床テキストに記載する2つの数字を比較するタスクを実行してもよい。
アルゴリズムは、非構造化臨床テキストに記載する数字が間隔に属するかを判断するタスクを実行してもよい。当該間隔は可変であってもよく、当該テキスト内のその他の文脈情報に依存してもよい。
ある実施形態は、処理回路を備えた、自然言語データセットを処理する装置を提供する。当該処理回路は、各数字の値に依存しない固定インジケータである共通数字トークンを当該自然言語データセット内の各数字に割り当て、個別の数値を当該自然言語データセット内の各トークンに割り当てることにより、前処理済データセットを得るように構成される。トークンが数字ではない場合は、当該数値はゼロ、null、または初期値であり、トークンが数字である場合は、当該数値は当該数字の値を含む、または、それに基づく。当該処理回路はまた、エンベッディング手続きを前処理済データセットのトークンに対して行い、少なくともいくつかのトークンに対して個別のエンベッディングベクトルを得るように構成される。当該処理回路はさらに、各エンベッディングベクトルに対して、そのエンベッディングベクトルのトークンに割り当てられた数値の表現を付加することにより、拡張エンベッディングベクトルを得るように構成される。当該処理回路はさらに、当該拡張エンベッディングベクトルを処理するためにトレーニング済モデルを使い、所望の出力を得るように構成される。
トレーニング済モデルはニューラルネットワークを含んでもよい。
数値の表現は、固定長ベクトルを含んでもよい。当該表現は数字の自然順序を捉えてもよい。
数値の表現は、当該数字そのもの、当該数値のうちの少なくとも1つを含む長さ1のベクトルを含んでもよい。数値の表現は、指数表現で表された数字、指数表現で表された数値のうちの少なくとも1つの係数および指数を含む長さ2のベクトルであってもよい。数値の表現は、重なり合う動的範囲をもつk個の弱単調関数を、当該数字と当該数値のうちの少なくとも1つに適用して形成した長さkのベクトルであってもよい。
所望の出力は、翻訳文、強調、診断、アウトカムの尤度(likelihood)、禁忌の表示のうちの少なくとも1つを含み得る。
所望の出力は、変化の方向、正常の検出、異常の検出、予測値、確認要求、変化量、値が所定の間隔内にあるかを示す表示、値が可変の間隔内にあるかを示す表示、2つの数字の比較のうちの少なくとも1つを含み得る。
自然言語データセットは、医療情報を含み得る。自然言語データセットは臨床医のテキストメモを含み得る。
ある実施形態は、処理回路を備えた、自然言語データセットを処理するようにモデルを訓練する装置を提供する。当該処理回路は、自然言語データを含むトレーニングデータを受け付けるように構成される。当該処理回路はまた、各数字の値に依存しない固定インジケータである共通数字トークンを当該トレーニングデータ内の各数字に割り当て、個別の数値を当該トレーニングデータ内の各トークンに割り当てることにより、前処理済トレーニングデータを得るように構成される。トークンが数字ではない場合は、当該数値はゼロ、null、または初期値であり、トークンが数字である場合は、当該数値は当該数字の値を含む、または、それに基づく。当該処理回路はまた、エンベッディング手続きを前処理済データセットのトークンに対して行い、少なくともいくつかのトークンに対して個別のエンベッディングベクトルを得るように構成される。当該処理回路はさらに、各エンベッディングベクトルに対して、そのエンベッディングベクトルのトークンに割り当てられた数値の表現を付加することにより、拡張エンベッディングベクトルを得るように構成される。当該処理回路はさらに、当該拡張エンベッディングベクトルを処理するようにモデルを訓練して、所望の出力を得るように構成される。
トレーニング済モデルはニューラルネットワークを含み得る。モデルの訓練は、自然言語テキスト内で表される数字を比較するためのモデルの訓練を含み得る。
モデルの訓練は、自然言語テキスト内で表される数字が間隔に属するかを判断するためのモデルの訓練を含み得る。当該間隔は、可変であってもよい。当該間隔は、当該テキスト内の文脈情報に依存してもよい。
数値情報を処理するための規則またはテンプレートをモデルに与えずに数値情報を処理するように、モデルを学習させてもよい。
ある実施形態では、処理回路を備えた、自然言語データセットを処理するようにモデルを訓練する装置を提供する。当該処理回路は、自然言語データを含むトレーニングデータを受け付けるように構成される。当該処理回路はまた、当該トレーニングデータ内の数字の値を学習し、当該数字の値を推論システムに通すようにモデルを訓練する。
ある実施形態では、ニューラルネットワークに入力するデータを前処理する方法を提供する。当該方法は、数値情報を含むテキストデータを受け付け;当該テキストデータを、数値情報を含まないテキストデータと、数値情報のみを含むデータとに分離し;当該数値情報を含まないテキストデータを第1のデータに変換し;当該数値情報のみを含むデータを第2のデータに変換し;当該第1のデータおよび当該第2のデータとに基づいたベクトルデータを生成する。
ある実施形態は、処理回路を備えたシステムを提供する。当該システムは、数値情報を含むテキストデータを受け付け;当該テキストデータを、数値情報を含まないテキストデータと、数値情報のみを含むデータとに分離し;当該数値情報を含まないテキストデータを第1のデータに変換し;当該数値情報のみを含むデータを第2のデータに変換し;当該第1のデータおよび当該第2のデータとに基づいたベクトルデータを生成し;当該ベクトルデータをニューラルネットワークのトレーニングデータとして出力する。
特定の回路が本明細書において説明されているが、代替の実施形態において、これらの回路の内の1つまたは複数の機能を、1つの処理リソースまたは他のコンポーネントによって提供することができ、または、1つの回路によって提供される機能を、2つまたはそれより多くの処理リソースまたは他のコンポーネントを組み合わせることによって提供することができる。1つの回路への言及は、当該回路の機能を提供する複数のコンポーネントを包含し、そのようなコンポーネントがお互いに隔たっているか否かにかかわらない。複数の回路への言及は、それらの回路の機能を提供する1つのコンポーネントを包含する。
所定の実施形態が説明されているが、これらの実施形態は、例示のためにのみ提示されており、発明の範囲を限定することは意図されない。実際は、本明細書において説明された新規な方法およびシステムは、様々な他の形態で具体化することができる。更に、本明細書において説明された方法およびシステムの形態における様々な省略、置き換え、および、変更が、発明の要旨を逸脱することなくなされてよい。添付の特許請求の範囲の請求項およびそれらに均等な範囲は、発明の範囲にはいるような形態および変更をカバーすると意図される。
16,18,20,22 出力
50 テキスト処理装置
52 コンピューティング装置
56 ディスプレイ画面、表示スクリーン
58 入力装置
60 データ記憶部
62 処理装置
64 前処理回路
65 エンベッディングトレーニング回路
66 モデルトレーニング回路
67 テキスト処理回路
70 テキスト、テキストデータ、オリジナルテキスト、トレーニングテキスト、トレーニングデータ、トレーニングテキストデータ、生トレーニングテキスト、テキストデータセット
76 数値配列、配列
82 拡張エンベッディングベクトルセット、出力、トレーニングデータの表現
84 エンベッディングベクトル、エンベッディングベクトルセット
110 テキスト、生テキスト
112 拡張エンベッディングベクトルセット、生テキストの表現
114 ニューラルネットワーク、トレーニング済ニューラルネットワーク
130,140 モデル、深層学習モデル

Claims (19)

  1. 数値情報を含まないトークンと個別の数値情報をそれぞれ含むトークンとを含むテキストデータを受け付ける第1の受付部と、
    前記テキストデータに含まれる複数のトークンのそれぞれをエンベッディングベクトルに変換する変換部と、
    個別の数値ベクトルを前記複数のトークンのそれぞれに割り当てる第1の割り当て部と、
    前記エンベッディングベクトルと数値ベクトルを組み合わせることにより、前記テキストデータがベクトル表現された、モデルに入力可能な拡張エンベッディングベクトルセットを生成する生成部と、を備え、
    前記テキストデータのうち、前記個別の数値情報を含むトークンは、同一のエンベッディングベクトルにより表現され、
    前記個別の数値情報を含むトークンは、当該トークンの前記数値情報に応じた個別の数値ベクトルが割り当てられる、
    情報処理装置。
  2. 前記個別の数値情報を含む各トークンは同一の数値ベクトルが割り当てられる、
    請求項1に記載の情報処理装置。
  3. 前記テキストデータに含まれる各トークンのうち前記数値情報を含まないトークンを前記同一の数値に置き換えた数値配列と、前記テキストデータに含まれる各トークンのうち前記個別の数値情報をそれぞれ含むトークンを同一の数字トークンに置き換えたトークンセットと、を生成する第2の割り当て部、をさらに備え、
    前記第1の割り当て部は、前記数値配列内の各数値を個別の数値ベクトルに変換し、
    前記変換部は、前記トークンセットに含まれる各トークンを個別のエンベッディングベクトルに変換する、
    請求項2に記載の情報処理装置。
  4. 各トークンは単語、ワードピース、単語群、数字、または記号を含む、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記エンベッディングベクトルおよび数値ベクトルの組み合わせは、各トークンに対して、当該トークンの前記数値ベクトルを当該トークンの前記エンベッディングベクトルに付加する、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. 生成された前記拡張エンベッディングベクトルセットを前記モデルに入力し、前記ベクトル表現を処理するように前記モデルを使い、所望の出力を得る出力部、をさらに備える、
    請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記所望の出力は、前記テキストデータ内の2つ以上の数字の比較、前記テキストデータ内の数字が間隔に属するかの判定、前記テキストデータ内の数字と目標値との比較のうちの少なくとも1つを含む、
    請求項6に記載の情報処理装置。
  8. 前記所望の出力は、患者の状態の評価、生存率、禁忌の評価、診察、予測、アウトカムの尤度、前記テキストデータの要約、前記テキストデータ内の数字が正常かの判断、前記テキストデータ内の数字が異常かの判断のうちの少なくとも1つを含む、
    請求項6または7に記載の情報処理装置。
  9. 前記テキストデータは臨床メモを含み、前記数値情報は検査データ、症状データ、生命兆候データ、投与量データ、測定値データ、ゲノムデータのうちの少なくとも1つを含む、
    請求項1から8のいずれか1項に記載の情報処理装置。
  10. 前記テキストデータの少なくとも一部をユーザに表示し、トレーニング済モデルの少なくとも1つの出力に依存した、前記テキストデータの前記表示の少なくとも1つの数字を強調する表示制御部、をさらに備える、
    請求項1から9のいずれか1項に記載の情報処理装置。
  11. 前記拡張エンベッディングベクトルセットは数字の自然順序を捉えるように構成されている、請求項1から10のいずれか1項に記載の情報処理装置。
  12. 各数値ベクトルは、下記a)からd)のうちの少なくとも1つを含む
    a)前記数値情報を含む、又は、表す固定長ベクトル、
    b)前記数値情報を含む、又は、表す長さ1のベクトル、
    c)前記数値情報を含む、又は、表す仮数および指数を含む長さ2のベクトル、
    d)重なり合う動的範囲をもつk個の弱単調関数を前記数値情報に適用して形成された長さkのベクトル、
    請求項1から11のいずれか1項に記載の情報処理装置。
  13. モデルへ入力するテキストデータを前処理する方法であって、
    数値情報を含まないトークンと個別の数値情報をそれぞれ含むトークンとを含むテキストデータを受け付け、
    前記テキストデータに含まれる複数のトークンのそれぞれを個別のエンベッディングベクトルに変換し、
    個別の数値ベクトルを前記複数のトークンのそれぞれに割り当て、
    前記テキストデータのベクトル表現を得るために、前記エンベッディングベクトルと数値ベクトルを組み合わせること、を含み、
    前記テキストデータのうち、前記個別の数値情報を含むトークンは、同一のエンベッディングベクトルにより表現され、
    前記個別の数値情報を含むトークンは、当該トークンの前記数値情報に応じた個別の数値ベクトルが割り当てられる、
    方法。
  14. テキストデータを前処理することで得られた、前記テキストデータのベクトル表現を受け付ける第2の受付部と、
    モデルを前記ベクトル表現に適用して所望の出力を得る出力部と、を備え、
    前記前処理は、
    数値情報を含まないトークンと個別の数値情報をそれぞれ含むトークンとを含む前記テキストデータを受け付け、
    前記テキストデータに含まれる複数のトークンのそれぞれを個別のエンベッディングベクトルに変換し、
    個別の数値ベクトルを前記複数のトークンのそれぞれに割り当て、
    前記テキストデータのベクトル表現を得るために前記エンベッディングベクトルと数値ベクトルを組み合わせる前記前処理であり、
    前記テキストデータのうち、前記個別の数値情報を含むトークンは、同一のエンベッディングベクトルにより表現され、
    前記個別の数値情報を含むトークンは、当該トークンの前記数値情報に応じた個別の数値ベクトルが割り当てられる、
    情報処理装置。
  15. テキストデータを前処理することで得られた、前記テキストデータのベクトル表現を受け付け、
    モデルを前記ベクトル表現に適用して所望の出力を得ること、
    を含み、
    前記前処理は、
    数値情報を含まないトークンと個別の数値情報をそれぞれ含むトークンとを含む前記テキストデータを受け付け、
    前記テキストデータに含まれる複数のトークンのそれぞれを個別のエンベッディングベクトルに変換し、
    個別の数値ベクトルを前記複数のトークンのそれぞれに割り当て、
    前記テキストデータのベクトル表現を得るために前記エンベッディングベクトルと数値ベクトルを組み合わせる前処理であり、
    前記テキストデータのうち、前記個別の数値情報を含むトークンは、同一のエンベッディングベクトルにより表現され、
    前記個別の数値情報を含むトークンは、当該トークンの前記数値情報に応じた個別の数値ベクトルが割り当てられる、
    方法。
  16. トレーニングテキストデータのベクトル表現を受け付け、
    前記ベクトル表現は、前記トレーニングテキストデータ内の複数のトークンそれぞれの個別のエンベッディングベクトルと数値ベクトルを含んでおり、
    モデルを訓練するように前記トレーニングテキストデータの前記ベクトル表現を使い、対象テキストのベクトル表現を与えられたときに所望の出力を生成する処理回路を有し、前記所望の出力は、前記対象テキスト内の数値情報に依存する、
    情報処理装置。
  17. トレーニングテキストデータのベクトル表現を受け付け、
    前記ベクトル表現は、前記トレーニングテキストデータ内の複数のトークンそれぞれの個別のエンベッディングベクトルと数値ベクトルを含んでおり、
    モデルを訓練するように前記トレーニングテキストデータの前記ベクトル表現を使い、対象テキストのベクトル表現を与えられたときに所望の出力を生成すること、
    を含み、前記所望の出力は、前記対象テキスト内の数値情報に依存する、
    方法。
  18. トレーニングテキストデータを受け付け、
    前記トレーニングテキストデータ内の複数の数字の文脈上適切な意味論的意味を前記数字の周囲のトークンの文脈情報から学習し前記数字の値を推論システムに通すように、前記トレーニングテキストデータでモデルを訓練する、処理回路を備える、
    情報処理装置。
  19. トレーニングテキストデータを受け付け、
    前記トレーニングテキストデータ内の複数の数字の文脈上適切な意味論的意味を前記数字の周囲のトークンの文脈情報から学習し前記数字の値を推論システムに通すように、前記トレーニングテキストデータでモデルを訓練する
    ことを含む方法。
JP2020200902A 2020-03-13 2020-12-03 情報処理装置および方法 Pending JP2021149935A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/818,690 US11714964B2 (en) 2020-03-13 2020-03-13 Text processing method and apparatus
US16/818,690 2020-03-13

Publications (1)

Publication Number Publication Date
JP2021149935A true JP2021149935A (ja) 2021-09-27

Family

ID=77664769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020200902A Pending JP2021149935A (ja) 2020-03-13 2020-12-03 情報処理装置および方法

Country Status (2)

Country Link
US (1) US11714964B2 (ja)
JP (1) JP2021149935A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881210B2 (en) * 2020-05-05 2024-01-23 Google Llc Speech synthesis prosody using a BERT model
US20220253777A1 (en) * 2021-02-08 2022-08-11 Birdeye, Inc. Dynamically Influencing Interactions Based On Learned Data And On An Adaptive Quantitative Indicator

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288284A1 (en) * 2005-06-20 2006-12-21 Michael Peters System and method for visualizing contextual-numerical data of source documents as corresponding transformed documents
JP5154832B2 (ja) 2007-04-27 2013-02-27 株式会社日立製作所 文書検索システム及び文書検索方法
US8751256B2 (en) 2010-02-11 2014-06-10 Allscripts Software, Llc Intelligent tokens for automated health care information systems
US9141916B1 (en) * 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
US9037464B1 (en) 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US10325020B2 (en) 2017-06-29 2019-06-18 Accenture Global Solutions Limited Contextual pharmacovigilance system
US20190273510A1 (en) * 2018-03-01 2019-09-05 Crowdstrike, Inc. Classification of source data by neural network processing
CN110968564B (zh) * 2018-09-28 2023-04-25 阿里巴巴集团控股有限公司 一种数据处理方法及数据状态预测模型的训练方法
US20210027167A1 (en) * 2019-07-26 2021-01-28 Cisco Technology, Inc. Model structure extraction for analyzing unstructured text data

Also Published As

Publication number Publication date
US11714964B2 (en) 2023-08-01
US20210286947A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
Liu et al. Deep ehr: Chronic disease prediction using medical notes
Batch et al. Developing a cancer digital twin: supervised metastases detection from consecutive structured radiology reports
Nigam Applying deep learning to ICD-9 multi-label classification from medical records
Shen et al. Enhancing ontology-driven diagnostic reasoning with a symptom-dependency-aware Naïve Bayes classifier
Mugisha et al. Comparison of neural language modeling pipelines for outcome prediction from unstructured medical text notes
Rajendran et al. Extracting smoking status from electronic health records using NLP and deep learning
Chaichulee et al. Multi-label classification of symptom terms from free-text bilingual adverse drug reaction reports using natural language processing
Liu et al. Advancing clinical research through natural language processing on electronic health records: traditional machine learning meets deep learning
Jin et al. Automatic detection of hypoglycemic events from the electronic health record notes of diabetes patients: empirical study
JP2021149935A (ja) 情報処理装置および方法
Radha et al. Machine learning approaches for disease prediction from radiology and pathology reports
Choo et al. Use of machine learning in stroke rehabilitation: a narrative review
Mugisha et al. Pneumonia outcome prediction using structured and unstructured data from EHR
Nishigaki et al. BERT-based transfer learning in sentence-level anatomic classification of free-text radiology reports
Abaho et al. Assessment of contextualised representations in detecting outcome phrases in clinical trials
Lian et al. Predicting health-related quality of life change using natural language processing in thyroid cancer
Ojo et al. MedAI dialog corpus (MEDIC): Zero-shot classification of doctor and AI responses in health consultations
Sharaf et al. An analysis on large language models in healthcare: a case study of BioBERT
US20230253122A1 (en) Systems and methods for generating a genotypic causal model of a disease state
Moreno-Barea et al. Clinical Text Classification in Cancer Real-World Data in Spanish
Khan A CNN-LSTM for predicting mortality in the ICU
Olivato et al. Language Models for Hierarchical Classification of Radiology Reports with Attention Mechanisms, BERT and GPT-4
Vallon et al. Patient-level clinical expertise enhances prostate cancer recurrence predictions with machine learning
Bhagat et al. Large Language Models for Efficient Medical Information Extraction
Prabhakar et al. Neural language modeling of unstructured clinical notes for automated patient phenotyping