JP2023517870A

JP2023517870A - 個人の健康データを用いて計算するためのシステム及び方法

Info

Publication number: JP2023517870A
Application number: JP2022552898A
Authority: JP
Inventors: アラヴァムダン，ムラリ; ムルガダース，カールティック; アルダーナリ，サンカー; ラジャセクハラン，アジット
Original assignee: Nference Inc
Current assignee: Nference Inc
Priority date: 2020-03-04
Filing date: 2021-03-04
Publication date: 2023-04-27
Also published as: WO2021178689A1; EP4115314A1; EP4115314A4

Abstract

個人の健康データを用いて計算するための技術が提供される。これらの技術は、テキストシーケンスを受信するステップと、テキストシーケンスを複数のエンティティタグ付けモデルに提供するステップであって、複数のエンティティタグ付けモデルの各々が、対応するエンティティタイプを有するテキストシーケンスの１つ又は複数の部分にタグ付けするように訓練される、提供するステップと、複数のエンティティタグ付けモデルを使用してテキストシーケンス内の１つ又は複数のエンティティにタグ付けするステップと、エンティティを代替用語に置換することによって、１つ又は複数のタグ付きエンティティの中の各エンティティを難読化するステップであって、代替用語が、エンティティの１つ又は複数の属性に基づいて選択され、置換されるエンティティと同様の特性を維持する、難読化するステップと、を含む、識別解除方法を含む。

Description

関連出願の相互参照
本出願は、２０２０年１２月２１日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＣｏｍｐｕｔｉｎｇｗｉｔｈＰｒｉｖａｔｅＨｅａｌｔｈｃａｒｅＤａｔａ」と題する米国仮出願第６３／１２８，５４２号、２０２０年１１月４日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＣｏｍｐｕｔｉｎｇｗｉｔｈＰｒｉｖａｔｅＨｅａｌｔｈｃａｒｅＤａｔａ」と題する米国仮出願第６３／１０９，７６９号、２０２０年６月２２日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＣｏｍｐｕｔｉｎｇｗｉｔｈＰｒｉｖａｔｅＨｅａｌｔｈｃａｒｅＤａｔａ」と題する米国非仮出願第１６／９０８，５２０号、２０２０年３月４日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＳｅｌｅｃｔｉｖｅＩｎｆｏｒｍａｔｉｏｎＭａｓｋｉｎｇｉｎＴｅｘｔ」と題する米国仮出願第６２／９８４，９８９号、２０２０年３月４日に出願された「ＰｉｐｅｌｉｎｅｄＦｅｄｅｒａｔｅｄＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＣｏｍｐｕｔｉｎｇｗｉｔｈＰｒｉｖａｔｅＨｅａｌｔｈｃａｒｅＤａｔａ」と題する米国仮出願第６２／９８５，００３号、及び２０２０年４月２０日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｕｇｍｅｎｔｅｄＣｕｒａｔｉｏｎａｎｄＴｅｍｐｏｒａｌＤｉｓｃｒｉｍｉｎａｔｉｏｎｏｆＨｅａｌｔｈＲｅｃｏｒｄｓ」と題する米国仮特許出願第６３／０１２，７３８号に対する３５Ｕ．Ｓ．Ｃ．第１１９条（ｅ）の下での優先権を主張し、これらはそれぞれその全体が参照により本明細書に組み込まれる。

本発明は、一般に、利用者又は規制によってプライベートと見なされる情報を含み得るデータの処理に関する。

病院、医療提供者及び介護者は、患者から大量のデータを収集する。それは、健康を一般の人々に提供するプロセスの必要な部分である。患者は通常、自身の病気の治療を受ける一部として、データを介護者に提供する。このデータは、介護者によって保管され、とりわけ研究目的で、後で使用される場合がある。別の典型的なシナリオでは、１つ又は複数のデバイス、例えばパルスオキシメータ、グルコースモニタ、スマートウォッチ、フィットネスブレスレットなどを介して、利用者からデータを収集する場合がある。そのような使用事例では、収集されたデータは、連続的に、又は一定期間にわたって、患者の健康を分析するために使用されることが多い。その結果、膨大な量の患者情報が、サービス提供者によって蓄積されることになる。

介護者及びサービス提供者によって収集された患者データの多くの態様は、プライバシー規制の対象となり得る。患者から収集された処理データの有用性及び利点は明らかであり、一般に認められている。しかしながら、特に、データを使用して患者を識別し得るとき、ユーザデータのプライバシーの維持に対する懸念が高まっている。このような懸念は、１９９６年に米国議会を最初に通過したＨＩＰＡＡ（医療保険の携行性と責任に関する法律）規制の根拠である。他の多くの国も同様の規制及び法律を公布している。一般に、一般の人々を識別し、又はそれらの物理的属性若しくはバイオメトリックデータの詳細となり得る個人情報の公開を、ＨＩＰＡＡ及び他の規制は制限する。

したがって、個々の患者又は利用者のプライバシーを維持するという制約の下で、生物医学（及び他のタイプの）データは、計算プロセスによって分析され得る必要がある。そのようなシステム及び方法は、結果として、社会にとって大きな商業的、社会的及び科学的な利益となる。

個人データを含むデータセットを処理するための連合型アプローチを示す図である。いくつかの実施形態による、セキュアな計算環境のアーキテクチャの簡略図である。いくつかの実施形態による、セキュアエンクレーブの一般的なアーキテクチャの簡略図である。いくつかの実施形態による、データセットに適用可能な例示的なポリシーの簡略図である。ポリシーがセキュアエンクレーブ内で適切にプログラムされることを保証するための例示的なオーケストレーションの簡略図である。ポリシー制約に従ってデータが計算されることを保証するための例示的なオーケストレーションの簡略図である。信頼のチェーン、すなわち計算の連合型パイプラインに関連付けられた証明又は証拠を拡張する技術の使用の簡略図である。拡張された信頼のチェーンの検証の簡略図である。いくつかの実施形態による、分散型信頼モデルの簡略図である。いくつかの実施形態による、個人データを協調して受信し、記憶し、処理する企業の連合型グループのアーキテクチャの簡略図である。いくつかの実施形態による、個人データを協調して受信し、記憶し、処理する企業の連合型グループのアーキテクチャの簡略図である。いくつかの実施形態による、個人データを協調して受信し、記憶し、処理する企業の連合型グループのアーキテクチャの簡略図である。いくつかの実施形態による、情報マスキングのためのシステムの簡略図である。いくつかの実施形態による、情報マスキングのための制御フローの簡略図である。いくつかの実施形態による、エンティティのタグ付けプロセス、及び欠落したエンティティの処理の簡略図である。いくつかの実施形態による、有効性をマスキングするためのテストスイート診断フロー方法を示す簡略図である。いくつかの実施形態による、情報検索のためのシステムの簡略図である。いくつかの実施形態に対する情報検索のためのデータフローの簡略図である。いくつかの実施形態による、フラグメント検索のためのデータフローの簡略図である。いくつかの実施形態による、クエリに応答して情報を検索するための方法の簡略図である。いくつかの実施形態による、フラグメント検索を実施するための方法の簡略図である。いくつかの実施形態による、情報検索システムのグラフィカルインターフェースのスクリーンショットの図である。いくつかの実施形態による、情報検索システムのグラフィカルインターフェースのスクリーンショットの図である。いくつかの実施形態による、情報検索のための方法の簡略図である。いくつかの実施形態による、情報検索システムのグラフィカルインターフェースのスクリーンショットの図である。いくつかの実施形態による、情報検索システムのグラフィカルインターフェースのスクリーンショットの図である。いくつの実施形態による、健康記録の拡張キュレーションのための方法の簡略図である。いくつかの実施形態による、健康データの時間的区別のための方法の簡略図である。いくつかの実施形態による、健康記録を時間的に整列したセットに基づいて生成された視覚化の簡略図である。いくつかの実施形態による、個人情報を難読化するためのプロセスの簡略図である。いくつかの実施形態による、タグ付きエンティティの属性及び対応する置換戦略の表の簡略図である。プレースホルダを使用した個人情報の編集と、代替用語を使用した個人情報の置換とを比較する簡略図である。

開示した主題の様々な目的、特徴、及び利点は、同様の参照番号が同様の要素を識別する以下の図面に関連して考慮されるとき、開示した主題の以下の詳細な説明を参照して完全に理解され得る。

真に驚くべき量の情報が、患者及び利用者の健康状態、習慣、環境、周囲、及び家庭に関して患者及び利用者から収集されている。ますます、この情報は、機械学習及び人工知能モデルを利用するコンピュータプログラムによって処理されている。そのようなコンピュータプログラムは、利用者の健康状態、疾患の発生及び治療、ユーザの行動などの分析及び予測において著しい進歩を示している。更に、収集されたデータが、患者の生体認証及び他の個人識別属性を含む可能性があるので、そのようなコンピュータプログラムは、患者及び利用者の身元を知り得るという懸念が高まっている。したがって、個人属性を含む健康データの分析に関心のある企業は、個人のプライバシーを維持すること、及び１９９６年の医療保険の携行性と責任に関する法律（ＨＩＰＡＡ：ＨｅａｌｔｈＩｎｓｕｒａｎｃｅＰｏｒｔａｂｉｌｉｔｙａｎｄＡｃｃｏｕｎｔａｂｉｌｉｔｙＡｃｔ）規制などの個人データに関する関連規制を遵守することに関心がある。

ＨＩＰＡＡに加えて、欧州連合のＧＤＰＲ（ＧｅｎｅｒａｌＤａｔａＰｒｏｔｅｃｔｉｏｎＲｅｇｕｌａｔｉｏｎｓ）、ＰＳＤ２（ＲｅｖｉｓｅｄＰａｙｍｅｎｔＳｅｒｖｉｃｅｓＤｉｒｅｃｔｉｖｅ）、ＣＣＰＡ（ＣａｌｉｆｏｒｎｉａＣｏｎｓｕｍｅｒＰｒｉｖａｃｙＡｃｔ２０１８）など、多くの他の規制が、様々な管轄区域で制定されている。

以下の説明では、「ユーザ情報」、「個人情報」、「個人の健康情報（「ＰＨＩ：ｐｅｒｓｏｎａｌｈｅａｌｔｈｉｎｆｏｒｍａｔｉｏｎ」）」、「健康情報のデータ又は記録」、「識別情報」、及び個人を識別可能な情報（ＰＩＩ：ＰｅｒｓｏｎａｌｌｙＩｄｅｎｔｉｆｉａｂｌｅＩｎｆｏｒｍａｔｉｏｎ）という用語は、互換的に使用され得る。同様に、「電子健康記録（「ＥＨＲ：ｅｌｅｃｔｒｏｎｉｃｈｅａｌｔｈｒｅｃｏｒｄｓ」）」及び「データ記録」という用語も互換的に使用され得る。

個人データを処理する１つの手法は、データセットのすべての記録を暗号化することである。暗号化されたテキストは、暗号文と呼ばれることもあり、復号されたテキストは、平文とも呼ばれる。暗号化は、類推によって、データセットの記録をロックされたボックスに入れるものとして説明され得る。その後、ロックされたボックスの記録へのアクセスは、ロックされたボックスに対する鍵によって制御される。この概念は、許可されたエンティティのみが（復号）鍵へのアクセスを許可されるということである。

いくつかの規制（例えば、ＨＩＰＡＡ）は、健康データが暗号化された形式で記憶されることを要求する。これは、「保存データの暗号化」と呼ばれることもある。

しかしながら、悪意のあるエンティティは、復号鍵にアクセスしたり、コンピュータのメカニズムを使用して復号鍵を類推／推測したりする可能性がある。後者の可能性は、暗号化／復号技術が十分に強力ではないとき（例えば、鍵の長さ（鍵を構成するビット数）が、コンピュータの攻撃に十分に耐え得る長さではない）、又は鍵が失われたか若しくは安全に保管されていない場合、可能性が高くなる。

暗号化及び他のそのようなセキュリティ技術は、コンピュータによる攻撃者が、基礎となるデータにアクセスするために、特定の量のリソース（コンピュータ時間、メモリ、及び計算能力）を費やす可能性が高いという予想に依存し得る。暗号化鍵の長さは、暗号化を破るために必要な計算リソースの量を増加するために使用される変数の１つである。

強力な暗号化技術であっても、個人データの処理に関連するセキュリティ上の課題を解決し得ない。例えば、暗号化されたデータセットを処理している企業は、そのデータセットをコンピュータにロードし、そのデータセットを復号し、そのデータセットの記録を処理し、そのデータセットを再暗号化する可能性がある。この例では、データセットの１つ又は複数の記録は、処理中に（平文に）復号される。悪意のあるエンティティは、平文の記録が処理されている間にコンピュータにアクセスし、個人情報を漏洩させる可能性がある。すなわち、処理を目的としてデータを復号すると、「ランタイム」脆弱性を生じさせる。

したがって、個人データを処理するための改善された技術を開発することが望ましい。

完全準同型暗号（ＦＨＥ：Ｆｕｌｌｙｈｏｍｏｍｏｒｐｈｉｃｅｎｃｒｙｐｔｉｏｎ）は、暗号化されたデータを復号せずに用いて計算するための手法を記述する。すなわち、暗号化されたデータ要素

が与えられると、暗号化された結果

を生成する関数

を計算する。そのような計算の入力、出力及び処理の段階は、暗号化されたデータ要素のみを扱うので、漏洩の確率は最小限に抑えられる。暗号化技術の（数学的）基盤が十分に強い場合、量子コンピュータなどの極めて強力なコンピュータが使用されたとしても、鍵の類推／推測は実行不可能な計算になり得る。

しかしながら、ＦＨＥデータセットを用いて計算する従来技術は、非実用的であるという点で非効率的であり得る。２００９年に報告された計算では、ＦＨＥデータセット上で実行される計算は、暗号化されていないデータ計算よりも１００兆倍遅い。（ＡｍｅｅｓｈＤｉｖａｔｉａ，ｈｔｔｐｓ：／／ｗｗｗ．ｄａｒｋｒｅａｄｉｎｇ．ｃｏｍ／ａｔｔａｃｋｓ－ｂｒｅａｃｈｅｓ／ｔｈｅ－ｆａｃｔ－ａｎｄ－ｆｉｃｔｉｏｎ－ｏｆ－ｈｏｍｏｍｏｒｐｈｉｃ－ｅｎｃｒｙｐｔｉｏｎ／ａ／ｄ－ｉｄ／１３３３６９１及びＰｒｉｙａｄａｒｓｈａｎＫｏｌｔｅ，ｈｔｔｐｓ：／／ｂａｆｆｌｅ．ｉｏ／ｂｌｏｇ／ｗｈｙ－ｉｓ－ｈｏｍｏｍｏｒｐｈｉｃ－ｅｎｃｒｙｐｔｉｏｎ－ｎｏｔ－ｒｅａｄｙ－ｆｏｒ－ｐｒｉｍｅｔｉｍｅ／を参照されたい。）

更に、基本的なＦＨＥ機能を提供するＦＨＥライブラリを使用するために、既存のアプリケーションコードを書き換える必要があり得る。

セキュアエンクレーブは、コンピュータ内で実行されている他のプロセスに、機密データを公開することなく、メモリ内で機密データを復号して、処理し得る計算環境である。データは、他のプロセス及びネットワークから「隔離された」計算環境で復号及び処理される。このような環境の保護は、後述する方法で復号鍵を保護することによって更に強化され得る。

セキュアエンクレーブの技術は、ＦＨＥ技術よりも効率的であり得る。

場合によっては、セキュアエンクレーブを含むコンピュータは、セキュアコンピュータとも呼ばれる場合がある。セキュアコンピュータは、１つ又は複数のセキュアエンクレーブ、例えば、コンピュータで実行されるアプリケーションごとに１つのセキュアエンクレーブを含んでもよい。

一般に、エンクレーブを、他のプロセス及び他のエンクレーブから確実に隔離することは、セキュアエンクレーブ技術の目標である。

セキュアエンクレーブは、ハードウェア（ＣＰＵ、メモリ、レジスタ、キャッシュなど）及び／又はソフトウェア（プログラムされた回路）で構成された隔離された環境である。セキュアエンクレーブは、コールゲート又はファイアウォールと呼ばれることもある特別に構成されたハードウェア及びソフトウェア要素を介して、アプリケーションプログラムがアクセス可能である。セキュアエンクレーブへのアクセスは、暗号化鍵を介して制御され、暗号化鍵の一部は、製造時に構成されるハードウェア要素内に存在し得る。悪意のあるエンティティは、セキュアエンクレーブのブートプロセス中に鍵を抽出しようと試みる可能性がある。鍵を抽出するためのリバースエンジニアリング又は他のそのような攻撃は、繰り返される鍵要求を禁止することによって、及び／又はそのような要求間の時間を長くすることによって、阻止され得る。場合によっては、鍵のセットは、ハードウェア要素の特定のセットに関連付けられてもよい。

セキュアエンクレーブに投入されるデータ（及びコンピュータプログラム）が暗号化されること、更に、セキュアエンクレーブから出力されたデータも暗号化されることを要求することによって、更なる保護を実現し得る。暗号化されたデータが、セキュアエンクレーブに一旦投入されると、セキュアエンクレーブ内で復号され、処理され、その結果は、出力に備えて暗号化され得る。したがって、隔離されたセキュアエンクレーブは、上述したランタイム脆弱性問題を解決する。

セキュアエンクレーブ内のデータを復号するプロセスが、復号鍵をセキュアエンクレーブの外部に知られないようにすることで、更に安全になるという要求により、セキュアエンクレーブ内のデータを保護する更なる手段が、導入され得る。すなわち、セキュア・エンクレーブ・インフラストラクチャの外部のエンティティは、復号鍵にアクセスすることを禁止される。

このようにして、投入するエージェントが、セキュアエンクレーブのファイアウォールの制約を満たすとき、暗号化されたデータが、セキュアエンクレーブに投入され得る。投入されたデータを復号して、それを処理するために使用され得る復号鍵を、セキュアエンクレーブは含む。セキュアエンクレーブは、結果を出力する前に、セキュアエンクレーブ内で利用可能な暗号化鍵を使用して、処理アクティビティの結果を暗号化し得る。

個人データを保護する問題に対処する別の技術は、データを、識別解除又は匿名化することである。この技術は、個人データをランダムデータで置換すること、例えば社会保障番号をランダムな数字で置換することである。そのような技術は、構造化データセットにおいて使用される場合がある。例えば、患者の名前、社会保障番号及び心拍数を含む構造化データセットは、属性「名前」及び「社会保障番号」の値を、識別解除することによって匿名化されてもよい。

構造化データセットにおける識別解除技術は、以下のように処理能力の損失をもたらす。

構造化データセットは、最大の処理上の利点を得るために、他の構造化データセットと組み合わせられる必要があることが多い。例として、２つの構造化データセット（氏名、ＳＳ＃、心拍）及び（名前、ＳＳ＃、重み）を考える。２つのデータセットを組み合わせることによって、患者のデータ記録を更に完全し得る。すなわち、２つのデータセットに表された患者を関連付けることによって、２つのデータセットに固有の関係を利用し得る。２つのデータセットを識別解除するプロセスは、固有の関係を失う患者を匿名化することにつながる。

上記の例を続けると、固有の関係を維持するために、識別解除を実行するエンティティは、２つのデータセット内に表された患者に同じランダムデータを割り当てる場合がある。すなわち、匿名化エンティティは、患者、例えばジョンが２つのデータセット内の特定のデータによって表されていることを知っている。これは、匿名化を行うエンティティの知識が脆弱になることを意味する。

したがって、構造化データを識別解除することは、悪意のある計算エンティティによって利用される可能性のある脆弱性を生じる可能性がある。

従来の識別解除技術の別の欠点は、識別解除が、医療ノート、注釈、病歴、病理データなどの非構造化データセットには適用されないことである。大量の健康データは、非構造化データセットからなる。本開示の後の部分では、機械学習及び人工知能技術を使用して非構造化データセットを識別解除する技術を開示する。

非構造化データセットを識別解除することの１つの結果は、結果として得られるデータセットが、一部の残りの個人データを含み得ることである。一実施形態では、非構造化データセットの識別解除を、識別解除の有効性の尺度を導出する統計分析にかける。すなわち、データセットが識別解除された確率の尺度を、取得することができる。

実施形態では、エンティティＡは、確率尺度ｐに対するデータセットを識別解除し、それをエンティティＢに提供する。後者はまた、エンティティＣから１つ又は複数のコンピュータプログラムを受信する。エンティティＢは、エンティティＣから受信したコンピュータプログラムを使用して、エンティティＡから受信したデータを処理し、処理の結果を別のエンティティＤに提供する。（実施形態において、Ａ、Ｂ、Ｃ及びＤは、原則として別個のエンティティであってもよく、実際には、エンティティＡ、Ｂ、Ｃ及びＤのうちの１つ又は複数は、相互の合意を通じて協力してもよい。）

本発明の実施形態により、その処理がデータと関連付けられた確率ｐを維持することを、エンティティＢは、エンティティＡ（及びＣ、及びＤ）に保証し得る。

更に、エンティティＢを含まないプロセスでは、エンティティＡは、そのデータセット上でエンティティＣのコンピュータプログラムの使用を承認し得る。

本発明の実施形態により、当該データセットがエンティティＣによって提供されたコンピュータプログラムによってのみ処理され、そのデータセットが他のコンピュータプログラムによって処理されなかったことを、エンティティＢは、エンティティＣ（及びＡ、及びＤ）に保証し得る。更に、エンティティＣによって提供され、基礎となるデータセットを処理するために使用されたコンピュータプログラムが、いかなる方法でも改変、変更又は修正されなかったこと、すなわち、処理中に使用されたコンピュータプログラムのバイナリイメージが、提供されたコンピュータプログラムのバイナリイメージと同一であったことを、エンティティＢは、他のエンティティに保証し得る。すなわち、この有効化は、受信したコンピュータプログラムの起源を維持する。

また、秘匿特性は、以下の条件を満たす特性に相当する。
１．エンティティＡによって提供されたデータセットに、エンティティＣによって提供されたコンピュータプログラムに、及びエンティティＤに提供された出力に、アクセスできなかったことを、エンティティＢは、エンティティＡ、Ｃ及びＤに保証し得る。
２．エンティティＡが、データセットＡにのみアクセスし、Ｃによって提供されたコンピュータプログラムにも、エンティティＤに提供された出力にもアクセスしなかったことを、エンティティＢは、エンティティＣ及びＤに保証し得る。
３．エンティティＣが、そのコンピュータプログラムにのみアクセスし、Ａによって提供されたデータセットにも、Ｄに提供された出力にもアクセスしなかったことを、エンティティＢは、エンティティＡ及びＤに保証し得る。
４．エンティティＡが、エンティティＡが提供したデータセットＡにのみアクセスし、Ｄに提供された出力にも、Ｃによって提供されたコンピュータプログラムにもアクセスしなかったことを、エンティティＢは、エンティティＣ及びＤに保証し得る。

更に、上記の様々な保証は、暗号技術に基づいて、検証可能で、偽造不可能なデータ証書、すなわち証明書の形式で提供される。

図１Ａに示される本発明の実施形態により、第１のエンティティ１Ａ１００は、「信頼の計算チェーン」１Ａ１０５を構築することができ、「信頼の計算チェーン」１Ａ１０５は、第２のエンティティ１Ａ１０１から（所定の識別解除確率で）データセットを第１のエンティティ１Ａ１００が受信する点で発生し、第３のエンティティ１Ａ１０３から第１のエンティティ１Ａ１００が受信したコンピュータプログラムを使用して１つ又は複数のデータ処理段階１Ａ１０２を通って延在し、更に処理の結果が第４のエンティティ１Ａ１０４によって受信される点で終了する。また、信頼のチェーン１Ａ１０５は、秘匿特性を満たす。したがって、信頼のチェーンは、入力確率尺度、受信したコンピュータプログラムの起源、及び秘匿特性を保存する概念を具体化する。

一般性を失うことなく、説明を容易にするために、図１Ａの例示的な実施形態では、第１のエンティティＡは、「オペレータ」とラベル付けし、第２のエンティティは、「データ提供者」とラベル付けし、第３のエンティティは、「プログラム提供者」とラベル付けし、第４のエンティティは、「データサイエンティスト」とラベル付けした。処理を実施する機器は、「連合型パイプライン」とラベル付けした。「連合型」という用語は、パイプラインが複数のエンティティから入力を受信し、複数のエンティティに出力を提供し得ることを示す。

本開示は、とりわけ、データセットの入力識別解除確率、入力コンピュータプログラムの起源、並びに計算に関与する様々なデータ及びコンピュータプログラムの秘匿を維持する「連合型パイプライン」（ソフトウェア技術及び／又はハードウェア／ファームウェア構成要素を使用して実装される）について説明する。

場合によっては、連合型パイプラインからの出力データセット又は結果を取得したデータサイエンティスト（例えば、図１Ａのエンティティ１Ａ１０４）は、出力データセットを処理し、その結果を第三者と共有することを望むことがある。上記で説明したように、データサイエンティストは、連合型パイプラインからの出力を受信するので、出力は、（一連の）証明、すなわち信頼のチェーンに関連付けられることに留意されたい。ここで、データサイエンティストが、受信した出力を処理し、それを第三者と共有することを望む場合、第三者は、信頼のチェーンを、新たに処理された結果にまで拡張することを求めてもよい。

すなわち、連合型パイプラインから受信した出力が、新しいコンピュータプログラムへの入力として実際に使用され、第三者に提供された出力が、そのプログラムによって出力されるという証拠を取得することを、第三者が望んでいる可能性がある。すなわち、データサイエンティストは、連合型パイプラインに関連付けられた信頼のチェーンを拡張するように第三者によって求められる場合がある。データサイエンティストが連合型パイプラインに関連付けられていない場合、連合型パイプラインシステムで使用される方法とは独立した、信頼のチェーンを拡張する方法が必要である。

図５は、この課題を示している。結果を共有するとき、データサイエンティストによって提供された可能性がある特定のコンピュータプログラム（Ｐ１）が、実行されたことと、データサイエンティスが、証明を有する連合型パイプラインによって提供された入力データセット（＃１）のソースを受け入れて、検証したことと、を結果の受取人が信頼することを、データサイエンティストは望む。プログラムＰ１は、例えば、既知の外部データリポジトリに対して、データセット＃１の一部として提供されたシリアル番号をチェックしてもよい。プログラムＰ１が実行したとするものは、データセット＃２をもたらす。

更に、データセット＃２が、（データサイエンティストによって提供された可能性がある）コンピュータプログラムＰ２によって処理されことと、プログラムＰ２が実行したとするものが、最終出力データセット（図５）をもたらしたということとを、受取人が信頼することを、データサイエンティストは望む場合がある。

Ｄ．Ｇｅｎｋｉｎら参照によりその全体が本明細書に組み込まれる、２０１８年、ＣＯＭＭＵＮＩＣＡＴＩＯＮＳＯＦＴＨＥＡＣＭの「ＰｒｉｖａｃｙｉｎＤｅｃｅｎｔｒａｌｉｚｅｄＣｒｙｐｔｏｃｕｒｒｅｎｃｉｅｓ」は、プログラムＰ１及びＰ２の実行を検証するための例示的な技術を示している。プローバと呼ばれるソフトウェアモジュールは、プログラムＰ１及びＰ２を実行可能な計算環境を提供する。そのような実行時に、プローバは、２つの出力、すなわち、（１）プログラムＰ１及びＰ２の出力と、（２）プログラムＰ１及び／又はＰ２の実行の証拠と呼ばれるデータオブジェクトと、を生成する。

更に、プローバは、任意の第三者に提供され得る検証部（図６を参照）と呼ばれるソフトウェアモジュールも提供する。検証部は、証拠を入力とし、バイナリで「はい／いいえ」の回答を出力する。回答「はい」は、当該プログラムが実行され、入力された証拠オブジェクトが生成されたことを示す。「いいえ」という応答は、実行したとするものの証拠が、検証され得なかったことを意味する。

したがって、Ｄ．Ｇｅｎｋｉｎらは、コンピュータプログラムが実行したとするものが、実行したとするものの証拠を、検証部システムに提出することによって検証され得るシステム及び方法を示す。証拠オブジェクトは暗号化オブジェクトであり、（実行したとするものが検証可能であるというメタステートメント以外の）基礎となるデータ又はプログラムに関する情報を漏洩しない。

実施形態では、コンピュータプログラムＰは、２つの企業Ｅ_１とＥ_２との間にポリシーを組み込むものとして合意されてもよい。前者の企業Ｅ_１は、ここで、プログラムＰを実行させ、上述のプローバ技術を使用して、その実行したとするものの証拠πを生成させ得る。企業Ｅ_２は、ここで、πを（上述の検証技術を使用して）検証し、プログラムＰが実行されたことを信頼し、それにより、合意されたポリシーが実現されたことを信頼し得る。

図１Ｂは、適用の観点からのセキュアエンクレーブの論理アーキテクチャを示している。アプリケーション１００は、それ自体のコード、データ、及びセキュアエンクレーブを含む。アプリケーション１００は、（１）従来のコンピュータにおける典型的なアプリケーションとして実行する非セキュア部分と、（２）セキュアエンクレーブ内で実行するセキュア部分と、の２つの部分に論理的に分割される。セキュアエンクレーブを生成し、特定のブートイメージをセキュアエンクレーブにロードし、実行することを、アプリケーションの非セキュア部分のコードは要求し得る。その後、セキュアエンクレーブ内の実行終了時の制御は、呼出しポイントに戻される。特権システム２００（ＯＳ、ＢＩＯＳ、ＳＭＭ、ＶＭなどを含む）は、セキュアエンクレーブへのアクセスを阻止される。

いくつかの実施形態では、以下の方法を実行して、コード及びデータをセキュアエンクレーブに入力してもよい。
方法［セキュアエンクレーブの生成及び入力］
（１）アプリケーションのセキュア部分をコンパイルし、
（２）セキュアエンクレーブを生成するためのコマンドを発行し（例えば、基礎となるハードウェア／ＯＳ命令セットを使用する）、
（３）事前に指定されたライブラリから事前にプロビジョニングされたコードをロードし、
（４）ステップ１からのコンパイル済みコードをセキュアエンクレーブにロードし、
（５）適切な資格認証情報を生成し、
（６）セキュアエンクレーブのイメージ及び資格認証情報を保存する。

いくつかの実施形態では、以下の方法を実行して、セキュアエンクレーブ内でコードを実行してもよい。
方法［セキュアエンクレーブ内でのコードの実行］
（１）アプリケーションの非セキュア部分（例えば、アプリケーション１００）をセキュアなイメージと共にコンパイルし、
（２）アプリケーションを実行し、
（３）アプリケーションは、セキュアエンクレーブを生成し、イメージをセキュアエンクレーブにロードし、
（４）様々な資格認証情報を検証する。

セキュアエンクレーブのハードウェア及びソフトウェアの構成要素は、エンクレーブ内のコード及びデータの完全性及び機密性を保護することによって、データプライバシーをもたらす。入口点及び出口点は、アプリケーションコードをコンパイルするときに、事前に定義される。セキュアエンクレーブは、そのアプリケーションから暗号化されたデータを送信／受信し、暗号化されたデータをディスクに保存し得る。エンクレーブは、そのアプリケーションのメモリにアクセスし得るが、その逆は真ではなく、すなわち、アプリケーションは、エンクレーブのメモリにアクセスし得ない。

エンクレーブは、指定されたコンピュータ上で実行され得る自己完結型実行可能ソフトウェアである。例えば、エンクレーブは、外部リソース又は共有リソースを呼び出すのではなく、動作中に使用するリソース（例えば、コードライブラリ）を含んでもよい。場合によっては、ハードウェア（例えば、グラフィック処理ユニット又は特定の量のメモリ）要件、及びオペレーティングシステム（例えば、Ｌｉｎｕｘ（登録商標）バージョン２．７又はＡｌｐｉｎｅＬｉｎｕｘ（登録商標）バージョン３．２）要件が、エンクレーブに対して指定されてもよい。

図２は、いくつかの実施形態による、健康データを処理するための使用事例のシナリオを示している。データ提供者は、ユーザの名前、住所、患者ＩＤ番号、郵便番号、及び他のユーザ固有のデータなど、属性の一部が個人データであり得るデータ記録を含むデータベース２００を提供する。データベース２００は、場合によってはクラウドサーバ環境に存在する、集合的にパイプライン２１０と呼ばれる１つ又は複数のコンピュータに接続される。

図２はまた、エンクレーブ２２０の外部に存在する（プログラム提供者によって提供される）コンピュータプログラム２７０を示している。これは、前述したように、セキュアエンクレーブに含まれていないため、セキュアでないプログラムである。方法「セキュアエンクレーブの生成及び入力」を使用して、プログラム２７０は、パイプライン２１０にセキュアエンクレーブを生成し、そのセキュアなアプリケーション部分であるアプリケーション２３０をそれに入力する。アプリケーション２３０は、セキュアエンクレーブ内にあるため、定義上、セキュアである。

方法「セキュアエンクレーブの生成及び入力」で説明したように、事前にプロビジョニングされたソフトウェアは、セキュアエンクレーブにロードされ得る。ＳＥ２２０は、とりわけ、ＴＬＳ（トランスポート・レベル・セキュリティ）接続のための１つのエンドポイントとして機能する事前にプロビジョニングされたソフトウェア２４０－２を含む。ＴＬＳ接続のための第２のエンドポイント２４０－１は、データベース２００に存在する。（ＴＬＳの代わりに、任意のセキュアなネットワーク接続技術、例えばｈｔｔｐｓ、ＶＰＮなどを使用してもよい。）

ＴＬＳ接続は、データベース２００からデータを検索するために、アプリケーション２３０によって使用されてもよい。アプリケーション２３０はまた、データ記録の受信を実行するためのプロキシメカニズムを含んでもよい。

更に、ＳＥ２２０は、その機能を後述する、事前にプロビジョニングされたソフトウェアモジュールＰＡ２５０（ポリシーエージェント）及びＡＣ２６０（アクセスコントローラ）を含む。

したがって、ＳＥ２２０のプログラムアプリケーション２３０は、ＴＬＳエンドポイント２４０－１及び２４０－２を使用してデータベース２００からデータを検索し得る。ＴＬＳ技術は、転送されるデータがセキュアであることを保証する。データベース２００は、暗号化されたデータ記録を含んでもよい。したがって、アプリケーション２３０は、暗号化されたデータ記録を受信する。動作中、アプリケーション２３０は、受信したデータ記録を復号し、そのプログラムされたロジックに従って、それらを処理する。（復号を行う方法については後述する。）

上述の「セキュアエンクレーブでコードを実行する」方法を使用して、アプリケーション２３０を呼び出し、次いでデータベース２００からデータを検索して、復号し得る。処理の結果は、ポリシーエージェントＰＡ２５０の制御下にある、エンティティラベル付きデータサイエンティスト２８０に向けられてもよい。一般に、ＰＡ２５０は、ポリシーマネージャ２８０と連携して動作する。ＰＡ２５０及びポリシーマネージャ２８０の機能及び相互運用については、後で詳細に説明する。

いくつかの実施形態では、ポリシーマネージャ２８０は、それ自体のセキュアエンクレーブ２９０内に存在してもよい。

図２は、２つのセキュアエンクレーブ２２０及び２９０を含むパイプラインを示している。実施形態では、パイプラインは、１つ又は複数のセキュアエンクレーブを含み得る。更に、１つ又は複数のセキュアエンクレーブは、（例えば、計算作業タスクを分散させるために）相互接続されてもよい。例えば、１つ又は複数のセキュアエンクレーブは、計算タスクの同時実行を実現するために、マップ低減構成として知られるものを実現する相互接続であってもよい。パイプラインは、１つ又は複数のコンピュータを使用して実装されてもよく、例えば、セキュアエンクレーブは、複数のコンピュータ、例えばクラウドサーバ環境に存在してもよい。図２は、エンクレーブに接続された単一のデータベース２００を示している。実施形態では、１つ又は複数のデータベースを１つ又は複数のエンクレーブにそのように接続してもよい。

要約すると、計算タスクは、セキュア部分及び非セキュア部分を有するアプリケーションプログラムとして、それを符号化することによって実現され得る。呼び出されると、アプリケーションの非セキュア部分は、１つ又は複数のセキュアエンクレーブを生成し、そのセキュアな部分をセキュアエンクレーブに投入し、その実行を呼び出す。アプリケーションのセキュア部分は、エンクレーブに接続された（事前にプロビジョニングされた）データベースからの、又は他のエンクレーブからのデータにアクセスし得る。そして、アプリケーションのセキュア部分は、受信したデータを復号する。次いで、処理は、相互接続されたエンクレーブの構成を利用して、場合によってはアプリケーションのロジックに従って進行する。結果は、ポリシーエージェントを介してデータサイエンティストに提示される。

データが決して復号されず、処理が暗号化されたデータに対して進行するＦＨＥデータセット手法と比較して、図２に示す構成では、エンクレーブ内のデータは、暗号化された形式であり、処理前に復号される。これは、結果が外部エンティティと共有される前に再暗号化されてもよい。したがって、図２の構成は、ＦＨＥと比較して効率的であり、処理速度の向上を実現し得る。

上述のパイプライン技術は、個人データを含み得るデータセットに対して計算を実行し得る。パイプライン技術の一態様は、セキュアエンクレーブ内のデータ（及びプログラム）が、秘匿可能であること、すなわち、ポリシーマネージャ（又はそのコホート、ポリシーエージェント）によって行使されるポリシー制御を受けることである。更に、プログラムの実行の結果として生成される出力はまた、ポリシーに従って方向付けられてもよい。

例として、とりわけ、患者の体重、身長、生年月日、及び住所を含むデータセットに記憶された個々の患者の肥満度指数（ＢＭＩ：ｂｏｄｙｍａｓｓｉｎｄｅｘ）を計算するパイプラインで実行される計算を考える。次いで、計算は、様々な米国の郡にわたる平均ＢＭＩを計算するために進む。

これらの計算は、個人の患者データを含むので、計算はプライバシー規制の対象となり得る。様々なタイプの出力は、（１）平均ＢＭＩが最も高い米国の５つの郡のデータセット、（２）「過体重」ＢＭＩであり、住所を含む５人の患者のデータセット、（３）マサチューセッツ州ノーフォーク郡の郵便番号及びＢＭＩを含む患者のデータセット、（４）マサチューセッツ州デダムの２５～４５歳で、「過体重」ＢＭＩである患者のデータセット、又は（５）マサチューセッツ州デダムのアライドストリートで体重、身長及び年齢を含む患者のデータセットなどの例が望ましい場合がある。いずれの場合も、計算への入力は、個人データを含み得るデータセットであり、出力は、個人データを含み得るデータセットである。

上記の第１の出力データセットは、郡の人口のレベルに集約されたデータを列挙し、ＰＩＩデータ属性を含まない。結果は、いかなる単一の個人のデータ記録からも独立し、結果は母集団に関係する。したがって、ポリシーは、そのようなデータセットが出力され得る、すなわち平文として出力され得ることをもたらし得る。

一方、上記の第２の出力データセットは、（１）個人を識別可能な情報、すなわち住所を含み、（２）データセット内の項目の数、すなわち出力セットのカーディナリティは小さい。悪意のあるエージェントは、そのようなデータセットから特定の個人を切り分け得る可能性がある。この場合、そのような要求を禁止するように、ポリシーが形成され得る。

すなわち、出力データセットのカーディナリティに制約を課す、プライバシーパラメータと呼ぶパラメータＫを与えてもよい。したがって、そのＰＩＩ属性がＫ人未満の個人を識別する場合、出力データセットは禁止される可能性がある。

追加的又は代替的に、データサイエンティストによって提出されたクエリに応答するコンピュータプログラムと共に、出力データセットは、意図された受取人、例えば、データサイエンティストに、セキュアエンクレーブ内で暗号化された形式で提供されてもよい。次いで、データサイエンティストは、（セキュアでない）アプリケーションプログラムを使用して、エンクレーブ内の（セキュアな）プログラムにクエリし、エンクレーブの応答を受信してもよい。したがって、データサイエンティストは、患者データを見ることはできないが、データサイエンティストのクエリに対する応答を受信し得る。更に、セキュアなプログラムの応答は、出力データセットの選択及び所定の「ビュー」のみを明らかにするように制約されてもよく、「ビュー」は、データベースシステムにおけるビューについて一般的に受け入れられている概念に対応し得る。あるいは、出力データセットは、ＦＨＥを使用してデータセットを最初に暗号化することによって、出力データセットをセキュアエンクレーブに密封することなく、データサイエンティストに提供されてもよい。

上記の第３の出力要求では、データは任意の郡の郵便番号にわたって集約されているため、そのような患者の数が十分に多い場合には、プライバシーの懸念を生じない可能性がある。そのような例では、出力データセットのサイズに制約を課すポリシーを形成することができ、例えば、出力データセットは、少なくとも２０人の患者に関するデータを含まなければならない。同様のポリシーを、第４及び第５の出力要求にも使用し得る。

いくつかの実施形態では、データセットのカーディナリティが、制約を課した制限未満である場合、ランダムなデータ記録を、出力データセットに追加することを提供するポリシーを形成してもよい。なわち、最小サイズ、例えば２０人の出力を実現するために、十分な記録が出力データセットに含まれるように、制約が課される。

出力要求（例えば、上記の第３、第４及び第５の出力要求）が一連の要求として発行されるとき、加えて、出力が、単一のエンティティ（例えば、データサイエンティスト）によって、又は結託して出力を共有する複数のエンティティによって、収集されるとき、更なる課題が発生する可能性がある。出力要求は、小さい母集団サイズに連続的に適用される計算データセットを要求するので、そのような「絞込み」計算を使用して、特定の個人に関する情報を取得する可能性がある。

文献（ＣｙｎｔｈｉａＤｗｏｒｋ，ＤｉｆｆｅｒｅｎｔｉａｌＰｒｉｖａｃｙ：ＡＳｕｒｖｅｙｏｆＲｅｓｕｌｔｓ，２００８年、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｆＭｏｄｅｌｓｏｆＣｏｍｐｕｔａｔｉｏｎ）に示されているように、ますます増大する絞込み（又はより正確な応答）のシーケンスは、最終的に個人情報を漏洩する。

図３は、上述した様々なポリシーを示している。これらのポリシーは、例示を目的としており、実装される実際のポリシーは異なっていてもよい。

いくつかの実施形態では、ポリシーエージェントは、パイプラインの１つ又は複数のセキュアエンクレーブに、事前にプロビジョニングされたソフトウェアとして含まれるように構成されてもよい。ポリシーエージェントは、ポリシーマネージャ（後述）から、そのポリシーを受信し、すべての出力データセットに、そのポリシーを課す（そのいくつかの例は上記の説明で提供した）。様々な（企業）当事者間の帯域外契約を使用して、当事者が、ポリシーエージェントに含まれる事前にプロビジョニングされたポリシーを指定し、表示し得る。

ポリシー・エージェント・ソフトウェアはまた、エンクレーブ内で実行されるプログラムによって行われる、すべてのアクセス及び他のアクションを記録する、すなわちログ記録する。

ポリシーマネージャは、１つ又は複数のポリシーエージェントを管理するように構成され得る。ポリシーマネージャはまた、後述する他の機能を実施してもよい。簡単にするために、本開示は、マスタ－スレーブ構成においてパイプライン内のすべてのポリシーエージェントを管理するパイプラインのために、単一のポリシーマネージャを示す。

本開示はまた、例示目的のためにパイプラインのオペレータのドメインで実行されるポリシーマネージャを示しており、様々な代替形態が可能である。いくつかの実施形態では、ポリシーマネージャは、オペレータ、データ提供者、プログラム提供者又はデータサイエンティストのいずれかによって制御される任意のドメインに、実装されてもよい。ポリシーマネージャが分散型技術を用いて実装される場合、ポリシーマネージャの制御は、上記企業エンティティのうちの１つ又は複数にわたって分散型であってもよい。本開示で使用される「分散型」という用語は、ポリシーマネージャを制御するポリシーが、単一の当事者ではなく、複数の当事者によって提供され得ることを意味する。

例えば、図７は、ポリシーマネージャの分散型制御の１つの例示的な実施形態を示している。図７は、行がグループを記述するポリシーマネージャに含まれる表を示している。グループは、協調エンティティ、及びそれらの協調に関連する要素の集合である。協調エンティティのグループは、それらの個々のポリシーを介してポリシーマネージャの制御を行使する。アルゴリズムａ１を提供するメンバとしてＡ１という名前のエンティティを有し、データｄ１を提供するＤ１という名前の別のメンバを有する、グループ１という名前のグループを、１行目は示している。２つのメンバによって提供されたデータ及びアルゴリズムは、処理されており、ロードイメージは、パイプラインにロードされるように準備されている。準備されたロードイメージは、セキュアな記憶装置に記憶され、リンクＬ１を使用することによってアクセスされ得る。

いくつかの実施形態では、ポリシーエージェントは、ポリシーマネージャを用いて、その状態を記録してもよい。更に、レギュレータ及び／又は第三者エンティティが、個々のポリシーエージェントの記録された状態を試験し得るように、ポリシーマネージャが、構築されてもよい。したがって、レギュレータ及び第三者エンティティは、データセットが出力された制約を試験し得る。実施形態では、ポリシーマネージャの可能な実装方法は、ブロックチェーンシステムであり、その台帳は、不変データ記録を含んでよい。

上述のシナリオでは、データサイエンティストが、セキュアエンクレーブに密封された出力データセットを受信し得ることを、ポリシーは指示し得る。これは、データセット内のデータが、データサイエンティストにとって不透明であることを意味する。データサイエンティストは、新たな要求をエンクレーブに投入することによって、エンクレーブ内の出力データセットに対して追加の出力要求を自由に実行することができる。これらの場合、出力データセットがＰＩＩデータを有していないか、又はプライバシーパラメータ制約に違反していないとき、データセットは、制約されなくなり、データサイエンティストにとって利用可能になり得る。

いくつかの実施形態では、データサイエンティスト又は他の要求者は、エンクレーブ内に含まれるデータセットのコンテンツを閲覧してもよい。エンクレーブをウェブブラウザに接続することによって、更にエンクレーブのコンテンツをウェブページとして表示させることによって、エンクレーブのコンテンツは、要求者にとって利用可能になり得る。これにより、要求者がブラウザの状態を、保存又はコピーすることを防止し得る。しかしながら、場合によっては、要求者は、ブラウザページの視覚イメージを取得してもよい。

いくつかの実施形態では、データサイエンティストは、データ要求を提出してもよく、その後、それは、キュレーションサービスを使用してキュレートされる。キュレーションサービスが、データ要求をプライバシー保護であると見なす場合、データ要求は、エンクレーブ内のデータセットを使用して処理され、出力データセットは、制約のないデータセットとしてデータサイエンティストに提供され得る。このようにして、キュレーションサービスは、提出されたデータ要求が良性であること、すなわち、データ要求が、プライバシー規制に違反する出力を生成しないことを、チェックし、保証する。

上述したように、エンクレーブの内部のプロセスが秘匿可能であるため、エンクレーブを使用して個人データを処理することに関連する更なる課題は、エンクレーブ内で実行される計算について、ポリシーを提供し得るか否かである。例えば、図２に関して上述した一般的な説明に従って、セキュアエンクレーブ技術の使用事例を考える。暗号化されたデータを所有する第１の企業は、データをエンクレーブに記憶し得る。パイプラインを提供する第２の企業が使用するために、エンクレーブ内のデータは、処理され、及び準備されてもよく、コンピュータプログラムは、第３の企業によって提供されるデータを処理する。ここで、データサイエンティストは、データ要求をエンクレーブに投入し、結果として出力データセットを期待し得る。上記で説明したように、一例では、出力データセットは、エンクレーブに密封されたデータとしてデータサイエンティストに提供され得る。別の例では、出力データセットは、データの暗号化ストアとして提供されてもよい。後者の場合、データサイエンティストがデータにアクセスするために、データサイエンティストに復号鍵を提供してもよい。これらすべての行動は、第１、第２又は第３の企業のいずれかによって事前に決定されたポリシーの影響を受ける。

更に、当該ポリシーでは、データサイエンティストがデータを処理し、出力データセットを受信するためのアクセスを許可する必要がある。すなわち、データサイエンティストによるアクセスは、認証されなければならない。データの完全性がデータ処理パラダイムにとって重要であるので、指定されたデータ提供者によって提供されたデータに対して、データサイエンティストのデータ要求が動作することを保証される必要が、データサイエンティストにはある。特に、データサイエンティストが、出力された結果を第三者と共有することを意図している場合、データサイエンティストは、入力データの完全性、及び結果が特定のデータ要求を実行することによって得られたという事実を、前者に保証する必要があり得る。データを保存及び処理するプロセス全体が、透明でなければならず、調査及び事後承認のために利用可能でなければならないことを、レギュレータは要求し得る。

上述した様々な懸念に対処するために、図４Ａのワークフロー図に示すように、オーケストレーション方法を実行し得る。ワークフローには、以下のエンティティ、（１）データ提供者、すなわち、データを所有するエンティティと、（２）オペレータ、すなわちパイプライン技術を提供するエンティティと、（３）データを処理するためのコンピュータプログラムを提供するプログラム提供者と、（４）データサイエンティスト、すなわち、出力された結果の取得を望むエンティティと、（５）ポリシーエージェントを制御するソフトウェアモジュールを含み得るポリシーマネージャと、が関与する。

図４Ａを参照すると、ステップ１、２、３及び４において、データ提供者、データサイエンティスト、プログラム提供者、及びオペレータはそれぞれ、それらのポリシーを指定する。ステップ５において、ポリシーマネージャは、ポリシーエージェントを開始する準備をする。ステップ６において、オペレータは、新しいパイプラインを生成し、ステップ７において、パイプラインの生成についてオーケストレーションの参加者に通知する。参加者は、ここで、データ、プログラム、及びポリシーをパイプラインに入力し得る。パイプラインは、事前にプロビジョニングされたソフトウェアライブラリでも開始されることに留意されたい。

図４Ｂを参照すると、データ提供者と、パイプラインと、プログラム提供者によって提供されたセキュアなアプリケーションプログラムと、ポリシーマネージャと、データサイエンティストと、ポリシーエージェントとの間のオーケストレーションを示している。
⇒ ステップ１．ポリシーマネージャが、図４Ａのステップ５で準備したポリシーエージェントを開始する。
⇒ ステップ２．セキュアアプリケーションが処理要求を開始する。
⇒ ステップ３．開始要求をログ記録する。
⇒ ステップ４．ポリシーエージェントが、処理要求に関連する適切なポリシー及びアクセス資格認証情報を選択する。
⇒ ステップ５．ポリシーエージェント（ポリシーマネージャの助けを借りて）が、資格認証情報を検証する。資格認証情報を満たさない場合、要求は終了する。
⇒ ステップ６．パイプラインは、処理要求を実行し、データを記憶する。
⇒ ステップ７．パイプラインは、要求された出力が利用可能であることをデータサイエンティストに通知する。
鍵管理

公開鍵暗号は通常、秘密鍵及び公開鍵と呼ばれる一対の相補鍵に依存する。公開鍵は、任意の関係者に分配されてよい。前者、すなわち秘密鍵は常に秘密に保たれる。例えば、アリスによって配布された公開鍵を使用して、別の当事者、例えば、ボブは、アリスのみが彼女の秘密鍵を使用してメッセージを復号し得るという認識において、メッセージを暗号化して、それをアリスに安全に送信することができる。ボブによって暗号化されたメッセージを復号するために、他の鍵は使用できない。前述したように、秘密鍵の所有権は、主要な関心事であり、いくつかの技術が、このトピックに関連する文献で議論されている。

セキュアエンクレーブ技術は、（公開鍵に対応する）秘密鍵が、常にセキュアエンクレーブ内に存在することを保証することによって、秘密鍵の所有権の問題に対処するために使用され得る。これは、例えば、第１のセキュアエンクレーブを生成することによって、更にそれを、秘密鍵と公開鍵の対を生成する公開／秘密鍵暗号化ソフトウェアで事前にプロビジョニングすることによって、実現し得る。そのようなソフトウェアは、オープンソースのリポジトリを介して利用可能である。次いで、第２のセキュアエンクレーブに存在するコンピュータプログラムは、必要となる秘密鍵のコピーを（セキュアなチャネルを使用して）提供するように、第１のエンクレーブに要求し得る。したがって、秘密鍵は、セキュアなエンクレーブインフラストラクチャの外部には決して存在せず、常にセキュアエンクレーブ内に存在し、セキュアチャネルを使用してセキュアエンクレーブ間で送信される。

いくつかの実施形態では、ポリシーマネージャに、公開／秘密鍵ソフトウェアを事前にプロビジョニングし、図２に示すように、ポリシーマネージャをセキュアエンクレーブ内に密封してもよい（２８０参照）。

次いで、セキュアエンクレーブは、そのポリシーエージェントに秘密鍵を要求し得る。ポリシーエージェントは、上述したように、ポリシーマネージャと連携して動作し、ポリシーマネージャに秘密鍵を要求し得る。セキュアエンクレーブで実行されるコンピュータプログラムは、データ提供者から受信し得る暗号化データを復号するために秘密鍵を必要とする場合がある。セキュアエンクレーブで実行されるコンピュータプログラムは、秘密鍵を提供し得るそのポリシーエージェントに、復号目的のために必要な秘密鍵を要求し得る。

先に説明したように、ハッシュ関数又はハッシュアルゴリズムと呼ばれる暗号化技術が存在し、これは、メッセージと呼ばれることが多い平文の文字列を取得し、それを１６進数のシーケンス、すなわち、数字のシーケンス［０～９、Ａ～Ｆ］として暗号化し得る。公開されている利用可能なハッシュ関数の例は、ＭＤ５、ＳＨＡ－２５６、ＳＨＡ－５１２である。後者の２つの関数はそれぞれ、長さ２５６及び５１２の鍵を使用する。上述したように、鍵の長さは、悪意のある攻撃に耐える暗号化技術の強度を保証する要因である。

平文を１６進数にマッピングするハッシュ関数の１つの特性は、異なる平文を同じ数字にマッピングしないことである。したがって、平文は、固有のシグネチャ、すなわち入力としての平文に対して動作するハッシュ関数の出力を有し得る。

プログラム及びデータを含むセキュアエンクレーブが、平文を含むと見なされ得る場合、すべてのセキュアエンクレーブは、固有のシグネチャを有することになる。したがって、セキュアエンクレーブのコンテンツに適切なハッシュ関数を適用することによって、そのエンクレーブのシグネチャを取得する。シグネチャは、他の異なるセキュアエンクレーブが、そのシグネチャを有しないという点で固有である。

セキュアエンクレーブに既知のコンピュータプログラム及び既知のデータセットを入力する場合、そのセキュアエンクレーブのシグネチャを使用して、セキュアエンクレーブのシグネチャと、以前に格納されたシグネチャとを比較することによって、セキュアエンクレーブが、既知のデータセット上でプログラムを実行している（又は実行された）ことをアサートし得る。

したがって、エンクレーブのシグネチャが提供された場合、データ提供者は、そのデータセットが、破損していない、又は変化していないことを、更に所定のプログラムによって操作されることを、保証され得る。

同様に、プログラム提供者は、そのプログラムが、破損していない、及び変化していないことを、保証され得る。データサイエンティストは、その出力が所定のデータに対する所定のプログラムによる処理の結果であることを保証され得る。

関連する復号鍵へのアクセスを拒否することによって、オペレータが、セキュアエンクレーブのコンテンツにアクセスすることを禁止するように、ポリシーマネージャは、プログラムされ得るので、パイプラインのオペレータは、セキュアエンクレーブのコンテンツを閲覧又は編集し得ない。

本開示では、セキュアエンクレーブは、シグネチャを生成するために、ポリシーマネージャによって呼び出され得るハッシュ関数を計算するためのソフトウェアで事前にプロビジョニングされ得る。次いで、ポリシーマネージャは、様々なエンティティ、例えばデータ提供者又はプログラム提供者に要求されると、これらのシグネチャを証明書として提供するようにプログラムされ得る。

ここで図１０を参照すると、初期データセット１００１は、セキュアエンクレーブ１００１に記憶され、処理され、データセット１０１０として出力され得る。データセット１０１０は、セキュアデータ層１００９に存在する。１つ又は複数のアプリケーションは、データサイエンティストによって、エンクレーブ１００２に投入され、データセット１０１０は、そのようなアプリケーションに提供され得る。処理時に、出力データセットは、出力１００８として記憶され得る。出力１００８は、エンクレーブ１００４に更に投入され、企業１００５は、（独自の）アプリケーションを使用して、結果を処理して、データセット１００７として出力し得る。なお、出力データセット１００７は暗号化されている。

したがって、企業１００５は、エンクレーブ１００３に投入されたアプリケーションを実行するか、又はデータセット１００８を異なるエンクレーブ１００４で受け取り、その中で独自のアプリケーションを実行するか、を選択する。

すなわち、一連のエンクレーブ１００１、１００２、１００３及び１００４（図１０）を組み立てることができ、各エンクレーブは、セキュアなデータストア１００９から、暗号化されたデータを受信し、次のラインエンクレーブのためのセキュアな（暗号化された）データセットを順に生成する。したがって、元のデータ所有者１０００は、処理のためにそのデータ１０１１を第三者、すなわち企業１００５に提供し、個人データが漏洩しないことを保証され得る。

適切なデータ要求プログラムが実行され、更に入力データの起源が確認された証明書と共に、企業１００５は、データセット上で独自のデータ要求を実行し、更に処理の結果を顧客に提供する、柔軟性を有する。企業１００５は、データセット１００７の所有権を引き継ぎ得るが、その後、そのプライバシーに対する法的責任を引き継ぐ。

図１０は、エンクレーブのシーケンスを示し、各エンクレーブは、中間のセキュアデータ層を介して別のエンクレーブに接続される。しかしながら、実施形態では、図９に示すように、いくつかのエンクレーブ９０９及び９１０も、同時に実行され得る。更に、すべてのコードがエンクレーブ内に存在するとは限らず、エンクレーブは、必要に応じて非セキュアなコードを含む計算環境と混合されてもよい、９０２参照（図９）。

すべてのエンクレーブに利用可能なセキュアなデータ層と共に、セキュアメッセージング９０４、アクセス制御及びポリシーエージェント通信９０５、並びに暗号化鍵９０６の交換のために、追加の層が、提供され得る。これらの追加の通信層は、エンクレーブが互いに漏洩することなく、安全に様々な種類のデータを交換し得るように、設けられる。

図８に示す例示的な実施形態を参照すると、第１の企業８００は、データセット２Ａを取得するために、識別解除し、及び匿名化し得るデータセット１を所有する。前述したように、識別解除手順は、完全に有効ではない可能性があり、データセット２Ａは、依然として何らかの個人データを含み得る。第１の企業は、第２の企業８９０による処理で利用可能であり得るように、セキュアデータ層８１０において、２Ｂとして示すデータセット２Ａのコピーを提供する。

企業８９０は、データセット２Ｂを受信し、データセット２Ｂをエンクレーブ８０２に記憶させ、エンクレーブ８０２で、データセット２Ｂは、更なる処理のために処理され、準備され、その後、データセット８５０としてセキュアデータ層８１０に記憶される。

エンクレーブ８０２は、エンクレーブ８０３にパイプライン接続され、このことは、データセット８５０が、エンクレーブ８０２から出力され、エンクレーブ８０３への入力として提供されることを意味する。ここで、エンクレーブ８０３内のアプリケーションは、データを処理し、出力データセット８０９を生成し得る。

次に、企業８９９が管理するネットワーク内に存在するエンクレーブ８０４に、エンクレーブ８０３は、パイプライン接続される。すなわち、エンクレーブ８０３は、企業８９０によって管理され、エンクレーブ８０４は、企業８９９によって管理される。後者の企業は、追加のデータ８１１をエンクレーブ８０４に投入し、また、データセット８０５を生成するために、入力データセット８０９と共に、データセット８１１を処理するためのアプリケーションを投入し得る。計算の結果は、ポリシーエージェント／マネージャの指示に従って、企業８９９のデータサイエンティストがアクセスし得るようになる。

図８はまた、企業８９９が、エンクレーブ８０３に投入される、（おそらく処理の結果として得られる）エンクレーブ８０４からのデータを提供し得る例示的な実施形態８４９を示している。これにより、得られた結果を更なる処理のために再導入すること、すなわち、結果の更なる処理のためのフィードバックループが可能になり得る。

前述の説明では、様々な実施形態が、複数の当事者によるデータを協調的に記憶し、処理し、及び分析するシステム及び方法を有することを示している。例えば、図８は、協調する３つの企業８００、８９０、８９９を示している。企業８００は、データを提供し、企業８９０は、データをエンクレーブに記憶するインフラストラクチャを提供し、企業８９９は、特定のデータ要求をエンクレーブに投入することによって、データを処理する。一実施形態では、中央信頼モデルが使用され、それは、第１の企業によって提供されたデータが協調合意の下で第２の企業に利用可能にされることを保証するために、企業のうちの１つ、例えばインフラストラクチャを提供する企業が信頼される。すなわち、データアクセス及びデータ処理が、様々な所有権及び処理上の懸念に従うことを、信頼された企業は保証する。データ提供者のデータは、承認された企業だけが処理することを、データ提供者は保証されることを望む。データ処理者は、データ要求を非公開にし、処理要求の詳細を競合企業と共有しないことを望む。そのような懸念の維持は、信頼された企業にかかっている。そのような実施形態は、集中型信頼モデルと呼ばれることがあり、すなわち、１つの企業又はエンティティに信頼が置かれる。

別の実施形態では、複数の企業が信頼されている分散型の信頼モデルが提供されてもよい。そのような信頼モデルは、オープンな市場において特に適している可能性があり、そこでは、データ提供者が、データを提供し、分析者が、提供されたデータを処理するデータ要求、すなわちコンピュータプログラムを提供する。単一の企業又はエンティティは、分散型モデルにおいて信頼されるべきではない。むしろ、データ提供者及びアルゴリズム提供者を支配する制約が維持されていることを検証するために、任意の第三者がアクセスし得るオープンに利用可能な構造が提供される。

図７は、分散型信頼モデルの１つの例示的な実施形態を示している。図７は、行がグループを記述する表を示している。グループは、協調エンティティ、及びそれらの協調に関連する要素の集合である。プログラムａ１を提供するメンバとしてＡ１という名前のエンティティを有し、データｄ１を提供するＤ１という名前の別のメンバを有する、グループ１という名前のグループを、１行目は示している。２つのメンバによって提供されたデータ及びアルゴリズムは、処理されており、ロードイメージは、エンクレーブにロードされるように準備されている。準備されたロードイメージは、セキュアな記憶装置に記憶され、リンクＬ１を使用することによってアクセスされ得る。

上述したように、イメージをエンクレーブにロードするために、データを暗号化する特定の暗号化鍵が必要である（その対応する復号鍵は、データを復号するためにエンクレーブによって使用される）。

前述の実施形態は例示であり、多くの追加の代替の実施形態が可能であることを理解されたい。いくつかの実施形態では、上述の連合型パイプラインの少なくとも一部は、Ｉｎｔｅｌ社のＳｅｃｕｒｉｔｙＧｕａｒｄＥｘｔｅｎｓｉｏｎｓ（ＳＧＸ）などの保護メモリを提供するハードウェア及びファームウェア上で実行されてもよく、その実装の詳細は、ｈｔｔｐｓ：／／ｗｗｗ．ｉｎｔｅｌ．ｃｏｍ／ｃｏｎｔｅｎｔ／ｗｗｗ／ｕｓ／ｅｎ／ａｒｃｈｉｔｅｃｔｕｒｅ－ａｎｄ－ｔｅｃｈｎｏｌｏｇｙ／ｓｏｆｔｗａｒｅ－ｇｕａｒｄ－ｅｘｔｅｎｓｉｏｎｓ．ｈｔｍｌで説明されている。いくつかの実施形態では、連合型パイプラインの少なくとも一部は、ＡＭＤ社のＳｅｃｕｒｅＥｎｃｒｙｐｔｅｄＶｉｒｔｕａｌｉｚａｔｉｏｎ（ＳＥＶ）などの隔離された仮想マシンを生成する仮想化ソフトウェアを使用して実行されてもよく、その実装の詳細は、ｈｔｔｐｓ：／／ｄｅｖｅｌｏｐｅｒ．ａｍｄ．ｃｏｍ／ｓｅｖ／で説明されている。いくつかの実施形態では、連合型パイプラインは、Ａｍａｚｏｎ社のＡＷＳＫｅｙＭａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅ（ＫＭＳ）などの鍵管理サービスを使用して暗号化鍵を管理してもよく、それは、ｈｔｔｐｓ：／／ａｗｓ．ａｍａｚｏｎ．ｃｏｍ／ｋｍｓ／で更に詳細に説明されている。しかしながら、ハードウェア、ファームウェア、仮想化ソフトウェア、及び鍵管理サービスのこれらの例は、異なる所有権、ポリシー及び証明を有する連合型パイプラインを生成するために使用され得る暗号プロトコルに基づく隔離されたソフトウェアプロセスを独立して生成し得ない。したがって、いくつかの実施形態では、基礎となるハードウェア／ファームウェア、オペレーティングシステム、鍵管理、及び暗号アルゴリズムを使用して、セキュアエンクレーブなどのセキュアで、プライベートな隔離されたプロセスを実現し得るミドルウェア（例えば、ソフトウェアの層）が、提供されてもよい。

いくつかの実施形態では、セキュアエンクレーブを互いに連結して、パイプラインを形成してもよい。そのような実施形態と一致して、計算をサブタスクに分割することができ、サブタスクは、パイプライン内で、パイプラインの構成に基づいて同時に若しくは順次に、又はその両方で処理される。

いくつかの実施形態では、証明サービスを、パイプラインに関連付けてもよい。証明サービスは、パイプラインの開始からパイプラインの終了までに生じる信頼のチェーンを確立し、これは、パイプラインの内部コンテンツが外部エンティティを観察できない場合でも、外部エンティティの保証を提供する。いくつかの実施形態では、関連するパイプライン自体を拡張することなく、信頼のチェーンを更に拡張してもよい。

健康データを扱う１つの方法は、個人データ属性を匿名化又はマスキングすることであり、例えば、処理又は分析される前に、社会保障番号をマスキングすることである。本開示のいくつかの実施形態では、健康記録から個人情報をマスキングする、及び識別解除するための方法を用いてもよい。これらの方法を使用して、マスキング又は識別解除された、そのデータ属性の様々な部分を、健康記録を含むデータセットは有し得る。したがって、結果として得られるデータセットは、１人又は複数の特定の個人を識別し得る個人情報を含み得ない。

しかしながら、健康記録の性質を考えると、健康データセットを完全に匿名化又は識別解除することは不可能である。例えば、データセットは、その後デジタル的に転写される、医療提供者によって取られた同時期の（手書きの）ノートを含む場合がある。多くの健康データセットは、アナログデータ、例えば病理データをデジタル化することによって得られる。したがって、データセットは、特に多数の記録を含む場合、匿名化又は識別解除されていない個人情報を含み得る。

特定のアプリケーションドメインについてのテキストにおける情報マスキングは、極めて高いレベルの性能、特にリコール（モデルによってタグ付けされた機密エンティティの数と機密エンティティの総数との間の比）を要求する。例えば、電子健康記録（ＥＨＲ）内の名前、場所、電話、住所などの患者識別情報をマスキングして、研究目的でそれらを公開するには、ＥＨＲ記録を研究用に公開するために、極めて高いレベルのリコールが必要である。米国の病院及び医療研究センターでは、ＥＨＲの採用が９％（２００８年）から９６％（２０１７年）に急増している。臨床試験データセットは、ＥＨＲがその一部である現実の証拠データのほんの一部を表しており、２００３年以来、大手製薬会社ごとに約３，４９０回の介入臨床試験において、２００３年以来、大手製薬会社ごとに約１００万人の患者が扱われている。この観点を通して、主要な米国及び世界的な健康組織のすべてにわたって医療提供者独自のＥＨＲデータセット（非構造化データ及び構造化データ）を合成することは、研究開発（Ｒ＆Ｄ）データサイエンスの現代のカーネルとして現われ、臨床試験データセット及び純粋に構造化されたＥＨＲ／請求データベースへの現在の依存に取って代わることになる。適切に行われた場合、キュレーションされたＥＨＲデータが、Ｒ＆Ｄ目的に使用される臨床データを大幅に強化／増強することができるので、更にはバイオ医薬品会社が、追加の臨床試験を実行する必要なく、追加の承認及びライン拡張を得ることができるように、薬物が現実世界で有効であることを規制当局（ＦＤＡなど）に実証するための代替方法を提供することができるので、キュレーションされたＥＨＲデータは、バイオ医薬品会社にとって重要な資産となり得る。

しかしながら、そのような堅牢な「臨床ゲノム」データセットの生成には、関連するいくつかの課題がある。まず、データの所有権及びデータの識別解除は、これらの課題のうちの２つである。ＥＨＲデータからの識別可能な患者情報は、患者が所有しているが、識別解除された患者レベルのデータは、合成され、市販され得る。機関（病院等）は、識別解除されたＥＨＲデータの現在の「所有者」又は「管理人」であるため、識別解除プロセスが堅牢な方法で行われる限り、そのデータに対する最大限の制御／活用を行うことができる。後者は、個人情報がユビキタスで（臨床ノート、病理報告書など）あるため、更にその個人情報が極めて多様な方法で利用可能であるため、「ディープなＥＨＲデータ」を扱うときの複雑なタスクである。

患者の健康情報（「ＰＨＩ」）としてフラグが立てられた単語、フレーズ、又は数字が、患者のプライバシー又は機密性を危険にさらすことのない識別不能なプレースホルダに置換されることを、識別を解除するプロセスは必要とする。これらの要件の例は、参照によりその全体が本明細書に組み込まれる、米国ＨＩＰＡＡプライバシールール第１６４．５１４セクションによって定義されたセーフハーバ方法に概説されているものであり、これは、マスキングされなければならない１８個のカテゴリのＰＨＩ識別子を指定している。セーフハーバ方法はまた、健康情報の識別解除のためのプライバシールールに含まれる要件を、どのように実施するのが最良であるかをオペレータに知らせるために、参照によりその全体が本明細書に組み込まれる関連ガイドラインを含む。以下のいくつかの実施形態の説明は通常、セーフハーバ方法に従ってマスキングされた患者データを対象としているが、本明細書に記載のシステム及び方法は、これらの実施形態を超えてデータ記録にも同様に適用し得る。

自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）のための現在のディープ・ラーニング・モデルは、それ単独では、本出願で必要とされるこれらの高い性能基準を満たさない。ディープ・ラーニング・モデルが、これらの基準を満たさない理由の１つは、ディープ・ラーニング・モデルが、教師あり学習のために大量のラベル付きデータを必要とすることである。特定のエンティティタイプのための公的に利用可能なラベル付きデータは、場合によっては活用され得るが、必要な高レベルのリコールに達するために、ディープ・ラーニング・モデルは、実際には十分なドメイン固有のラベル付きデータを必要とすることが多い。精度はマスキングの観点から主要な目的ではないが、マスキングされたデータが研究に使用される材料であるためには、精度が高くなければならない。有効性の要件は、精度とリコールの両方について高く、リコールは、通常高い（例えば、最小許容精度は９９．９９９％以上であり得る）。

機密情報を明らかにするエンティティの大規模マスキングは、ＥＨＲアプリケーションに限定されない。例えば、政府機関による機密情報を含む文書の公開は、小規模での人間のキュレーションによって実際には解決されることが多いが、対処するための同じ問題を有する。

ディープ・ラーニング・モデル以前の辞書ベースの方法は更に短くなり、人間のキュレーション／検証を必要とし、大規模マスキングアプリケーションは、規模が原因で、ほとんど実用的ではない。

本開示は、以下に説明するように、これらの制限の１つ又は複数に対処し得る。

（図１１）いくつかの実施形態による、情報マスキングのためのシステムの簡略図であ
る。システムが情報を選択的にマスキングするように訓練されると、システム１１０２に供給されるテキスト入力１１０１は、出力１１０３をもたらし、そこでは、単一の単語又は複数の単語のフレーズのいずれかである関心のあるエンティティのサブセットが、選択的にマスキングされる（一般的なプレースホルダのトークンで置換される）。図１１に示す例では、人、場所、日付、及び年齢の４つのエンティティタイプがマスキングされている。テキスト入力１１０１は、テキストベースの情報の他のリポジトリの中でも、ＥＰＩＣ又はＣｅｒｎｅｒなどの第三者記録データベースから引き出されたＥＨＲのコーパスの部分を表し得る。

（図１２）いくつかの実施形態による、情報マスキングのための制御フローの簡略図で
ある。制御フローは、（対象のエンティティにわたって）未知の確率分布を有する大きなデータセット内の情報をマスキングする方法を説明しており、そのサイズを考慮すると完全なサンプリングは実用的ではない。本開示に記載した方法は、小さなデータセットにわたって未知の分布を自動的に包含する。

図１２は、２つのデータセット１２００ａ及び１２００ｂを示している。データセット１２００ａは、マスキングされるべき１つ又は複数のエンティティタイプに関するラベル付きデータセットである。データセット１２００ａ及び１２００ｂは、特定のエンティティタイプに関連付けられた行及び／又は列を有する表形式を使用して編成された構造化データセットであってもよい。更に、データセット１２００ａ及び１２００ｂは、構造化データフォーマットの特定のセル内に非構造化データを含んでもよく、非構造化データは、自由形式のテキスト又は文であってもよい。エンティティタイプは、他の識別特性の中でも、個人又は組織の名前、場所、年齢、日時、電話番号、ポケットベル番号、臨床識別番号、電子メール及びＩＰアドレス、ウェブＵＲＬ、車両番号、住所、郵便番号、社会保障番号、並びに生年月日を含んでもよい。エンティティタイプについての任意の辞書が、指定されたエンティティタイプに関する１２００ａに追加されてもよい。サブワードを使用して単語を表すＴｒａｎｓｆｏｒｍｅｒを活用した双方向の符号化表現（ＢＥＲＴ：ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）のようなサブワードベースのモデルは、それらのサブワードを共有するエンティティにタグ付けするために、辞書内の単語を構成するサブワードを活用し得る。未知の分布データセット１２００ｂは、特定のエンティティタイプを選択的にマスキングする必要があるデータである。マスキングされる必要があるすべてのエンティティタイプが、事前にラベル付きデータセット１２００ａを有する必要はない。データセット１２００ｂのサンプルを使用して、ブートストラップするために、ラベル付きデータセット１２００ａを生成してもよい。場合によっては、データセット１２００ｂのサンプルは、システム管理者又は主題の専門家によって手動で生成されてもよい一方で、他のサンプルは、パターンマッチングルール、正規表現、辞書及び公開データベース検索を使用して、ＰＨＩ要素を識別する、機械学習又はルールベースのアルゴリズムを使用して生成されてもよい。例えば、ルールベースのアルゴリズムは、「年月日」（例えば、ＸＸ／ＸＸ／ＸＸ又はＸＸ／ＸＸ／ＸＸＸＸ）の形式で提示された日付、又は１０桁の形式で提示された電話番号（例えば、（ＸＸＸ）ＸＸＸ－ＸＸＸＸ）などの標準的な形式の情報のシーケンスのみに基づいてもよい。これらの標準フォーマットに基づいて、ルールベースのアルゴリズムは、パターンを識別し、潜在的に識別する情報を一般的なプレースホルダに置換して、情報をマスキングし得る。

対象のエンティティは、マスキングされる必要があるエンティティに限定される必要はない。モデルが、マスキングされる必要があるエンティティに対して高いリコールを有するだけでなく、研究に必要なエンティティ（例えば、薬物、疾患など）に対しても高い精度を有することを保証するために、大きなエンティティのセットとすることができる。関心のあるエンティティのサブセットのみがマスキングされる。残りのエンティティは、検出されている間、モデル性能評価にのみ使用される。

エンティティタイプごとに、ラベル付きデータセットは、そのエンティティタイプのモデル１２０２を微調整するために使用される。好ましい実施形態は、エンティティのタグ付けごとに少なくとも１つの別個のモデルを説明しているが、複数のエンティティにタグ付けするモデルも排除しない。

本開示の好ましい実施形態では、各タグ付けモデルは、アテンションベース（ａｔｔｅｎｔｉｏｎｂａｓｅｄ）のモデル、例えば、参照によりその全体が本明細書に組み込まれる、Ｄｅｖｌｉｎらによる、「ＢＥＲＴ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆｄｅｅｐｂｉｄｉｒｅｃｔｉｏｎａｌｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ」、ａｒＸｉｖプレプリントａｒＸｉｖ：１８１０．０４８０５に記載されているＢＥＲＴモデルである。しかしながら、シーケンスモデル（例えば、長・短期記憶（ＬＳＴＭ：ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）ネットワーク、条件付きランダムフィールド（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ）を有するＬＳＴＭ（ＬＳＴＭ－ＣＲＦ）、又はリカレント・ニューラル・ネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ））などの他のモデルを、エンティティにタグ付けするために使用してもよい。ＢＥＲＴを使用する場合、エンティティタイプごとに、エンティティタイプに最適な事前訓練されたモデルが選択される。例えば、人、場所などのエンティティにタグ付けする場合、Ｗｉｋｉｐｅｄｉａのような一般的なコーパス上で教師なしで訓練されたモデルで十分であり得る。いくつかの実施形態では、事前訓練されたモデルは、とりわけ、健康科学ジャーナル、専門出版物、査読済みジャーナル出版物、又はオペレータコンパイル型データベースなどのモデル訓練を増強するために、他の既存の公的に利用可能なデータベースに基づくことができる。疾患、遺伝子などのエンティティにタグ付けするとき、科学出版物／生物医学コーパスで訓練されたモデルは、ドメイン固有の言語的特徴をモデルに組み込むことを支援することによって、又は分野で広く普及していない可能性がある新興用語を識別することによって、良い結果を生成し得る。

テキストデータの大きなコーパスからテキストのテンプレート又はパターンを発見するための１つの方法は、統計的な固有表現認識（ＮＥＲ：ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ）モデルを、コーパス内の個々の文に適用することによって生成された類推を含み得る。テキストのパターンが頻繁に繰り返される大きなコーパスでは、統計的方法は、パターンのすべてのインスタンスを捕えない可能性がある。例えば、「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：ＳＭＩＴＨ，ＪＯＨＮＣｏｎ０１／０２／１９８０ａｔ１２：１２ＰＭＣＳＴ」という文では、「ＳＭＩＴＨ，ＪＯＨＮＣ」が人物のエンティティとして検出される可能性があるが、「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：ＤＥＷＥＹ，ＪＯＮＥＳＫｏｎ０１／０２／１９８０ａｔ１２：１２ＰＭＣＳＴ」という極めて類似した文では、「ＤＥＷＥＹ，ＪＯＮＥＳＫ」が完全に人物として検出されない可能性がある。そのような状況では、パターンベースの方法が良好に機能する。「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：［Ａ－Ｚａ－ｚ］＋，［Ａ－Ｚａ－ｚ］＋［Ａ－Ｚａ－ｚ］＋ｏｎ￥ｄ＋／￥ｄ＋／￥ｄ＋ａｔ￥ｄ＋：￥ｄ＋ＰＭＣＳＴ」のような正規表現構文は、すべてのそのようなケースを捕える。しかし、パターンの識別は、特に手動で行われる場合、コーパス内の十分に大きな文のサンプルの検査を含むため、不可能ではないにしても困難な作業になる。ＮＥＲ予測は、それらのタイプによって符号化されたエンティティ値を有する文テンプレートを生成するために使用され、それらの符号化を構文パターンにマッピングし得る。これは、パターン・マッチング・テンプレート候補の生成を自動化する方法を提供する。

一実施形態によれば、ＮＥＲモデルは、図１３に関して以下で更に説明する前処理の形式として、コーパスを個々の文に最初に分割することによって、使用されてもよい。これは、自然言語ツールキット、ｓｐａＣｙ、ＣｏｒｅＮＬＰ、ＴｅｘｔＢｌｏｂ、Ｇｅｎｓｉｍなどの自然言語処理ツールを使用することによって完了されてもよい。いくつかの実施形態では、コーパスを文に分割することは、例えば、同じ文がコーパス内で複数回出現するときに、処理されるテキストの全体量を低減し得る。したがって、コーパスを文に分割し、得られた文のセットの重複を排除することで、計算効率は向上し得る。いくつかの実施形態では、１つ又は複数の短い文（例えば、単語又は用語の数が閾値より少ない文）を組み合わせてもよく、これは、機械学習モデルに追加のコンテキストを提供し、ＮＥＲタグ付け性能を改善し得る。一例として、「Ｐｅｒｆｏｒｍｅｄｂｙｐｅｔ」という文において、「ｐｅｔ」という用語は、動物のペット、又は（他の可能性の中でも）大文字使用を伴わない「Ｐｅｔｅｒ」という名前の人の頭字語のいずれかを意味する可能性がある。しかしながら、前の文が「硬膜外麻酔が４時間後に切れた」であった場合、これは、「ｐｅｔ」が硬膜外麻酔を投与された人の固有名詞を指す可能性が最も高いと類推する機械学習モデルにとって適切なコンテキストの提供となる。

コーパスを文（又は複数文の節）に分割した後、各固有の文は、アルファベット、数字、及び英数字と関連付けられたトークンを含む構文テンプレートにマッピングされてもよい。例えば、文字の連続したシーケンスは、トークン「Ｗ」を使用して識別される一方で、数字のみのシーケンスは、トークン「Ｎ」を使用して識別され、英数字のシーケンスは、トークン「Ａ」を使用して識別されてもよい。例えば、「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：ＳＭＩＴＨ，ＪＯＨＮＣｏｎ０１／０２／１９８０ａｔ１２：１２ＰＭＣＳＴ」という文は、「ＷＷＷ：Ｗ，ＷＷＷＮ／Ｎ／ＮＷＮ：ＮＷＷ」となる。そして、システムは、上記のトークンを使用して生成した各固有のテンプレートに整列するコーパス内の文のリストを生成し、統計的なＮＥＲモデルを適用して、選択されたテンプレートに整列するコーパス内の文の量を決定し得る。しかしながら、このトークンベースの手法を使用すると、文内のすべての単語、数字、及び英数字の文字をトークン化し、そのうちのいくつかはマスキングされる必要がない。システムはまた、テンプレート内で識別されたエンティティタイプに基づいてトークンを符号化する。トークン符号化技術は、内部、外部、開始（ＩＯＢ：ｉｎｓｉｄｅ，ｏｕｔｓｉｄｅ，ｂｅｇｉｎｎｉｎｇ）フォーマット又はＩＯＢ２フォーマットを含んでもよい。例えば、このステップにより、原文「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：ＳＭＩＴＨ，ＪＯＨＮＣｏｎ０１／０２／１９８０ａｔ１２：１２ＰＭＣＳＴ」は、「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：Ｂ－ＰＥＲ，Ｉ－ＰＥＲＩ－ＰＥＲｏｎＢ－ＤＡＴＥａｔＢ－ＴＩＭＥＰＭＣＳＴ」になる。

多数のサンプルが同じテンプレートにマッピングされる場合、システムは、そのテンプレートをルールになる候補として識別し、異なるテンプレートにマッチングするルールの曖昧さを低減する。候補テンプレートをルールに遷移させる前に、システムは、ルール内でマスキングされなければならないエンティティを識別するために、トークン識別された文出力と、ＩＯＢ又はＩＯＢ２符号化出力とを相互参照することによって、テンプレート内のＩＯＢ又はＩＯＢ２タグを、対応する構文トークンに戻し得る。ＩＯＢ２フォーマットとトークンとを置換することにより、トークンに基づく単純化されたルールとすることができるが、マスキングされる必要のない単語又は情報をテンプレートの元のテキストに保持する。例えば、フォーマットされたテンプレート「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：Ｂ－ＰＥＲ，Ｉ－ＰＥＲＩ－ＰＥＲｏｎＢ－ＤＡＴＥａｔＢ－ＴＩＭＥＰＭＣＳＴ」は、名前付きエンティティを識別するためのルール又はパターンテンプレートである「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：Ｗ，ＷＷｏｎＮ／Ｎ／ＮａｔＮ：ＮＰＭＣＳＴ」になる。パターンテンプレート内の構文トークンは、標準的な構文パターンマッチング方法に直接変換する。例えば、「Ｗ」は、正規表現「［Ａ－Ｚａ－ｚ］＋」に、「Ｎ」は、「￥ｄ＋」にマッピングされてもよい。したがって、一実装形態では、上記の例のパターンテンプレートは、正規表現「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：［Ａ－Ｚａ－ｚ］＋，［Ａ－Ｚａ－ｚ］＋［Ａ－Ｚａ－ｚ］＋ｏｎ￥ｄ＋／￥ｄ＋／￥ｄ＋ａｔ￥ｄ：￥ｄＰＭＣＳＴ」になってもよい。

代替的な実施形態では、上述のように、コーパスを個々の文に分離することに続いて、システムは、上記の説明と同様に、統計的なＮＥＲモデルを介して個々の文を最初に渡してもよく、統計的ＮＥＲモデルは、ＩＯＢ又はＩＯＢ２タグで抽出されて、置換されたエンティティ用語を有する各文の出力を生成する。次に、システムは、タグ付きエンティティタイプ又はタグ付きエンティティカウントの指定された閾値カウントをもたらさないテンプレートを除外し得る。例えば、少なくとも２つのエンティティタイプを有するテンプレートのみがルールに適格である、又はエンティティタイプに関係なく、潜在的に少なくとも４つのタグ付きエンティティを有するテンプレートであると、システムオペレータは指定してもよい。閾値カウントが満たされると、システムは、ＩＯＢ又はＩＯＢ２構文トークンを、選択されたテンプレートにマッピングし、更に上述した同じアルファベット、数字、及び英数字のトークン「Ｗ」、「Ｎ」、及び「Ａ」を使用して、パターンテンプレートを生成し得る。パターンテンプレートを生成した後、システムは、パターンテンプレートが固有の統計的なＮＥＲクラスに由来するか否かを評価し、ルールを作成するために、それらの固有のパターンテンプレートを選択し得る。各固有のパターンテンプレートは、特定のパターン化シーケンスに続く文の数に、あるいは異なる数のエンティティ又はエンティティタイプを有する数に、基づいてもよい。例えば、パターンテンプレートのすべてのインスタンス「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：Ｗ，ＷＷｏｎＮ／Ｎ／ＮａｔＮ：ＮＰＭＣＳＴ」が、ＮＥＲテンプレートのインスタンス「Ｅｌｅｃｔｒｏｎｉｃａｌｌｙｓｉｇｎｅｄｂｙ：Ｂ－ＰＥＲ，Ｉ－ＰＥＲＩ－ＰＥＲｏｎＢ－ＤＡＴＥａｔＢ－ＴＩＭＥＰＭＣＳＴ」から生成された場合、それはルール生成のために選択される。そうすることにより、システムオペレータは、コーパス内のエンティティタイプを誤って識別することによって不適切なデータマスキングになる可能性が低くなるように、ルールベースのテンプレートを制限し得る。機密情報をマスキングするなどのいくつかの実施形態では、オペレータが複数のエンティティを同じものとして扱うことが有用である場合がある。マッチングする別のテンプレートは、それらがマッチングの最小数／割合のいくつかの閾値を潜在的に通過した後、手動で検査され得る。例示的なＩＯＢ／ＩＯＢ２構文トークンを使用して説明しているが、このルール生成方法は、コーパス内のエンティティ及びエンティティタイプを示すために、他の形式の構文又はトークンシステムを使用してもよい。

訓練及びルール開発はまた、エンティティタイプに基づいて個々のモデルを評価する前に、一連のカテゴリに基づいてコーパス内の文書又は記録を手動で分類するオペレータで構成されてもよい。記録内の特定のタイプのＰＨＩが、類似して、識別可能である可能性が高くなるように、データ記録は、セグメント記述、サービス記述、及びサービスイベントなどのカテゴリに分類され得る。例えば、特定の記録のセグメント記述は、とりわけ、経過ノート、相談、退院指示書、患者概要、又は医師のノートなど、ノートの性質に基づいてもよい。サービス記述は、医療腫瘍学、整形外科、皮膚科、家庭医療、又は救急科、並びに組織又はビジネスの他のファセットを含む治療の部門又は領域を識別し得る。サービスイベントは、臨床外来患者、入院患者、緊急事態、検査室、内分泌学相談、日中手術、又は他の文書作成設定など、文書が生成された設定を識別し得る。

訓練文書のコーパスが分類されると、個々の検証セットは、個々の分類内で使用され、データ記録の反復位置において、ＰＨＩを一般的に含む反復データフォーマットを識別し得る。例えば、外来設定で収集された皮膚科サービス記述が、文書の第１の文内の個人名情報の形式のＰＨＩを一般に含むという識別を、分類は、もたらし得る。分類はまた、記録タイプごとの患者ノートの数の分布を識別するために使用され、各ノートは、特定の形式のＰＨＩデータを含み得る。分類により、オペレータは、分類メトリックのいずれか１つに基づいて記録ごとのＰＨＩ要素の平均数を識別することも可能にし得る。分類に基づいてＰＨＩの普及を識別することによって、オペレータは、ノートタイプ（ＰＨＩエンリッチ・ノート・タイプとも呼ばれる）及びモデル訓練に優先順位を付けて、大量のＰＨＩデータを含む記録に焦点を合わせ得る。

エンティティタイプに対して、特定の事前訓練されたモデルが選択されると、モデルは、ブートストラップ訓練セット１２０１で微調整される。ブートストラップ訓練セット１２０１は、反復プロセスを使用して更新されてもよく、それによって、訓練サンプルは、訓練サンプルの初期セットに連続的に追加され、これについては図１４に関連して以下で更に説明する。いくつかの実施形態では、既存の訓練サンプルは、以前のモデルで識別されたエラーに基づいて、選択されたコーパスから選択された個々の文によって補完されてもよい。モデルが微調整された後、未知の分布１２００ｂからサンプル評価／テストセットが引き出され（１２０３）、リコール、精度、及びＦスコアレベルを評価することによって、各モデルの有効性が評価される（１２０４）。このステップは、エンティティタイプごとに実施され、リコール／精度スコアが計算される。

平均リコール、精度、及びＦスコアレベルが、ｎ個のテスト（ｎは任意の数）にわたって必要なレベルと少なくとも同程度に良好である場合、そのエンティティ訓練は完了したと見なされる。マスキング手順後に利用可能にされる情報を識別するために、オペレータが有するリスク許容度に応じて、必要なレベルは、システムオペレータによって決定される閾値成功率又は比率であってもよい。すべてのエンティティが所望の閾値に達すると（１２０７）、データセット１２００ｂに対して完全なマスキング実行が行われる（１２０８）。マスキングされたセットに対してサンプリングが行われ、リコール／精度の最終的な測定値について試験される（２０９）。

エンティティタイプの平均リコールスコアが、そのエンティティタイプに対して必要な閾値を上回っていない場合（１２０５）、未知の分布のラベルなしデータセットからサンプルが引き出され（１２０６）、ステップ１２０４において、モデルの有効性を評価するために同じ方法を使用して再び評価される。ステップ１２０６において、閾値要件を満たさなかった失敗した文は、テンプレートサンプルを生成するために使用され、エンティティタイプ内で関連付けられた辞書を使用して、失敗した文内の実際のエンティティインスタンスと、辞書からの同等のエンティティインスタンスとを置換するように、訓練セットに追加される（１２０６）。辞書を使用してエンティティタイプを置換することによって、これは、以前に失敗したエンティティインスタンスが訓練の将来の反復において適切に説明されることを保証する。

図１３は、いくつかの実施形態による、エンティティのタグ付けプロセスの簡略図である。入力テキスト１３０１は、各エンティティタグ取付け部に供給される前に、最小限の事前処理がなされる。いくつかの実施形態では、入力テキスト１３０１は、同時に処理される患者ノートのバッチを含んでもよい。前処理の一部として、システムは、ノートのバッチを分解し、個々の文に文識別子（「文ＩＤ」）を割り当てて、これにより、ノートの各々からの個々の文を個別に処理し、後述する後のコンパイルのために文ＩＤの記録を保持し得る。更に、複数の文が、同じパターン又は情報を含む場合、事前処理の一部として、システムは、文ＩＤを使用して追跡されたバッチ内の文を関連付け得る。このようにして、システムは、識別情報を正確にマスキングするために、関連する文の１つの代表文を処理するだけでよく、関連する文の各々に対して同じマスキングを、後で実施するだけでよい。前処理は、エンティティ依存又はエンティティ非依存であり得る。例えば、人物タグ取付け部への入力の１つの経路は、活字のケースが保存されているテキストとすることができ、同じエンティティタイプの別のエンティティタグ取付け部への入力のための別の経路は、活字のケースの正規化を実施し得る（任意選択で、すべての名詞形を大文字の後に続いて小文字のテキストで開始するようにＰＯＳタグ取付け部を使用する）。いくつかの実施形態では、段落の区切り及び／又は句読点を使用して、患者ノートのバッチのテキストを個々の文に分離してもよい。更に、非構造化テキスト文字列は、テキストファイル、データベース、又は任意の他の一般的に使用されるデータ記憶装置リポジトリシステムから分離されてもよい。

いくつかの実施形態では、ＰＨＩを含まないと一般的に識別され、したがってマスキングを必要としない、共通又は繰返しフレーズを識別するために、タグ付け部モデル１３０２～１３０５に文を導入する前に、ホワイトリストタグ取付け部（図示せず）を使用してもよい。例えば、ホワイトリストに登録されたエントリは、コンピュータ生成テキスト（例えば、「薬の服用に問題がある場合は、かかりつけ医に知らせてください。」）、医師の筆記体の繰返しフレーズ（例えば、「疼痛症状：なし」）、又はセクションヘッダなどの臨床ノートの共有要素（例えば、「現在の病気の病歴」）を含んでもよい。これらのホワイトリスト文は、ＰＨＩ又は他の識別情報を公開するリスクが、ほぼゼロパーセントであるため、処理されるデータから除去され、後のコンパイルのためにアグリゲータ１３０６に渡され得る。ホワイトリストタグ取付け部を生成するために、各固有の文の普及カウントが、手動レビューステップ後の最高カウントに基づいて計算され、識別され得る。システムの一部としてホワイトリストタグ取付け部を使用すると、ＰＨＩを含まないことが知られているデータのタグ付け及びマスキングを必要としないことによって、計算リソースが節約される。

図１３に示すように、複数のエンティティタグ取付け部モデルは、各エンティティタイプにタグ付けし、タグ取付け部モデルの数及びタイプは、とりわけ、そのエンティティタイプに必要な要求されるリコール、精度、及びＦスコアレベルなどに依存する。例えば、タグ取付け部モデル１３０２は、人物又は組織の名前エンティティに合わせて調整され、タグ取付け部モデル１３０３は、日付エンティティに合わせて調整され、タグ取付け部モデル１３０４は、年齢エンティティに合わせて調整され、タグ取付け部モデル１３０５は、疾患エンティティに合わせて調整される。タグ取付け部モデルのいくつかは、ルールベースの手法、ディープ・ラーニング・モデル、及びパターンベースのモデルなどの異なる訓練手法を使用して訓練されてもよい。そうすることにより、エンティティタイプごとに多様なタグ付け手法が生成され、システムがエンティティ情報の識別を見逃す可能性を更に低減する。

好ましい実施形態では、各エンティティタイプは、１つ又は複数のエンティティタグ取付け部モデルによってタグ付けされるが（エンティティタイプのタグ付きの数は一定ではない）、他の実施形態は、複数のエンティティにタグ付けするモデルを有してもよい。いくつかの実施形態では、特定のエンティティに関連付けられた１つ又は複数のエンティティタグ取付け部モデルは、非構造化ＥＨＲデータ内のエンティティに関連付けられた異なる相補的特徴を識別するように微調整されてもよい。例えば、名前エンティティに合わせて調整されたタグ取付け部モデルの場合、任意のモデルは、テキスト内の名前を識別することに焦点を合わせる一方で、別のモデルは、住所及び位置に関連する名前に合わせて調整されてもよく、又は別の場合、追加のタグ取付け部モデルは、事前処理を必要とせずに、名前の活字のケース化及びケース化なしの変形に焦点を合わせてもよい。

モデル１３０２、１３０３、１３０４、１３０５からのタグ付き出力は、すべての所望のエンティティがプレースホルダのタグで置換された文を出力するアグリゲータ１３０６に供給される。アグリゲータは、誤って形成されたエンティティシーケンスの修正（例えば、Ｉ、ＩなどがＢ、Ｉシーケンスに変換される）、タグ付けの競合の解決（疾患と人物の両方にタグ付けされた同じ用語－例えばパーキンソン氏）、誤って整列されたエンティティタイプのスパンの処理、及びタグ付き用語とプレースホルダのタグとの最終的な置換など、複数の機能を実施する。アグリゲータは、エンティティタイプに関する必要なリコール、精度、Ｆスコアに基づいて、フィルタリングされるエンティティに優先順位を付け得る。

次いで、アグリゲータ１３０６からの出力は、ドレグフィルタ１３０７、１３０８が代表的であるドレグフィルタのカスケードを通過する。ドレグフィルタは、特定のエンティティタイプに対する最終的な処理フィルタとして機能して、前の処理ステップでミスした個々のエンティティが、ＰＨＩにアクセスするべきではないユーザへの出力として生成されないことを保証し得る。例えば、ドレグ・フィルタ・カスケード１３０７は、人物エンティティタイプに合わせて調整され、ドレグ・フィルタ・カスケード１３０８は、日付エンティティタイプに合わせて調整される。追加のドレグフィルタは、タグ取付け部１３０２～１３０５に関連するエンティティタイプに向けられて、含められ得る。ドレグフィルタ１３０７、１３０８は、上記のステップでタグ付けされなかった用語／フレーズをフィルタリングする。ドレグフィルタ１３０７、１３０８は、ＰＨＩエンリッチ・ノート・タイプに基づくルールベースのテンプレートを使用して、タグ取付け部モデル１３０２～１３０５によって識別されなかった追加のＰＨＩを除外し得る。ルールベースのテンプレートは、ＰＨＩデータを好適に識別するために、データ記録内の個々の文構造に合わせて調整され得る。各ドレグ・フィルタ・カスケード１３０７、１３０８は、異なるエンティティタイプに向けられ、複数のルールベースのテンプレートを含み得る。ドレグフィルタ１３０７、１３０８はまた、パターン・マッチング・フィルタ又は同様の手法を使用して、ＰＨＩデータを識別し得る。最終出力１３０９は、元の文と、個々の文の各単語に対するタグの関連する配列（例えば、ＩＯＢ２フォーマット）であり、所望のマスキングされた出力をもたらす。最終出力１３０９の前に、システムはまた、モデル１３０２～１３０５にタグ付けすることによって実行されるタグ付けの前に記憶された文ＩＤを使用して、バッチデータセットからノートの各々をコンパイルし得る。

フィルタドレグは、入力文を取り込み、入力は、ＩＯＢ又はＩＯＢ２フォーマットを使用して、文のフレーズの始まり及び終わりをマークするフレーズタグ取付け部を介して送られる。タグ付けされなかったそれらの用語／フレーズについては、存在する場合、エンティティの辞書が、使用され、エンティティタイプごとに、辞書内の用語のベクトル表現と、タグ付けされていないフレーズのベクトル表現との類似性を見つける。これは、その後、前のステップで見逃された可能性があるエンティティを更にフィルタリングするために使用される。

例えば、文に出現した名前「ｊａｙｅｎｄｒａｎｂａｌａｋｒｉｓｈｎａｎ」が、人（偽陰性）、又は任意の他のエンティティタイプ（偽陽性）としてタグ付けされていない場合、そのフレーズは、フィルタカスケード段階１３０７／１３０８でピックアップされ、エンティティタイプごとに、辞書用語のベクトル表現とマッチングされる。類似性測度が何らかの閾値を超える場合、フレーズは、文から、トークン又はトークン表現に置換される。ＢＥＲＴモデルは、サブワードから単語を構築する能力のために、フレーズのベクトル表現を生成するために使用され得る。いくつかの実施形態では、訓練モデル及び／又はドレグフィルタの両方は、関係の強さによって順序付けられた入力用語間の関連付けを使用して、関連付けをグループ化し、ＰＨＩとして不適切にタグ付けされた可能性がある出現中の単語又はフレーズを識別してもよい。例えば、入力「ＥＣＯＧ」は、公的に入手可能な文献に基づいて上位の疾患に関連付けられてもよいが、システムは、「ＥＣＯＧ」を人の名前としてタグ付けしている可能性がある。「ＥＣＯＧ」と、一般的に関連する疾患用語との間の関係を検討することによって、システムは、「ＥＣＯＧ」を適切に識別し、それをＰＨＩとして扱わない場合がある。

次いで、カスケード・ドレグ・フィルタ段階１３０８からの出力は、モデル精度／確度を評価するために使用される。これは、システムオペレータによる最終出力１３０９の手動サンプリング、又は以下に説明する自動化プロセスを使用して完了され得る。

いくつかの実施形態では、出力データで識別されたタグ付きエンティティは、様々な方法でマスキングされてもよい。例えば、タグ付きエンティティは、削除されてもよく、空白文字で置換されてもよく、エンティティのタイプを識別するプレースホルダで置換されてもよい。いくつかの実施形態では、タグ付きエンティティの値は、同じタイプのランダム情報に変更されてもよい。例えば、タグ付きエンティティが電話番号である場合、エンティティはランダムな（又は難読化された）電話番号に変更されてもよい。この手法は、エンティティタグ付けモデルが検出できない個人情報を難読化し得る。例えば、エンティティタグ付けモデルが、所与の記録のセット内で１０個の電話番号のうちの９個を検出してランダム化するが、１０番目をミスした場合、データのエンドユーザは、どの電話番号が実際のものであり、どれが難読化されているか分からず、それによって、タグ取付け部が検出しなかった電話番号に、保護形式を提供する。

いくつかの実施形態では、識別解除が完了した後であっても、オペレータシステム内で患者データ記録を全体的に関連付けるために、特定の患者ＩＤフィールドを保持してもよい。例えば、マスキング後に情報が公開されているにもかかわらず、オペレータが関連する患者ファイルを遡及的に引き出したい場合には、マスキングされた文書のコーパスに、患者インテークＩＤを保持してもよい。患者ＩＤはまた、とりわけ患者の生年月日、住所、病室番号、電話番号、又は電子メールアドレスなどの他の形態をとってもよい。そうすることにより、オペレータは、各個々の記録インスタンスが独立してマスキングされた後であっても、匿名化されたデータの有用性を最大にするために、データ内に有用な医療及び生物学的シグナルを保持し得る。患者及び他の識別子は、そのような目標を達成するために、これらの個々の記録間のリンクを提供し得る。

患者ＩＤがデータ記録インスタンスに保持される場合、いくつかの実施形態は、患者ＩＤを有する患者記録の暗号化バージョンにアクセスすることができる、組織の個人又は指定メンバなどのカバーされるエンティティに対する許可を含んでもよい。例えば、カバーされるエンティティは、共通の患者識別子を有する患者データ記録のバージョンにアクセスするための暗号化鍵、パスワード、又は多段階認証方法など、特定の資格認証情報を有してもよい。他の実施形態では、患者ＩＤは、マスキング手順後にすべての文書に保持されてもよいが、患者ＩＤをその患者の医療記録の完全なセットに相関させるデータベースは、暗号化データファイルに記憶される（患者データの「リンク」とも呼ばれる）。暗号化方法は、ＡＥＳ－２５６暗号化を含んでもよい。データ記録はまた、ソルトを使用しても、又はデータをハッシュするために、追加の一方向関数を使用したランダムなデータシーケンスを使用して、暗号化されてもよい。そうすることにより、暗号化ハッシュの繰返し推測を実行するために、効率的な計算システムを使用して総当たり攻撃によってデータが危険にさらされることを防止する。いくつかの実施形態では、安全なハッシュは、システムがハッシュを患者ＩＤと関連付ける一方向追跡であり、これは、患者データ記録を再構築するために、入力ＩＤと出力ハッシュＩＤを別々のデータリポジトリ又は記憶場所に別々に記憶する必要がある。これは、とりわけ、ＳＨＡ－５１２ハッシュを含んでよい。これらの実施形態では、カバーされるエンティティは、生成された場合、暗号化鍵、ソルト、及び任意の出力マップへのアクセスを制御してもよい。

他の実施形態では、システムは、ＰＨＩがイメージ自体にテキストとして埋め込まれる、Ｘ線又はオプト相同イメージなどのイメージに含まれるＰＨＩをマスキングするために、使用されてもよい。そのような実施形態では、システムは、畳み込みニューラルネットワークを使用して、イメージが作成されるオペレータの好ましいプログラム又はアプリケーションに基づいて、イメージ内の領域を自動的に検出してもよい。いくつかの実施形態では、システムは、イメージ内の識別された領域からテキストを自動的に検出し、抽出し、次いで、そのテキストを、文ごとに関連する上記の説明と同様のデータベースからの置換可能な匿名化テキストにマッピングしてもよい。他の実施形態では、システムは、全スライド・イメージ・レベルのラベルを取り、パッチレベル（例えば、ＰＨＩを含有すると識別されたイメージの部分領域）で予測を行うように訓練された畳み込みニューラルネットワークからなるマルチインスタンス学習（ＭＩＬ：ＭｕｌｔｉＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ）を使用してもよい。代表的なパッチサイズは、イメージの２次元ピクセルサイズに基づいてよく、ピクセルレベルの注釈ではなく、スライドごとのレベルでクラスを予測するために、パッチレベル予測において、最大プーリングを、又はリカレント・ニューラル・ネットワーク（ＲＮＮ）を使用してもよい。別の実施形態では、システムは、イメージ類似性方法を使用して、特定のイメージ内に見られるＰＨＩを識別し、マスキングしてもよい。そのようなモデルを訓練するために、システムオペレータは、訓練イメージの特定の部分領域を選択し、解像度値を設定し、次いで、同じ解像度値でデータベースから、すべての類似パッチを見つけるようにシステムに依頼してもよい。例えば、トリプレット損失概念に基づく分類器ネットワークを最初に構築して、すべての解像度で各イメージから（ベクトルとして）きめ細かい特徴を効率的に学習してもよい。次いで、そのようなイメージ由来特徴ベクトルのデータベースが生成され、イメージの別個の倍率／解像度レベルを別個のイメージ自体として処理する。次に、システムは、最新の高性能高次元類似性検索方法（例えば、とりわけ、シャム型ニューラルネットワーク）を使用して、ユーザがクエリで使用したパッチに最も類似したパッチを見つけ得る。

（図１４）いくつかの実施形態による、有効性をマスキングするためのテストスイート
診断フロー方法を示す簡略図である。テストスイート方法１４００は、図１２に記載したものと同様に、オペレータが、テスト環境で新しいモデルを訓練すること、又はライブシステムに以前に展開された個々のタグ付けモデルのパラメータを継続的に強化して、特定のエンティティモデルの精度、リコール、及びＦスコアレベルを改善することの両方を可能にする。新しいモデルの場合、システムオペレータは、データセット内の特定のエンティティに関連付けられたタグを含むラベル付きデータセット１４０１を、訓練フェーズにおけるシステムに導入し得る。このラベル付きデータセットは、オペレータによって手動で識別されてもよく、又は図１３に記載したモデルタグ取付け部１３０２～１３０５によって生成された以前にラベルが付けられたデータセットの成果であってもよい。ステップ１４０２において、テストスイートの訓練段階において、ラベル付きデータセットは、初期タグ取付け部モデルＶ_０１４０３を訓練するために、初期タグ取付け部モデルＶ_０１４０３に導入される。ステップ１４０４において、モデルＶ_０１４０３は、ラベルなしデータセット１４０９のサブセットを分析し、モデルＶ_０１４０３がラベルなしデータセット内で識別したトークンのセットを有するラベル付きデータセットの出力を生成する。次に、ステップ１４０５において、出力が評価されて、タグ取付け部モデルタイプ（例えば、それがどのエンティティの１つ又は複数のタイプに合わせて調整されるか）を検証し、ラベル付きデータセットからタグ付けされたトークンのエラーを識別する。テストスイートは、モデルＶ_０１４０３出力の精度、リコール、及びＦスコアレベルを決定し、システムオペレータによって決定された閾値に対して３つすべてのスコアを測定する。

ステップ１４０５において、精度、リコール、及びＦスコアレベルが、必要な閾値を満たさない場合、テスト・スイート・システムは、ステップ１４０６において、異なる、又は更新されたラベル付きデータセットを選択し、ステップ１４０７において、更新されたラベル付きデータセットをモデルＶ_０１４０３に再導入し、これにより、モデルが、新しい文字を取り込み、モデルＶ_ｉ１４０８をもたらす。更新されたラベル付きデータセットは、ステップ１４０４で知覚されたエラーに基づくことができ、これにより、モデルは、特定のエンティティタイプを認識するそれ自体の能力を反復的に改善する。再訓練に続いて、モデルＶ_ｉ１４０８は、更新されたラベル付きデータセット内でモデルＶ_ｉ１４０８が識別した新しいトークンのセットを有する更新されたラベル付きデータセットにタグ付けし、その出力は、ステップ１４０４及び１４０５においてモデルＶ_０１４０３と同じ方法で評価される。いくつかの実施形態では、モデルＶ_ｉ１４０８は、臨床ノートなどの報告されたデータのコーパスから取得されたラベルなしデータセット１４０９の一部に対して検証されてもよい。このプロセスは、再訓練されたモデルがステップ１４０５において精度、リコール、及びＦスコアに必要な閾値を満たすまで、反復的に繰り返される。完了すると、検証されたモデルＶ_Ｎ１４１０が、最終的に生成され、ここで、Ｎは、ステップ１４０５において、適切な閾値確度に達する前にモデルを完了するために必要な訓練フェーズ内の反復回数を表す。

確認後、モデルＶ_Ｎ１４１０は、ライブシステムに展開され、ステップ１４１１において、ラベルなしデータセット１４０９の大きなコーパスから受け取ったデータにタグ付けするために使用され得る。ステップ１４１１におけるデータの処理は、図３に関して上述したものと同じであり、ステップ１４１２において最終匿名化データセットをもたらす。

前述の実施形態は例示であり、様々な代替形態が可能であることを理解されたい。いくつかの実施形態では、特定のエンティティタイプに対応する単語のセット（又は複数単語用語）が与えられると、セット内の単語を含むテキスト文書又はコーパスから、１つ又は複数の連続フレーズが抽出される。例えば、組織のタイプに対応する単語のセットを考える。すなわち、セットは、例示的に、「肺」、「肝臓」、「脳」などの単語を含んでよい。セットはまた、「左」、「右」、及び「後」などの用語を含んでもよく、これらは組織のコンテキストで追加の修飾語として使用されることが多い。逆に、単語のセットは、ＰＨＩ又は他の機密情報を表し得る単語及びフレーズを省略してもよい。特定のテキストフラグメント（例えば、「スミスさんは今日、左肺の手術のためにＭＧＨを訪問した」）が与えられると、エンティティ（例えば、「左肺」）に対応する単語のセットに見られる単語で構成されるフレーズが、抽出される。特に、前述の例では、単語のセットが、このフレーズを直接含まない場合でも、「左肺」というフレーズが抽出され、むしろ、セットは、構成単語「左」及び「肺」を含む。このようにして、患者識別可能コンテンツ（例えば、上記の例における名前「スミスさん」）が抽出されない間に、有用な情報が、テキストから抽出され得る。このアプローチは、疾患、薬物などの多種多様な生物医学エンティティに容易に拡張され得る。

いくつかの実施形態では、名前付きエンティティ認識は、ラベル付き訓練文を使用せずに、教師なしの方法で実施されてもよい。例えば、名前付きエンティティ認識は、マスキングされた言語モデル目標を使用してコーパスで訓練されたＢＥＲＴモデルを使用して実施されてもよい。この技術の例示的な例は、２０２０年２月２８日のＴｏｗａｒｄｓＤａｔａＳｃｉｅｎｃｅ（ｈｔｔｐｓ：／／ｔｏｗａｒｄｓｄａｔａｓｃｉｅｎｃｅ．ｃｏｍ／ｕｎｓｕｐｅｒｖｉｓｅｄ－ｎｅｒ－ｕｓｉｎｇ－ｂｅｒｔ－２ｄ７ａｆ５ｆ９０ｂ８ａ）の記事「ＵｎｓｕｐｅｒｖｉｓｅｄＮＥＲｕｓｉｎｇＢＥＲＴ」に更に詳細に記載されており、その全体が参照により本明細書に組み込まれる。

個人の健康データなどの情報を安全に処理し、受け取ることに関連する上述の課題に加えて、情報のリポジトリから検索クエリに応答する情報を検索することは課題であり得る。情報は、文書の集合、データベース（例えば、構造化データベース、半構造化データベース、又は非構造化データベース）、知識グラフなど、様々な方法で記憶され得る。いくつかの情報検索ツールは、クエリ用語に基づいてリポジトリから文書又は他の記録を検索するように設計される。例えば、様々な公的に利用可能な検索エンジン（例えば、Ｇｏｏｇｌｅ又はＰｕｂＭｅｄ）は、ユーザ提供のクエリ用語に関連するウェブページ、ジャーナル記事、書籍などを識別するように構成される。

しかしながら、いくつかのシナリオでは、リポジトリ内の関連する記録を識別することは、ユーザのクエリに対する適切な応答を生成しない場合がある。例えば、ユーザが集約された情報に基づいて判定又は類推を行おうとしているとき（例えば、特定の薬物が特定の疾患に対して有効であることが示されているか否かを、その薬物に対して実施された研究の集合に基づいて判定するために）、関連文書のリストを含む検索結果は、ユーザのクエリに、明確に、そして直接的に応答しない場合がある。例示すると、特定の薬物が、特定の疾患に対して有効であることが示されているか否かの回答を求めるユーザの上記の例では、ユーザは、どの文書がクエリに実際に応答しているかを判定するために、各関連文書（例えば、薬物及び疾患に言及する各文書）を閲覧するという面倒なタスクを課される可能性がある。その後、応答文書のその後の手動分析を実施して、ユーザによって提示された最初の質問に対する回答を生成し得る。検索結果を手動で調べて所望の情報をつなぎ合わせ、適切な判定又は類推を行うこのプロセスは、面倒で時間がかかる可能性がある。

したがって、クエリに応答する情報を検索するための改善された技術を、特に、異種フォーマットで記憶された情報に適用され得る技術を、開発することが望ましい。

図１５は、いくつかの実施形態による、情報検索のためのシステム１５００の簡略図である。システム１５００は、ネットワーク１５１０を介して通信可能に接続された複数のデバイス１５０１～１５０９を含む。デバイス１５０１～１５０９は一般に、パーソナルコンピュータ、モバイルデバイス、サーバなどのコンピュータデバイス又はシステムを含む。ネットワーク１５１０は、１つ又は複数のローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、有線ネットワーク、無線ネットワーク、インターネットなどを含んでもよい。例示的に、デバイス１５０１～１５０９は、ＴＣＰ／ＩＰプロトコル又は他の適切なネットワークプロトコルを使用して、ネットワーク１５１０を介して通信してもよい。

デバイス１５０１～１５０９のうちの１つ若しくは複数は、デジタル文書１５２１～１５２９を記憶し、及び／又はネットワーク１５１０を介してデジタル文書１５２１～１５２９にアクセスし得る。例えば、図１５に示すように、デバイス１５０１、１５０２、及び１５０９はそれぞれ、デジタル文書１５２１、１５２２、及び１５２９を記憶し、デバイス１５０３は、ネットワーク１５１０を介してデジタル文書１５２１～１５２９にアクセスする。デジタル文書１５２１～１５２９は、ウェブページ、デジタルファイル、デジタルイメージ（ビデオ又はアニメーションの１つ又は複数のフレームを含む）などを含んでもよい。例示的に、デジタル文書１５２１～１５２９は、ＨＴＭＬ／ＣＳＳ文書、ＰＤＦ文書、ワープロ文書（例えば、Ｗｏｒｄ文書）、テキスト文書、スライドショープレゼンテーション（例えば、パワーポイントのプレゼンテーション）、イメージファイル（例えば、ＪＰＥＧ、ＰＮＧ、又はＴＩＦＦイメージ）などとしてフォーマットされてもよい。デジタル文書１５２１～１５２９は、異種（例えば、異なるフォーマット又はファイルタイプの）、又は同種（例えば、同じフォーマット又はファイルタイプの）であり、構造化データ又は非構造化データを含んでもよい。一般に、デジタル文書１５２１～１５２９は、英数字、記号、絵文字、テキストのイメージ表現などを含み得るテキストデータを含む。ネットワーク１５１０を介した効率的な記憶及び／又は送信のために、文書１５２１～１５２９は、ネットワーク１５１０を介した送信前又は送信中に圧縮されてもよい。暗号化、認証（多要素認証を含む）、ＳＳＬ、ＨＴＴＰＳ、及び他のセキュリティ技術などのセキュリティ手段が、適用されてもよい。

いくつかの実施形態によれば、デバイス１５０３は、デバイス１５０１、１５０２、及び１５０９からデジタル文書１５２１～１５２９をダウンロードすることによって、デジタル文書１５２１～１５２９のうちの１つ又は複数にアクセスしてもよい。更に、デバイス１５０１、１５０２、又は１５０９のうちの１つ又は複数は、デジタル文書１５２１～１５２９をデバイス１５０３にアップロードしてもよい。デジタル文書１５２１～１５２９は、様々な時点で更新されてもよい。したがって、デバイス１５０３は、最新のコピーを取得するために、様々な間隔（例えば、周期的）で複数回デジタル文書１５２１～１５２９にアクセスし得る。

図１～図１４と一致するいくつかの実施形態では、デバイス１５０１～１５０９のうちの１つ又は複数は、セキュアなデータストア８１０，９０１、及び１００９などのセキュアなデータストアに対応するか、それらを含んでもよい。例えば、デジタル文書１５２１～１５２９のうちの１つ又は複数は、個人の健康データを含んでもよく、したがって、例えば、プライバシー規制に準拠するために、マスキングされた情報を含んでもよい。マスキングは、図１～図１４と一致する技術を使用して、情報マスキングシステム１１０２などの情報マスキングシステムによって実施され得る。いくつかの実施形態では、情報マスキングシステムは、システム１５００の一部として含まれてもよく、別個のシステムであってもよく、又は複数のシステムにわたって分散されてもよい。マスキングは、デバイス１５０３によって、アクセスされる前、アクセス中、又はアクセスされた後に、実施されてもよい。

図１５に示すように、デバイス１５０３は、メモリ１５４０（例えば、１つ又は複数の非一時的メモリ）に接続されたプロセッサ１５３０（例えば、１つ又は複数のハードウェアプロセッサ）を含む。メモリ１５４０は、情報検索プログラム１５５０に対応する命令及び／又はデータを記憶する。プロセッサ１５３０が実行されるとき、情報検索プログラム１５５０により、プロセッサ１５３０は、クエリに応じた情報の検索に関する動作を実施する。いくつかの実施形態では、クエリは、デバイス１５０４のユーザによって入力（例えば、クエリ文字列）として提供され、ネットワーク１５１０を介してデバイス１５０３に送信されてもよい。その後、情報検索プログラム１５５０を使用して決定されたクエリに対する応答は、ネットワーク１５１０を介してデバイス１５０４に配信され、ユーザインターフェースを介してユーザにレンダリングされてもよい。情報検索プログラム１５５０によって実施されるデータフローの例示的な実施形態は、図１６～図１７を参照して以下で更に詳細に説明する。

情報検索プログラム１５５０の実行中、プロセッサ１５３０は、１つ又は複数のニューラル・ネットワーク・モデル１５６０を実行し得る。ニューラル・ネットワーク・モデル１５６０は、入力データに基づいて予測（例えば類推）を行うように訓練される。ニューラル・ネットワーク・モデル１５６０の複数の層、及びその層間の関係を定義する構成１５６２を、ニューラル・ネットワーク・モデル１５６０は含む。層の例示的な例には、入力層、出力層、畳み込み層、密結合層、マージ層などを含む。いくつかの実施形態では、ニューラル・ネットワーク・モデル１５６０は、入力層と出力層との間に少なくとも１つの隠れ層を有するディープ・ニューラル・ネットワークとして構成されてもよい。層間の接続は、フィードフォワード接続又は反復接続を含み得る。

ニューラル・ネットワーク・モデル１５６０の１つ又は複数の層は、訓練されたモデルパラメータ１５６４に関連付けられる。訓練されたモデルパラメータ１５６４は、機械学習プロセスに従って学習されたパラメータのセット（例えば、人工ニューロンの重み及びバイアスパラメータ）を含む。機械学習プロセス中に、ラベル付き訓練データが、ニューラル・ネットワーク・モデル１５６０への入力として提供され、ニューラルネットワーク１５６０によって生成された予測が、対応するラベルと所望のレベルの確度でマッチングするまで、訓練されたモデルパラメータ１５６４の値は、反復的に調整される。

性能を向上させるために、プロセッサ１５３０は、グラフィカル処理ユニット、テンソル処理ユニット、特定用途向け集積回路などを使用して、ニューラル・ネットワーク・モデル１５６０を実行し得る。

デバイス１５０３は、データベース１５７０、又はデジタル情報の別の適切なリポジトリに通信可能に接続され得る。例えば、データベース１５７０は、スキーマ又は他の論理的関係（例えば、リレーショナルデータベース）に従って編成されたコンテンツを有する構造化データベースとして、構成されてもよい。いくつかの実施形態では、データベース１５７０は、非リレーショナルデータベース、半構造化データベース、非構造化データベース、鍵値ストアなどとして構成されてもよい。データベース１５７０を、デバイス１５０３に直接接続されるものとして示しているが、様々な他の構成も可能であることを理解されたい。例えば、データベース１５７０は、メモリ１５４０に記憶されてもよく、ネットワーク１５１０などを介してアクセスされてもよい。

図１６は、いくつかの実施形態に対する情報検索のためのデータフロー１６００の簡略図である。図１５と一致するいくつかの実施形態では、データフロー１６００は、以下で更に説明するように、システム１５００の様々な構成要素及び／又は特徴を使用して、実施されてもよい。図１～図１４と一致するいくつかの実施形態では、データフロー１６００は、個人の健康データを含む、又は個人の健康データに基づく情報を検索するように構成されてもよい。したがって、データフロー１６００は、図１～図１４と一致する技術を使用して実施され得る。例えば、データフロー１６００は、１つ又は複数のコンテナ内で実施されてもよく、入力情報は、図１～図１４を参照して説明したようにマスキングされてもよい。

図１６に示すように、アプリケーション１６０２は、情報検索システム１６０４に通信可能に接続される。図１５と一致するいくつかの実施形態では、情報検索システム１６０４は、情報検索プログラム１５５０に対応してもよい。情報検索システム１６０４にクエリを提供し、情報検索プログラム１６０４からの応答を処理するように構成されたプログラムに、アプリケーション１６０２は一般に対応する。例えば、ユーザからクエリを受信し、クエリを情報検索システム１６０４（例えば、ＡＰＩを介して）に送信し、対応する応答を受信して、レンダリングするウェブアプリケーション又はモバイルアプリケーションに、アプリケーション１６０２は対応してもよい。図１５と一致するいくつかの実施形態では、アプリケーション１６０２は、デバイス１５０４上で実行するフロントエンド構成要素、デバイス１５０３上で実行するバックエンド構成要素などを含んでもよい。いくつかの実施形態では、情報検索システム１６０４が様々なタイプ又はバージョンのアプリケーションと通信し得る標準化されたＡＰＩ又は他のインターフェースを、情報検索システム１６０４は提供してもよい。いくつかの実施形態では、ユーザが、アプリケーション１６０２をバイパスしてクエリを情報検索システム１６０４に直接提供し得るユーザインターフェースを、情報検索システム１６０４は提供してもよい。

情報検索システム１６０４は、ユーザの要求を満たすために使用される複数のモジュール１６１０～１６５０を含む。いくつかの実施形態では、モジュール１６１０～１６５０はそれぞれ、統合プログラムの構成要素であってもよい。いくつかの実施形態では、モジュール１６１０～１６５０は、互いに独立して動作して、標準インターフェースを介して互いに通信する独立したプログラム（例えば、マイクロサービス）であってもよい。情報検索システム１６０４を分散させてもよい。性能及び並列性を向上するために、情報検索システム１６０４は、モジュール１６１０～１６５０の複数のインスタンスを含んでもよい。

情報検索システム１６０４のコントローラモジュール１６１０は、アプリケーション１６０２からクエリ（及び／又は他のタイプの要求）を受信し、処理する。コントローラモジュール１６１０は、情報検索プログラム１６０４の１つ又は複数の他のモジュール（例えば、モジュール１６２０～１６５０）に接続され、要求を満たすために他のモジュール間を調整する。いくつかの実施形態では、要求を満たすプロセスは、要求のタイプに応じて、変化し得る。

情報検索システム１６０４の知識ベースモジュール１６２０は、情報間の様々なタイプの関係を識別する知識ベースへのアクセスを提供する。例えば、知識ベースモジュール１６２０は、所与の関係を共有することが知られている用語の集合（例えば、用語が互いに同義語であってもよい）を記憶してもよい。いくつかの実施形態では、情報及びそれらの関連する関係は、知識グラフ、又は他の適切なデータ記憶技術を使用して、記憶され、検索されてもよい。

一般に、知識ベースモジュール１６２０によって記憶された知識ベースは、関心のある主題に関して包括的であることが望ましい。関係の包括的なセットは、様々な技法を使用して、識別され、集約され得る。いくつかの実施形態では、知識ベースは、生物医学領域の場合には統合医学用語システム（ＵＭＬＳ：ＵｎｉｆｉｅｄＭｅｄｉｃａｌＬａｎｇｕａｇｅＳｙｓｔｅｍ）などの既存の知識ベースから開始し、次いで領域固有の情報の他のソースをそれに集約することによって構築されてもよい。例えば、データは、外部データベース（例えば、公的に利用可能なデータベース、及び専有又は顧客固有のデータベース）から集約されてもよい。集約データ間の関係は、ニューラル・ネットワーク・モデル（例えば、ニューラル・ネットワーク・モデル１５６０）、又は集約データから関係を検索するように構成された他の情報検索方法を使用して、識別され得る。

情報検索システム１６０４の検索モジュール１６３０は、クエリ用語に基づいて、テキスト（例えば、文書の集合、データベース記録など）のコーパスを検索し得る検索エンジンを提供する。コーパスは、例えば、公開文献コーパス、臨床データコーパス（例えば、医師のノート及び他のタイプの患者の健康記録）、又はその両方を含んでもよい。コーパスは、構造化データ又は非構造化データを含んでもよい。いくつかの実施形態では、構造化データは、投与される薬物の名称など、患者健康記録の１つ又は複数の構造化データフィールドを含んでもよい。例えば、そのような情報が、保険目的で、又は様々な他の形式的若しくは法的機能で、使用され得るので、そのような情報は、患者の健康記録において、非構造化エントリよりも高い信頼性であることが期待され得る。したがって、患者の健康記録内の構造化データフィールドを使用することは、信頼性を向上させることができ、コーパスの少なくともサブセットが、機械学習モデルの訓練（又はテスト）データを提供するようにラベル付けされる実施形態では、手動でタグ付けされるデータの量を低減し得る。これは、評判分類器など、コーパスに基づいた機械学習モデルの迅速で、正確な開発及び訓練を容易にし得る。

臨床データコーパス、又は患者データを含む他のコーパスの使用に関連する１つの課題は、前述したプライバシー上の懸念である。したがって、図１～図１４で説明した技法のうちの１つ又は複数は、安全な処理環境を提供するために、更に機密患者データを識別解除又はマスキングするために、使用され得る。例えば、図１３のエンティティのタグ付けプロセスは、機密情報をマスキングするために、コーパス（又は機密情報を含むコーパスの一部）に適用されてもよい。いくつかの実施形態では、コーパスの検索は、患者の状態だけに基づいて患者の識別が容易である、まれな状態の患者を除外するように抑制されてもよい。例えば、患者が最小閾値サイズ未満のコホート（例えば、類似又は同一の状態を有する患者の数）に関連付けられている場合、その患者の記録は、コーパスで抑制され、これにより、患者の記録は、検索結果のリストに返されない。

いくつかの実施形態では、検索モジュール１６３０は、クエリ用語に関連すると判定されたコーパスから、完全なテキスト文書又はデータベース記録を識別しても、検索してもよい。しかしながら、前述のように、この手法には様々な制限がある。例えば、ユーザが、（例えば、特定の薬物が特定の疾患に対して有効であることが示されているか否かを、その薬物に対して行われた研究の集約に基づいて判定するために）集約された情報に基づいて判定又は類推を行おうとしているとき、関連文書のリストを単に含む検索結果は、ユーザのクエリに明確に、そして直接的に応答しない場合がある。したがって、この手法は、所望の情報をつなぎ合わせ、適切な判定又は類推を行うために、検索結果の各々を試験するユーザの一部に面倒で時間のかかる努力を必要とする可能性がある。

これらの制限に対処するために、検索モジュール１６３０は、マッチングする文書又は記録のリストではなく（又はそれに加えて）、クエリ用語にマッチングするテキストフラグメントのリストを返すように構成され得る。このフラグメントベースの検索手法は、関心のある情報、例えば、ユーザが行おうとしている判定又は類推に直接関連する情報を含む文書の局所化された部分（例えば、いくつかの単語、文、又は段落）を生成する。このようにして、文書が一般にユーザのクエリに関連しないが応答のフラグメントを含む場合、文書全体が、マッチングする文書のリストに含まれることに十分に関連しない場合でも、応答のテキストフラグメントが検索結果に返される。逆に、文書がクエリ用語と強くマッチングするが、クエリに直接応答するいかなるフラグメントも含まない場合、文書は、マッチングするテキストフラグメントのリスト内のいかなるフラグメントも、生成しない可能性がある。更に、所与の文書又は記録が、２つ以上のマッチングするテキストフラグメントを含む場合、単一の文書又は記録は、返されたテキストフラグメントのリストに複数のエントリを生成し得る。結果として、フラグメントベースの検索手法は、検索結果の全体的な関連性及び完全性を改善し得る。フラグメントの検索モジュールの例示的な実施形態を、図１７を参照して以下で更に詳細に説明する。

情報検索システム１６０４の統計分析モジュール１６４０は、検索モジュール１６３０によって提供される検索結果のリストなど、情報検索システム１６０４の他のモジュールからの情報を統計的に分析するツールを提供する。ユーザから受信した要求のタイプなどの要因に応じて、広範囲の統計分析が実施され得る。例えば、統計分析モジュール１６４０は、検索モジュール１６３０からの検索結果のリストに現れる様々なエンティティ及び用語の統計的有意性を計算してもよい（例えば、検索結果における所与の用語の出現回数のカウント、用語と他の用語との共起回数のカウント、他の用語に対する任意の用語の有意性を比較するためのスコア又はランキングなど）。統計分析を実施する際に、統計分析モジュール１６４０は、情報検索システム１６０４の他のモジュールと通信し、他のモジュールから情報を検索し得る。統計分析モジュール１６４０を使用して計算され得る統計的有意性メトリックの例を、図１８を参照して以下で更に詳細に説明する。

情報検索システム１６０４の機械学習モジュール１６５０は、検索モジュール１６３０によって提供される検索結果のリストなど、情報検索システム１６０４の他のモジュールからの情報に、機械学習モデル（例えば、ニューラル・ネットワーク・モデル１５６０）を適用するツールを提供する。いくつかの実施形態では、機械学習モジュール１６５０は、検索結果のテキストを分析する自然言語処理（ＮＬＰ）パイプラインを含んでもよい。ＮＬＰパイプラインは、ＮＬＰプリミティブ（例えば、トークン化、埋め込み、名前付きエンティティ認識など）を含んでもよい。更に、ＮＬＰパイプラインは、限定しないが、否定表現ファインダ、評判分類器、エンティティ抽出器などを含む、事前訓練されたルールベースモデル又は機械学習モデルを含んでもよい。結果の中の関係及び関連付けを識別するために、ＮＬＰパイプラインの出力に対して、更なる統計分析が、実施されてもよい。

図１７は、いくつかの実施形態による、フラグメント検索のためのデータフロー１７００の簡略図である。図１６と一致するいくつかの実施形態では、データフロー１７００は、検索モジュール１６３０を使用して実施されてもよい。

コーパス１７１０は、１つ又は複数のテキスト文書又はデータベース記録の集合など、テキストの集合に対応する。例えば、コーパス１７１０は、デバイス１５０１～１５０９から受信した文書１５２１～１５２９に対応してもよく、及び／又はデバイス１５０３によってローカルに記憶された文書を含んでもよい。いくつかの実施形態では、コーパス１７１０は、メモリ１５４０、データベース１５７０、オンチップメモリ（例えば、キャッシュ）などに記憶されてもよい。コーパス１７１０内の文書は、ネイティブフォーマットで（例えば、デバイス１５０１～１５０９から受信したフォーマットで）記憶されてもよく、又は様々な事前処理動作が、受信した文書に対して実施され、文書のコンテンツ又はフォーマットを修正してもよい。例えば、非テキストデータ（例えば、イメージデータ）及び／又はメタデータが、文書から除去されてもよく、テキストデータが、（例えば、光学文字認識によって）文書などから抽出されてもよい。文書のフォーマットは、統一されたフォーマットに変換されてもよく、又は文書からのデータは、データベース（例えば、データベース１５７０）に入力するために使用されてもよい。いくつかの実施形態では、コーパス１７１０は、動的に更新されてもよい。

コーパス１７１０のコンテンツは、一般的な主題（例えば、様々なトピックをカバーするニュース記事又はＷｉｋｉｐｅｄｉａエントリの集合）、又はドメイン固有の主題に関連し得る。例示的に、コーパス１７１０は、生物医学の主題に関連してもよい。例えば、コーパス１７１０は、生物医学分野に関連するジャーナル記事、参考教科書、特許出願、ウェブサイトなどからのテキストを含んでもよい。コーパス１７１０は、分子データベース、科学文献、保険文書、製薬会社のウェブサイト、ニュースフィード、規制情報（臨床試験、ＳＥＣ提出、ＩＰ）などの多種多様なソースから引き出され得る。図１～図１５と一致するいくつかの実施形態では、コーパス１７１０は、上述した技術に従って処理され、格納された個人データ（例えば、健康記録）を含んでもよい。

図１７に示すように、コーパス１７１０は、複数のサブセットに分割される。各サブセットは、シャード１７２１～１７２９の中のそれぞれのシャードに提供され得る。いくつかの実施形態では、シャード１７２１～１７２９の中でコーパス１７１０を分割することにより、分散計算リソース（例えば、分散プロセッサ及び／又は記憶装置システムを使用する）を使用してコーパス１７１０の処理を容易にしてもよい。例えば、シャード１７２１～１７２９のうちの１つ又は複数は、データセンタ内の異なるマシンに、及び／又は異なるデータセンタに配置されてもよい。いくつかの実施形態では、コーパス１７１０のサブセットの各々は、サイズがほぼ等しくてもよく、例えば、それらは、同様の総ディスクスペースを占有してもよく、又はそれらは、同様の数の文書を含んでもよい。

シャード１７２１～１７２９の各々は、対応する反転リスト１７３１～１７３９を含む。反転リスト１７３１～１７３９の各々は、コーパス１７１０の対応するサブセット内のトークン（例えば、単語）ごとに、コーパス１７１０のサブセット内のトークンの出現のリストを識別する。例えば、反転リスト１７３１～１７３９は、コーパス１７１０のサブセット内のトークンの各出現の位置（例えば、コーパス１７１０のサブセット内の各文書の連結に対応するテキストの連続した配列内の位置）を識別してもよい。いくつかの実施形態では、反転リスト１７３１～１７３９は、トークンが出現する文書に対応する文書識別子、トークンの出現に対する文書内のオフセットなどを識別してもよい。いくつかの実施形態では、反転リスト１７３１～１７３９内の各エントリは、各トークンの出現ごとに、複数の位置識別子を含んでもよい。複数の識別子は、（１）連結された文書の連続した配列内のトークンの出現の配列インデックスと、（２）出現の文書識別子と、（３）識別された文書内の出現までのオフセットと、を識別するトリプレットなど、適切なデータ構造に記憶され得る。

いくつかの実施形態では、反転リスト１７３１～１７３９は、トークンの効率的な検索を容易にするために順序付けられてもよい。例えば、反転リスト１７３１～１７３９は、コーパス１７１０のサブセットに対応するテキストの配列内の各トークンの位置の昇順に基づいて、順序付けられてもよい。反転リスト１７３１～１７３９は、各トークンに関連付けられた整数値を使用してインデックス付けされてもよく、これにより、トークンに対応する整数が与えられると、反転リスト１７３１～１７３９を含むデータ構造は、トークンの出現の対応するリストを効率的に返す。

シャード１７２１～１７２９の各々は、対応するフラグメント検索モジュール１７４１～１７４９を更に含む。フラグメント検索モジュール１７４１～１７４９の各々は、フラグメントクエリ１７５２を受信し、反転リスト１７３１～１７３９からのデータにアクセスすることによって、フラグメントクエリに対する応答を生成するように構成される。フラグメントクエリ１７５２は、検索アグリゲータ１７５４を使用して、フラグメント検索モジュール１７４１～１７４９へ配信され得る。次いで、検索アグリゲータ１７５４は、フラグメント検索モジュール１７４１～１７４９によって生成された検索結果を受信し、集約し得る。その後、検索結果は、後の分析１７５６に使用されてもよい。例えば、図１６と一致するいくつかの実施形態では、分析１７５６は、知識ベース１６２０、統計分析モジュール１６４０、又は機械学習モジュール１６５０のうちの１つ又は複数を使用して、実施されてもよい。

いくつかの実施形態では、フラグメントクエリ１７５２は、フラグメント検索に関する所望の検索基準を示す１つ又は複数のクエリパラメータを含む。例えば、フラグメントクエリ１７５２は、クエリパラメータ（例えば、ＡＮＤ、ＯＲ、及びＮＯＴなどのブール演算子によって任意選択的に結合された、検索される１つ又は複数のトークン、単語、あるいは複数単語フレーズの組合せ）を含んでもよい。フラグメントクエリ１７５２はまた、フラグメント検索モジュール１７４１－１７４９によって返されたテキストフラグメントの所望のサイズを示すサイズパラメータを含んでもよい。フラグメントクエリ１７５２は、文書内のフラグメントが検索結果に含まれるための前提条件として、文書が満たすべき１つ又は複数の基準を指定する文書パラメータを、更に含んでもよい。例えば、適格な文書が、指定された単一若しくは複数の単語のフレーズ（又はそれらの論理的組合せ）を含む基準を、又は適格な文書が、文書メタデータと関連付けられる基準（例えば、著者名、出版年、文書ソース、文書タイプなど）を、文書パラメータは、含んでもよい。そのような実施形態と一致して、フラグメントクエリ３５２は、＜ＦｒａｇＱｕｅｒｙ，ＦｒａｇｍｅｎｔＳｉｚｅ，ＤｏｃｕｍｅｎｔＳｐｅｃｉｆｉｅｒ＞として表されるデータ構造など、様々な検索パラメータを送信し、処理するための適切なデータ構造を使用して表されてもよく、ここで、ＦｒａｇＱｕｅｒｙは、クエリパラメータを表し、ＦｒａｇｍｅｎｔＳｉｚｅは、サイズパラメータを表し、ＤｏｃｕｍｅｎｔＳｐｅｃｉｆｉｅｒは、検索結果に含まれる文書の適格条件を表す。

図１８は、いくつかの実施形態による、クエリに応答して情報を検索するための方法１８００の簡略図である。図１５～図１７と一致するいくつかの実施形態によれば、方法１８００は、情報検索プログラム１５５０の実行中にプロセッサ１５３０によって実行されてもよい。例えば、方法１８００は、コントローラモジュール１６１０を使用して実施されてもよい。

プロセス１８１０において、クエリを、コントローラ（例えば、コントローラモジュール１６１０）が受信する。クエリは、１つ又は複数のトークン（例えば、単語、文など）、ブール演算子、制約、フィルタ、及び様々な他のパラメータを含んでもよい。いくつかの実施形態では、クエリは、アプリケーション１６０２などのアプリケーションによって送信された要求に含まれてもよい。そのような実施形態と一致して、要求を、ＡＰＩを介して受信してもよい。要求の受信に応答して、コントローラは、以下のプロセス１８２０～１８５０のうちの１つ又は複数に従って、クエリに応答する情報を収集することによって、要求を処理し、要求に応答し得る。分散計算環境では、情報は、異なるネットワークノードに配置された様々なモジュールとの間で送受信される通信を介して収集され得る。

プロセス１８２０において、クエリを、１つ又は複数の関連用語を含むように拡張する。関連用語は、知識ベースモジュール１６２０の知識ベースなどの知識ベースから、検索され得る。いくつかの実施形態では、関連する用語は、元のクエリ内の用語と所定の関係を共有してもよい（例えば、これらの用語は互いに同義語であってもよい）。このようにして、関連用語を検索することは、ユーザによって提供された用語と同様の意味を有する用語を含むように、クエリを拡張し得る。

プロセス１８３０において、検索結果のリストを、拡張したクエリに基づいて検索する。検索結果のリストは、クエリにマッチングする文書又は節（又はそのような文書又は節を識別する情報）を含む。検索結果のリストは、検索モジュール１６３０などの検索エンジン又は検索モジュールを介して検索され得る。いくつかの実施形態では、検索結果は、コントローラによって提供されたクエリ用語に基づいて、テキストのコーパス（例えば、文書の集合、データベース記録など）から検索されてもよい。例えば、検索結果は、フラグメントベースの検索の結果に対応してもよい。この手法では、検索結果は、関心のある情報を含むフラグメント（例えば、いくつかの単語、文、段落、又は文書の他の局所化された部分）を含む。フラグメントベースの検索の例示的な実施形態を、図１９を参照して以下で更に詳細に説明する。

いくつかの実施形態では、検索結果のリストは、クエリの「コンテキスト」と呼ばれることがあり、適切なデータ構造を使用して記憶されても、又はインデックス付けされてもよい。コンテキストは、コーパス内でマッチングするクエリ用語の近くに現れる用語（例えば、コーパス内でマッチングするクエリ用語のｎ個のトークンのウィンドウサイズ内に現れる用語）と共に、クエリ用語を含むコーパスのウィンドウを含む。コンテキストは、バイナリであっても、非バイナリであってもよい。バイナリコンテキストでは、コーパス内の用語は、コンテキストに含まれるか（例えば、それらがクエリ用語の出現のｎ個のトークン内にある場合）、又はコンテキストから省略される。非バイナリ又は「スムーズ（ｓｍｏｏｔｈ）」コンテキストでは、コーパス内の用語は、クエリ用語からの距離などの要因に基づいて重み付けされ得る（例えば、０と１との間の値が割り当てられる）。例えば、非バイナリコンテキスト内の用語に割り当てられる重みは、クエリ用語からの用語の距離に基づいて指数関数的に減衰してもよい。

プロセス１８４０において、検索結果のリスト内で、１つ又は複数のエンティティを、任意選択で識別する。例えば、生物医学用途のコンテキストにおいて、エンティティの例示的な例は、薬物、疾患、遺伝子、製薬会社、研究機関などの名前を含んでもよい。いくつかの実施形態では、１つ又は複数のエンティティは、知識ベースモジュール１６２０の知識ベースなどの知識ベースを参照することによって識別されてもよい。例えば、知識ベースは、エンティティの集合を記憶してもよく、これにより、検索結果のリストは、検索結果のリスト内のエンティティを識別するために、エンティティの集合と比較されてもよい。いくつかの実施形態では、名前付きエンティティ認識などの自然言語処理技術を使用して、検索結果のリスト内のエンティティを正確に識別してもよい。

プロセス１８５０において、検索結果のリスト内の１つ若しくは複数の用語又はエンティティについて、統計分析を行う。統計分析は、統計分析モジュール１６４０などの統計分析モジュールによって、機械学習モジュール１６５０などの機械学習モジュールによって、又はモジュールの組合せによって、実施されてもよい。いくつかの実施形態では、統計分析は、関心のある用語又はエンティティごとに、関係スコア、有意性スコア、又はその両方を計算することを含んでもよい。そのような統計分析は、検索結果における所与の用語の出現回数のカウント、用語と他の用語との共起回数のカウント、他の用語に対する任意の用語の有意性を比較するためのスコア又はランキングなどに基づいてもよい。

いくつかの実施形態では、有意性スコアは、所与の用語（例えば、トークン、ｍ単語フレーズ、エンティティなど）とユーザクエリとの関連性を捕える統計的有意性メトリックを計算することによって測定され得る。実例として、統計的有意性メトリックは、ｍが１である（すなわち、フレーズは単一の単語である）とき、以下の式を使用して計算され得る。

ここで、ｋは、検索結果のリスト内のフレーズの出現回数（例えば、クエリに応答して検索モジュール１６３０によって返されるテキストフラグメントのリスト）であり、ｎは、検索結果のリスト内の単語の総数であり、ｐは、比率Ｎ（ｗ）／Ｎであり、Ｎ（ｗ）は、コーパス内のフレーズの出現回数であり、Ｎは、コーパス内の単語の総数である。

ｍが１より大きい（すなわち、フレーズは複数単語のフレーズである）場合、以下の式を使用し得る。

検索結果のリストが非バイナリコンテキストを含むいくつかの実施形態では、統計的有意性メトリックは、検索結果のリスト内のエンティティの各外観に割り当てられた重みに基づいて調整され得る。例えば、上記の式におけるｋの値は、検索結果におけるエンティティの出現回数の重み付けされたカウントに対応してもよい。

プロセス１８５０で提供される上述の統計分析は例示的なものであり、様々な代替形態が可能であることを理解されたい。例えば、統計分析モジュール１６４０は、関連性スコアＥＭＳ（Ｑ，ｔ）、及び統計的有意性メトリックｐＶａｌ（Ｑ，ｔ）を決定してもよい。これらの値は、ｍ単語フレーズｔと、ユーザクエリＱとの関連性を捕え得る。

プロセス１８６０において、１つ又は複数のエンリッチセットを、任意選択で、１つ又は複数のエンティティの統計分析に基づいて生成する。いくつかの実施形態では、エンリッチセットは、プロセス１８５０で識別された最も有意なエンティティ（例えば、有意性又は関係スコアが最も高いエンティティ）を含んでもよい。例えば、生物医学のコンテキストでは、１つ又は複数のエンリッチセットは、薬物のセット、疾患のセット、及び遺伝子のセットを含んでもよい。例えば、薬物のエンリッチセットは、最も有意であるか、又はユーザのクエリに関連すると判定されたｎ個の薬物を識別してもよい。

プロセス１８７０において、検索結果のリスト又は１つ若しくは複数のエンリッチセットのうちの少なくとも一方を含むクエリに対する応答を、提供する。いくつかの実施形態では、応答は、アプリケーション１６０２などのアプリケーションに送信され、ユーザに表示されてもよい。ユーザが検索結果又はエンリッチセットと相互作用し得るために、応答は、相互作用型ユーザインターフェース要素をユーザに提供してもよい。例えば、エンリッチセット内の項目について、ユーザは、アイテム上にホバーして、アイテムに関連する統計分析（例えば、有意性スコア、関係スコアなど）を見てもよい。

図１９は、一部の実施形態による、フラグメント検索を実施するための方法１９００の簡略図である。図１５～図１８と一致するいくつかの実施形態では、方法１９００は、検索モジュール１６３０などの検索モジュールによって実施されてもよい。次いで、方法１９００を使用して生成されたフラグメント検索結果は、方法１８００のプロセス１８３０においてコントローラによって検索され得る。

プロセス１９１０において、コーパス１７１０などのコーパスを、複数のサブセットに分割する。コーパスは、複数のテキスト文書又はデータベース記録を含む。いくつかの実施形態では、コーパスのサブセットの各々は、サイズがほぼ等しくてもよく、例えば、それらは、同様の総ディスクスペースを占有してもよく、又はそれらは、同様の数の文書を含んでもよい。

プロセス１９２０において、複数のサブセットの各々を、シャード１７２１～１７２９などの対応する複数のシャードに分散する。各シャードは、分散方式でコーパスの一部を処理する役割を担う。いくつかの実施形態では、シャードの中でコーパスを分割することにより、分散計算リソース（例えば、分散プロセッサ及び／又は記憶装置システムを使用する）を使用してコーパスの処理を容易にしてもよい。例えば、１つ又は複数のシャードは、データセンタ内の異なるマシンに、及び／又は異なるデータセンタに配置されてもよい。

プロセス１９３０において、シャードごとに、コーパスのそれぞれのサブセット内の１つ又は複数の文書を連結して、テキスト配列を形成する。例えば、テキスト配列は、１つ又は複数の文書に関して連続していてもよい。

プロセス１９４０において、シャードごとに、反転リストを生成する。反転リストは、コーパス内のトークン（例えば、語彙単語）ごとに、エントリを含む。各エントリは、コーパス内のトークンの出現のリストを含む。例えば、出現のリストは、プロセス１９３０において形成された配列内のトークンの各出現の位置を識別してもよい。いくつかの実施形態では、反転リストは、トークンが出現する文書に対応する文書識別子、トークンの出現に対する文書内のオフセットなどを含んでもよい。いくつかの実施形態では、反転リスト内の各エントリは、各トークンの出現ごとに、複数の位置識別子を含んでもよい。複数の識別子は、（１）連結された文書の連続した配列内のトークンの出現の配列インデックスと、（２）出現の文書識別子と、（３）識別された文書内の出現までのオフセットと、を識別するトリプレットなど、適切なデータ構造に記憶され得る。

反転リストは、トークンの効率的な検索を容易にするために順序付けられてもよい。例えば、反転リストは、テキストの配列内の各トークンの位置の昇順に基づいて、順序付けられてもよい。反転リストは、各トークンに関連付けられた整数値を使用してインデックス付けされてもよく、これにより、トークンに対応する整数が与えられると、反転リストを含むデータ構造は、トークンの出現の対応するリストを効率的に返す。

プロセス１９５０において、フラグメントクエリ１７５２のようなフラグメントクエリを、検索アグリゲータ１７５４のような検索アグリゲータが受信する。フラグメントクエリは、フラグメント検索のための所望の検索基準を示す１つ又は複数のクエリパラメータを含む。例えば、フラグメントクエリは、クエリパラメータ（例えば、ＡＮＤ、ＯＲ、及びＮＯＴなどのブール演算子によって任意選択的に結合された、検索される１つ又は複数のトークン、単語、あるいは複数単語フレーズの組合せ）を含んでもよい。フラグメントクエリはまた、検索結果におけるテキストフラグメントの所望のサイズを示すサイズパラメータを含み得る。フラグメントクエリは、文書内のフラグメントが検索結果に含まれるための前提条件として、文書が満たすべき１つ又は複数の基準を指定する文書パラメータを、更に含んでもよい。例えば、適格な文書が、指定された単一若しくは複数の単語のフレーズ（又はそれらの論理的組合せ）を含む基準を、又は適格な文書が、文書メタデータと関連付けられる基準（例えば、著者名、出版年、文書ソース、文書タイプなど）を、文書パラメータは、含んでもよい。

プロセス１９６０において、フラグメントクエリを、複数のシャードに分散する。フラグメントクエリを受信すると、複数のシャードの各々は、それぞれの反転リストに対して検索を実施して、マッチングするフラグメントを識別し、フラグメント検索結果のセットを生成する。いくつかの実施形態では、フラグメントクエリに含まれる検索基準（例えば、検索に含まれる適格な文書に対する制限）は、検索中に適用されてもよい。

プロセス１９７０において、複数のシャードからのフラグメント検索結果のセットを、検索アグリゲータが集約する。例えば、検索結果は、コンパイルされ、連結され、ソートされ、ランク付けなどされてもよい。検索結果を集約すると、検索結果は、更なる分析のためにコントローラ又は別のモジュールに提供されてもよく、又はユーザに返されてもよい。

図２０Ａ及び図２０Ｂは、いくつかの実施形態による、情報検索システム１６０４などの情報検索システムのグラフィカルインターフェース２０００のスクリーンショットである。図１５～図１９と一致するいくつかの実施形態では、グラフィカルインターフェース２０００は、アプリケーション１６０２に関連付けられてもよい。例示目的のために、ユーザが生物医学領域で情報を検索するためのツールを提供するものとして、アプリケーションを示している。

図２０Ａに示すように、グラフィカルインターフェース２０００は、ユーザが検索用語をタイピングする、又は入力し得る検索入力フィールド２０１０を含む。図２０Ａ及び図２０Ｂの図において、検索用語は、「イマチニブ」という名前の薬物である。

ユーザが検索用語を入力したことに応答して、情報検索システムは、検索文字列に関連付けられた情報を検索し、グラフィカル・ユーザ・インターフェース２０００を介して情報を表示する。図１５～図１９と一致する実施形態では、情報は、コントローラ１６１０、知識ベースモジュール１６２０、検索モジュール１６３０、統計分析モジュール１６４０、及び機械学習モジュール１６５０などの情報検索システムの様々なモジュールを使用して検索されてもよい。例えば、グラフィカルインターフェース２０００は、検索用語にマッチングした、マッチング記事２０２０（又はその一部）を表示してもよい。この場合、マッチング記事２０２０は、「イマチニブ」についてのＷｉｋｉｐｅｄｉａの記事に対応する。

グラフィカルインターフェース２０００は、検索用語に関連付けられたエンティティ又は概念のエンリッチセット２０３１～２０３９を更に表示してもよい。いくつかの実施形態では、エンリッチセット２０３１～２９３９は、検索用語に対して最も有意であると判定されたエンティティ（例えば、統計学的有意性スコアが最も高いエンティティ）を含んでもよい。図２０Ａに示すように、エンリッチセット２０３１～２０３９は、イマチニブ２０３１に関連する疾患の集合、イマチニブ２０３２に関連する薬物の集合及び薬物のクラス、並びにイマチニブ２０３９に関連する細胞及び組織の集合を含む。

いくつかの実施形態では、グラフィカルインターフェース２０００は、グラフィカルインターフェース２０００に表示される１つ又は複数の用語又は概念に関連する統計分析及び／又は機械学習分析を表示してもよい。分析は、デフォルトで表示されてもよいし、ユーザが特定の用語又は概念をホバーしたときに動的に現れてもよい。いくつかの実施形態では、統計分析モジュール１６４０、機械学習モジュール１６５０、又はそれらの組合せを使用して、統計分析又は機械学習分析を実施してもよい。分析で使用される基礎となるデータは、知識ベース１６２０及び／又は検索モジュール１６３０から検索され得る。例えば、図２０に示すように、様々なスコアリングメトリック及び出現／共起メトリック（例えば、コーパスにおける用語の出現回数、及び検索用語と任意の用語の共起回数）を含む用語「メシル酸イマチニブ」を、ユーザがホバーすると、分析のセット２０４０が表示される。

いくつかの実施形態では、グラフィカルインターフェース２０００は、ユーザ選択に応答して、検索用語に関する追加情報を表示するウィジェット２０５０を提供してもよい。図２０Ｂに示すように、ウィジェット２０５０は、検索用語に関連付けられた文献証拠（例えば、イマチニブの有効性に関する発表された研究の編集）を表示する。例えば、文書２０６１～２０６９は、検索用語又は関連用語を含む文書２０６１～２０６９内のテキストフラグメントと共に示される。このようにして、本出願のユーザは、イマチニブが、調査中の目的のために関連性があるか又は臨床的に有効である可能性が高いか否かを、効率的に判定し得る。

図２１は、いくつかの実施形態による情報検索のための方法２１００の簡略図である。図１５～図１９と一致するいくつかの実施形態によれば、方法２１００は、情報検索システム１５００などの情報検索システムを使用して、生物医学領域内の関係を識別し、分析する方法の例示的な例を提供してもよい。方法２１００におけるユーザの例示的な目的は、科学文献が第１のエンティティ（例えば、薬物、化学物質など）と、第２のエンティティ（例えば、疾患、生体分子、遺伝子など）との間の特定の関係の証拠を示すか否かを判定することである。特定の関係の例には、有害事象関係、標的化関係（例えば、薬物又は化学物質が生体分子、遺伝子などを標的にする関係）、又はモダリティ関係（例えば、薬物又は化学物質が特定の治療様式を有する関係）が含まれるが、これらに限定されない。実例として、以下に記載する方法２１００の実施形態では、第１のエンティティは、薬物に対応し、第２のエンティティは、疾患に対応する。しかしながら、方法２１００の様々な実施形態を使用して、様々な他のタイプのエンティティ間の関係を分析し得ることを理解されたい。

プロセス２１１０において、薬物、疾患）、及び関係の各々を指定するクエリを受信する。いくつかの実施形態では、薬物、疾患、及び関係は、グラフィカルインターフェースの入力形式を使用してユーザから収集されてもよい。

プロセス２１２０において、クエリに応答して、クエリにマッチングするテキストフラグメントのリスト（例えば、薬物と疾患の両方に言及することによって）を取得する。いくつかの実施形態では、テキストフラグメントのリストは、検索モジュール１６３０などの検索システムを使用してコーパス（例えば、コーパス１７１０）から検索されてもよい。いくつかの実施形態では、例えば、知識ベースモジュール１６２０を使用して、クエリ用語に関連する同義語及び他の用語を識別することによって、検索の範囲を拡張してもよい。次いで、同義語とマッチングするテキストフラグメントを検索結果に含めてもよい。いくつかの実施形態では、検索の範囲は、検索される文書のタイプに対する制約（例えば、検索は、特定の時間枠の間に発行された特定のジャーナルからの文書に制約されてもよい）など、検索の範囲に対する制約を課すことによって制限されてもよい。

プロセス２１３０において、各テキストフラグメントを、１つ又は複数の文に分割する。いくつかの実施形態では、テキストフラグメントを、機械学習モジュール１６５０などの第１の自然言語処理又は機械学習システムを使用して分割してもよい。

プロセス２１４０において、テキストフラグメントごとに、関係が成立するか否か（例えば、薬物と疾患が有害事象関係を有するか否か）を類推する。いくつかの実施形態では、類推は、機械学習モジュール１６５０などの第２の機械学習システムを使用して行われてもよい。例えば、第２の機械学習システムは、文のリストとしてフォーマットされたテキストフラグメントを含む入力に基づいて、有害事象関係が成り立つか否かを識別するように訓練された機械学習モデルをホストしてもよい。

プロセス２１５０において、テキストフラグメントごとに、関係が成立することを、類推が示すか否かに基づいて、メトリックを決定する。例えば、有害事象関係（又は他の特定の関係）を示すと類推されるテキストフラグメントの割合を、メトリックは含んでもよい。

プロセス２１６０において、メトリックと、テキストフラグメントのリストの中の１つ又は複数のテキストフラグメントとを含む分析の結果を、表示する。１つ又は複数のテキストフラグメントが、プロセス２１４０において指定された関係を示すと類推されたか否かに従って、１つ又は複数のテキストフラグメントは、ラベル付けされ得る。分析の結果を表示する例示的な実施形態を、図２２Ａ及び図２２Ｂを参照して以下に更に詳細に説明する。

図２１は単なる例示であり、様々な他の実施形態が可能であることを理解されたい。例えば、方法２１００は、他のタイプのエンティティ（例えば、薬物及び疾患以外のエンティティ）間の関係を識別するために使用されてもよい。

図２２Ａ及び図２２Ｂは、いくつかの実施形態による、情報検索システムのグラフィカルインターフェース２２００のスクリーンショットである。図１５～図２１と一致するいくつかの実施形態によれば、グラフィカルインターフェース２２００は、方法２１００の間に生成された結果を表示し得る。図２２Ａにおいて、ユーザは、薬物ダサチニブが肺動脈高血圧症を有害事象として引き起こすか否かを判定しようとする。表示した結果は、検索結果のテキストフラグメント３１６個のうち３１４個が、有害作用を示すとラベル付けされたので、この有害事象関係が真であるという、確かな証拠があることを示している。一方、図２２Ｂにおいて、ユーザは、薬物イマチニブが有害事象として白血病に関連付けられ得るか否かを判定しようとする。ここで、その確かな証拠は、８０５個のマッチングするテキストフラグメントのうち３１個が、有害作用を示すとラベル付けされているだけので、そのような有害関係が存在しないことを示唆している。

上記の開示が示唆するように、電子健康記録（ＥＨＲ）及び患者チャートなどの健康記録は、患者の状態に関する広範囲の情報を捕える。健康記録は、医師によって書かれたメモのテキストなど、非構造化又は半構造化フォーマットで表されることが多い。人間は、テキスト（例えば、英数字、記号、絵文字などのシーケンスとして表される単語、フレーズ、及び他の用語）の形式で提示される情報の意味を理解し得るが、コンピュータ技術は一般に、人間が読める形式のテキストの意味論的意味を理解し得ない。更に、患者の健康記録に反映される患者の状態は、経時的に変化し得る。したがって、健康記録の拡張キュレーション及び時間的識別のための技術を開発することが望ましい。

本開示の更なる背景は、米国仮特許出願第６３／０１２，７３８号の添付書類であり、更に全体が参照により本明細書に組み込まれる「ＡｕｇｍｅｎｔｅｄＣｕｒａｔｉｏｎｏｆＵｎｓｔｒｕｃｔｕｒｅｄＣｌｉｎｉｃａｌＮｏｔｅｓｆｒｏｍａＭａｓｓｉｖｅＥＨＲＳｙｓｔｅｍＲｅｖｅａｌｓＳｐｅｃｉｆｉｃＰｈｅｎｏｔｙｐｉｃＳｉｇｎａｔｕｒｅｏｆＩｍｐｅｎｄｉｎｇＣＯＶＩＤ－１９Ｄｉａｇｎｏｓｉｓ」（以下、「拡張キュレーション論文」という）と題する論文に提供されている。

図２３は、いくつかの実施形態による、健康記録の拡張キュレーションのための方法２３００の簡略図である。健康記録の拡張キュレーションは、電子健康記録（ＥＨＲ）、患者チャートなどの生の健康記録を、患者表現型（例えば、患者の症状、診断、治療などのスナップショット）の構造化表現に変換する。次いで、構造化表現は、視覚化され、統計的又は機械学習分析などのための入力として使用され得る。いくつかの実施形態では、例えば、プライバシー規制（例えば、ＨＩＰＡＡ）に準拠するために、有用ではない患者の個人情報又は他の情報をマスキングするために、生の健康記録は、識別解除されてもよい。そのような選択的情報マスキング技術の例は、上記で参照した米国仮特許出願第６２／８６５，０３０号及び６２／９８５，００３号、並びに本開示の図１～図１４に、更に詳細に記載されている。健康記録の識別解除は、方法２３００の前、その間中、又はその後に行い得る。図１～図２２Ｂと一致するいくつかの実施形態では、方法２３００の少なくとも一部は、システム１５００を使用して実施されてもよい。

プロセス２３１０において、キュレーションされた健康記録のセットを受信する。プロセス２３１０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、キュレーションされた健康記録のセットは、手動でキュレーションされた健康記録に対応してもよい。生の（又は識別解除された）健康記録をキュレーションすることは、特定の症状、疾患、投薬といった同義語などの関連する単語及びフレーズを識別し、グループ化することを含んでもよく、その例は、上記の拡張キュレーション論文に記載されている。例えば、とりわけ、「ＳＯＢ」、「息切れ」、及び「呼吸困難」などの用語はそれぞれ、キュレーション中の症状エンティティ「息切れ」に対応するものとして識別されてもよい。健康記録におけるエンティティの所与の出現は、例えば、症状の有無、医薬品の有効性又は無効性などを識別する肯定的／否定的評判といった、評判に更に関連付けられ得る。このようにして、キュレーションされた健康記録は、患者の表現型の構造化された表現を提供し得る。キュレーションは、医師によって、又は生の健康データを解釈する際の専門知識又は訓練経験がある他の個人によって、実施され得る。キュレーションされた健康記録のセットのサイズは、ニューラル・ネットワーク・モデルを訓練するために通常使用されるものと比較して小さく、したがって、人手も、時間も要しないキュレーションにより、所望の確度を達成し得る。例えば、キュレーションされた健康記録のセットは、１００人の患者のチャートからのデータ（又は所与の症状、疾患、又は他のエンティティを伝えるために使用される様々な単語及びフレーズを捕えるために十分な記録の別の数）に対応してもよいが、典型的なニューラル・ネットワーク・モデルは、何千ものキュレーションされた記録を使用して訓練されてもよい。

プロセス２３２０において、キュレーションされた健康記録のセットを使用して、ニューラルネットワークを訓練する。プロセス２３２０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、ニューラルネットワークは、ＢＥＲＴベースのニューラルネットワークに対応し得る。いくつかの実施形態では、ニューラルネットワークは、プロセス２３１０で受信したキュレーションされた健康記録のセットよりも大きくなり得る健康データのコーパスを使用して、事前に訓練されていてもよい。所与のトークンに含まれるエンティティ（例えば、症状、疾患、投薬など）を抽出し、それらを肯定的／否定的評判に従って分類するニューラルネットワーク分類器に、ニューラルネットワークは対応し得る。評判は、例えば自然言語処理（ＮＬＰ）技術を使用して、周囲の表現に基づいて判定され得る。例えば、「患者は息切れを呈した」及び「呼吸困難について陰性」というフレーズがそれぞれ、症状エンティティ「息切れ」を含むが、異なる評判（第１のフレーズは、症状があることを示し、後者は、症状がないことを示す）を有することを、ニューラルネットワークは、検出し得る。いくつかの実施形態では、キュレーションされた健康記録のセットは、ニューラルネットワークを訓練するために使用されたコーパス内のエンティティに加えられたエンティティを含んでもよい。したがって、健康データのキュレーションされたセットは、予め訓練されたニューラルネットワークによって提供される評判分析を実施する際の確度を活用しつつ、ニューラルネットワークが認識し得るエンティティのセットを拡張してもよい。

いくつかの実施形態では、ニューラルネットワークは、プロセス２３２０中の訓練の結果として特定の性能メトリックを実現し得る。例えば、性能メトリックは、ニューラルネットワークの確度に対応してもよく、更に、テスト目的のために確保され、訓練に使用されないキュレーションされた健康記録のセットの一部などのテストデータを使用して、測定されてもよい。ニューラルネットワークの典型的な訓練セットに対して、キュレーションされた健康記録のセットのサイズが制限されているため、ニューラルネットワークが実現する性能メトリックは、それに応じて制限され得る。

プロセス２３３０において、キュレーションされていない健康記録のセットを受信する。プロセス２３３０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、キュレーションされていない健康記録のセットは、生の電子健康記録又は患者チャートを含み、これは上述のように識別解除されてもよい。キュレーションされていない健康記録のセットは、トークン化されてもよく、例えば、文、単語、又は他のテキストフラグメントに、トークン化されてもよい。いくつかの実施形態では、キュレーションされていない健康記録のセットのサイズは、キュレーションされた健康記録のセットよりも大きくてもよい（例えば、キュレーションされていない健康記録のセットのサイズは、多くの記録、多くの患者データの全体量、又はその両方を含んでもよい）。

プロセス２３４０において、プロセス２３２０の訓練されたニューラルネットワークを使用して、キュレーションされていない健康記録のセットをキュレーションする。プロセス２３４０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。プロセス２３４０は、プロセス２３１０及び２３４０からのキュレーションされた健康記録のセットを含む拡張されたキュレーションされた健康記録のセットを生成し得る。キュレーションされていない健康記録のセットをキュレーションすることは、各記録の各トークンに対してエンティティ認識及び評判分析を実施し、各記録で捕えられた患者表現型の構造化表現を生成することを含み得る。いくつかの実施形態では、プロセス１４０で生成されたキュレーションされた健康記録は、検証され、例えば、受け入れられ、又は拒否され、及び再分類されてもよい。検証は、キュレーションされた健康記録のエラーを識別するために十分な専門知識を有する、医師、あるいは他の熟練した又は訓練された個人に、キュレーションされた健康記録を提供することを含み得る。個人は次に、キュレーションされた健康記録の確度を確認するか、キュレーションされた健康記録の修正バージョン（例えば、誤ったエントリが、訓練された個人によって再分類されたバージョン）を提供し得る。一般に、時折発生する不正確さを検出して対処するために自動的にキュレーションされた健康記録を検証することは、基礎となる生の健康記録を手動でキュレーションするよりも効率的に実施され得る。検証されたキュレーションされた健康記録は、拡張キュレーションプロセスが進行するにつれて、ニューラル・ネットワーク・モデルを反復的に再訓練するために、又は新規のニューラル・ネットワーク・モデルを訓練するために、使用され、キュレーション効率及びモデル確度を向上し得る。プロセス２３４０は、キュレーションされた結果のフィルタリングを連続的に少なくすることを含む１つ又は複数の段階で実施され、これは、ニューラルネットワークが再訓練されるにつれて、拡張キュレーションの向上した確度を反映する。

したがって、方法２３００は、生の（及び／又は識別解除された）健康記録に基づいて、患者表現型の構造化表現を生成する。これらの構造化表現は、生の健康記録よりも計算分析に適している場合がある。例えば、構造化表現は、健康記録の構造化データベースに入力するために使用されてもよい。データは、視覚化されてもよく、統計又は機械学習分析などのための入力として使用されてもよい。構造化表現を使用して実施され得る計算分析の例は、上記で参照した米国仮特許出願第６２／９６２，１４６号及び第６２／９８５，００３号、拡張キュレーション論文、並びに図１～図２２に更に詳細に記載されている。

いくつかの実施形態では、方法２３００に基づいて入力された健康記録の構造化データベースは、エンリッチメント分析を実施するために使用されてもよい。例えば、エンリッチメント分析は、患者が病気である可能性を示す一連の症状又は他の患者特性など、疾患に関連する早期予測因子を識別することを含んでもよい。エンリッチメント分析は、特定の患者コホートと密接に関連する属性を識別することなどによって、患者コホートを特徴付けることを含み得る。構造化データベースはまた、例えば、クラスタリングアルゴリズムを使用して患者のサブグループ間を区別するなど、患者情報の遡及的分析に使用されてもよい。患者間を区別する能力、又は患者を層別化する能力は、肺高血圧症などの広範囲の重症度又は転帰に関連する（及び早期段階で区別することが困難であり得る）状態に特に有用であり得る。いくつかの実施形態では、異なる患者のサブグループに対して、異なる治療計画が選択されてもよい。例えば、低いリスクに関連すると識別された患者のサブグループよりも、悪い転帰に関連する患者のサブグループに対して、積極的な治療計画が選択されてもよい。そのような調整された治療計画は、リソースの効率的な使用、及び良好な全体的なケアの質をもたらし得る。

更に、方法２３００は、新規の健康データが利用可能になるにつれて、リアルタイムで適用され得る。更に、方法２３００は、比較的少量のキュレーションされたデータがプロセス２３１０で使用されて新しいエンティティを分析に追加するため、新しい疾患、症状、及び治療（例えば、古い文献に頻繁に現れないもの）などの関心のある新興概念に適用され得る。この手法の例示的な利点は、上記で参照した米国仮特許出願第６２／９６２，４３３号、第６２／９６２，１４６号、及び第６２／９８５，００３号、並びに拡張キュレーション論文に更に記載されている。

図２４は、いくつかの実施形態による、健康データの時間的識別のための方法２４００の簡略図である。図１～図２２Ｂと一致するいくつかの実施形態では、方法２４００の少なくとも一部は、システム１５００を使用して実施されてもよい。

プロセス２４１０において、キュレーションされた健康記録のセットを時間的に整列する。プロセス２４１０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、キュレーションされた健康記録のセットは、方法２３００を使用して生成されたキュレーションされた健康記録のセットに対応してもよい。健康記録を時間的に整列することは、特定の診断テストが行われた日付、特定の症状が最初に観察された日付など、所与の患者の健康履歴における所定の事象の出現を識別することを含み得る。次いで、患者の健康記録を、所定の事象の出現日に対して整列する。例えば、所定の事象の出現日が０日目に指定されている場合、事象の３日前に記録された患者の表現型を－３日目に指定し、事象の４日後に記録された表現型を４日目に指定してもよい。患者の表現型の日付は、患者記録に関連するメタデータ（例えば、タイムスタンプ）、所与の記録内に含まれる情報（例えば、日付を示す医師のメモ）などに基づいて判定され得る。いくつかの実施形態では、日付を、自然言語処理技術を使用して判定してもよい。例えば、記録が「患者は３日前に咳を始めた」というフレーズを含む場合、自然言語処理を使用して、咳の症状の開始日が記録の日の３日前であったと判定してもよい。

プロセス２４２０において、時間ウィンドウの選択を受信する。プロセス２４２０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、時間ウィンドウは、精漿テスト（ＣＯＶＩＤ－１９の試験など）の前後の小さな時間ウィンドウ（例えば、１０～３０日）に対応してもよい。時間ウィンドウは、研究されている条件に基づいてよい。例えば、肺高血圧症などのゆっくりと進行する状態を研究するために、診断前後で大きな時間ウィンドウ（例えば、１年又は複数年）を使用してもよい。

プロセス２４３０において、時間的に整列した健康記録のセットを視覚化する。例えば、所定の事象のＮ日以内に特定の表現型（例えば、特定のシステムを提示する）を有する患者の数又は割合は、時間ウィンドウ全体にわたって時間の関数としてプロットされてもよい。そのような視覚化は、医師又はサイエンティストによる下流の意思決定に有用であり得る。例えば、図２５は、いくつかの実施形態による、時間的に整列した健康記録のセットに基づいて生成された視覚化２５００の簡略図である。

プロセス２４４０において、時間的に整列した健康記録のセットと、健康記録の１つ又は複数の対照セットとを比較する。プロセス２４４０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。いくつかの実施形態では、時間的に整列した健康記録と、１つ又は複数の対照セットとを比較することを使用して、所与の状態（例えば、ＣＯＶＩＤテスト陽性）を予測する表現型（例えば、顕著な症状）を識別してもよい。対照セットは、自動的に決定されてもよく、例示的に、（１）「慢性的な病気の患者」のランダムなセットの健康記録と、（２）慢性疾患以外の理由で診療所を訪れる集団のランダムなセットの健康記録と、（３）研究されている状態に関連する状態に関連付けられた患者の健康記録と、に対応してもよい。一例として、ＣＯＶＩＤ－１９を研究する場合、第３の対照セットは、症状をＣＯＶＩＤ－１９患者と区別するために、「インフルエンザ」患者を含んでもよい。

プロセス２４５０において、ｅ時間的に整列した健康記録のセットに基づいて、時間的エンリッチメントを識別する。プロセス２４５０の例示的な実施形態は、例えば、上記で参照した拡張キュレーション論文の「方法」セクションに記載されている。例えば、時間ウィンドウ内の所与の日について、陽性テスト結果を示す患者の数と、陰性テスト結果を示す患者の数との比を使用して、時間的エンリッチメントが、定量化されてもよい。エンリッチメントは、上記で参照した米国仮出願第６２／９６２，１４６号及び第６２／９８５，００３号、並びに図１～２２に更に詳細に記載されている。例えば、ＣＯＶＩＤ－１９患者は、対照患者（例えば、インフルエンザ患者）と比較して、陽性テストに至る日に特定の症状（例えば、咳、下痢、味覚の変化など）を示す可能性が高くなり得る。そのような知見は、臨床的意思決定又はリソース最適化に（例えば、テストのために特定の症状を示す患者を優先することによって）、役立つ可能性が高い。時間的エンリッチメントは、特定の転帰のリスクに関連する因子の組合せを識別するコエンリッチメントを更に含み得る。そのような組合せは、様々な既知の統計分析方法を使用して識別され得る。

図２６Ａは、いくつかの実施形態による、個人情報を難読化するためのプロセス２６００の簡略図である。例示的な入力テキスト２６１０及び出力テキスト２６２０を示している。図示のように、難読化プロセス２６００は、タグ付きエンティティ（例えば、氏名、所在地及び組織）を、適切な代替用語に置換する。日付は、各患者に固有のランダムな値だけシフトされる。数値識別子は、ランダム値の置換によってスクランブルされる。その結果、入力テキスト２６００内の個人データ要素、例えば、「ジョン・スミス」、「ＭＲＮ＃１２３４５６７」、「マサチューセッツ総合病院」、及び「８月２０日」はそれぞれ、「ジャック・パーカ」、「ＭＲＮ＃６７４１９３２」、「スプリングフィールド記念病院」、及び「８月１０日」に置換される。このようにして、難読化プロセス２６００は、検出された個人情報を、適切な代替用語に置換することによって、残りの個人情報（入力テキスト２６１０内の個人情報は検出されない）を隠すことに役立ち、したがって、残りの個人情報と代替用語との間を区別することは困難となり、それによって再識別リスクを低減する。対照的に、マスキングを使用する実施形態では、入力テキスト２６１０は、「頭痛を訴えて＜ＤＡＴＥ＞に＜ＨＯＳＰＩＴＡＬ＞を訪れた＜ＮＡＭＥ＞（ＭＲＮ＜ＩＤ＞）」などのプレースホルダを含み、ここで、「＜ＮＡＭＥ＞」、「＜ＩＤ＞」、「＜ＨＯＳＰＩＴＡＬ＞」、及び「＜ＤＡＴＥ＞」は、個人データのためのプレースホルダである。患者情報を削除する実施形態では、出力テキスト２６２０は「頭痛を訴えて訪れた」となる。図２６Ｃは、検出された個人情報をマスキングするためのプレースホルダの使用（上の分岐）と、検出された個人情報及び検出されていない個人情報の両方を難読化するための代替用語の使用（下の分岐）と、の間の例示的な比較を示している。

いくつかの実施形態では、難読化プロセス２６００は、エンティティの１つ又は複数の属性（例えば、カテゴリ又はサブカテゴリ）に基づいて、置換されるエンティティごとに、代替用語を選択してもよい。属性及び対応する置換戦略の例示的な例を図２６Ｂに示す。図２６Ｂと一致して、代替用語が、偽を、本物として説得力があるものにするために置換されるエンティティと同様の特性を保持するように、代替用語は選択される。例えば、名前の難読化では、置換は、性別及び民族性と一致する方法で選択される。日付は、それらのフォーマット（すなわち、「２０１４年３月５日」は、「２０１４年２月２７日」となり、「０３－０５－２０１４」は、「０２－２７－２０１４」となる）を維持するように処理される。日付のシフトは、１から３１の間の患者固有のランダムな数である。これにより、所与の患者について、日付が一貫してシフトされることを保証する。場所及び組織は、事前に定義された辞書から選択された適切な代替用語に置換される。数字を含むＰＨＩエンティティ（例えば、電話番号、患者ＩＤなどで）は、全長及びフォーマットを維持しつつ、これらの数字をランダムに置換する。

いくつかの実施形態では、所与の患者について、エンティティの難読化は、一貫した方法で実施される。すなわち、同じ要素が、異なる文、又は医師のノートで繰り返される場合（例えば、２つ以上のエンティティが共通の対象を指す場合）、それは同じ代替用語によって置換される。一例として、「今日、ケビン・マイヤーズは、セントオーガスティン病院を訪れた」になるように難読化された「今日、ジョン・スミスは、メイヨークリニックを訪れた」を含む患者のノートを考える。次いで、「ジョンは、かなり気分が良いと伝えている」などの別の文（同じ患者について異なるノートであっても他の場所で現れる）は、「ケビンは、かなり気分が良いと伝えている」になる。したがって、名前ジョンからケビンへのマッピング、及び苗字スミスからケビンへのマッピングは、この患者について維持される。マッピングは、単一の患者のレベルで適用される。ジョン・スミスという名前の別の患者は、別の代替用語、例えばトム・ミラーに置換される。いくつかの実施形態では、エンティティの一貫した難読化は、エンティティとそれらの代替用語との間のマッピング情報を記憶する専用のキャッシュメカニズムを使用して実施される。専用のキャッシュメカニズムは、システム内の他のキャッシュリソースとは独立して動作し、ディスクベースのキャッシュ、メモリ内キャッシュなどを含み得る。集中型キャッシュに加えて、又は集中型キャッシュの代わりに専用キャッシュを使用すると、難読化プロセスの性能及び効率を向上させ得る。

これらの実施形態と一致して、難読化プロセス２６００は、出力テキスト２６２０の可読性及び解釈性を処理する。例えば、上記の技術を使用して代替用語を選択しないプロセス２６００の実施形態では、例示的な入力テキスト「ジョン・スミスは、彼の息子のジャックを伴って現れた感じの良い６７歳である。ジョンは、呼吸困難を訴えている」は、「ジェーン・ケイトは、彼の息子のマットを伴って現れた感じの良い６７歳である。ライアンは、呼吸困難を訴えている。」に変形されてもよい。この例では、「ジェーン・ケイト」は、偽名であり、したがって漏洩する可能性のある任意の真の個人情報と区別するために役立つことは、明らかである。この場合の名前変換は、元の苗字の前にある名前と性別のフォーマットがマッチングしなかった。別の問題は、全く別の人が呼吸困難を訴えているように見えるので、出力の解釈性が悪いことである。この問題に対処するために、上述した技術を使用するプロセス２６００の実施形態は、「ジョン」を「ジェーン」ではなく男性の名前に変換し（性別マッチング）、「スミス」を、「ケイト」のように主に名前として使用される名前の代わりに有効な苗字に変換してもよい。名前では、民族性（例えば、慣習及び文化的ノート）を反映する健康記録の特徴が、変換された名前と一致するように、民族性をマッチングさせることが同様に望ましい場合がある。更に、解釈性を向上させるために、ジョン・スミスという名前に対する各参照に同じ変換を適用してもよい。これらの改善を反映する例示的な出力は、「ヤコブ・ハミルトンは、彼の息子のジョナサンを伴って現れた感じの良い６７歳である。ヤコブは、呼吸困難を訴えている。」当業者であれば、上述のエンティティタイプのいずれか１つの難読化は、同じ難読化プロセスにおいて、他の上述のエンティティタイプの難読化と共に実施され得ることを理解するであろう。

本明細書に記載の主題は、本明細書に開示した構造的手段、及びその構造的均等物を含む、デジタル電子回路で、あるいはコンピュータソフトウェア、ファームウェア、又はハードウェア、又はそれらの組合せで、実装され得る。本明細書に記載の主題は、データ処理装置（例えば、プログラム可能なプロセッサ、コンピュータ、又は複数のコンピュータ）によって実行される、又はその動作を制御するために、情報キャリア（例えば、機械可読記憶デバイスにおいて）に有形に具現化された、又は伝播信号に具現化された１つ又は複数のコンピュータプログラムなど、１つ又は複数のコンピュータプログラム製品として実装され得る。コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られる）は、コンパイル言語又はインタプリタ言語を含む任意の形式のプログラミング言語で記述され、更にコンピュータプログラムは、スタンドアロンプログラムとして、又はモジュール、構成要素、サブルーチン、若しくは計算環境での使用に適した他のユニットとして、任意の形式で展開され得る。コンピュータプログラムは、必ずしもファイルに対応しているとは限らない。プログラムは、他のプログラム又はデータを保持するファイルの一部に、当該プログラムに専用の単一のファイルに、又は複数の協調ファイル（例えば、１つ又は複数のモジュール、サブプログラム、又はコードの一部を記憶するファイル）に、記憶され得る。コンピュータプログラムは、１つのコンピュータ上で、あるいは１つのサイトにおいて、又は複数のサイトにわたって分散され、通信ネットワークによって相互接続される、複数のコンピュータ上で、実行されるように展開され得る。

本明細書に記載の主題の方法ステップを含む、本明細書に記載のプロセス及びロジックフローは、入力データを操作し、出力を生成することによって、本明細書に記載の主題の機能を実施する１つ又は複数のコンピュータプログラムを実行する１つ又は複数のプログラマブルプロセッサによって実施され得る。プロセス及びロジックフローはまた、ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）又はＡＳＩＣ（特定用途向け集積回路）などの専用論理回路によって実施され、本明細書に記載の主題の装置は、その専用論理回路として実装され得る。

コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方、並びに任意の種類のデジタルコンピュータの任意の１つ又は複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリ又はランダム・アクセス・メモリ、又はその両方から命令及びデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサ、並びに命令及びデータを記憶するための１つ又は複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための１つ又は複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、又は光ディスクを含み、それらからデータを受信する、それらにデータを送信する、又はそれらとデータを送受信するように動作可能に接続される。コンピュータプログラム命令及びデータを具現化するために適した情報キャリアは、例として、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュ・メモリ・デバイス）、磁気ディスク（例えば、内蔵ハードディスク又はリムーバブルディスク）、光磁気ディスク、及び光ディスク（例えば、ＣＤ及びＤＶＤディスク）を含む、あらゆる形式の不揮発性メモリを含む。プロセッサ及びメモリは、専用論理回路によって補完されても、又は専用論理回路に組み込まれてもよい。

ユーザとの相互作用を提供するために、本明細書に記載の主題は、情報をユーザに表示するためのディスプレイデバイス、例えばＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタと、ユーザがコンピュータに入力を提供し得るキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と、を有するコンピュータ上に実装され得る。なお、他の種類のデバイスを使用して、ユーザとの相互作用を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、音響、音声、又は触覚入力を含む任意の形式で受信されてもよい。

本明細書に記載の主題は、バックエンド構成要素（例えば、データサーバ）、ミドルウェア構成要素（例えば、アプリケーションサーバ）、若しくはフロントエンド構成要素（例えば、ユーザが本明細書に記載の主題の実装形態と相互作用し得るグラフィカル・ユーザ・インターフェース又はウェブブラウザを有するクライアントコンピュータ）、又はそのようなバックエンド、ミドルウェア、及びフロントエンド構成要素の任意の組合せを含む計算システムに実装され得る。システムの構成要素は、任意の形式又は媒体のデジタルデータ通信、例えば通信ネットワークによって相互接続され得る。通信ネットワークの例には、ローカル・エリア・ネットワーク（「ＬＡＮ」）及びワイド・エリア・ネットワーク（「ＷＡＮ」）、例えばインターネットを含む。

個人の健康データを用いて計算するための技術を開示している。特定の一実施形態では、本技術は、セキュアエンクレーブを形成する隔離メモリパーティションを構築することと、セキュアエンクレーブ内にソフトウェアを事前にプロビジョニングすることと、を含む方法として実現され得る。セキュアエンクレーブは、１つ又は複数のプロセッサ上で実行されている１つ又は複数の不正なコンピューティングプロセスから隔離して、１つ又は複数のアプリケーション計算プロセスを実行するために、１つ又は複数のプロセッサに利用可能である。事前にプロビジョニングされたソフトウェアは、暗号化された形式で、１つ又は複数のアプリケーション計算プロセスのための入力データ又は命令のうちの少なくとも１つを受信することと、１つ又は複数の暗号化鍵を使用して入力データ又は命令のうちの少なくとも１つを復号することと、出力データを生成するために、復号した入力データ又は命令のうちの少なくとも１つに基づいて１つ又は複数のアプリケーション計算プロセスを実行することと、１つ又は複数のアプリケーション計算プロセスが受信した入力データ上で動作したことを示す実行の証拠を生成することと、１つ又は複数の暗号化鍵を使用して出力データを暗号化することと、暗号化した出力データ及び実行の証拠に外部アクセスを提供することと、によって、１つ又は複数のプロセッサ上で１つ又は複数のアプリケーション計算プロセスの命令を実行するように構成される。

この特定の実施形態の他の態様によれば、本方法は、データ提供者から入力データを受信するステップと、データ提供者以外のエンティティに対応する命令提供者から、入力データを分析する１つ又は複数のプログラムを受信するステップと、入力データをセキュアエンクレーブにロードするステップと、入力データを分析する１つ又は複数のプログラムをセキュアエンクレーブにロードするステップと、セキュアエンクレーブを使用して入力データを分析する１つ又は複数のプログラムを実行するステップと、を更に含む。

この特定の実施形態の他の態様によれば、本方法は、臨床データ記録のセットをセキュアエンクレーブにロードする前に入力データを識別解除するステップであって、入力データを識別解除するステップが、入力データから１つ又は複数の個人又はエンティティを識別する情報を除去するステップを含む、識別解除するステップと、セキュアエンクレーブ内の１つ又は複数のアプリケーション計算プロセスのデータ又は命令に関連付けられた復号鍵を、データ提供者又は命令提供者にそれぞれ提供するステップと、入力データをセキュアエンクレーブにロードする前に、入力識別解除確率を入力データに関連付けるステップであって、セキュアエンクレーブが、出力データ内の入力識別解除確率を維持する、関連付けるステップと、を更に含む。

この特定の実施形態の他の態様によれば、入力データは、臨床データから個人識別情報（ＰＩＩ）を除去することによって識別解除される臨床データを含み、入力データ、及び入力データを分析する１つ又は複数のプログラムは、同じトランザクションでセキュアエンクレーブにロードされる。

この特定の実施形態の他の態様によれば、本方法は、セキュアエンクレーブを、第２のセキュアエンクレーブ内で実行されるウェブサーバに接続するステップと、セキュアエンクレーブの出力データを、ウェブクライアント又はウェブブラウザ上のウェブページとして表示させるステップと、を更に含む。

この特定の実施形態の他の態様によれば、セキュアエンクレーブ内のウェブサーバによって処理されている入力データは、ウェブブラウザ又はウェブクライアントにアクセスできず、ウェブサーバを介して表示された出力データは、セキュアエンクレーブに関連付けられた暗号化オブジェクトに関連付けられる。

この特定の実施形態の他の態様によれば、本方法は、キュレーションサービスから入力データ又は命令を受信するステップを更に含み、入力データ又は命令がプライバシー保護であると、キュレーションサービスが判定する。

この特定の実施形態の他の態様によれば、セキュアエンクレーブは、パイプラインを形成するために１つ又は複数の他のセキュアエンクレーブに通信可能に接続され、セキュアエンクレーブからの出力データは、パイプライン内の後続のセキュアエンクレーブへの入力データとして提供され、実行の証拠が、暗号化オブジェクトを備え、暗号化オブジェクトは、セキュアエンクレーブのコンテンツの表現であり、セキュアエンクレーブのコンテンツの表現は、不正なコンピュータプログラムが入力データ上で動作していないことを証明し、セキュアエンクレーブのコンテンツの表現は、入力データに関連付けられた入力識別解除確率がセキュアエンクレーブによって維持されたことを証明し、暗号化オブジェクトは、パイプライン内の１つ又は複数の他のセキュアエンクレーブのコンテンツを表す１つ又は複数の他の暗号化オブジェクトとリンクされる。

この特定の実施形態の他の態様によれば、セキュアエンクレーブ内で１つ又は複数の計算プロセスを実行することは、入力データ又は命令の少なくとも１つに基づいてセキュアエンクレーブの固有シグネチャを生成することを更に含み、１つ又は複数のアプリケーション計算プロセスの受信した入力データ及び命令は、パイプライン内のセキュアエンクレーブにリンクされた他のいかなるセキュアエンクレーブにもアクセスできず、１つ又は複数のアプリケーション計算プロセスの受信した入力データ及び命令は、パイプラインのオペレータにとってアクセス可能ではなく、１つ又は複数の不正な計算プロセスは、少なくとも１つの特権ソフトウェア、特権ファームウェア、又はネットワークインターフェースプロセスを含み、入力データは、臨床データ記録のセットを備える。

特定の一実施形態では、本技術は、テキストシーケンスを受信するステップと、テキストシーケンスを複数のエンティティタグ付けモデルに提供するステップと、複数のエンティティタグ付けモデルによって識別されたテキストシーケンスからタグ付きエンティティを集約するステップと、集約されたタグ付きエンティティに基づいてテキストシーケンス内の情報をマスキングするステップと、を含む情報マスキング方法として実現され得る。複数のエンティティタグ付けモデルの各々は、対応するエンティティタイプを有するテキストシーケンスの１つ又は複数の部分にタグ付けし、更に所定の閾値を超える性能メトリックを実現するように、訓練される。

この特定の実施形態の他の態様によれば、テキストシーケンスは、電子健康記録の少なくとも一部を含み、複数のエンティティタグ付けモデルのうちの少なくとも１つは、エンティティタイプのエンティティにタグ付けするように訓練され、エンティティタイプは、個人名、組織名、年齢、日付、時刻、電話番号、ポケットベル番号、臨床識別番号、電子メールアドレス、ＩＰアドレス、ウェブＵＲＬ、車両番号、住所、郵便番号、社会保障番号、又は生年月日のうちの少なくとも１つを含み、複数のエンティティタグ付けモデルのうちの少なくとも１つは、ルールベースのアルゴリズムに基づいてエンティティをタグ付けし、複数のエンティティタグ付けモデルのうちの少なくとも１つは、テキストのシーケンスからの学習に基づいた機械学習モデルを含み、テキストシーケンスにおける情報をマスキングすることは、１つ又は複数のタグ付きエンティティを、１つ又は複数のタグ付きエンティティのタイプをマーキングするプレースホルダに置換することを含み、テキストシーケンスにおける情報をマスキングすることは、１つ又は複数のタグ付きエンティティの値を、ランダム化された値に変更することを含む。

この特定の実施形態の他の態様によれば、情報マスキング方法は、テキストシーケンスの１つ又は複数の部分をホワイトリスト化するステップであって、１つ又は複数のホワイトリスト化された部分は、集約されたタグ付きエンティティを１つ又は複数のドレグフィルタに通す複数のエンティティのタグ付けモデルに提供されず、１つ又は複数のドレグフィルタの各々は、ルールベースのテンプレート又はパターン・マッチング・フィルタのうちの少なくとも１つに基づいて対応するエンティティタイプをフィルタリングするように構成される、ホワイトリスト化するステップを更に含む。ルールベースのテンプレートは、テキストシーケンスの１つ又は複数の部分のそれぞれを、対応する構文テンプレートにマッピングすることと、テキストシーケンスの１つ又は複数の部分に基づいて１つ又は複数の候補構文テンプレートを類推する機械学習モデルに基づいて候補構文テンプレートを識別することと、候補テンプレートに対応するテキストシーケンスの部分における１つ又は複数のタグ付きエンティティの各々を、対応する構文トークンに置換することによって、候補構文テンプレートからルールベースのテンプレートを生成することと、によって生成され得る。

別の特定の実施形態では、本技術は、薬物、疾患、及び関係を指定するクエリを受信するステップと、クエリに応答して、薬物及び疾患の各々に言及するテキストフラグメントのリストを取得するステップであって、テキストフラグメントのリスト内の各テキストフラグメントが、薬物及び疾患に対応するトークン、並びに薬物と疾患との間及び薬物と疾患の周囲の複数の追加のトークンを含む、取得するステップと、テキストフラグメントごとに、訓練された少なくとも１つのニューラル・ネットワーク・モデルを使用して、関係が成立するか否かを類推するステップと、関係がテキストフラグメントのリストの中で成立することを、類推が示す頻度に基づいてメトリックを決定するステップと、メトリック、及びテキストフラグメントのリストの中の１つ又は複数のテキストフラグメントを含むクエリに対する応答を提供するステップと、を含む方法として実現され得る。

この特定の実施形態の他の態様によれば、テキストフラグメントのリストを取得することは、クエリに基づいて第２のクエリを検索アグリゲータに送信して、第２のクエリを検索アグリゲータに受信させ、第２のクエリを複数のシャードに分散させ、それぞれの反転リストに対する検索を複数のシャードの各々に実施させることであって、複数のシャードの各々は、コーパスの対応する部分を処理して、反転リストを形成し、反転リストは、コーパス内の各トークンの出現のリストを含む、実施させることと、検索結果のセットを生成し、複数のシャードからの検索結果を集約して、テキストフラグメントのリストを形成することと、を含む。

この特定の実施形態の他の態様によれば、反転リストは、コーパスを複数のサブセットに分割することと、複数のサブセットの各々を、対応する複数のシャードに分散することと、複数のシャードの中のシャードごとに、それぞれのサブセット内の１つ又は複数の文書を連結して、テキスト配列を形成することと、それぞれのサブセット内の各トークンの出現のリストを決定することであって、出現のリストは、反転リストとして記憶される、決定することと、によって生成される。

この特定の実施形態の他の態様によれば、本方法は、薬物、疾患、又は関係のうちの少なくとも１つに関連する１つ又は複数の関連用語を含むようにクエリを拡張するステップを更に含み、テキストフラグメントのリストは、拡張されたクエリに基づいて取得され、１つ又は複数の関連用語は、複数の用語の中での関係を識別する知識ベースから検索される。

この特定の実施形態の他の態様によれば、本方法は、テキストフラグメントのリスト内の１つ又は複数のエンティティを識別するステップと、１つ又は複数のエンティティの統計分析に基づいて１つ又は複数のエンリッチセットを生成するステップと、を更に含み、クエリに対する応答は、１つ又は複数のエンリッチセットを含み、１つ又は複数のエンリッチセットは、１つ又は複数のエンティティの中で最も高い統計的有意性スコアを有する１つ又は複数のエンティティのサブセットを含む。

この特定の実施形態の他の態様によれば、テキストフラグメントのリストは、公開文献コーパス又は臨床データコーパスのうちの少なくとも１つを含むコーパスから取得され、コーパスは、マスキングされた情報を含む少なくとも１つのテキストシーケンスを含み、コーパスは、少なくとも１つの構造化データフィールドを含む構造化テキストデータを含み、コーパスは、少なくとも１つの患者記録が最小コホートサイズ未満のコホートに関連付けられていることに基づいて、応答から省略された少なくとも１つの患者記録を含む。

この特定の実施形態の他の態様によれば、マスキングされた情報は、少なくとも１つのテキストシーケンスを受信することと、少なくとも１つのテキストシーケンスを複数のエンティティタグ付けモデルに提供することであって、複数のエンティティタグ付けモデルの各々は、所定の閾値を超える性能メトリックを実現するように訓練される、提供することと、複数のエンティティタグ付けモデルによって識別されたテキストシーケンスからタグ付きエンティティを集約することと、集約されたタグ付きエンティティに基づいてテキストシーケンス内の情報をマスキングすることと、によってマスキングされる。

別の特定の実施形態では、本技術は、第１のキュレーションされた健康記録のセットを受信するステップであって、キュレーションされた健康記録のセット内の各健康記録は、患者情報の構造化表現を含む、受信するステップと、第１のキュレーションされた健康記録のセットを使用して第１のニューラル・ネットワーク・モデルを訓練するステップと、第１のキュレーションされていない健康記録のセットを受信するステップと、訓練された第１のニューラル・ネットワーク・モデルを使用して第１のキュレーションされていない健康記録のセットをキュレーションするステップと、第２のキュレーションされた健康記録のセットを生成するステップと、第２のキュレーションされた健康記録のセットを使用して第２のニューラル・ネットワーク・モデルを訓練するステップであって、第２のニューラル・ネットワーク・モデルは、第１の性能メトリックと比較して改善された性能を示す第２の性能メトリックを訓練するステップに基づいて、第２の性能メトリックを実現する、訓練するステップと、を含む方法として実現され得る。

この特定の実施形態の他の態様によれば、本方法は、現在の反復についてキュレーションされていない健康記録のセットを受信するステップと、前の反復からの訓練されたニューラル・ネットワーク・モデルを使用して、現在の反復のためにキュレーションされていない健康記録のセットをキュレーションするステップと、現在の反復のためにキュレーションされた健康記録のセットを生成するステップと、現在の反復のためにキュレーションされた健康記録のセットを使用して、現在の反復のためのニューラル・ネットワーク・モデルを訓練するステップと、を反復的に実施するステップを更に含む。

この特定の実施形態の他の態様によれば、本方法は、第２のキュレーションされていない健康記録のセットを受信するステップと、訓練された第２のニューラル・ネットワーク・モデルを使用して第２のキュレーションされていない健康記録のセットをキュレーションするステップと、第３のキュレーションされた健康記録のセットを生成するステップと、第４のキュレーションされた健康記録のセットに基づいて健康記録の構造化データベースに入力するステップであって、第４のキュレーションされた健康記録のセットは、第１のキュレーションされた健康記録のセット、第２のキュレーションされた健康記録のセット、第３のキュレーションされた健康記録のセット、又は１つ若しくは複数のニューラル・ネットワーク・モデルを反復的に訓練することによって生成されたキュレーションされた健康記録のセットのうちの少なくとも１つを含み、１つ又は複数のニューラル・ネットワーク・モデルの各々は、前の反復中に生成されたキュレーションされた健康記録のセットを使用して訓練される、入力するステップと、健康記録の構造化データベースに基づいてエンリッチメント分析を実施するステップと、クラスタリング分析に基づいて複数の患者のサブグループ間を区別し、複数の患者のサブグループごとに、異なる治療計画を選択するステップと、第３のキュレーションされた健康記録のセットを時間的に整列し、時間的に整列した健康記録のセットに基づいて１つ又は複数の時間的エンリッチメントを識別するステップと、を更に含む。

この特定の実施形態の他の態様によれば、訓練された第２のニューラル・ネットワーク・モデルは、関心のある新興の概念に基づいて第３のキュレーションされた健康記録のセットをキュレーションし、エンリッチメント分析は、疾患に関連する疾患予測因子を識別すること、又は患者コホートを特徴付けることとのうちの少なくとも１つを含み、第３のキュレーションされた健康記録のセットは、陽性テストの日付、医療処置の日付、又は薬剤の使用に関連する日付のうちの少なくとも１つに基づいて時間的に整列され、１つ又は複数の時間的エンリッチメントは、複数の時間ウィンドウ内で識別され、１つ又は複数の時間的エンリッチメントは、複数の因子に基づく少なくとも１つのコエンリッチメントを含む。

別の特定の実施形態では、本技術は、システムに通信可能に接続され、システム内で動作するように構成された少なくとも１つのコンピュータプロセッサを含むシステムとして実現され、少なくとも１つのコンピュータプロセッサは、上述の方法のうちの１つ又は複数におけるステップを実施するように更に構成され、第２のニューラル・ネットワーク・モデルは、合成した健康記録のセット、第１のキュレーションされた健康記録のセット、及び第２のキュレーションされた健康記録のセットを使用して訓練される。

別の特定の実施形態では、本技術は、非一時的なプロセッサ可読媒体と、媒体に記憶された命令と、を含む製品として実現され、命令は、情報マスキングシステムに通信可能に接続され、情報マスキングシステム内で動作するように構成された少なくとも１つのコンピュータプロセッサによって媒体から読取り可能に構成され、それによって、上述の方法のうちの１つ又は複数のステップを実施するように、少なくとも１つのコンピュータプロセッサを動作させる。

開示した主題は、その適用において、上記の説明に記載された又は図面に示された構成の詳細及び構成要素の配置に限定されないことを理解されたい。開示した主題は、他の実施形態が可能であり、様々な方法で実施及び実行することができる。また、本明細書で使用される表現及び用語は、説明のためのものであり、限定するものと見なされるべきではないことを理解されたい。

したがって、当業者は、本開示の基礎となる概念が、開示した主題のいくつかの目的を実行するための他の構造、方法、及びシステムの設計の基礎として容易に利用され得ることを理解するであろう。したがって、特許請求の範囲は、開示した主題の趣旨及び範囲から逸脱しない限り、そのような同等の構成を含むと見なされることが重要である。

開示した主題を前述の例示的な実施形態で説明及び図示してきたが、本開示は例としてのみなされており、開示した主題の趣旨及び範囲から逸脱することなく、開示した主題の実装の詳細における多くの変更がなされ得ることが理解され、これは以下の特許請求の範囲によってのみ限定される。

Claims

テキストシーケンスを受信するステップと、
前記テキストシーケンスを複数のエンティティタグ付けモデルに提供するステップであって、該複数のエンティティタグ付けモデルの各々が、対応するエンティティタイプを有する前記テキストシーケンスの１つ又は複数の部分にタグ付けするように訓練される、提供するステップと、
前記複数のエンティティタグ付けモデルを使用して前記テキストシーケンス内の１つ又は複数のエンティティにタグ付けするステップと、
前記エンティティを代替用語に置換することによって、前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化するステップであって、該代替用語が、前記エンティティの１つ又は複数の属性に基づいて選択され、置換される前記エンティティと同様の特性を維持する、難読化するステップと
を含む、識別解除方法。
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化するステップが、共通の対象を指す２つ以上のエンティティを、共通の代替用語に置換するステップを含む、請求項１に記載の識別解除方法。
前記共通の代替用語が、前記２つ以上のエンティティの１つ又は複数の属性に基づいて選択される、請求項２に記載の識別解除方法。
前記共通の代替用語が、前記２つ以上のエンティティに関連する性別に基づいて選択される、請求項２に記載の識別解除方法。
前記共通の代替用語が、前記２つ以上のエンティティに関連する民族性に基づいて選択される、請求項２に記載の識別解除方法。
１つ又は複数のエンティティにタグ付けする前記ステップが、２つ以上の個人名にタグ付けするステップを含み、更に、
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化する前記ステップが、前記２つ以上の個人名の各々を、異なる代替用語に置換するステップを含む、請求項１に記載の識別解除方法。
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化する前記ステップが、共通の人物を指す２つ以上のエンティティを、該共通の人物に関連する性別とマッチングする代替用語に置換するステップを含む、請求項１に記載の識別解除方法。
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化する前記ステップが、共通の人物を指す２つ以上のエンティティを、該共通の人物に関連する民族性とマッチングする代替用語に置換するステップを含む、請求項１に記載の識別解除方法。
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化する前記ステップが、日付を表す２つ以上のタグ付きエンティティを、代替用語の日付に置換するステップを含み、
該代替用語の日付が、ランダム値によって変更された該２つ以上のタグ付きエンティティに基づく、請求項１に記載の識別解除方法。
共通の患者に関連する日付が、前記同じランダム値によって変更される、請求項９に記載の識別解除方法。
前記１つ又は複数のタグ付きエンティティの中の各エンティティを難読化する前記ステップが、数値識別子をスクランブルするために、該数値識別子を表す２つ以上のエンティティを、ランダム値でスクランブルするステップを含む、請求項１に記載の識別解除方法。
前記テキストシーケンスが、電子健康記録の少なくとも一部を含む、請求項１に記載の識別解除方法。
前記複数のエンティティタグ付けモデルのうちの少なくとも１つが、エンティティタイプのエンティティにタグ付けするように訓練され、該エンティティタイプが、個人名、組織名、年齢、日付、時間、電話番号、ポケットベル番号、臨床識別番号、電子メールアドレス、ＩＰアドレス、ウェブＵＲＬ、車両番号、住所、郵便番号、社会保障番号、又は生年月日のうちの少なくとも１つを含む、請求項１に記載の識別解除方法。
前記複数のエンティティタグ付けモデルのうちの少なくとも１つが、ルールベースのアルゴリズムに基づいてエンティティにタグ付けする、請求項１に記載の識別解除方法。
前記複数のエンティティタグ付けモデルのうちの少なくとも１つが、テキストのシーケンスからの学習に基づいた機械学習モデルを含む、請求項１に記載の識別解除方法。
前記テキストシーケンスの１つ又は複数の部分をホワイトリスト化するステップであって、前記１つ又は複数のホワイトリスト化された部分が、前記複数のエンティティタグ付けモデルに提供されない、ホワイトリスト化するステップを更に含む、請求項１に記載の識別解除方法。
前記複数のエンティティタグ付けモデルの各々が、所定の閾値を上回る性能メトリックを実現するために、前記テキストシーケンスの１つ又は複数の部分にタグ付けするように訓練される、請求項１に記載の識別解除方法。
前記複数のエンティティタグ付けモデルによって識別された前記テキストシーケンスからタグ付きエンティティを集約するステップを更に含む、請求項１に記載の識別解除方法。
前記集約されたタグ付きエンティティを１つ又は複数のドレグフィルタに通すステップを更に含み、該１つ又は複数のドレグフィルタの各々が、ルールベースのテンプレート又はパターン・マッチング・フィルタのうちの少なくとも１つに基づいて、対応するエンティティタイプをフィルタリングするように構成される、請求項１８に記載の識別解除方法。
前記ルールベースのテンプレートが、
前記テキストシーケンスの１つ又は複数の部分の各々を、対応する構文テンプレートにマッピングするステップと、
前記テキストシーケンスの１つ又は複数の部分に基づいて１つ又は複数の候補構文テンプレートを類推する機械学習モデルに基づいて候補構文テンプレートを識別するステップと、
前記候補テンプレートに対応する前記テキストシーケンスの部分における前記１つ又は複数のタグ付きエンティティの各々を、対応する構文トークンに置換することによって、前記候補構文テンプレートから前記ルールベースのテンプレートを生成するステップと
によって、生成される、請求項１６に記載の識別解除方法。