JP7258871B2 - 遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム - Google Patents

遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム Download PDF

Info

Publication number
JP7258871B2
JP7258871B2 JP2020522707A JP2020522707A JP7258871B2 JP 7258871 B2 JP7258871 B2 JP 7258871B2 JP 2020522707 A JP2020522707 A JP 2020522707A JP 2020522707 A JP2020522707 A JP 2020522707A JP 7258871 B2 JP7258871 B2 JP 7258871B2
Authority
JP
Japan
Prior art keywords
data
evidence
variant
performance
aspects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020522707A
Other languages
English (en)
Other versions
JP2020537795A (ja
JP2020537795A5 (ja
Inventor
アレクサンドル コラヴィン,
カルロス エル. アラヤ,
ジェイソン エー. ロイター,
Original Assignee
インビタエ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インビタエ コーポレイション filed Critical インビタエ コーポレイション
Publication of JP2020537795A publication Critical patent/JP2020537795A/ja
Publication of JP2020537795A5 publication Critical patent/JP2020537795A5/ja
Application granted granted Critical
Publication of JP7258871B2 publication Critical patent/JP7258871B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0618Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation
    • H04L9/0637Modes of operation, e.g. cipher block chaining [CBC], electronic codebook [ECB] or Galois/counter mode [GCM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Power Engineering (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Peptides Or Proteins (AREA)

Description

例えば遺伝子検査及びゲノム検査等の分子検査は、新生児発作、心律動異常(例えば不整脈)又は素因といった個体のリスクから発癌まで幅広い臨床環境において、ますます重要な診断ツールである。対象において同定される分子バリアント-例えば遺伝子型(配列)バリアント-の表現型の影響(例えば、臨床的及び非臨床的の両方であり、限定するものではないが、病的、機能的、又は相対的な影響)を決定することは、臨床分子検査の土台であることが多い。分子検査の信頼性及び有用性は、こうした決定(例えば、しばしばバリアント分類として知られる)が、エビデンスベースであり、客観的であり、かつ、体系的であることを必要とする場合がある(Yandell et al. Genome Res. 2011 Sep;21(9):1529-42)。
大部分が次世代シーケンシング(NGS)技術によって動かされることから、遺伝子及びゲノム技術の急速な進歩により、遺伝子及びゲノム検査の量(例えば、市場導入)、多様性、並びに範囲(例えば、分析される配列情報)の劇的な増加につながった。関連して、意義が不明であるバリアントの数が劇的に増加し、臨床の遺伝子及びゲノム検査の感度並びに特異度に影響している。
(例えば、臨床的又は非臨床的な)表現型の影響が不明である分子バリアントが大半であることが、多数の臨床意義のある遺伝子を含む、ほぼ全ての遺伝子及び全ての集団の特色である。最も重点的に研究されている臨床遺伝子及び症状においてでさえも、分子バリアントの臨床意義についての現存の知識は、希薄なままであることが多い。例えば、BRCA1遺伝子の場合では、臨床遺伝学者、分子病理学者、及びBRCA1の専門家による大きな国際コンソーシアムにより、108か所の非同義分子バリアントについて分類が定められており、BRCA1における可能性のある約16,200か所の非同義一塩基遺伝子型(配列)バリアントのうちの約0.7%については臨床意義が裏付けられている(BRCA Exchange)。従って、近年の遺伝子パネル及びゲノム検査において同定される分子バリアントの大部分は、表現型の影響又は臨床意義が不明である。例えば、最近の報告では、近年の遺伝性癌遺伝子のパネル検査は、1の既知の病的バリアントに対して、意義不明であるバリアントは95もの数(95:1の比)を発見することができると示している(Maxwell et al., 2016)。
それらの制限された有効性に加えて、分子バリアントの(臨床的又は非臨床的な)表現型の影響に関する現存の知識及び分類は、絶え間なく進化している。例えば、臨床意義に関する分類の大規模な公的リポジトリ(Clin Var)にあるBRCA1の非同義一塩基多型遺伝子型(配列)バリアントのうちの約50%が、矛盾する分類であり、またコンセンサスに基づく真理の定義は、12ヶ月間にわたって約11%の分類不安定性につながる可能性がある(Landrum et al., 2015)。多数の遺伝子においては、また多数の症状に関しては、矛盾する分類の増加が、新規の、コンセンサス由来の分類の増加を上回る可能性がある(Landrum et al., 2015)。さらに、他の特徴のうち、ゲノム変異、病因並びに分子病理学及び分子疫学の理解の一貫した進歩が、バリアントの影響及び分類の対応する「真理集合」の一貫した進化につながってきた。
バリアントの解釈及びレビューの間、遺伝子又はゲノム検査の提供者は、バリアント解釈支援システムを介して、バリアント、遺伝子、症状及び症例を取り巻くエビデンスへのアクセスを要求することが可能である。臨床意義が不明である遺伝子バリアントが多数あることに起因して、遺伝子及びゲノム検査の提供者は、対象及び検査において同定される、別のやり方で不明である影響の分子バリアントの表現型の影響(例えば臨床的又は非臨床的な)を決定するために、多種多様にそろったエビデンスタイプに日常的に依存している。バリアント解釈支援システムは、裏付けとなるエビデンスの1又は複数のラインを含むことが可能であり、これは、他のもののうち、計算予測因子、突然変異多発点、機能分析及び集団の尺度からのデータを含むがこれに限定されない。しかしながら、バリアント分類の一貫した増加及び変化特性-エビデンスモデルの評価のための「真理集合」の根本を形成する-あらゆるエビデンスモデルに関する算出された性能尺度(例えば、診断、分類、回帰の正確度等)に起因して、しばしば時代遅れである。さらに、別個の環境(例えば、頻繁に互いに素な真理集合の定義を伴う)において発生した(例えば、算出された、分析された又は集積された)及び評価した、幅広いエビデンスモデルへの依存は、しばしば、エビデンスモデルの間で一貫性がない評価尺度を結果として生じる。合わせて、これら因子が、バリアント解釈のための支援としてのエビデンスモデルの評価及び使用を複雑にする。従って、バリアント解釈支援システムは、評価がエビデンスモデルの様々なクラスの範囲又は当該クラス間で異なるデータに基づいていることにより、エビデンスモデルの性能を確実に比較することができない可能性がある。
さらに、バリアント解釈支援システムは、様々な関心の性能尺度(例えば、診断、分類、回帰の正確度等)により評価されたエビデンスモデルを含有し得る。そのため、バリアント解釈支援システムは、異なるエビデンスモデルの性能を体系的かつ客観的に比較することができない可能性がある。継続する科学的な研究及び刊行物で、日常的に、新しいエビデンスモデルが生まれるが、均一な「真理集合」の定義の欠如、同時の更新の欠如、及びそれらの性能評価におけるバイアス(例えば、著者の関心から生じる可能性があるような)により、生まれたエビデンス及びそれらの関連する性能尺度がもつ本来の品質及び有用性が制限される可能性がある。従って、バリアント解釈支援システムは、エビデンスモデルの様々なクラスの範囲内又当該クラス間にある異なる性能尺度により評価されたエビデンスモデルの性能を、確実に比較することができない。
これらエビデンスの評価を含む論点に加えて、現存の分類(例えば、そのための真理集合)の一貫して増加及び変化する性質が、エビデンスモデルの頑健性に影響を及ぼし、これはしばしば生成のために教師つき学習のステップを必要とする。真理集合が継続的に進化するため、エビデンスの評価及び生成の両方で、更新を必要とする可能性がある。このように、バリアント解釈支援システムは、見込みのある最新のエビデンスモデルにアクセスすることができない。例えば、バリアント解釈支援システムは、計算予測因子であって、ある遺伝子バリアントについて、当該予測因子が生成された後で学習したような当該バリアントの不明でない表現型の影響と矛盾するような予測を得る、計算予測因子を含有し得る。
最後に、バリアント解釈支援システムは、エビデンスモデルが、所与の時間的瞬間に生成された又は所与のデータセットを伴って生成されたことを確認することができない可能性がある。したがって、このバリアント解釈支援システムから裏付けとなるエビデンスを得る遺伝子及びゲノム検査提供者は、エビデンスモデルのための性能尺度(例えば、診断、分類、回帰の正確度等)が、最新で、頑健で、また例えばモデルの生成の際に使用され(又は利用可能で)なかったバリアントに基づく、互いに素なデータにおいて排他的に算出されたものであることを保証できない可能性がある。
したがって、現在利用可能なシステムの欠点を克服する、新規の又は改良された、バリアント解釈支援システムが要望されている。
本開示は、コンピュータで実施される方法を提供するものであって、当該方法は、(i)ターゲットエンティティに関して分子バリアントの予測される表現型の影響を記述するものであるエビデンスデータを含むエビデンスモデルを記録することと;(ii)生成データに基づいて、エビデンスデータに関する検証性能データを評価することと;(iii)エビデンスモデルに関する裏付けデータであって、エビデンスデータを含むものである裏付けデータのハッシュ値を生成することと、ハッシュ値の生成により、エビデンスモデルに関する検定データの受信に応じて、エビデンスデータの予測評価が可能になることと;(iv)エビデンスモデルに関する検定データの受信に応じて、エビデンスデータと検定データとに基づいて、エビデンスモデルに関する検定性能データを評価することと;(v)検証性能データ又は検定性能データに基づいて、ターゲットエンティティに関するエビデンスモデルのセットにおいてエビデンスモデルを順位付けすることと;(vi)バリアント解釈端末からの、ターゲットエンティティに関する分子バリアントの予測された表現型の影響へのクエリに応じて、順位付けに基づいて、ターゲットエンティティに関して最も性能のよいエビデンスモデルを用いて予測された表現型の影響を提供することと、を含む。
一部の態様においては、ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む。
一部の態様においては、記録することは、機械学習技術を用いて、生成データに基づいてエビデンスモデルを生成することをさらに含む。一部の態様においては、記録することは、エビデンスモデル又はエビデンスデータをインポートすることをさらに含む。一部の態様においては、方法は、エビデンスデータ、生成データ、検定データ、検証性能データ又は検定性能データのうちの少なくとも1つから裏付けデータを生成することをさらに含む。
一部の態様においては、ハッシュ値の生成により、裏付けデータの内容と、裏付けデータの作成の時刻との評価が可能になる。一部の態様においては、方法は、臨床知識ベースから生成データを受信することをさらに含む。
一部の態様においては、検証性能データを評価することは、(i)エビデンスモデル及びモデル検証技術を用いて、生成データにおけるターゲットエンティティの分子バリアントに関する表現型の影響のスコアを算出することと;(ii)関心の性能尺度を用いて、表現型の影響のスコアに基づいて検証性能データを生成することとをさらに含む。
一部の態様においては、検定性能データを評価することは、(i)エビデンスモデル及びモデル検証技術を用いて、検定データにおけるターゲットエンティティの分子バリアントに関する表現型の影響のスコアを算出することと;(ii)関心の性能尺度を用いて、表現型の影響のスコアに基づいて検定性能データを生成することとをさらに含む。
一部の態様においては、方法は、データベース内に裏付けデータのハッシュ値を格納することをさらに含むものであって、当該データベースは、ハッシュ値を裏付けデータと関連付ける。一部の態様においては、方法は、分散型データ構造内にハッシュ値を挿入することをさらに含む。
一部の態様においては、方法は、バリアント解釈端末に対して監査記録を提供することをさらに含み、当該監査記録は、分散型データ構造の中の裏付けデータに関するエントリを照会するものであり、監査記録により、バリアント解釈端末が、裏付けデータの内容及び裏付けデータの作成の時刻を監査できるようになる。一部の態様においては、分散型データ構造は、ブロックチェーンデータ構造である。一部の態様においては、分散型データ構造は、分散型フィードである。
本開示はまた、バリアント解釈端末システムを提供するものであって、当該システムは、メモリと;メモリと結合し、かつ、ターゲットエンティティに関する性能尺度のセットを満たすエビデンスモデルの裏付けデータに関して、バリアント解釈システムに支援クエリを送信し;バリアント解釈システムから、裏付けデータと、裏付けデータに関連付けられた監査記録とを受信し;裏付けデータに関する監査記録を含むものである監査クエリを、分散型データ構造に送信し;監査クエリの送信に応じて、分散型データベースから、監査記録に関する検証の証明書を受信し;監査記録に基づくある時点における裏付けデータのデータ状態を決定するように構成された少なくとも1つのプロセッサと、を備える。
一部の態様においては、少なくとも1つのプロセッサは、エビデンスモデルに関する裏付けデータのハッシュ値を算出し;当該ハッシュ値が、エビデンスモデルに関する裏付けデータに関する監査記録の中のハッシュ値と合致するかを判断するように構成されている。一部の態様においては、ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む。
本発明は、例えば、以下の項目を提供する。
(項目1)
分子バリアントの表現型の影響を予測する、コンピュータで実施される方法であって、(a)エビデンスデータを含むエビデンスモデルを記録することと、
(b)生成データに基づいて、前記エビデンスデータに関する検証性能データを評価することと、
(c)前記エビデンスモデルに関する裏付けデータのハッシュ値を生成することと、
(d)前記エビデンスモデルに関する検定データの受信に応じて、前記エビデンスデータと前記検定データとに基づいて、前記エビデンスモデルに関する検定性能データを評価することと、
(e)前記検証性能データ又は前記検定性能データに基づいて、ターゲットエンティティに関するエビデンスモデルのセットにおいて前記エビデンスモデルを順位付けすることと、
(f)バリアント解釈端末からの、前記ターゲットエンティティに関する分子バリアントの予測された表現型の影響へのクエリに応じて、順位付けに基づいて、前記ターゲットエンティティに関する最も性能のよいエビデンスモデルを用いて予測された表現型の影響を提供することと、を含み、
(i)前記エビデンスデータは、前記ターゲットエンティティに関して分子バリアントの予測される表現型の影響を記述し、
(ii)前記ハッシュ値の生成により、前記エビデンスモデルに関する検定データの受信に応じて、前記エビデンスデータの予測評価が可能になり、
(iii)前記エビデンスモデルに関する裏付けデータのハッシュ値を、分散型データベースであって、前記ハッシュ値を前記裏付けデータに関連付けるものである前記分散型データベースに格納する、方法。
(項目2)
前記ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む、項目1に記載の方法。
(項目3)
前記エビデンスモデルを記録することは、生成データに基づいてエビデンスモデルを生成することを含む、項目1に記載の方法。
(項目4)
前記エビデンスモデルを記録することは、前記エビデンスモデル又は前記エビデンスデータをインポートすることを含む、項目1に記載の方法。
(項目5)
前記裏付けデータは、前記エビデンスデータ、前記生成データ、前記検定データ、前記検証性能データ、又は検定性能データ、又はこれらの組合せから生成される、項目1に記載の方法。
(項目6)
前記エビデンスモデルに関する裏付けデータのハッシュ値は、タイムスタンプと共に、分散型データベースの中に格納される、項目1に記載の方法。
(項目7)
前記生成データは、臨床知識ベースから受信する、項目3に記載の方法。
(項目8)
前記検証性能データを評価することは:
(1)前記エビデンスモデル及びモデル検証技術を用いて、前記生成データにおける前記ターゲットエンティティの1又は複数の分子バリアントに関する表現型の影響のスコアを算出することと;
(2)関心の性能尺度を用いて、前記表現型の影響のスコアに基づいて検証性能データを生成することと、を含む、項目1に記載の方法。
(項目9)
前記検定性能データを評価することは:
(1)前記エビデンスモデル及びモデル検証技術を用いて、前記検定データにおける前記ターゲットエンティティの1又は複数の分子バリアントに関する表現型の影響のスコアを算出することと;
(2)関心の性能尺度を用いて、前記表現型の影響のスコアに基づいて検定性能データを生成することと、を含む、項目1に記載の方法。
(項目11)
項目1に記載の方法、前記分散型データベースはは不変である。
(項目13)
前記分散型データベースはブロックチェーンデータ構造である、項目1に記載の方法。
(項目14)
前記分散型データベースは分散型フィードである、項目1に記載の方法。
(項目15)
バリアント解釈端末システムであって、
(i)メモリと、
(ii)前記メモリと結合した少なくとも1つのプロセッサであって、
該少なくとも1つのプロセッサは、
(a)ターゲットエンティティに関する性能尺度のセットを満たすエビデンスモデルの裏付けデータに関して、バリアント解釈システムに支援クエリを送信し、
(b)前記バリアント解釈システムから、前記裏付けデータと前記裏付けデータに関連付けられた監査記録とを受信し、
(c)前記裏付けデータに関する監査記録を含むものである監査クエリを、分散型データ構造に送信し、
(d)前記監査クエリの送信に応じて、前記分散型データベースから、監査記録に関する検証の証明書を受信し、
(e)前記監査記録に基づくある時点における前記裏付けデータのデータ状態を決定するように構成された、前記少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
(1)前記エビデンスモデルに関する裏付けデータのハッシュ値を算出し、分散型データベースの中に前記ハッシュ値を格納し、
(2)前記ハッシュ値が、前記エビデンスモデルに関する裏付けデータに関する監査記録の中のハッシュ値と合致するかを判断するように構成されるものである、バリアント解釈端末システム。
(項目17)
前記ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む、項目15に記載のシステム。
(項目18)
前記生成データに基づくエビデンスモデルは、
(i)機械学習技術、
(ii)機能分析、
(iii)生物物理学的シミュレーション、又は、
(iv)これらの組合せ、を用いて生成される、項目3に記載の方法。
(項目19)
前記機械学習技術は、教師なし、教師付き、又は半教師付きである、項目18に記載の方法。
(項目20)
項目15記載のバリアント解釈端末に対して監査記録を提供することをさらに含むものであって、
(i)前記監査記録は、前記分散型データベースの中の裏付けデータに関するエントリを照会し、
また(ii)前記監査記録により、前記バリアント解釈端末が、裏付けデータの内容及び裏付けデータの作成の時刻を監査できるようになる、項目1に記載の方法。
添付の図面は本明細書において援用し、この明細書の一部を形成する。
図1は、一部の態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスモデルの最適なセットを提供するシステムのブロック図である。 図2は、一部の態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスモデルの最適なセットを提供するシステムの例示的な図である。 図3は、一部の態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスモデルの最適なセットを提供するプロセスを説明するフローチャートである。 図4は、一部の態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスモデルを監査する処理を説明するフローチャートである。 図5は、本明細書に記載の発明の様々な態様を実施するのに有用な例示的なコンピュータシステムである。 図6は、一態様に従う、エビデンス及び裏付けデータエントリのリストからマークルツリーを生成して、それをタイムスタンプ付き公開元帳に提出するシステム600に関する図である。
図面においては、同じ参照符号は概して、同一の構成要素又は同様の構成要素を示す。また、概して、ある参照符号の最も左側の数字は、当該参照符号が最初に登場する図面を特定している。
本明細書においては、複数のエビデンスクラスを横断する分子バリアントの解釈のために最も性能のよい裏付けとなるエビデンスモデルを、定期的に組み込み、更新し、監視し、検証し、選択し及び監査することによって、対象の分子検査、サンプル又はリポートにおいて同定された分子バリアント-例えば、遺伝子及びゲノム検査、サンプル又はリポートにおいて同定された遺伝子型(配列)バリアント-の表現型の(例えば臨床的又は非臨床的な)影響(例えば、病的、機能的又は相対的な影響)についての決定を最適化するための、システム、装置、デバイス、方法及び/又はコンピュータプログラム製品の態様、並びに/又はその組合せ及びその下位の組合せを提供する。
一部の態様においては、各エビデンスモデルは、固有の分子バリアント及びそれらの関連付けられた(例えば、臨床的又は非臨床的な)表現型の影響(例えば、病的、機能的又は相対的な影響)のシステムを構成することが可能である。当業者であれば認識されるように、エビデンスモデルは、ある範囲の方法、技術及びデータソースにより引き出すことが可能であり、計算モデル及び実験モデルの両方又はその組合せを含む(例えば、計算予測因子を訓練すること、突然変異多発点を算出すること、集団のアレル頻度閾値を定めること、又は分子若しくは細胞アッセイにおいてバリアントの機能的影響を測定すること)。例えば、計算予測因子からのバリアントのスコア又は予測にアクセスして、意義不明の遺伝子型(配列)バリアントの見込みのある(例えば、臨床的又は非臨床的な)表現型の影響を決定することが可能である。例えば、MSH2(例えば、樹立腫瘍抑制タンパク質をコードする遺伝子)における遺伝子型(配列)バリアントの臨床意義を解釈する場合に、計算予測因子が、臨床意義不明の特定の遺伝子型(配列)バリアント(又は分子バリアント)はバリアントを担持する対象においてリンチ症候群の生涯リスクを増大させそうな可能性があるかを判断することが可能である。
一部の態様においては、バリアント解釈支援システムは、多くの様々なエビデンス(例えば、エビデンスモデル)を統合及び利用して、対象の分子診断検査、サンプル又はリポートにおいて同定される分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響を決定することが可能である。しかしながら、一部の態様においては、バリアント解釈支援システムは、エビデンスモデルのそれぞれ及び全てに関する診断上の文脈の検定に対して特有である、比較可能な性能尺度(例えば、そのままの正確度、平均正解率(balanced accuracy)-例えばマシューズ相関係数(MCC)、真陽性率(TPR)又は感度、真陰性率(TNR)又は特異度、陽性予測値(PPV)、及び陰性予測率(NPV))を欠いていることがある。これは、バリアント解釈支援システムが、様々な時点における様々な真理集合を用いて生成若しくは評価した又は様々な性能尺度を用いて評価したエビデンスモデルを、含有することが可能であるからである。
さらに、分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響の知識及び分類の継続的な増加及び変化に起因して、一部の態様においては、バリアント解釈支援システムは、最新の可能性のあるエビデンスモデルを含有することができず、またエビデンスモデルが生成された後で学習した(例えば、臨床的又は非臨床的な)表現型の影響と対立するエビデンスモデルを含有することがある。ゆえに、バリアント解釈支援システムは、最適かつ最新のエビデンスモデルを、遺伝子及びゲノム検査の提供者に確実に提供することができない。
したがって、バリアント解釈支援システムについては、様々なエビデンスモデルを定期的に組み込み(例えば生成又はインポートし)、監視し、更新し、検証し、選択し、分散し、及び監査することで、所与の時間的瞬間における、特定の個体、家族又は集団の文脈で分子バリアントを解釈するために最も性能のよいエビデンスモデルを使用することを確実にする方法が、要望されている。一部の態様においては、バリアント解釈支援システムは、体系的に(1)分子バリアントの表現型の影響(例えば、ラベル)を記述する真理集合を定義することと、(2)分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響についての検定データを用いて、性能尺度のセットを横断してエビデンスモデルをスコア付けすることとによって、一貫した評価を提供することが可能である。当業者であれば認識されるように、検定データは、エビデンスモデルを生成するためのデータ(例えば、生成データ)において用いられていない分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響を特定する互いに素なデータを指し得る。バリアント解釈支援システムは、提供されたエビデンスモデルが、特定のデータを使用して又は特定のデータを使用せずに、(1)当該データが生成データにおいて存在するか又は存在しないかを直接確認するか、又は、(2)エビデンスモデルの組込み(例えば、生成又はインポート)のタイムスタンプを、特定のデータの有効性に関する既知の又は受容されたタイムスタンプと比較することによって生成データにおいて特定のデータが存在しないことを推定するかのいずれかによって、生成されたということを検証するための独立の方法を提供することも必要とすることが可能である。
一部の態様においては-ある特定の時点において-エビデンスモデルの客観的選択は、(例えば、核、ミトコンドリア等の)ゲノム又はそれらの誘導体分子の中の1又は複数の(例えば、コード又は非コードの)機能性要素(例えば、タンパク質コード遺伝子、非コード遺伝子、例えばタンパク質又はRNAドメインである分子ドメイン、プロモーター、エンハンサー、サイレンサー、調節結合部位、複製の起源等)における分子バリアント-例えば遺伝子型(配列)バリアント-の(例えば、臨床的又は非臨床的な)表現型の影響の解釈で使用するための、特定の性能基準を満たすことが可能である。当業者であれば認識されるように、遺伝子型(配列)バリアントは、一塩基バリアント(SNV)、コピー数バリアント(CNV)、又は、ゲノムにおいてコード若しくは非コード配列(又は両方)に影響を及ぼす挿入若しくは欠失であり得る。当業者であれば認識されるように、分子バリアントは、タンパク質分子における単一アミノ酸置換、RNA分子における一塩基置換、DNA分子における一塩基置換、又は、生物ポリペプチドの同族配列に対するその他の分子の改変であり得る。当業者であれば認識されるように、表現型は、1又は複数の臨床的又は非臨床的な観察可能な特徴であり得、また特定の集団、年齢群、性別、組織又は突然変異型(例えば、体細胞性、遺伝性の生殖細胞系、新規の生殖細胞系)の文脈において評価され得る。特に、一部の態様においては、バリアント解釈支援システムは、特定の表現型又は表現型の採取の文脈において、ゲノム又は誘導体分子の中の(例えばコード又は非コードの)機能性要素における分子バリアントの解釈のためのエビデンスモデルを定期的に組み込む(例えば生成又はインポートする)又は更新することが可能である。一部の態様においては、バリアント解釈支援システムは、分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響の新しい(例えば、新規の又は変化した)データに対して、エビデンスモデルの比較可能な性能を定期的に評価することが可能である。一部の態様においては、バリアント解釈支援システムは、エビデンスモデルの客観的選択が、バリアント解釈の時点において、1又は複数の(例えばコード又は非コードの)機能性要素及び表現型のための特定の性能基準を満たすことを確実に保証することが可能である。
図1は、一部の態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスデータ114の最適なセットを提供するシステム100のブロック図である。システム100は、種々の知識ベース(例えば、表現型影響知識ベース102、集団知識ベース104、機能知識ベース106、又は分子知識ベース108)からのデータと、バリアント解釈支援システム110と、ネットワーク136と、バリアント解釈端末138とを含む。当業者であれば認識されるように、システム100の一部の態様は、1又は複数の機能性要素及び表現型のための多数のエビデンスモデルのみならず、特定の文脈のためのエビデンスモデルを提供することが可能である。例えば、一部の態様においては、システム100は、多種多様なクラス(例えば、計算予測因子、突然変異多発点、機能分析、生物物理学的シミュレーション、集団のアレル頻度閾値又はその他のもの)のうちの1又は複数のエビデンスモデルを用いることが可能である。
一部の態様においては、(例えば、臨床的又は非臨床的な)表現型影響知識ベース102は、1又は複数の分子バリアント情報データベースを含む。一部の態様においては、分子バリアント情報データベースは、分子バリアント及びそれらの関連する表現型又は表現型の影響についての情報を含むことが可能である。分子バリアントの表現型と表現型の影響との関連は、影響を受ける及び影響を受けない、個体、家族、並びに集団又は代表的な実験モデルでの、分子バリアントの観察に由来し得る。例えば、臨床検査により、影響を受ける個体又は影響を受けない個体それぞれにおける統計的に有意な観察量に基づいて、分子バリアントが病的であるか又は良性であるかを確認することが可能である。
一部の態様においては、入力データ112を生成するために用いられる知識ベース(例えば、表現型影響知識ベース102)は、情報が公衆に開かれている公開データベースとすることが可能である。一部の態様においては、知識ベースは、データベースを作成した企業若しくは実体又はデータベースにアクセスすることが許可されたもののみが情報にアクセス可能であるような私的(例えば、私有の)データベースとすることが可能である。
一部の態様においては、バリアント解釈支援システム110は、入力データ112のデータベース、エビデンスデータ114のデータベース、評価データ116のデータベース、ハッシュ記録120のデータベース(例えば、ハッシュデータベース122)、及び監査記録128のデータベース(例えば、監査データベース130)を含む。一部の態様においては、入力データ112(例えば、ゲノムにおける(例えば、コード又は非コード)機能性要素のバリアント、残基(例えば、位置)、及び分子からのデータ)が、バリアント解釈支援システム110にインポートされる。入力データ112は、エビデンスデータ114としてそのまま用いられ得る、又は、エビデンスデータ114の生成(例えば、エビデンスモデル)において用いられ得る。エビデンスデータ114は、分子バリアント及びそれらの関連する(例えば、臨床的又は非臨床的な)表現型の影響(例えば、病的、機能的又は相対的な影響)のセットを記述することが可能である。一部の態様においては、エビデンスデータ114(例えば、そのままの又は処理された)の性能(例えば、正確度)は、評価データ116において、記録及び格納可能である。一部の態様においては、あるエビデンスモデルに関する裏付けデータ118とまとめて呼ばれる、別個の、未処理の又は処理された入力データ112、エビデンスデータ114又は評価データ116(又はこれらの組合せ)のハッシュ値124は、ハッシュデータベース122内にハッシュ記録120において算出されて格納され、未処理の又は処理された入力データ112、エビデンスデータ114又は評価データ116との、ハッシュ値124の一意の関連及び身元証明を許可する。一部の態様においては、バリアント解釈支援システム110は、バリアント解釈端末138によってアクセス可能である分散型データベース126(例えば、ブロックチェーン、公的若しくは私用のフィード(例えば、Twitter(登録商標)フィード)又は当業者によって認識されるような種々の他のデータ構造)内に、エビデンスモデル(又はエビデンスモデルのセット)の裏付けデータ118のハッシュ値124を格納することによって、監査記録128を生成することが可能である。一部の態様においては、監査記録128は、ハッシュ値124と監査記録128とを結びつける監査データベース130内に格納される。一部の態様においては、クエリデータベース134は、ネットワーク136経由でアクセスされ、また分子バリアント、機能性の要素(又は分子)、表現型、文脈等に関する要求に応じて、裏付けデータ118からのクエリ記録132の情報へのアクセスを提供する。一部の態様においては、クエリデータベース134は、要求された裏付けデータ118と関連付けられたハッシュ記録120及び監査記録128の情報を提供する。一部の態様においては、クエリデータベース134は、アプリケーションプログラムインタフェース(API)経由でアクセス可能である。バリアント解釈支援システム110のこの性質により、バリアント解釈端末138が、1又は複数の機能性の要素(又は分子)、表現型、文脈、又は所与の時点における関心のバリアントのセットに関して、分子バリアントの表現型の影響を記述するあらゆるエビデンスモデルに関連する裏付けデータ118-例えば、入力データ112、エビデンスデータ114(例えば、エビデンスモデル)又は評価データ116-の有効性、作成の日付、及び内容を監査できるようにさせることが可能である。当業者であれば認識されるように、裏付けデータ118は、任意の入力データ112、エビデンスデータ114、又は評価データ116、又はその派生物を指し得る。
一部の態様においては、バリアント解釈支援システム110は、エビデンスモデルを組み込み(例えば、生成又はインポートし)、監視し、更新し、及び検証した後で、バリアント解釈端末138に提供される裏付けデータ118の性能、正確度及び信頼性を保証するエビデンスモデルから、バリアント解釈支援を選択して分散するための処理を続いて行うことが可能である。第一に、この処理は、様々なエビデンスモデルの信頼できる比較可能な評価を保証することが可能である。第二に、この処理は、最も性能のよいエビデンスモデルを検討し、選択し、提供するためにシステムに伴うかなりの時間を低減することが可能である。第三に、この処理は、提供されたエビデンスモデルに用いられたデータの独立の自動化された検証をできるようにすることが可能である。最後に、この処理は、要求の時点において、バリアント解釈端末138でのバリアント解釈に用いるために、所望の性能基準を伴うエビデンスモデルを選択することを保証可能である。したがってこの処理は、異なるデータから生成され、そして異なるデータに対して又は異なる性能尺度を用いて評価された、異なるソースからのエビデンスモデルの集積にしばしば依存している、エビデンスモデルの選択及び使用の従来の産業の慣習に対して、改良された技術的解決策を提供する。さらに、このシステムは、特定の機能性要素及び表現型に関して、自動的に順位付けして最も性能のよいエビデンスモデルを選択するための別の処理を提供する。
この改良された技術的解決策は、当然に、分子バリアントの解釈(例えば、分類)のために、例えば計算予測因子等であるエビデンスモデルを組み込み(例えば、生成及びインポートし)、評価し、監査し、及び分散する技術を起源とする。特に、バリアント解釈支援システム110は、エビデンスモデルを組み込むと直ちに、一連のステップを続いて行うことが可能である。生成及びインポートの両方がなされたエビデンスモデルについて、これらステップは、一連の性能及び品質管理の尺度(例えば、評価データ116)を算出することと、裏付けデータ118に関してハッシュ記録120を生成することと、将来的な監査のために分散型データベース126において裏付けデータ118の監査記録128を生成することとを含むことが可能である。これらステップは、従前に影響(例えば、臨床意義)が決定されていない分子バリアントに関する(例えば、臨床的又は非臨床的な)表現型の影響についての増加し変化していく知識ベースの関数として、(例えば、種々の)エビデンスモデルの比較可能な性能評価のためのベースラインを確立することが可能である。言い換えれば、これらステップにより、バリアント解釈支援システム110が、新規の関連性を伴った分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響のみの観点で、エビデンスモデル(並びに関連する裏付けデータ118及びそれらの生成方法)の性能を評価できるようにすることが可能である。
一部の態様においては、バリアント解釈支援システム110は、入力データ112をそのままインポート又は処理するための独立の(例えば、予めプログラムされた)モジュールを利用する又は契機となることが可能である。入力データ112は、ゲノムにおける(例えば、コード又は非コードの)機能性要素のバリアント、残基(例えば、位置)及び分子のデータを指し得る。バリアントデータは、分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響を特定することが可能であり、また影響を受ける及び影響を受けない、個体、家族、及び集団における臨床的若しくは非臨床的な観察、又は計算予測因子、モデル若しくはシミュレーションに由来するバリアントスコア、機能分析及び測定に由来するバリアントスコア、並びに集団のアレル頻度に由来するバリアントスコアに由来し得る。残基データは、機能性要素における残基間及び残基のうちの進化的性質及び関係、機能性要素における残基間及び残基のうちの物理化学的性質及び関係、機能性要素における残基間及び残基のうちの機能的性質及び関係、機能性要素における残基間及び残基のうちの構造的性質及び関係、並びに機能性要素における残基間及び残基のうちの動的性質及び関係、を記述するデータを含むことが可能である。分子データは、機能性要素の機能的、進化的、構造的、及び動的な情報を記述するデータを含むことが可能である。入力データ112の例としては、母集団若しくは特定の集団において観察されたアレル又はバリアントの頻度のデータ(又はデータベース)がある(例えば、ExAC(Exome Aggregation Consortium)よりのデータ(Lek et al., 2016))。入力データ112から生じたデータの例としては、母集団又は特定の集団においてそれらの頻度が高いことに起因して良性でありそうな遺伝子型(配列)バリアントのリストがある。一部の態様においては、バリアント解釈支援システム110は、(例えば、未処理の又は処理された)入力データ112を一意的に識別する入力データ識別子を格納することも可能である。
一部の態様においては、バリアント解釈支援システム110は、独立の(例えば、予めプログラムされた)モジュールが、例えば機械学習方法を用いて発生した計算予測因子等であるエビデンスモデルによって生成されるような、入力データ112からのエビデンスデータ114(例えば、分子バリアントの表現型の影響の予測)をそのままインポート又は生成する契機となることが可能である。一部の態様においては、エビデンスデータ114は、分子バリアントの表現型の影響についての特定の予測を示すことが可能である。一部の他の態様においては、エビデンスデータ114は、分子バリアントの表現型の影響の予測を生じる、オブジェクト、アルゴリズム、及び関数を指し得る。
一部の態様においては、エビデンスモデルを生成(例えば、訓練)して、多種多様の機械学習方法及び技術により分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響を予測することが可能である。一部の態様においては、所与の機能性の要素又は分子に関するエビデンスモデル(例えば、計算予測因子)は、ある表現型及び/又は文脈に対して特有であり得る。一部の態様においては、エビデンスモデル(又はエビデンスモデルからのエビデンスデータ114)は、タンパク質コード遺伝子の特定のタンパク質ドメイン内の、例えば非同義一塩基遺伝子型(配列)バリアント(すなわち、SNV-アクセス可能なミスセンス変異)のセット等である機能性要素の、所与の機能ドメイン、特定の残基サブセット、又は特定の分子バリアントサブセットに対して特有であり得る。一部の態様においては、エビデンスモデルは、例えば相同の構造及び機能のタンパク質のセット等である関連する機能性要素の群に特有であり得る。あるエビデンスモデルによって生成された(例えば、未処理の)エビデンスデータ114の例としては、特定の臨床的な表現型に関するタンパク質コード遺伝子内の全ての可能性のある非同義一塩基遺伝子型(配列)バリアントが病的である確率のテーブルである。あるエビデンスモデルより生じた(例えば、処理された)エビデンスデータ114の例としては、エビデンスモデルからの50%最高信頼度予測の予測された病的又は良性の分類についてのテーブルである。一部の態様においては、バリアント解釈支援システム110は、エビデンスモデルを一意的に識別するエビデンスモデル識別子と、その関連付けられた入力データ112、エビデンスデータ114及び評価データ116とを格納することも可能である。
一部の態様においては、バリアント解釈支援システム110は、評価データベース内に、あるエビデンスモデルに関連する、性能及び品質管理のメタデータ(例えば、評価データ116)を格納する。例えば、バリアント解釈支援システム110は、生成データにより算出された、性能尺度(例えば、診断、分類、回帰の正確度等)の均一なセットに相当する検証性能データを、評価データ116内において、算出して及び/又は格納することが可能である。一部の態様においては、バリアント解釈システム110は、生成データにおいて利用可能であるがデータ訓練中のエビデンスモデルの生成の際にホールドアウトされた分子バリアントの互いに素なセットを用いて性能尺度を算出する、交差検証スキームを活用することが可能である。同様に、バリアント解釈支援システム110は、後のある時点における検定データ(例えば、生成データにおいて利用可能でない互いに素な分子バリアント)についての正診度の尺度の均一なセットに相当する検定性能データの形で、評価データ116を算出及び/又は格納することが可能である。当業者であれば認識されるように、エビデンスモデルからの表現型の影響の予測とエビデンスモデル生成後のある時点において決定された(又は利用可能になされた)表現型の影響との間において算出される性能尺度の評価は、体系的な真理集合の定義と性能尺度との下で多種多様なエビデンスモデルの性能の頑健で前向きな評価を可能にし得る。一部の態様においては、バリアント解釈支援システム110は、未処理の又は処理された評価データ116を一意的に識別する評価データ識別子を格納することも可能である。
一部の態様においては、バリアント解釈支援システム110は、あるエビデンスモデルの検証性能データを評価することが可能である。当業者であれば認識されるように、バリアント解釈支援システム110は、所与の時点における分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響の解釈のためのエビデンスモデルの予測性能(例えば、正確度)についてバイアスのない推定値を与えるために、エビデンスモデルの検証性能データを評価することが可能である。これにより、遺伝子バリアントに関する表現型の影響の継続的に増加及び変化していく知識ベースに起因して、例えば計算予測因子等である特定のエビデンスモデルの予測性能を評価することができないという遺伝子検査提供者の課題を解決することが可能である。
当業者であれば認識されるように、バリアント解釈支援システム110は、例えば機械学習及びデータサイエンス分野で標準の多種多様な技術を含めた、種々のモデル検証技術を用いて、エビデンスモデルの検証性能データを評価することが可能である。一部の態様においては、バリアント解釈支援システム110は、統計的分析の検証性能データ(例えば、生成データのサブセットにおいて算出される)が、どのように分子バリアントの独立のセットに一般化することとなるかを評価するためのモデル検証技術として、エビデンスモデル生成データを用いて交差検証訓練/検証スキーム(例えば、回転推定)を用いることが可能である。
一部の態様においては、バリアント解釈支援システム110は、あるエビデンスモデル(又はエビデンスモデルのセット)に関連する裏付けデータ118(例えば、入力データ112、エビデンスデータ114又は評価データ116)のハッシュ値124を生成することによって、ハッシュ記録120を生成して、ハッシュデータベース122内にハッシュ記録120を格納することが可能である。一部の態様においては、バリアント解釈支援システム110は、生成データにおいて分子バリアントの識別名及びラベルのハッシュ記録120を作成することが可能である。一部の態様においては、バリアント解釈支援システム110は、エビデンスモデルによって生成されるような、表現型の影響のスコア、確率、予測及び/又は関連した信頼推定値についてのハッシュ記録120を生成することが可能である。一部の態様においては、ハッシュ記録120は、それからハッシュ値124が算出されるデータ又はデータの組合せに対してのみならず当該データからハッシュ値124を算出するために用いられるハッシング関数にハッシュ値124を関連付けるものである、バリアント解釈支援システム110内のハッシュデータベース122に格納することが可能である。一部の態様においては、バリアント解釈支援システム110は、1又は複数の分子バリアントに関して1又は複数の予測を生成、監視又は検証するために用いる任意の裏付けデータ118の監査記録128を生成して、バリアント解釈端末138に対して、エビデンスモデルの多種多様な特徴を監査できるようにさせることが可能である。当業者であれば認識されるように、データのハッシュ値124は、本来のデータ及びハッシング関数を考慮して、常に再生成可能である。当業者であれば認識されるように、統計学的に衝突耐性であるハッシュ関数を用いて、裏付けデータ118を一意的に識別する、裏付けデータ118からのハッシュ値124を生成することが可能である。一部の態様においては、バリアント解釈支援システム110は、例えばマークルツリーのルートとしてハッシュ値124を、ツリーにおけるリーフとして他のハッシュ値と共に算出することによるなどして、ハッシュデータベース122内に格納するためのハッシュ値の組合せから1つのハッシュ値124を生成することが可能である。当業者であれば認識されるように、種々のハッシング関数を用いて、ハッシュ値124を生成することが可能である。
一部の態様においては、バリアント解釈支援システム110は、(1)全ての裏付けデータを含有する単一のデータオブジェクト(例えば、圧縮されたデータオブジェクト)に関して、ハッシュ値124を算出して、ハッシュ記録120を格納することか、又は、(2)ハッシュデータベース122内の1又は複数の裏付けデータと関連付けられたハッシュ値124のセットのハッシュ値124を算出することかのいずれかによって、1又は複数のエビデンスモデルから、裏付けデータ118のセットに関するハッシュ記録120を生成することが可能である。
一部の態様においては、バリアント解釈支援システム110は、分散型データベース126(例えば、ブロックチェーン、公的若しくは私用のフィード(例えば、Twitter(登録商標)フィード)又は当業者によって認識されるような種々の他のデータ構造)内に、エビデンスモデルの裏付けデータ118のハッシュ値124を格納することによって、監査記録128を生成して、バリアント解釈端末138が、エビデンスモデルの関連付けられた裏付けデータ118(例えば、入力データ112、エビデンスデータ114、及び/又は評価データ116)を監査できるようにすることが可能である。一部の態様においては、分散型データベース126は、不変とすることが可能である。他の態様においては、分散型データベース126は、ファイアーウォールを設置して、バリアント解釈支援システム110を制御する実体が、監査記録128を改変するのを防止することが可能である。監査記録128は、ハッシュ値124が分散型データベース126内に挿入されたときの日付及び時刻を表すタイムスタンプを含むことが可能である。一部の態様においては、タイムスタンプは、分散型データベース126によって自動的に付与され、ハッシュ値124が格納されたときの正確な日付及び時刻を反映する。監査記録128は、分散型データベース126内の関連付けられたハッシュ値124を一意的に識別する識別子を含むことも可能である。監査記録128の識別子は、バリアント解釈支援システム110内の対応するデータを一意的に識別することも可能である。監査記録128は、バリアント解釈支援システム110の範囲内の監査データベース130内に格納可能である。ハッシュ値124は、監査データベース130内の監査記録128を、ハッシュデータベース122内の対応するハッシュ記録120と関連付け、そして関連付けられたハッシュ記録120は、各ハッシュ値124を、対応する又は関連付けられた裏付けデータ118及びハッシング関数と関連付ける。
一部の態様においては、バリアント解釈支援システム110は、ブロックチェーンデータ構造内にハッシュ値124を入れることが可能であり、データ構造内への当該エントリを特定するために必要な情報全てを含有する対応する監査記録128が記録される。当業者であれば認識されるように、ブロックチェーンデータ構造は、順序ブロックの継続的に増加するリストを維持する分散型データベースとすることが可能である(例えば、監査記録128により識別可能である)。さらに、当業者であれば認識されるように、ブロックチェーンデータ構造は、本質的にそのデータの改変に耐性がある。ブロック内のデータは、一度記録されると、遡って変更することができない。そのため、ブロックチェーンベースの監査記録128は、特定の日付及び時刻におけるバリアント解釈支援システム110内の特定のデータの有効性を確認するために用いることが可能である。一部の態様においては、特定のデータの有効性は、特定のハッシュ値とその特定のデータとの間の一意の関連から推定される。
一部の態様においては、バリアント解釈支援システム110は、セキュアな、遠隔の、独立の又はサードパーティのデータ構造(例えば、Twitter(登録商標)フィード)内にハッシュ値124を入れることが可能であり、当該エントリを特定するのに必要な情報(及びその作成の日付)を含有する対応する監査記録128が記録される。さらに、当業者であれば認識されるように、セキュアな、遠隔の、独立の又はサードパーティのデータ構造は、本質的にそのデータの改変に耐性があり得る。そのため、セキュアな、遠隔の、独立の又はサードパーティのデータ構造(例えば、Twitter(登録商標)フィード)に格納されたハッシュ値124と関連づけられた監査記録128を用いて、特定の日付及び時刻におけるバリアント解釈支援システム110内の特定のデータの有効性を確認することが可能である。
一部の態様においては、バリアント解釈支援システム110は、一部の態様においては表現型影響知識ベース102から、分子バリアントの(例えば、臨床的又は非臨床的な)表現型の影響に関する新規データを受信することが可能である。このデータは、エビデンスモデル生成の時点で表現型の影響が不明な、又はエビデンスモデル生成の時点で利用不可能な、分子バリアントに関する(例えば、臨床的又は非臨床的な)表現型の影響を含むことが可能である。一部の態様においては、バリアント解釈支援システム110は、エビデンスモデル又は関連付けられたエビデンスデータ114の検定性能データを決定するために、性能尺度(例えば、診断、分類、回帰の正確度等)の均一なセットを用いて、新規の表現型の影響に対してエビデンスモデルの表現型の影響の予測(例えば、エビデンスデータ114)を評価することが可能である。一部の態様においては、バリアント解釈支援システム110は、評価データ116を更新するエビデンスモデルの検定性能データを記録することが可能である。
一部の態様においては、バリアント解釈支援システム110は、検定性能データと、検証性能データとを、又はそれらの関連付けられた散らばりの推定値(例えば、信頼区間)同士を比較して、エビデンスモデル又はその関連付けられたエビデンスデータ114が、期待される(又は要求される)性能を満たす(又は期待される範囲の性能の範囲内である)か否かを判断することが可能である。例えば、バリアント解釈支援システム110は、検定性能データにおいて達成される性能尺度が、検証性能データ及び一般化可能性の関連する分析において決定される期待される(又は要求される)性能の要件を満たすか(又は期待される範囲の性能の範囲内である)か否かを調査することが可能である。
バリアント解釈支援システム110の一部の態様においては、検定性能データと検証性能データとの比較により、評価データ116においてラベル反転した品質管理を用いて(例えば、記録される)、検定性能データを正規化する。この性質により、検定性能データの評価が、検証性能データに対する比較に先立って、知識ベースにおける(例えば、臨床的又は非臨床的な)表現型の影響の増加及び変化していく性質に起因して表現型の影響におけるラベルの(例えば観察される又は予測される)変動しやすさ(volatility)を引き起こすことを許容する。
一部の態様においては、バリアント解釈支援システム110は、新規のデータに応じてエビデンスモデルを更新するだけでなく、(例えば、新規の)分子バリアントの互いに素なセットに関する性能尺度を算出することが可能である。当業者であれば認識されるように、種々のモデル検証技術を用いることが可能である。一部の態様においては、バリアント解釈支援システム110は、1又は複数の性能尺度(例えば、診断、分類、回帰の正確度等)を用いて、エビデンスモデルの本来の表現型の影響の予測に基づいて、検定性能結果を決定することが可能であり、これは予測の正確度(例えば、品質)のみならず、関心の機能性の要素(又は分子)においてあり得る分子バリアントのカバレッジ(例えば、量)の両方を把握することが可能である。一部の他の態様においては、バリアント解釈支援システム110は、1又は複数の性能尺度を用いて、更新されたエビデンスモデルの更新された表現型の影響の予測に基づいて、更新された検定性能結果を決定することが可能である。
一部の態様においては、バリアント解釈支援システム110は、1又は複数の性能尺度(例えば、診断、分類、回帰の正確度等)に従って、エビデンスモデルの検証性能データ及び検定性能データを評価することが可能であり、これは予測の正確度(例えば、品質)のみならず、関心の機能性の要素(又は分子)においてあり得る分子バリアントのカバレッジ(例えば、量)の両方を把握することが可能である。例えば、一部の態様においては、バリアント解釈支援システム110は、エビデンスデータ114の1又は複数の予測のために、正診度に関連する1又は複数の性能尺度を評価することが可能である。当業者であれば認識されるように、種々の性能尺度を用いることが可能である。例えば、診断尺度は、以下のうちの1又は複数を含むことが可能であるが、これに限定されない:
-(そのままの)正確度(accuracy):検査される症例の総数のうち、真の結果の割合
-平均正解率(balanced accuracy):バイナリーのクラス表示が釣り合っていない(顕著に異なるサイズのものである)場合に用いることが可能な、二項分類における真及び偽の陽性並びに陰性の尺度、例えば、マシューズ相関係数
-真陽性率(TPR):正確な意味で正確に特定される特徴又は症状を有している対象の割合
-真陰性率(TNR):正確な意味で正確に特定される特徴又は症状を有していない対象の割合
-陽性予測値(PPV):検査で陽性と出る者のうち、特徴又は症状を有している確率を表す
-陰性予測率(NPV):検査で陰性と出る者のうち、特徴又は症状を有していない確率を表す
-真陽性(TP):症状がある場合に症状を検出する検査結果
-真陰性(TN):症状がない場合に症状を検出しない検査結果
-偽陽性(FP):症状がない場合に症状を検出する検査結果
-偽陰性(FN):症状がある場合に症状を検出しない検査結果
-カバレッジ(CVG):関心の機能性の要素(又は分子)においてあり得る分子バリアントの割合。
一部の態様においては、分子バリアントの互いに素なセットにおける性能尺度の均一なセット(例えば、検証性能データ及び検定性能データ)を用いてエビデンスモデルを評価することで、エビデンスモデルの予測性能を有効に比較することができないという課題を解決することが可能である。当業者であれば認識されるように、種々の性能尺度のみならず、分子バリアントの別個の(例えば、均一及び非均一な)互いに素なセットを用いることが可能である。現存のバリアント解釈支援システムは、エビデンスモデルの性能を測定するために用いられる診断尺度が、臨床遺伝子検査での多種多様にそろった遺伝子及び欠陥にわたって変動していたという理由から、エビデンスモデルの予測性能を評価することができない可能性がある。さらに、現存のバリアント解釈支援システムは、選択中に用いられる要求された関心の診断尺度が、評価中にエビデンスモデルの作成者が用いる関心の診断尺度と異なっていたという理由から、エビデンスモデルの予測性能を評価することができない。したがって、バリアント解釈支援システム110は、機能性要素、表現型及び文脈のクエリセットに関して表現型の影響が不明でない分子バリアントにわたって一貫している1又は複数の性能尺度を用いて、あるエビデンスモデル(又は関連付けられたエビデンスデータ114)に関して検証性能データ及び検定性能データを評価することから、バリアント解釈支援システム110は、臨床遺伝子検査提供者が用いる現存のバリアント解釈支援システムと異なり、任意の所与の時点におけるエビデンスモデル及びそれに関連付けられたエビデンスデータ114に関して客観的で容易に比較可能である検証性能データ及び検定性能データを提供することが可能である。
一部の態様においては、バリアント解釈支援システム110は、機械学習モデルに従って、エビデンスモデル又は関連付けられたエビデンスデータ114を生成することが可能である。機械学習モデルは、モデルの予測挙動を向上させるために、予め受信したデータに対して調整できる調整可能パラメータをもつプログラムであり得る。一部の他の態様においては、バリアント解釈支援システム110は、外部ソース(例えば、公開された計算予測因子より生成されるような分子バリアントの表現型の影響の予測を含有する公開データベース)から、エビデンスモデル又はエビデンスデータ114を取得する。
一部の態様においては、バリアント解釈支援システム110は、種々の入力データ112(例えば、臨床的な、機能的な、生化学的な、生物物理学的な、進化的な、遺伝子的な、及び当業者であれば認識される他のデータ)を用いてエビデンスモデルを生成することが可能である。例えばバリアント解釈支援システム110は、教師なしの、半教師付きの、及び教師付きの機械学習(又はこれらの組合せ)を用いて、バリアント、残基、若しくは分子の性質の未処理及び/又は処理された入力データ112を、表現型影響知識ベース102より決定され得るような、ラベル付きの表現型の影響(例えば、臨床意義が不明でない遺伝子バリアントの病原性又は中立性)の未処理及び/又は処理された入力データ112と関連付けるものである、例えば計算予測因子等であるエビデンスモデル-関連付けられたエビデンスデータ114-を生成(例えば、訓練)することが可能である。バリアント解釈支援システム110は、分子バリアントのバリアント、残基又は分子の特徴(例えば、性質)に基づいて、分子バリアント(例えば、表現型の影響)の表現型の影響(例えば、ラベル)を予測するものである一連の原則を学習するために、1又は複数の機械学習モデルを訓練してエビデンスモデルを生成することが可能である。バリアント解釈支援システム110は、1又は複数の機械学習モデルのパラメータを調整することによってこれら原則を決定することが可能である。当業者であれば認識されるように、エビデンスモデルは、1又は複数の生成された又はインポートされたエビデンスモデルを表し得る。
一部の態様においては、バリアント解釈支援システム110は、例えばその未処理の若しくは処理された検証性能データ又は検定性能データ等である、エビデンスモデルの関連付けられた評価データ116に基づいて、例えば計算予測因子又は突然変異多発点等であるエビデンスモデルの機械学習モデルを再訓練(又は更新)することが可能である。当業者であれば認識されるように、バリアント解釈支援システム110は、例えば計算予測因子であるエビデンスモデルが、その検証性能データ、検定性能データ又は両方において性能の閾値レベルを達成するまで、学習評価戦略又はプロセスを反復することが可能である。当業者であれば認識されるように、バリアント解釈支援システム110は、1又は複数の性能尺度(例えば、診断、分類、回帰の正確度等)に関する1又は複数の閾値を含む多数の因子に基づいて、性能の閾値レベルを特定することが可能である。
一部の態様においては、バリアント解釈支援システム110は、例えば計算予測因子等であるエビデンスモデルを、定期的に、組み込む(例えば、生成又はインポートする)、更新する、評価する及び検証する。これら新規のエビデンスモデルは、バリアント解釈支援システム110によって受信した分子バリアントデータの表現型の影響に関する新規データに基づくことが可能であり、また当該新規データに応じて生成可能である。
評価データベース内のエビデンスモデルに関して検証性能データ又は検定性能データを算出して組み込んだ後で、バリアント解釈支援システム110は、その検証性能データ、検定性能データ、検証性能データの(例えば、履歴の又はシミュレートされた)追跡記録、検定性能データの(例えば、履歴の又はシミュレートされた)追跡記録、又はこれらの組合せに基づく他のエビデンスモデル(又はエビデンスデータ114)のうち、エビデンスモデル又は関連付けられたエビデンスデータ114を順位付けすることが可能である。当業者であれば認識されるように、バリアント解釈支援システム110は、1又は複数の性能尺度に基づいて、エビデンスモデル又は関連付けられたエビデンスデータ114を順位付けすることが可能である。
一部の態様においては、バリアント解釈支援システム110は、エビデンスモデル又はその関連付けられた裏付けデータ118を、組み込み(例えば、生成又はインポートし)、監視し、更新し、検証し、選択し、分散し、及び監査することが可能である。当業者であれば認識されるように、一部の態様においては、バリアント解釈支援システム110は、エビデンスモデル(例えば、突然変異多発点、計算予測因子又は機能分析)の多種多様なクラスに関して、組み込み(例えば、生成又はインポートし)、監視し、更新し、検証し、選択し、分散し、及び監査するために同様の(又は関連した)手順を実行することが可能である。バリアント解釈支援システム110は、所与の分子バリアント、機能性の要素(又は分子)、表現型、文脈、及び関心の性能尺度に関して、新規エビデンスモデル又は関連付けられたエビデンスデータ114を定期的に生成又はインポートすることが可能である。バリアント解釈支援システム110は、エビデンスモデル又はその関連付けられた裏付けデータ118の性能を記録及び監視することが可能である。バリアント解釈支援システム110は、新規の入力データ112又は評価データ116に応じて、エビデンスモデルを更新することが可能である。バリアント解釈支援システム110はまた、表現型影響知識ベース102から分子バリアントに関する(例えば、新規の)互いに素なデータの受信に応じて、エビデンスモデルを検証することが可能である。バリアント解釈支援システム110は、検証性能データ又は検定性能データ又はこれらの組合せに基づいて、特定の性能要件を満たすエビデンスモデルからの支援を選択することが可能である。バリアント解釈支援システム110は、バリアント解釈端末138からのクエリに応じて、例えばエビデンスデータ114等である選択されたエビデンスモデルからの分子バリアントの表現型の影響の予測を分散することが可能である。最後に、バリアント解釈支援システム110は、バリアント解釈端末138からの監査要求に応じて、選択されたエビデンスモデルからの裏付けデータ118-入力データ112(例えば、訓練で用いられるラベル付きデータ)、エビデンスデータ114(例えば、表現型の影響のエビデンスモデルの予測)若しくは評価データ116を含む-の有効性、作成の日付又は内容を監査できるようになることが可能である。このように、バリアント解釈支援システム110は、バリアント解釈端末138からのクエリ及び要求に応じて、エビデンスモデルによって提供され、かつ、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響に関連する、バリアント解釈の裏付けデータ118について、分散及び監査の両方を行うことが可能である。
バリアント解釈端末138は、ユーザの入力又は自動化された要求に応じて、所与の表現型又は関心の表現型のセットに関して及び所与の診断上の最適化戦略(例えば、平均正解率よりも真の陽性率を優先させるような)に関して、所与の分子バリアント-例えば染色体、位置、リファレンスヌクレオチド、及び変異により規定された遺伝子型(配列)バリアント又はリファレンスゲノムにおけるアレル-に関する所望の性能要件を満たすエビデンスモデル及び関連付けられたエビデンスデータ114よりのバリアント解釈支援についてバリアント解釈支援システム110に問い合わせることが可能である。一部の態様においては、バリアント解釈支援システム110は、1又は複数の分子バリアントに関するバリアント解釈支援を要求するバリアント解釈端末138からのクエリを受信する。一部の態様においては、バリアント解釈端末138からのクエリは、機能性要素、表現型、文脈、又は関心の性能尺度を表することが可能である。一部の態様においては、バリアント解釈端末138からのクエリは、バリアント解釈支援に関する性能要件を表すことが可能である。一部の態様においては、バリアント解釈支援システム110は、前記エビデンスモデル及びそれらの関連付けられた裏付けデータ118を監査するためのメタデータとともに、所与の分子バリアント、機能性の要素(又は分子)、表現型又は表現型のセット、及び関心の性能尺度に関して、エビデンスモデルのセットからの最高位に順位付けされたエビデンスデータ114に関する対応する表現型の影響の予測をもって応答する。一部の態様においては、エビデンスモデルは、特定の評価データ116(例えば、検証性能データ又は検定性能データ)又はこれらの組合せに基づいて、順位付けされて選択されている。一部の態様においては、バリアント解釈支援システム110は、関連付けられた入力データ112(例えば、生成データ又は検定データ)、エビデンスデータ114(例えば、関連付けられた表現型の影響の予測)、評価データ116(例えば、検証性能データ又は検定性能データ)、及び監査情報-監査記録128及び/又はタイムスタンプを含む-を提供し、選択されたエビデンスモデルに関する入力データ112、エビデンスデータ114又は評価データ116の有効性、作成の日付、及び内容を検証することが可能である。当業者であれば認識されるように、これら種々のデータ項目のうち一部又は全てが提供可能である。
一部の態様においては、監査情報は、関連付けられた監査記録の識別子とともに、監査記録28を含有する分散型データベース126への照会を含む。例えば、監査情報は、監査記録28を含有するブロックチェーンデータ構造への照会を含むことが可能である。
一部の態様においては、バリアント解釈支援システム110は、ネットワーク136を介してバリアント解釈端末138と通信することが可能である。ネットワーク136は、インターネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、ワイヤレスネットワーク、セルラーネットワーク、又は当業者によって認識される種々の他のタイプのネットワークを含む、任意のネットワーク又はネットワークの組合せであり得る。例えば、バリアント解釈端末138は、所与の分子バリアント、機能性の要素(又は分子)、表現型又は文脈に関する最も正確なエビデンスモデル又は関連付けられたエビデンスデータ114について、ネットワーク136を介してバリアント解釈支援システム110に問い合わせる遠隔端末であり得る。図示及び説明の全体にわたって、遠隔端末の態様を用いることとするが、バリアント解釈端末138は、必ずしもバリアント解釈支援システム110から遠隔ではないが、代わりに、バリアント解釈端末138がバリアント解釈システム110と直接通信するようにバリアント解釈支援システム110に対してローカルであり得る。
一部の態様においては、監査役は、入力データ112、エビデンスデータ114、評価データ116を含む、各エビデンスモデルの(例えば未処理又は処理された)裏付けデータ118のエントリの日付及び時刻の証明を取得することが可能である。例えば、監査役は、エビデンスモデルに関連するデータに対応する監査記録の識別子(例えば、ブロックチェーンのレシート)をもって、分散型データベース126(例えば、ブロックチェーンデータ構造)に問い合わせることが可能である。それに応じて、監査役は、監査のための裏付けデータ118に対応する特定のハッシュ値124と関心の監査記録128とが特定の日付及び時刻において利用可能であったという確認を受信することが可能である。
これにより、監査役が、(1)エビデンスモデルは、その監査記録128のエントリの時刻において利用可能であるデータを用いて、組み込まれた(例えば、生成された)か、及び(2)エビデンスモデル又は関連付けられたエビデンスデータ114によって生成した表現型の影響の予測が、特定の日付及び時刻に利用可能であったかを判断できるようになる。
バリアント解釈端末138は、ユーザの入力又は自動化された要求に応じて、以下の:(a)エビデンスモデル又は関連付けられた裏付けデータ118が特定の日付及び時刻に利用可能であったこと、(b)エビデンスモデル又は関連付けられたエビデンスデータ114が、エビデンスモデル作成の日付及び時刻に利用可能であった特定の入力データ112を用いて生成(例えば、訓練)されたこと、(c)エビデンスモデル又は関連付けられたエビデンスデータ114が、エビデンスモデル作成の日付及び時刻に利用可能でなかった特定の入力データ112を用いずに、生成(例えば、訓練)されたこと、(d)エビデンスモデル又は関連付けられたエビデンスデータ114が、特定の表現型の影響の予測(バリアント解釈端末138に提供できた)を含有すること、又は(e)エビデンスモデル又は関連付けられたエビデンスデータ114が、データの互いに素なセットにおける評価データ116において報告された検証性能データ又は検定性能データに基づいて期待された性能を達成すること、のいずれか1つ又は組合せを確実にするために、エビデンスモデル又はその関連付けられた裏付けデータ118を監査することが可能である。これにより、提供されたバリアント解釈支援が、特定の性能要件を満たすエビデンスモデル又は関連付けられたエビデンスデータ114に基づいていること、及び、エビデンスモデル又は関連付けられたエビデンスデータ114に手を加えられていないことについての信用を、バリアント解釈端末138に提供することが可能である。この監査により、それらの臨床遺伝子結果が、頑健かつトランスペアレントなエビデンスモデル及び裏付けデータ118を用いて決定されたことについてのさらなる信用を、患者及び医師に提供することも可能である。
一部の態様においては、バリアント解釈端末138は、その後ユーザに提供することが可能であるような所与のエビデンスモデル(例えば、計算予測因子)又はエビデンスモデルのセット(例えば、計算予測因子、突然変異多発点、及び機能分析の組合せ)を生成するために用いられる裏付けデータ118-入力データ112、エビデンスデータ114、評価データ116を含む-の有効性、内容、並びに作成の日付及び時刻の証明を取得することが可能である。例えば、監査役は、バリアント解釈端末138に対して、関心の計算予測因子と関連付けられた裏付けデータ118に関する監査記録128の識別子をもって、分散型データベース126(例えば、ブロックチェーン)内の計算予測因子を監査するように指示することが可能である。それに応じて、バリアント解釈端末138は、裏付けデータ118のハッシュ値124を含む、分散型データベース126からの検証の証明書を受信することが可能である。一部の態様においては、検証の証明書は、サードパーティから提供されたレシートの証明書又はバリアント解釈支援システム110によって維持されたデータであり得る。例えば、一部の態様においては、検証の証明書は、裏付けデータ118の監査記録128と関連付けられたエントリの、ハッシュ値124、作成の日付及び時刻を含有する、ブロックチェーンデータ構造から提供されたレシートの証明書であり得る。バリアント解釈端末138は、検証コード(例えば、算出されたハッシュ値)が(1)ある特定の裏付けデータ118(例えば、個々の計算予測因子に関する表現型の影響の予測に対応するエビデンスデータ114)のハッシュ記録120からのハッシュ値124、(2)裏付けデータ118(バルクデータベースエントリに関する)の単一の圧縮されたオブジェクトのハッシュ記録120からのハッシュ値124、又は(3)裏付けデータ118(例えば、バルクデータベースエントリに関する)のセットのハッシュ記録120からのハッシュ値124、に対応していることを確認することによって、検証の証明書が、監査下で、計算予測因子に関する裏付けデータ118と合致することを確認することが可能である。
図2は、一部の態様に従う、タンパク質コード遺伝子及び表現型に関する、客観的に最も高い性能であるエビデンスモデルを提供するシステム200の例示的な図である。図2について、図1を参照しながら議論する。図2において、生成データ206は、例えば臨床データ202及び集団データ204等である多種多様な入力データ112から生じる、関連付けられた表現型の影響(例えば、分子の影響)を伴う分子バリアントのセットを表すことが可能である。図2において、検定データ212は、生成データ206に含有されるものとは互いに素であるバリアントに関する、例えば臨床データ208及び集団データ210等である新規入力データ112から生じる、関連付けられた表現型の影響(例えば、分子の影響)を伴う分子バリアントのセットを表すことが可能である。ある例としては、所与のタンパク質コード遺伝子における関連付けられた分子バリアントが、特定の臨床症状において、病的と考えられるか又は良性(例えば、中立性)と考えられるかを示している表現型の影響である。
一部の態様においては、バリアント解釈支援システム110は、生成データ206の生成又はインポート後、エビデンス生成モジュール214を利用して、例えば計算予測因子等であるエビデンスモデルからエビデンスデータ220を生成し、所与のタンパク質コード遺伝子及び表現型に関する生成データ206を用いて当該モデルの関連付けられた検証性能データ222を算出する。例えば、エビデンス生成モジュール214が生成したエビデンスデータ220においては、分子バリアントH41R(例えば、遺伝子型(配列)バリアント17:43115738T>C)は、分子バリアントH41Rを訓練の際に除外した交差検証フォールドのセット(訓練/検証の反復)にわたって推定されるとおり、P(病的(Pathogenic))と等しい病的(Pathogenic)として分類されるような確率を伴って、病的(Pathogenic)クラスに属することが予測される。バリアント解釈支援システム110は、エビデンスデータ220を生成するエビデンスモデルのパラメータを調整することが可能である。
一部の態様においては、バリアント解釈支援システム110は、エビデンスデータ220のエビデンスモデルの検証性能データ222を評価することが可能である。当業者であれば認識されるように、エビデンスデータ220は、計算予測因子を含む多様なエビデンスモデルにより生成可能であり、また教師なしの、半教師付きの、又は教師付きの機械学習技術及び方法を含む、多種多様にそろった技術及び方法を用いて生成可能である。当業者であれば認識されるように、エビデンスモデルは、生成データ206を用いて生成した1又は複数のエビデンスモデル(の集合)を表し得る。
図2においては、バリアント解釈支援システム110は、例えば一個抜き交差検証(LOOCV)の訓練及び検証スキーム等である交差検証スキームを用いて、エビデンスデータ220が基礎となっているエビデンスモデルの検証性能データ222を決定するエビデンス生成モジュール214を利用することが可能である。例えば、図2においては、完全交差検証スキームにわたる診断の性能尺度の要約した戦略が、検証性能データ222において集積されて提供される。この記録処理により、エビデンスデータ220に関する性能のベースラインが確立される。
図2においては、バリアント解釈支援システム110は、検定データ212に基づいてエビデンスデータ220の検定性能データ224を決定するエビデンス評価モジュール216を利用することが可能である。
一部の態様においては、バリアント解釈支援システム110は、エビデンス生成モジュール214及びエビデンス評価モジュール216のうちの一方又は組合せを活用して、生成データ206を利用する複数のエビデンスモデルを生成及び評価する(例えば、複数の計算予測因子及び突然変異多発点を訓練すること)が可能である。
一部の態様においては、バリアント解釈支援システム110は、エビデンスモデルに関連付けられた、生成データ206、検定データ212、エビデンスデータ220、検証性能データ222及び/又は検定性能データ224のハッシュ記録120及び監査記録128を生成、提出、並びに格納することとなる(例えば、それぞれ、ステップ228、230、232、234及び/又は236)。
一部の態様においては、バリアント解釈支援システム110は、図1に示すように、対応するデータのハッシュ値124を算出することとハッシュデータベース122内に対応するハッシュ記録120を格納することとによる処理に従うことで、生成データ206、検定データ212、エビデンスデータ220、検証性能データ222及び/又は検定性能データ224のハッシュ記録120を生成、提出、並びに格納することが可能である。
一部の態様においては、バリアント解釈支援システム110は、図1に示す、ハッシュデータベース122のハッシュ記録120内の対応するデータのハッシュ値124にアクセスすることと、それを分散型データベース126内に入れることと、当該エントリの関連付けられた監査記録128を監査データベース130内に格納することとによる処理に従うことで、生成データ206、検定データ212、エビデンスデータ220、検証性能データ222及び/又は検定性能データ224の監査記録128を生成、提出、並びに格納することが可能である。監査記録128は、対応するデータが確立された時を表すタイムスタンプと、分散型データベース126内のエントリを一意的に識別する記録識別子とを含むことが可能である。
一部の態様においては、バリアント解釈支援システム110は、エビデンスデータ220の粒度の細かい形態であるエビデンスモデルによって予測されるような、例えば個々の分子バリアントの表現型の影響等である1又は複数の裏付けデータ118よりのターゲットサブセットデータから、ターゲットハッシュ値を算出することが可能である。一部の態様においては、バリアント解釈支援システム110は、ハッシュデータベース内のターゲットハッシュ記録内に、ターゲットハッシュ値(例えば、ターゲットサブセットデータから算出される)を記録することが可能である。一部の態様においては、ターゲットハッシュ記録は、例えば、複数のターゲットサブセットデータのターゲットハッシュ記録から再計算(又は検証するために使用)可能であるマスターハッシュ値を含む、さらなるハッシュ値情報を含む。例えば、一部の態様においては、バリアント解釈支援システム110は、マークルツリー構造を用いて、ターゲットハッシュ値(例えば、リーフ)のセットのルートとして、マスターハッシュ値を算出することが可能である。本明細書で説明されて可能となるシステム、方法及び用途と合わせて、この記録処理により、マスターハッシュ値より生じた単一の監査記録128と関連付けられた複数の粒度の細かい形態の裏付けデータ118の有効性、作成の日付、及び内容を監査する有効で客観的な方法が存在するということを確実にすることが可能である。
一部の態様においては、バリアント解釈支援システム110は、1又は複数の機能性の要素(又は分子)、表現型、文脈、又は所与の時点における関心のバリアントのセットに関する、分子バリアントの表現型の影響を記述する他のエビデンスデータのうち、エビデンスデータ220を順位付けすることが可能である。例えば、バリアント解釈支援システム110は、その検証性能データ222又は検定性能データ224に基づく他のエビデンスモデル(例えば、計算予測因子、及び機能分析)のうち、計算予測因子からのエビデンスデータ220を順位付けすることが可能である。当業者であれば認識されるように、エビデンスデータ220に関する検証性能データ222又は検定性能データ224は、1又は複数の関心の性能尺度に基づいて、他の性能結果と比較可能である。複数の性能尺度を用いることにより、エビデンスモデルが、関心の臨床の文脈に対して最適化される、多種多様な発見法(heuristics)の下で順位付けされることが可能になる。当業者であれば認識されるように、関心の臨床的文脈では、特定の性能尺度に関する診断戦略の最適化が必要であり得る。
一部の態様においては、バリアント解釈支援システム110は、エビデンスモデルの正確度を決定するために、検証性能データ222の1若しくは複数のセット、検定性能データ224の1若しくは複数のセット、又は検証性能データ222及び検定性能データ224の組合せを用いて、エビデンスモデルの性能を検証する。例えば、バリアント解釈支援システム110は、検証性能データ222又は従前の検定性能データに基づいて推定されるような、1又は複数の性能尺度に関する特定の信頼区間(又は、散らばりの範囲)内に検定性能データ224があてはまることを確認することによって、エビデンスデータ220の性能を検証することが可能である。当業者であれば認識されるように、種々のモデル検証技術を用いて、検証性能データ222又は従前の検定性能データ224に対する検定性能データ224の適合を検証することが可能である。
例えば、図2においては、バリアントC44Sは、エビデンスデータ220の作成後のある時点において病的であることが発見された(また臨床データ208においてそのように注釈をつけた)分子バリアントである。このバリアントは、エビデンスデータ220に関する生成データ206内にはなかったが、エビデンスデータ220は、その表現型の影響が病的とされることを正確に予測している。
一部の態様においては、バリアント解釈支援システム110は、検証性能データ222及び/又は検定性能データ224を算出した後で、その検証性能データ222及び/又は検定性能データ224又はこれらの組合せに基づいてエビデンスモデル220を順位付けすることが可能である。
バリアント解釈端末138は、エビデンスへのクエリ226において、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関して、分子バリアントの表現型の影響を記述する又は予測するためのエビデンスデータ220の最適なセットを要求することが可能である。例えば、クエリは、関心の特定の表現型について検討中の分子バリアントに関して、検定性能データ224においてマシューズ相関係数(MCC)によって測定されるような、最も高い平均正解率をもつエビデンスデータ220に関する生成データ206、検証性能データ222、検定性能データ224及び予測された表現型の影響を要求することが可能である。それに応じて、バリアント解釈支援システム110は、エビデンス分散モデル218を介してクエリを取り扱い、検討中の分子バリアント及び表現型に関する最も高い平均正解率をもつエビデンスデータ220についての、要求された裏付けデータ118(例えば、生成データ206、検証性能データ222、検定性能データ224、及び表現型の影響の予測)を返すことが可能である。クエリはまた、最適化のための関心のターゲット性能尺度を含むことが可能である。この場合、バリアント解釈支援システム110は、関心の特定の診断尺度に関して最も正確なエビデンスモデルを返すことが可能である。
一部の態様においては、バリアント解釈支援システム110のエビデンス分散モジュール218は、提供された裏付けデータ118の内容、有効性、又は作成の日付を確認するために、要求された裏付けデータ118に関してハッシュ記録120及び監査記録128を含むことが可能である。一部の態様においては、エビデンス分散モジュール218は、ハッシュデータベース122内の情報にアクセスし、提供された裏付けデータ118のハッシュ記録120を特定することが可能であり、またハッシュ記録120のハッシュ値124を用いて、関連付けられた裏付けデータ118の監査記録128を回収する。一部の態様においては、提供された裏付けデータ118の監査をできるようにするために、エビデンス分散モジュール218が、所望の裏付けデータ118、関連付けられたハッシュ記録120(例えば、ハッシュ値124及びハッシュ関数を含む)、及び関連付けられた監査記録128とともにクエリ記録132を返す。
一部の態様においては、バリアント解釈端末138は、これら方法を用いて、裏付けデータ118の有効性、内容並びに作成の日付と時刻についての証明を取得することが可能である。例えば、監査役は、バリアント解釈端末138に対して、クエリに応じて提供された表現型の影響と関連付けられたエビデンスデータ220を監査するように指示することが可能である。これに応じてエビデンスデータ220の監査記録128を用いて、バリアント解釈端末は、分散型データベース126内に格納されたハッシュ値124を含めて、データベースから検証の証明書を受信することによって、分散型データベース126(例えば、ブロックチェーン)におけるエントリを認定することが可能である。一部の態様においては、検証の証明書は、サードパーティから提供されたレシートの証明書又はバリアント解釈支援システム110によって維持されたデータであり得る。例えば、一部の態様においては、検証の証明書は、裏付けデータ118の監査記録128と関連付けられたエントリに関する、ハッシュ値124、作成の日付及び時刻を含有する、ブロックチェーンデータ構造から提供されたレシートの証明書であり得る。バリアント解釈端末138は、検証コード(例えば、算出されたハッシュ値)が(1)ある特定の裏付けデータ118(例えば、個々の計算予測因子に関する表現型の影響の予測に対応するエビデンスデータ220)のハッシュ記録120からのハッシュ値124、(2)裏付けデータ118(バルクデータベースエントリに関する)の単一の圧縮されたオブジェクトのハッシュ記録からのハッシュ値124、又は(3)裏付けデータ118(例えば、バルクデータベースエントリに関する)のセットのハッシュ記録120からのハッシュ値124、に対応していることを確認することによって、検証の証明書が、監査下で、エビデンスモデルに関する裏付けデータ118と合致することを確認することが可能である。
図3は、一態様に従う、1又は複数の機能性の要素(又は分子)、表現型、文脈又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響を記述する又は予測するためのエビデンスモデルの最適なセットを提供する方法300のフローチャートである。方法300は、ハードウェア(例えば、回路構成要素、専用論理、プログラマブル論理、マイクロコード等)、ソフトウェア(例えば、処理装置において実行する命令)又はこれらの組合せを有する処理論理によって実行可能である。本明細書において提供される開示を実行するために、必ずしも全てのステップを必要としなくてもよいことを認識されたい。また、ステップの一部は、同時に、又は当業者であれば理解されるような、図3に示すのとは異なる順序で、実行可能である。
図1及び図2を参照しながら、方法300について説明するものとする。ただし、方法300は、前記に例示した態様に限定されない。
バリアント解釈支援システム110は、302において、臨床データ202及び集団データ204を含む入力データ112を受信し、エビデンスモデルの生成(又はインポート)が可能になる。一部の態様においては、バリアント解釈支援システム110は、臨床データ202及び集団データ204よりの生成データ206に記述された表現型の影響(例えば、ラベル)を得る。
バリアント解釈支援システム110は、304において、生成データ206についてハッシュ記録120及び監査記録128を生成し、提出し、及び格納する。当業者であれば認識されるように、バリアント解釈支援システム110は、知識ベース(102、104、106、108)の多種多様なセットからのデータを含む複数の入力データ112を生成又は取得し、また同様に、このデータに関するハッシュ記録120及び監査記録128を生成し、提出し、及び格納することが可能である。
バリアント解釈支援システム110は、306において、生成データ206に記述されるような分子バリアントの表現型の影響(例えば、ラベル)を用いて、計算予測因子(例えば、エビデンスモデル)を生成(例えば、訓練)する。
バリアント解釈支援システム110は、308において、計算予測因子(例えば、エビデンスモデル)が生成したエビデンスデータ220についてハッシュ記録120及び監査記録128を生成し、提出し、並びに格納する。
バリアント解釈支援システム110は、310において、一個抜き交差検証の訓練/検証スキームを用いて算出されるような計算予測因子(例えば、エビデンスモデル)の検証性能データ222を評価する。当業者であれば認識されるように、機械学習及びデータサイエンス分野の複数の検証スキーム及び技術を用いて、生成データ206において訓練された計算予測因子の検証性能データ222を引き出すことが可能である。
バリアント解釈支援システム110は、312において、検証性能データ222についてハッシュ記録120及び監査記録128を生成し、提出し、並びに格納する。
バリアント解釈支援システム110は、314において、新規の入力データ112(例えば、臨床データ208及び集団データ210)を受信して、生成データ206に含まれていなかった分子バリアントの表現型の影響を記述する検定データ212を生成する。
バリアント解釈支援システム110は、316において、検定データ212に記述されていた分子バリアントの互いに素なセットに基づいて算出されるような、計算予測因子(例えば、エビデンスモデル)の検定性能データ224を評価する。
バリアント解釈支援システム110は、318において、検定性能データ224についてハッシュ記録120及び監査記録128を生成し、提出し、並びに格納する。
バリアント解釈支援システム110は、320において、例えばステップ306よりの計算予測因子を含むエビデンスモデルの最適なセットを、その検証性能データ222及び検定性能データ224に基づいて、フィルタリングし、順位付けし、及び/又は選択するものであり、検証性能データ222の平均正解率の推定値の期待される範囲(例えば、95%信頼区間)内にある検定性能データ224内の平均正解率(例えば、マシューズ相関係数(MCC))と、最も高い平均正解率(MCC)とをもつ計算予測因子として、計算予測因子(ステップ306よりの)を順位付けして選択する。この例においては、バリアント解釈支援システム110は、エビデンスモデル(又は、関連付けられたエビデンスデータ114)の選択を、検定性能データが検証性能データ222からの期待される範囲内にあてはまっているエビデンスモデルに限定することが可能であり、その後、客観的に最も高い性能であるエビデンスモデル(又は、関連付けられたエビデンスデータ114)を選択する。当業者であれば認識されるように、エビデンスモデルの最適なセットは、1つのエビデンスモデル又は複数のエビデンスモデルを含むことが可能である。
バリアント解釈支援システム110は、322において、解釈の平均正解率(MCC)を最大化する関心の特定の分子バリアントの予測された表現型の影響に関して、バリアント解釈端末138からクエリを受信する。
バリアント解釈支援システム110は、324において、計算予測因子(ステップ306よりの)からの予測された表現型の影響をもって応答する。
図4は、ある態様に従う、所与の分子バリアント、機能性の要素(又は、分子)、表現型、又は文脈に関する計算予測因子を監査する方法400のフローチャートである。方法400は、ハードウェア(例えば、回路構成要素、専用論理、プログラマブル論理、マイクロコード等)、ソフトウェア(例えば、処理装置において実行する命令)又はこれらの組合せを有する処理論理によって実行可能である。本明細書において提供される開示を実行するために、必ずしも全てのステップを必要としなくてもよいことを認識されたい。また、ステップの一部は、同時に、又は当業者であれば理解されるような、図4に示すのとは異なる順序で、実行可能である。
図1及び図2を参照しながら、方法400について説明するものとする。ただし、方法400は、前記に例示した態様に限定されない。
バリアント解釈端末138は、402において、機能性要素及び臨床的関心の表現型に関する最も高い平均正解率(MCC)をもつエビデンスモデルに関して、バリアント解釈支援システム110にクエリを送信する。一部の態様においては、クエリはまた、特定の関心の文脈に関するものである。
バリアント解釈端末138は、404において、機能性要素及び関心の表現型に関するエビデンスモデルのうち、そのエビデンスデータ220が最も高い検定性能データ224の平均正解率(例えば、MCC)を示しており、かつ、その検定性能データ224の平均正解率がエビデンスモデルの対応する検証性能データ222の平均正解率の推定値の期待される範囲(例えば、95%信頼区間)内にあるようなエビデンスモデルから、裏付けデータ118を受信する。バリアント解釈端末138は、機能性要素及び関心の臨床的表現型に関して提供された裏付けデータ118に関連付けられた監査記録128をさらに受信する。この裏付けデータ118は、生成データ206、臨床データ202、臨床データ204、検証性能データ222、検定性能データ224、及びエビデンスデータ220を含み得る。
バリアント解釈端末138は、406において、受信した監査記録128を含有する分散型データベース126にクエリを送信して、分散型データベース126から、各裏付けデータ118の監査記録128についての検証の証明書を受信する。検証の証明書は、分散型データベース126にある対応する監査記録128からのハッシュ値124及びタイムスタンプを含み得る。当業者であれば認識されるように、検証の証明書は、サードパーティが提供したレシートの証明書であり得るか又はバリアント解釈支援システム110によって維持されたデータであり得る。
バリアント解釈端末138は、408において、検証コード(例えば、裏付けデータ118の算出されたハッシュ値)と裏付けデータ118に関連付けられた監査記録128のハッシュ値124との同等性を評価することによって、提供された裏付けデータ118が監査記録128に合致することを確認する。検証コードとハッシュ値124とが合致することから、提供された裏付けデータ118は、ステップ406において提供されたタイムスタンプの時点又は該タイムスタンプの前に生成されたことが確認される。例えば、クエリにおいて裏付けデータ118として提供されたエビデンスデータ220から算出された検証コードと、エビデンスデータ220のハッシュ値124とが合致することにより、監査しているバリアント解釈端末138に対して、エビデンスデータ220によって提供された特定の予測された表現型の影響が、監査記録128のタイムスタンプの際に又は該タイムスタンプの前に生成されていたことを確認できるようにさせることが可能である。例えば、バリアント解釈端末138は、ステップ406におけるタイムスタンプを関心のタイムスタンプと比較して、エビデンスデータ220が関心のタイムスタンプの前に生成されていたことを検証することが可能である。バリアント解釈端末138は、さらに、ステップ406におけるハッシュ値124を生成データ206由来の検証コードと比較して、エビデンスデータ220が、提供された生成データ206を用いて生成されたかを判断することが可能である。
例えば、図5に示すコンピュータシステム500等の1又は複数のコンピュータシステムを用いて、種々の態様を実施可能である。コンピュータシステム500を用いて、例えば図3の方法300を実施可能である。例えば、コンピュータシステム500は、訓練された計算予測因子について検証記録を生成することが可能である。またコンピュータシステム500を用いて、例えば図4の方法400を実施可能である。例えば、コンピュータシステム500は、遺伝子検査提供者において、最も正確な計算予測因子を、最も正確な計算予測因子と関連付けられたメタデータとともに、ユーザに提供することが可能である。コンピュータシステム500はまた、一部の態様に従う、決定されたリソースのブロック割り当てに基づくリソースブロックに対して、複数のトーンをマッピングすることが可能である。コンピュータシステム500は、本明細書に記載の関数を実行することが可能である任意のコンピュータであり得る。
コンピュータシステム500は、本明細書に記載の機能を実行することが可能である任意の周知のコンピュータであり得る。
コンピュータシステム500は、例えばプロセッサ504等である1又は複数のプロセッサ(中央演算処理装置、すなわちCPUとも呼ばれる)を含む。プロセッサ504は、通信インフラストラクチャ又はバス506に接続される。
1又は複数のプロセッサ504は、それぞれグラフィックスプロセッシングユニット(GPU)であり得る。ある態様においては、GPUは、数学的に集中的(intensive)なアプリケーションを処理するように設計された特殊電子回路であるプロセッサである。GPUは、コンピュータグラフィックスアプリケーション、画像、映像等に共通する数学的に集中的なデータ等である、データの大きいブロックを並行して処理するのに効率的である並列構造を有し得る。
コンピュータシステム500はまた、ユーザ入力/出力インタフェース502を介して通信インフラストラクチャ506と通信する例えばモニター、キーボード、ポインティングデバイス等であるユーザ入力/出力デバイス503を含む。
コンピュータシステム500はまた、例えばランダムアクセスメモリ(RAM)であるメインメモリ又は一次メモリ508を含む。メインメモリ508は、1又は複数のキャッシュレベルを含み得る。メインメモリ508は、その中に制御論理(すなわち、コンピュータソフトウェア)及び/又はデータを格納している。
コンピュータシステム500はまた、1又は複数の二次ストレージデバイス又は二次メモリ510を含み得る。二次メモリ510は、例えば、ハードディスクドライブ512及び/又はリムーバブル記憶デバイス若しくはドライブ514を含み得る。リムーバブル記憶ドライブ514は、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、コンパクトディスクドライブ、光記憶装置、テープバックアップ装置、及び/又は他の記憶装置/ドライブであり得る。
リムーバブル記憶ドライブ514は、リムーバブル記憶ユニット518と情報をやりとりすることが可能である。リムーバブル記憶ユニット518は、そこにコンピュータソフトウェア(制御論理)及び/又はデータが格納されているコンピュータ使用可能又は読み取り可能な記憶装置を含む。リムーバブル記憶ユニット518は、フロッピー(登録商標)ディスク、磁気テープ、コンパクトディスク、DVD、光記憶ディスク、及び/その他のコンピュータデータ記憶装置であり得る。リムーバブル記憶ドライブ514は、周知のやり方で、リムーバブル記憶ユニット518から読み出し、及び/又は、リムーバブル記憶ユニット518に書き込む。
例示的な態様によれば、二次メモリ510は、コンピュータプログラム並びに/又は他の命令及び/若しくはデータに対して、コンピュータシステム500によりアクセス可能にするための他の手段、道具又は他のアプローチを含むことが可能である。こうした手段、道具又は他のアプローチは、例えば、リムーバル記憶ユニット522及びインタフェース520を含み得る。リムーバル記憶ユニット522及びインタフェース520の例としては、プログラムカートリッジ及びカートリッジインタフェース(例えば、ビデオゲームデバイスに見られるような)、リムーバブルメモリチップ(例えば、EPROM又はPROM等)及び関連のソケット、メモリスティック及びUSBポート、メモリカード及び関連のメモリカードスロット、並びに/又はその他のリムーバブル記憶ユニット及び関連のインタフェースを挙げることができる。
コンピュータシステム500は、通信又はネットワークインタフェース524をさらに含み得る。通信インタフェース524により、コンピュータシステム500は、遠隔装置、遠隔ネットワーク、遠隔の実体等(別個に及びまとめて、参照符号528で表す)のいずれかの組合せと通信及び情報のやりとりができるようになる。例えば、通信インタフェース524により、コンピュータシステム500は、有線及び/又は無線であり得、かつ、LAN、WAN、インターネット等の任意の組合せを含み得る通信経路526を介して、遠隔装置528と通信できるようになり得る。制御論理及び/又はデータは、通信経路526経由で、コンピュータシステム500に対して及びコンピュータシステム500から、送信可能である。
ある態様においては、そこに格納された制御論理(ソフトウェア)を有する有形のコンピュータ使用可能若しくは読み取り可能な媒体を含む、メーカーの有形の装置又は物品を、本明細書においては、コンピュータプログラム製品又はプログラム記憶装置と称する。これは、コンピュータシステム500、メインメモリ508、二次メモリ510、並びにリムーバブル記憶ユニット518及び522のみならず、前述の任意の組合せを具体化する、メーカーの有形の物品を含むが、これに限定されない。こうした制御論理は、1又は複数のデータ処理装置(例えばコンピュータシステム500等)により実行されると、こうしたデータ処理装置が、本明細書に記載するように作動される。
この開示に含まれる教示に基づけば、当業者には、図5に示すもの以外のデータ処理装置、コンピュータシステム及び/又はコンピュータアーキテクチャを用いて、この開示の態様がどのようになされ、また使用されるかが明らかであるだろう。特に、本明細書に示すもの以外のソフトウェア、ハードウェア、及び/又はオペレーティングシステムの実装により、態様を行うことが可能である。
発明の詳細な説明のセクションであり、それ以外ではないセクションは、請求項を解釈するために用いられることを意図しているということを認識されたい。他のセクションは、発明者により熟考された1又は複数であるが全てではない例示的な態様を明記し得るものであり、そのため決してこの開示又は添付の特許請求の範囲を限定することを意図していない。
この開示は、例示的な分野及び用途に関して例示的な態様を記載しているが、この開示はそれらに限定されないことを理解されたい。他の態様及びそれに対する変形は、あり得るものであり、またこの開示の範囲及び趣旨の範囲内にあるものである。例えば、またこの段落の概略を限定することなく、態様は、図面に図示された及び/又は本明細書に記載された、ソフトウェア、ハードウェア、ファームウェア及び/又は実体に限定されない。また、態様(本明細書において明文で記載されていてもいなくても)は、本明細書に記載の実施例を超えた分野及び用途に対して、有意に有用性を有する。
態様は、特定の機能の実施及びその関係性を図示する機能的な構成単位を用いて、説明されている。これら機能的な構成単位の境界は、説明の便宜のために本明細書において任意に定めてきた。特定の機能及び関係性(又はその均等物)が適切に得られる限り、これに代わる境界を定めることもできる。また、本明細書に記載されているものとは異なる順序を用いて、代替的な態様により、機能的な構成単位、ステップ、操作、方法等を行うことが可能である。
本明細書で、「一態様」、「ある態様」、「例示的な態様」又は同様の句への言及は、記載された態様が、ある特定の性質、構造又は特徴を含み得るが、全ての態様が必ずしもその特定の性質、構造又は特徴を含まなくてもよいことを示す。さらに、こうした句は、必ずしも同一の態様を指すものではない。また、ある特定の性質、構造又は特徴が、ある態様と関連して記載されている場合、本明細書において明文で記載されていてもいなくても、当該性質、構造又は特徴を他の態様に組み込むことは、関連する技術の当業者の知識の範囲内であるだろう。さらに、一部の態様は、「結合される」及び「接続される」という表現を、それらの派生語に加えて用いて記載され得る。これらの語は、必ずしも、互いに同義語であることを意図していない。例えば、一部の態様は、2以上の構成要素が、互いに物理的に又は電気的に直接接触していることを示すために、「接続される」及び/又は「結合される」の語を用いて記載され得る。ただし、「結合される」の語はまた、2以上の構成要素が互いに直接に接触してはいないが、それでもなお互いに協働する又は情報をやり取りすることを意味することも可能である。
この開示の幅及び範囲は、上記記載の例示的な態様のいずれかによって限定されてはならないが、以下の特許請求の範囲及びそれらの均等物従ってのみ規定されるべきである。
一部の態様においては、表現型の影響を記述する特定の真理集合の定義を含む、生成データ204及び検定データ212を生成するために用いる方法は、1又は複数の知識ベース102、104、106及び108から多数のやり方で生成可能である。他の態様においては、複数の真理集合の定義は、例えば品質又は範囲又は経時的な品質等である1又は複数の性質が変化する臨床バリアント解釈の種々のソースから定義され得る。他の態様においては、種々の真理集合の定義は、エビデンスデータの生成に進む前に十分なデータを生成するために、一部の文脈において必要であり得る。他の態様においては、知識ベースデータ102、104、106及び108を適切な入力データ112に変換するための複数の適切な方法が存在し得る。例えば、真理集合として集団知識ベース104を解釈することは、例えば、浸透度、有病率、発症年齢又は遺伝型等である真理集合によって記述される表現型の特徴に基づく、1又は複数の適切な集団内頻度のカットオフが必要となり得る。
他の態様においては、検証性能データ222は、複数の方法より生じた生成データ206を用いて評価可能である。例えば、エビデンスデータ220は、全ての臨床データ202を取り入れることで生じる生成データ206を用いて引き出され得る一方で、検証性能データ222は、臨床データ202の限られたセットより生じる生成データ206をもってエビデンスデータ220を評価することによって引き出され得る。
一部の態様においては、生成データ206及び検証データ222を生成するために用いるエビデンスデータ202と関連する特定の方法は、検定データ212を生成するために用いる特定の方法とは区別され得る。一部の態様においては、検定性能データ224は、生成データ206及び検証データ222において用いる方法を考慮に入れて、生成データ206において用いる0、1又は複数の方法に含まれる知識を欠いている互いに素な真理集合を作成することが可能である。他の態様においては、検定性能データ224を生成するために用いる複数の方法が使用可能である。例えば、検定性能データ224は、検定性能データ224を生成するために用いる臨床データ202を変えながら、2以上のスコアを生成することが可能である。
一部の態様においては、生成データ206及び検定データ212を生成するために用いる特定の方法は、複数の方法に基づいて評価可能である。一部の態様においては、生成データ206及び生成される検定データ212を生成するために用いる方法の相対的な品質は、経時的な方法の自己一貫性に基づいて評価可能である。他の態様においては、生成データ206を生成するために用いる方法の相対的な品質は、各方法から生じる生成データ206から生成されるエビデンスデータ220の検証性能データ222及び検定性能データ224に基づいて評価可能である。他の態様においては、生成データ206及び検定データ212を生成するために用いる方法の相対的な順位付けは、経時的に変化し得る。他の態様においては、生成データ206及び検定データ212を生成するために用いる方法の相対的な順位付けは、複数のエビデンスデータ220にわたって決定可能である。
一部の態様においては、単一の表現型に関するエビデンスデータ220は、生成データ206の1又は複数の特定の定義に基づいて生成される。同様に、エビデンスデータ220に関する検証性能データ222は、生成データ206の1又は複数の定義に対して評価可能である。同様に、エビデンスデータ220に関する検定性能データ224は、検定データ212の1又は複数の定義に対して評価可能である。例えば、エビデンスデータ220に関する検定性能データ224又は検証性能データ222は、全臨床データ208及び臨床データ202のそれぞれを、又は特定の表現型に対して最も関連ある臨床データのサブセットを用いて、生成可能である。
一部の態様においては、エビデンスデータ220は、生成後に較正可能である。一部の態様においては、エビデンスデータ220は、生成データ206の異なる定義、又は、異なる日付からの臨床データ202により生成された生成データ206のアナログ版をもって、コンコーダンスを最大化するように調整可能である。他の態様においては、複数のエビデンスデータ220は、生成データ206の同一又は同様の定義から生成され、かつ、一緒に較正されることによって、グループ化可能である。例えば、病的表現型の確率を過大に評価することがわかっている生成データ206の特定の定義から生成した1又は複数のエビデンスデータ220を、病的表現型の実世界の確率とより一致している生成データ206の定義に対して、較正可能である。一部の態様においては、較正方法は、エビデンスデータ220内における病的の確率に対して変換(transformation)を適用することで、病的についての実世界のより良好な確率をもたらしながら、確率の順位は維持することが可能である。他の態様においては、較正方法は、分子バリアントを、この値より上及びこの値より下で、明記した特定の性能要件に対して最適に分類可能であるような最適確率のカットオフを決定することが可能である。当業者であれば認識されるように、種々の較正技術を用いて、エビデンスデータ220と生成データ206又は検定データ212との間のコンコーダンスを最適化することが可能である。一部の態様においては、較正方法は、エビデンス生成モジュール214又はエビデンス評価方法216の一部として実施される。他の態様においては、較正方法の特定のパラメータ及び方法は、検証データ222及び検定性能データ224の一部として格納される。
当業者であれば認識されるように、予測を評価するために用いるデータの特定のバランス又は品質が、測定された予測性能を変動させ得る。例えば、診断上のPPV及びNPVの性能は、検査集団における真陽性及び真陰性の分布に依存して、劇的に変化する可能性がある。一部の態様においては、生成データ206及び検定データ212は、検証性能データ222及び検定性能データ224それぞれを算出する前に修正して、特定の結果を達成することが可能である。一部の態様においては、検証性能データ222及び検定性能データ224は、陽性症例と陰性症例とが釣り合った後で、算出可能である。例えば、100か所のバリアントと10か所の良性バリアントとを含む生成データ206は、検証性能データ222の算出に先立って、良性バリアントと病的バリアントとが同数になるように、リサンプリング可能である。他の態様においては、生成データ206又は検定データ212からの特定の表現型の分布は、エビデンスへのクエリ226において規定される検査集団と同等になるように、リサンプリング可能である。他の態様においては、検証データ222及び検定性能データ224は、特定の表現型の分布を表すように直接再計算可能である。他の態様においては、検定性能データ224は、特定の生成データ206と同等になるように、検定データ212の分布を変えてもよい。当業者であれば認識されるように、検証性能データ222及び検定性能データ224を修正して生成データ206及び検定データ212のそれぞれの明らかな分布又は品質を変えることは、性能データを生成する時点において、又は特定のエビデンスへのクエリ226に応じて、生じさせることが可能である。一部の態様においては、検証性能データ222及び検定性能データ224との間が同等となることで、エビデンス分散モジュール218が、例えばNPV及びPPVであるような集団に感受性がある尺度をより直接的に比較及び順位付けできるようになる。
一部の態様においては、エビデンスデータ220をより信頼できる予測を伴うそれらバリアントに制限することによって、エビデンスデータ220を最適化して、検証性能データ222又は検定性能データ224における特定の性能尺度を達成することが可能である。例えば、エビデンスデータ220は、全てのバリアントを考慮するとき特定の性能尺度の閾値を達成しない可能性があるが、80%の最も信頼できる予測のみを考慮すれば同一の性能尺度の閾値を達成する可能性がある。一部の態様においては、最適な信頼閾値等である最適化パラメータ及び方法は、検証性能データ222及び検定性能データ224とともに格納される。
一部の態様においては、検証性能データ222及び検定性能データ224からの較正及び最適化パラメータを、エビデンス分散モジュール218においてエビデンスデータ220からの予測に適用する。一部の態様においては、エビデンス分散モジュールが、本来のエビデンスデータ220と、エビデンスへのクエリ226として提供される最適化されたエビデンスデータ220との両方を提供する。
一部の態様においては、検証性能データ222及び検定性能データ224に関する複数の較正及び最適化技術は、特定の性能要件を達成するように生成される。エビデンス分散モジュール218は、エビデンスへのクエリ226のための要件を最良に満たす特定の較正及び最適化技術を検索することとなる。
一部の態様においては、複数のエビデンスデータ220は、エビデンスへのクエリ226のための要件を満たす。他の態様においては、エビデンスデータ220の複数の較正又は最適化技術は、要件、エビデンスへのクエリ226を満たす。これらの場合において、エビデンス分散モジュール218は、それからエビデンスへのクエリ226への応答が提供されるものである1又は複数のエビデンスデータ220を選択する必要がある。一部の態様においては、利用可能なエビデンスデータ220は、エビデンスへのクエリ226からの性能要件に従って、それら利用可能な検証性能データ222及び検定性能データ224によって順位付けられた順序にされる。他の態様においては、エビデンス分散モデル218は、任意の特定のエビデンスデータ220に対して特有でない尺度に従って、エビデンスデータ220を順位の順序にすることが可能である。他の実施形態においては、エビデンス分散モデル218は、2以上の順位の順序にされたエビデンスデータを組み合わせることが可能である。例えば、エビデンス分散モジュール218のはじめの順序を、検証性能データ220からの特定の基準値によって、エビデンスデータ220を順位の順序にすることが可能であり、次いで多数のエビデンスデータ220にわたって同等の生成データ206から生成されたエビデンスデータ220のバルク性能で昇順にする。
一部の態様においては、エビデンスデータ220の順位付け後、エビデンス分散モジュール218は、エビデンスへのクエリ226の要件を満たすのに十分な性能のエビデンスデータ220を発見することができない。一部の態様においては、エビデンス分散モジュール218は、最も高い順位を付けたエビデンスデータ220を提供することができない。一部の態様においては、エビデンスへのクエリ226が最も高い順位を付けたモデルを要求するならば、エビデンス分散モジュール218は、エビデンスへのクエリ226の要件を満たしていなくても、それでもエビデンスデータ220を提供することが可能である。一部の態様においては、エビデンスへのクエリ226は、特定の性能の閾値を有することができないが、エビデンスへのクエリ226によって規定されてエビデンス分散モジュール218によって実行される順位付けに従って最も高い順位を達成するエビデンスデータ220を要求することが可能である。
一部の態様においては、エビデンスデータ220を備えて、非分類ベースの解釈及び検証技術に関して評価することが可能である。例えば、エビデンスデータ220は、表現型の分類(例えば、病的又は良性)、確率(例えば、病的の可能性が22%)、又はより高い次元の表現型を予測可能である。例えば、検証性能データ222は、例えばAUC曲線(Area-under-the-Recieier-Operator-Curve)又はスピアマンの相関係数(Spearman Correlation Coefficient)等である、生成データ206に関するエビデンスデータ222の非分類ベースの尺度を格納することが可能である。一部の態様においては、エビデンス分散モジュール218は、非分類ベースの尺度を独立に又は他の尺度を一緒に用いて、適切なエビデンスデータ220を順位付けすることとなる。他の態様においては、エビデンス分散モジュール218は、エビデンスデータ220から連続的かつ分類ベースのスコアを提供することが可能である。
当業者であれば認識されるように、バリアント解釈支援システムの一部の用途は、1又は複数の表現型の確率の順でのバリアントのリストを順位付ける範囲に存在し得る。例えば、バリアント解釈支援システムの一部のユーザは、特定の表現型を呈する患者における最も原因となりそうなバリアントを同定することに関心があり得る。一部の態様においては、エビデンスへのクエリ226は、バリアントのリストの関連のある表現型の確率を要求することとなる。これらの場合において、エビデンス分散モジュールは、エビデンスへのクエリ206においてバリアント毎に最も性能のよいエビデンスデータ220を順位付けて収集することとなる。一部の態様においては、エビデンス分散モジュール218は、表現型の特定の確率より高い全てのバリアントのリストを返すこととなる。一部の態様においては、表現型の特定の確率は内部に明記される。他の態様においては、表現型の特定の確率は、エビデンスへのクエリ226に明記される要件に従って明記される。他の態様においては、エビデンス分散モジュール218は、1又は複数の表現型に関するそれらの相対確率に従う、順位の順でのエビデンスへのクエリからバリアントのリストを提供することとなる。他の態様においては、エビデンス分散モジュールは、エビデンス226へのクエリにおいて各バリアントからの各表現型に関連付けられた相対確率を含むこととなる。他の態様においては、エビデンスへのクエリにおけるエビデンスの特定の数又は割合のみが、エビデンス分散モジュールにより返される。
一部の態様においては、バリアント解釈支援システムは、別個のデータベースにおいて、特定の問い合わせている実体からのエビデンスへのクエリ226を追跡することが可能である。その後の時点で、バリアント解釈支援システムは、入力データの一部として記録されたエビデンスへのクエリ226を用いて、生成データ206又は検定データ212をさらに改良することが可能である。例えば、臨床データ208は、バリアント解釈支援システムが検定性能データ224における同語反復的結論を回避するために特定の臨床データ208を除外することを選択することが可能である点において、エビデンスへのクエリ226及びエビデンスデータ220に部分的に由来し得る。
システム600(図6)は、ハードウェア(例えば、回路構成要素、専用論理、プログラマブル論理、マイクロコード等)、ソフトウェア(例えば、処理装置において実行する命令)又はこれらの組合せを有する処理論理によって実行可能である。本明細書において提供される開示を実行するために、必ずしも全てのステップを必要としなくてもよいことを認識されたい。また、ステップの一部は、同時に、又は当業者であれば理解されるような、図6に示すのとは異なる順序で、実行可能である。
図1及び図2を参照しながら、システム600及び601について説明するものとする。ただし、システム600は、前記に例示した態様に限定されない。
生成データ206、検証性能データ222又はその他の入力データ122等であるエビデンスデータ220及び任意の裏付けデータからの予測のセットに関して、エビデンス及び裏付けデータ602を集積させることが可能である。バリアント毎の裏付けデータは、同定する情報(例えば、遺伝子型バリアント及び分子バリアント等)を含む、バリアント特有の裏付けデータ604に分離可能である。一部の態様においては、バリアント特有の裏付けデータ604は、エビデンスモデル220予測に、又はバリアントに特有な検証性能データ222に特有な情報を含む。他の態様においては、バリアント特有の裏付けデータ604は、入力データ122又はエビデンスモデル214からの特定のパラメータについての情報を含む。バリアント特有の裏付けデータ5604は、所定の分子バリアント範囲603におよぶことが可能であり、例えば:特定のエビデンスデータ220からのミスセンス変異体に関する予測の全てである。
バリアント特有の裏付けデータ604毎に、衝突耐性ハッシュ関数606を定めて、バリアント特有の裏付けデータ604毎に、バリアント特有の裏付けデータ604をハッシュ値607に確定的に変換することが可能である。一部の態様においては、特定の衝突耐性ハッシュ関数606が、バリアント特有の裏付けデータ604内において定められ得る。他の態様においては、例えば意図されない暗号解読の尤度を低減するために、バリアント特有の裏付けデータ222に対してランダムな値が付加され得る。
ハッシュ値607は、マークルツリーアーキテクチャ608のマークルツリーのリーフノード610を形成する。マークルツリーのリーフノードは、所定の再現可能なやり方で並べられ得る。マークルツリーのリーフノード610のペアを連結でき、またこの値はさらに、衝突耐性ハッシュ関数によって、マークルツリーの非リーフノード612にハッシュ化され得る。この処理は、1つのマークルツリーのルート614が算出されるまで繰り返すことが可能である。次いでマークルツリーのルート614は、タイムスタンプ付き分散型公開元帳618に提出され得る。
当業者であれば認識されるように、マークルツリーアーキテクチャ608に含むことが可能である個々のバリアント特有の裏付けデータ604のエントリ数は、マークルツリー深度616によって制限してもよい。例えば、マークルツリー深度616の5は、32個のマークルツリーのリーフノードのみを許容することとなる。そのため、マークルツリーの深度616が制限されることで、マークルツリーアーキテクチャ608は当然に、タイムスタンプ付き分散型公開元帳618において1つのマークルツリーのルート614に帰属され得るバリアント特有の裏付けデータ604の数が制限される。結果として、固定され、かつ公表されたマークルツリー深度616を伴うマークルツリーアーキテクチャは、悪人が、例えばバリアント特有の裏付けデータ604の全ての組合せ及び/又は一覧を格納しようとすることを消極的に制限する。例えば、悪人は、分子バリアントP871Lが病的であるとするバリアント特有の裏付けデータ604のエントリと、同一の分子バリアントが良性であるとする別のバリアント特有の裏付けデータ604のエントリとを格納する可能性がある。したがって、特に定めたバリアントスコア603のために制限されたマークルツリー深度により、悪人が、特定のバリアントの全ての可能性のある予測を、1つのマークルツリーのルート614の下で公開元帳に帰属することを防止することが可能である。当業者であれば認識されるように、バリアント範囲603に対する可能性のあるバリアントの数は、マークルツリー深度は定めたバリアント範囲603を超えないということを確認することができるようなサードパーティが決定してもよい。
一態様に従う、公開元帳上の特定のタイムスタンプ時におけるバリアント特有の裏付けデータ620の存在を示すハッシュセキュリティ証明を提供するシステム601。システム601は、ハードウェア(例えば、回路構成要素、専用論理、プログラマブル論理、マイクロコード等)、ソフトウェア(例えば、処理装置において実行する命令)又はこれらの組合せを有する処理論理によって実行可能である。本明細書において提供される開示を実行するために、必ずしも全てのステップを必要としなくてもよいことを認識されたい。また、ステップの一部は、同時に、又は当業者であれば理解されるような、図6に示すのとは異なる順序で、実行可能である。
システム601において、バリアント特有の裏付けデータ620(バリアント特有の裏付けデータ604からのある特定のエントリであり得る)に埋め込まれた知識に関連付けられたタイムスタンプは、本来のマークルツリーアーキテクチャ608を生成するために用いられる情報の小断片により明らかにされ得る。例えば、システム601は、衝突耐性ハッシング関数622を用いてバリアント特有の裏付けデータ620をどのように変換するかを数学的に説明することと、結果得られるハッシュを、タイムスタンプとともに公開元帳に格納される、マークルツリーのルート614を回復する他のハッシュと組み合わせることとによって、バリアント特有の裏付けデータ620の関連を証明するマークルツリー証明624を提供する。監査証明へのクエリ624への証明として返される情報は、4つの部分-マークルツリーのルート616、バリアント特有の裏付けデータ620と関連付けられたマークルツリーのリーフノード610につながる経路に隣接するマークルツリーの非リーフノード612、バリアント特有の裏付けデータ620を変換するために用いられる衝突耐性ハッシング関数622、及び最後にバリアント特有の裏付けデータ620の内容-から構成され得る。これら4つの部分を用いて、当業者は、バリアント特有の裏付けデータ620が、タイムスタンプ付き分散型公開元帳618上で公表されたマークルツリーのルート614と暗号を使用して関連付けられていることの数学的証明を即座に生成できるだろう。したがって、システム601に対して監査証明へのクエリ624を作成する監査役は、1又は複数のバリアントに関するバリアント特有の裏付けデータ620が、マークルツリーのルート614と関連付けられたタイムスタンプの時点又は該タイムスタンプの前に生成されたかを即座に判断することが可能である。
本明細書に開示した方法及びシステム(例えば、本開示のバリアント解釈方法、バリアント解釈支援システム、及びバリアント解釈端末システム)を用いて取得した、1又は複数の機能性の要素(又は分子)、表現型、文脈、又は所与の時点における関心のバリアントのセットに関する分子バリアントの表現型の影響の記述又は予測は、例えば、診断又は治療の一部として用いることが可能である。本明細書において開示されるシステム、装置、デバイス、方法、及び/又はコンピュータプログラム製品、及び/又はその組合せ及び下位の組合せは、複数のエビデンスクラスにわたる分子バリアント解釈のための最も性能のよい裏付けとなるエビデンスモデルを、定期的に組み込む、更新する、監視する、検証する、選択する及び監査することによって、対象の分子検査、サンプル又はリポートにおいて特定される分子バリアント-例えば、遺伝子及びゲノム検査、サンプル又はリポートにおいて同定される遺伝子型(配列)バリアント-の表現型の(例えば臨床的又は非臨床的な)影響(例えば、病的、機能的又は相対的な影響)についての決定を最適化するために用いることが可能である。次いで、こうした情報は、例えば患者を治療するか、患者の治療を中止するか、治療のために患者を選択するか、患者の予後を予測するか、特定の治療薬を選択するか等を行うかどうかを決定するために、用いることが可能である。
以下に開示の方法は、臨床治療に限定されるものではなく、生活様式の決定に関連し得ることを理解されたい。例えば、対象は、潜在的な表現型の影響についての決定に応じて、食生活又は生活様式の変化を生じさせてもよい。
以下に開示の方法は、1個体にわたって1つのバリアントを解釈することに限定されるものではなく、1又は複数の個体にわたる複数のバリアントに関連し得ることを理解されたい。例えば、臨床治験での患者のコホートにおいて、バリアントの相対的な表現型の影響を順位付けすることである。
以下に開示の方法は、生存個体においてバリアントを解釈することに限定されないということを理解されたい。例えば、個体のバリアントの死後の解釈により、個体の親類に対して遺伝率のリスクを知らせることが可能である。
本明細書で用いる場合、「治療する」、「治療」又は「~の治療」の語は、疾患、障害若しくは表現型の可能性を低減すること、疾患、障害若しくは表現型の発生を低減すること、及び/又は、疾患若しくは障害の重症度の軽減であって、好ましくは、対象がそれに起因する苦痛、及び/又は、機能の変化に悩まされなくなる程度までに軽減することを指す。例えば、治療することは、対象に施与されたときに、疾患又は障害が発生することを防止する及び/又は疾患の症状、徴候又は原因が治癒する若しくは和らぐような治療法の能力を指し得る。治療することはまた、少なくとも1つの臨床症状を緩和若しくは減少すること、及び/又は症状の進行の阻害若しくは遅延、及び/又は疾患若しくは病気の発症の予防若しくは遅延を指す。治療することはまた、例えば家族計画の決定を通知することによる等、疾患、障害又は表現型の間接的影響を緩和又は対処することを指し得る。したがって、「治療する」、「治療」又は「~の治療」の語(又は文法的に同等の語)は、予防的治療及び治療上の治療療法のレジメンを指す。
本開示の方法及びシステムは、疾患、障害若しくは表現型の診断及び/又は治療における利益を提供することが可能である。利益は、最も典型的には、必ずしも特定の疾患又は障害に対する治癒ではないが、疾患、障害若しくは表現型の軽減、又は、生存率の上昇、疾患若しくは障害の除去、疾患若しくは障害に関連する症状の軽減、一次疾患、障害若しくは表現型の発症により生じる二次的な疾患、障害、若しくは症状の予防若しくは緩和、及び/又は疾患、障害、若しくは表現型の予防を含む結果を包含する。
本明細書で用いる場合、「対象」又は「患者」の語は、疾患、障害、若しくは表現型の診断、予後又は治療法が望まれる任意の対象を指す。本明細書で用いる場合、「対象」又は「患者」の語は、任意のヒト又は非ヒト生物を含む。「非ヒト生物」の語は、非ヒト霊長類、ヒツジ、イヌ、ネコ、ウマ、ウシ、クマ、トリ、両生類、爬虫類、魚、昆虫、バクテリア等の全ての生物を含む。
特定の態様においては、本明細書で開示する方法及びシステムは、疾患若しくは症状を予防、治療、管理又は改善するために用いる試薬であり得、治療薬の投与に関連する決定を行うために用いることが可能である。
本明細書で用いる場合、「治療法」の語は、疾患若しくは障害を治癒する、緩和する、又は予防するあらゆる手段を含み、例えば治療薬、器具使用、対症療法、及び外科的又はリハビリテーション手順を含む。この点において、治療法の語は、疾患若しくは障害の予防、管理、治療、及び/又は改善において用いることが可能であるあらゆるプロトコール、方法及び/又は治療的若しくは診断上のものを包含する。
本明細書で用いる場合、「治療薬」の語は、疾患又は障害を有する対象に投与されて所望の、通常有益な効果を生じるような治療上活性のあるあらゆる物質を指す。治療薬の語は、例えば、小分子薬剤と通常呼ばれる従来の低分子治療薬、並びに、抗体又はその活性断片、ペプチド、脂質、タンパク薬物、タンパク複合体薬物、酵素、オリゴヌクレオチド、リボザイム、遺伝物質、プリオン、ウイルス、バクテリア、及び真核細胞を含むがこれに限定されない生物製剤を含む。治療薬はまた、対象に投与したときに所望の治療上活性のある物質に代謝するプロドラッグであり得る。一部の態様においては、治療薬は予防薬である。さらに治療薬は薬理学的に処方され得る。治療薬はまた、光若しくは超音波エネルギー等である一部の他の形態のエネルギーによって、又は全身的に投与可能である他の循環分子によって活性化される、放射性同位元素又は放射性医薬品であり得る。治療薬はまた、例えば遺伝カウンセリングを経た家族計画、又は患者若しくは患者の親類に対してバリアントが彼らにもたらす遺伝率のリスクを知らせること等である、疾患の間接的な非生理的な影響を改善するプロセスであり得る。
本明細書で用いる場合、「治療効果のある」量は、疾患又は障害を有する対象に対してある改善又は利益をもたらすような治療薬の量である。したがって、「治療効果のある」量は、疾患又は障害の少なくとも1つの臨床症状に、ある緩和、軽減、及び/又は減少をもたらす量である。当業者は、ある利益が対象にもたらされるものであれば、治療効果が必ずしも完全な又は治癒的なものでないことを理解されるであろう。
本明細書で用いる場合、「十分な量」又は疾患又は障害を有する患者に特定の結果をもたらす「のに十分な量」は、所望の効果を生じるのに効果的である治療薬の量を指し、これは治療効果があってもよい(すなわち、治療効果量の投与によって)。
本明細書で用いる場合、「サンプル」の語は、対象から取得した全血、血清、筋肉、唾液等のあらゆる生体液又は組織を含む。サンプルは、全血、血清、筋肉、唾液、尿、滑液、骨髄、脳脊髄液、鼻汁、痰、羊水、気管支肺胞洗浄液、肺組織、末梢血単核球、全白血球、リンパ節細胞、脾臓細胞、扁桃腺細胞、又は皮膚等のあらゆる生体液又は組織を含む。一部の特定の態様においては、そのサンプルは、血液又はその分画、筋肉、皮膚、又はこれらの組合せである。サンプルは、当技術分野で公知の任意の手段によって取得可能である。一部の態様においては、サンプルは、複数の対象から生体サンプルを取得すること、それらをプールすること、又は各対象の生体サンプルの分注をプールすることによって得ることが可能である。プールしたサンプルは、単一の対象からのサンプルとして扱うことが可能である。サンプルの語はまた、前述のうちの全てを実験的に分離した分画を含む。例えば、血液サンプルを、血清に、又は特定の種類の細胞を含有する分画に、分取することが可能である。一部の態様においては、サンプルは、例えば組織及び液体サンプルの組合せ等である、個体からのサンプルの組合せとすることが可能である。
この開示の方法及びシステムを用いるために、患者からのサンプルは、疾患又は障害を治療するための治療法の施与前又は施与後に取得することが可能である。一部の場合においては、治療法の開始後、又は治療法の中止後に、患者から連続するサンプルを取得することが可能である。例えば、サンプルは、医療提供者(例えば、医者)若しくは医療費給付提供者によって求められ、並びに/又は、同一の若しくは異なる医療提供者(例えば、看護師、病院)若しくは臨床検査室によって取得及び/若しくは処理されることが可能であり、また処理後には、結果を、元の医療提供者又はさらに別の医療提供者、医療費給付提供者又は患者に転送可能である。同様に、1又は複数の医療提供者、医療費給付提供者及び/又は臨床検査室によって、1又は複数のスコアの測定/決定、スコア間の比較、スコアの評価及び治療決定を実行可能である。
本明細書で用いる場合、「医療提供者」の語は、例えばヒト患者である生体に直接働きかける及び施与する個人又は施設を指す。医療提供者の非限定的な例としては、医者、看護師、技術者、療法士、薬剤師、カウンセラー、代替医療の開業医、医療設備、医院,、病院、緊急治療室、クリニック、救急ケアセンター、代替医療のクリニック/施設、及び、全般的及び/又は専門的な治療、評価、メンテナンス、治療法、薬物治療、並びに/又は、全般的な医療、専門的な医療、外科的及び/若しくはその他のタイプの治療、評価、メンテナンス、治療法、薬物治療、及び/又はアドバイスを含むがこれに限定されない患者の健康状態の全て若しくは任意の部分に関するアドバイスを提供するその他の実体が挙げられる。医療提供者はまた、例えば家族の表現型の理解を追う中において、個体に関するバリアント解釈を探る個人又は該個人の同僚を指し得る。
本明細書で用いる場合、「臨床検査室」の語は、例えばヒトである生体由来の物質の実験又は処理のための施設を指す。処理の非限定的な例としては、例えばヒトである生体の、例えば任意の疾患若しくは損傷の診断、予防若しくは治療又は健康の評価のために情報をもたらすための、人体由来の物質についての生物学的、生化学的、血清学的、化学的、免疫血液学的、血液学的、生物物理学的、細胞学的、病理学的、遺伝子学的な、又は他の実験が挙げられる。これら実験はまた、サンプルを採取若しくはそうでなければ取得するためか、例えばヒトである生体の身体にある種々の物質若しくは例えばヒトである生体の身体から取得したサンプルの存在若しくは不在を用意、決定、測定若しくはそうでなければ記述するための手順を含み得る。
本明細書で用いる場合、「医療費給付提供者」の語は、1又は複数の医療費給付、福利厚生計画、健康保険、及び/又は医療経費勘定プログラムを、全体的に若しくは部分的に提供、提示、申し出る、支払う、又はそうでなければ患者がアクセスできるようにすることに関連する、個人団体、組織、又はグループを包含する。
一部の態様においては、医療提供者は、別の医療提供者に対して、疾患又は障害を治療する治療法を施与させるように管理する又は指示することが可能である。医療提供者は、別の医療提供者又は患者に対して、以下の動作:サンプルを取得、サンプルを処理、サンプルを提出、サンプルを受け取る、サンプルを送る、サンプルを分析又は測定、サンプルを定量、サンプルの分析/測定/定量後に得られた結果を提供、サンプルの分析/測定/定量後に得られた結果を受け取る、1又は複数のサンプルの分析/測定/定量後に得られた結果を比較する/スコアを付ける、1又は複数のサンプルからの比較/スコアを提供する、1又は複数のサンプルからの比較/スコアを取得する、治療法を施与する、治療法の施与を開始する、治療法の施与を中止する、治療法の施与を継続する、治療法の施与を一時的に中断する、投与する治療薬の量を増やす、投与する治療薬の量を減らす、ある量の治療薬の投与を継続する、治療薬の投与の回数を増やす、治療薬の投与の回数を減らす、ある治療薬で同一の投与回数を維持する、ある治療法又は治療薬を少なくとも1つの別の治療法又は治療薬で置換する、ある治療法又は治療薬を少なくとも1つの別の治療法又は追加の治療薬と組み合わせる、を行うように実施させる又は指示することが可能である。
一部の態様においては、医療費給付提供者は、例えば、サンプルの採取、サンプルの処理、サンプルの提出、サンプルの受領、サンプルの送付、サンプルの分析又は測定、サンプルの定量、サンプルの分析/測定/定量後に得られた結果の提供、サンプルの分析/測定/定量後に得られた結果の送付、1若しくは複数のサンプルの分析/測定/定量後に得られた結果の比較/スコア付け、1若しくは複数のサンプルからの比較/スコアの送付、治療法若しくは治療薬の施与、治療法若しくは治療薬の施与の開始、治療法若しくは治療薬の施与の中止、治療法若しくは治療薬の施与の継続、治療法若しくは治療薬の施与の一時的な中断、投与する治療薬の量の増加、投与する治療薬の量の減少、ある量の治療薬の投与の継続、治療薬の投与回数の増加、治療薬の投与回数の減少、ある治療薬で同一の投与回数の維持、ある治療法若しくは治療薬を少なくとも1つの別の治療法若しくは治療薬で置換、又は、ある治療法若しくは治療薬を少なくとも1つの別の治療法若しくは追加の治療薬と組み合わせることを、認可する又は拒否することが可能である。
さらに、医療費給付提供者は、例えば、治療法の処方を認可する又は否定する、治療法に関するカバレッジを認可する又は否定する、治療法の費用の支払いを認可する又は否定する、治療法の適格を認可する又は否定する等をすることが可能である。
一部の態様においては、臨床検査室は、例えば、サンプルを採取若しくは取得、サンプルを処理、サンプルを提出、サンプルを受領、サンプルを送付、サンプルを分析若しくは測定、サンプルを定量、サンプルの分析/測定/定量後に得られた結果を提供、サンプルの分析/測定/定量後に得られた結果を受領、1若しくは複数のサンプルの分析/測定/定量後に得られた結果の比較/スコア付け、1若しくは複数のサンプルからの比較/スコアを提供、1若しくは複数のサンプルからの比較/スコアを取得、又は他の関連の動作を行うことが可能である。
特定の態様においては、本明細書に開示の方法は、本明細書に開示の方法に従って得られるある結果、例えば分子バリアントの表現型の影響を、対象に通知することを含む。患者には、口頭で、書面で、及び/又は電子的に、通知することが可能である。この情報はまた、患者の診療記録に記録可能である。例えば、様々な態様においては、ある特定の治療薬で治療可能な疾患又は障害の診断が、診療記録に記録される。「診療記録」又は「患者の診療記録」の語は、以下の1又は複数:患者の病歴及び不調、医師による身体的所見、診断検査及び手順の結果、並びに、患者の薬物治療及び治療手順、を典型的に含む患者の検査及び/又は治療の説明を指す。診療記録は、典型的には、1人又は複数人の医師及び/又は医師の助手によりなされ、またそれは医療を要する種々の病気若しくは損傷、及び/若しくは予防接種、及び/若しくはアレルギー、及び/若しくは治療、及び/若しくは予後、及び/若しくは、両親、きょうだい、及び/若しくは職業に関するよくある健康情報についての、書面による、書き写された又はその他により記録された記録並びに/又は履歴である。当該記録は、例えば、症状の診断又は治療決定を行う際に、医師により検討されてもよい。
診療記録は、紙形態とすることが可能であり、及び/又は、コンピュータ読み取り可能な媒体で保持することが可能である。診療記録は、ラボラトリ、診療所、病院、医療維持組織、保険会社、及び/又は、個人の医療記録ウェブサイトにより保持可能である。一部の態様においては、診断は、本明細書に開示する方法の少なくとも一部に基づき、カード、装着物品、及び/又は無線自動識別(RFID)タグ等である投薬注意票(medical alert article)上又は投薬注意票内に記録される。本明細書で用いる場合、「装着物品」の語は、対象の身体に装着可能であるあらゆる物品を指し、タグ、ブレスレット、ネックレス、アームバンド、又はヘッドバンドを含むがこれに限定されない。
本明細書に開示の方法はまた、疾患又は障害のための予防及び/又は治療法を処方すること、開始すること及び又は変更することを含む。ある態様においては、当該方法は、1又は複数の追加のアッセイを命じること及び/又は実行することを必要とすることが可能である。例えば、遺伝子検査を反復して、偽陰性の結果を除外してもよく、及び/又は、1若しくは複数の追加の検査を実行して、対象の状態を観察してもよい。
当業者は、例えば治療、診断及び観察方法において、本明細書に開示の方法が、(i)ポジティブなセレクターであって、すなわち、遺伝子型の可能性のある臨床的影響の決定後に、ある特定の動作を行うこととなる(例えば、疾患又は障害を有する患者を治療すること)ようなポジティブなセレクターとして、又は、(ii)ネガティブなセレクターであって、すなわち、可能性のある遺伝子型の臨床的影響の決定後に、ある特定の動作を行うこととなる(例えば、疾患又は障害を有する患者を治療しないこと)ようなネガティブなセレクターとして、又は、(iii)ポジティブ及びネガティブの両方のセレクターであって、例えば、遺伝子型の臨床的影響の決定後に、特定の治療を中止し、別の治療を開始することとなるようなポジティブ及びネガティブの両方のセレクターとして、用いることが可能であることを理解されるだろう。
この開示は、疾患、障害又は表現型を有することが疑われる患者を治療する方法であって、本明細書に開示する方法に従う、可能性のある遺伝子型の臨床的影響の決定が、患者がある治療薬での治療から利益を受けることができるということを示すならば、患者に当該治療薬を投与することを含む、方法を提供する。
この開示はまた、本明細書に開示する方法に従う、可能性のある遺伝子型の臨床的影響の決定が、患者がある治療薬での治療から利益を受けることができるということを示すならば、患者は、当該治療薬の拮抗薬による治療から利益を受けることとなるかどうかに関して、医療提供者、医療費給付提供者又は臨床検査室による判断を容易にする方法及びシステムを提供する。
本明細書に提供する方法はまた、患者は、その他の治療薬による治療から利益を受けることとなるかどうかに関して、医療提供者、医療費給付提供者又は臨床検査室による判断を容易にすることとなる。
本開示はまた、疾患若しくは障害を有する又は有することが疑われる患者を治療する方法であって、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響が、患者がある治療薬を投与するような治療から利益を受けることとなるということを示すならば、患者に当該治療薬を投与することを含む、方法を提供する。一部の態様においては、サンプルは、患者から取得され、遺伝子検査のために例えば臨床検査室に提出される。
また、疾患若しくは障害を有する又は有することが疑われる患者を治療する方法であって、(a)遺伝子検査のために患者から取得したサンプルを提出することと、(b)本明細書に開示する方法に従って前記遺伝子検査により同定された分子バリアントの表現型の影響が、患者がある治療薬から利益を受けることができるということを示すならば、患者に当該治療薬を投与することとを含む方法を提供する。
この開示はまた、疾患若しくは障害を有する又は有することが疑われる患者を治療する方法であって、(a)疾患若しくは障害を有する又は有することが疑われる患者から取得したサンプル中の、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響を測定することと、(b)対立遺伝子バリアントの存在/不在に基づいて、患者が、ある治療薬による治療から利益を受けることができるかどうかを判断することと、(c)対立遺伝子バリアントが存在/不在であれば、患者に当該治療薬を投与するように医療提供者に助言することとを含む方法を提供する。
特定の態様においては、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響を決定する臨床検査室(例えば、遺伝子検査ラボラトリ)は、患者が、ある特定の治療薬による治療から利益を受けることができるかどうかに関して、医療提供者に助言することとなる。一部の態様においては、臨床検査室は、患者が、ある特定の治療薬による治療の開始、中止又は変更から利益を受けることができるかどうかに関して、医療提供者に助言することが可能である。
一部の態様においては、本開示の方法に従って行われた分子バリアントの表現型の影響の決定の結果を、患者の保険によりある特定の治療薬による治療がカバーされることとなるかどうかの判断のために医療提供者又は医療費給付提供者に提出可能である。
特定の態様においては、この開示は、疾患若しくは障害を有する又は有することが疑われる患者を治療する方法であって、例えば遺伝子検査ラボラトリにおいて、本開示の方法に従って同定された分子バリアントの表現型の影響を決定することと、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響が、患者がある特定の治療薬による治療から利益を受けることができることを示していれば、当該治療薬を患者に投与することを医療提供者に助言することとを含む方法を提供する。
特定の態様においては、治療方法は、例えば遺伝子検査ラボラトリにおいて、本開示の方法に従って同定された分子バリアントの表現型の影響を決定することと、分子バリアントの表現型の影響が、患者がある治療薬による治療から利益を受けることができることを示しているかどうかを判断することと、示しているならば、当該治療薬の投与量を調節する医療提供者に対して、例えば患者に投与する治療薬の量若しくは回数を増やす若しくは維持すること、治療を中断すること、又は、治療薬の量若しくは回数を維持する若しくは減らすことを助言することとを含むことが可能である。
一部の態様においては、本明細書に開示する方法は、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響を決定することに加えて、決定のために患者から取得したサンプルを提出すること、又は、例えば特定のバイオマーカの不在若しくは存在及び/若しくは発現レベル及び/若しくは活性を決定しようとする追加の検査を行うことを臨床検査室に対して指示すること、を決定することを含むことが可能である。
本明細書に開示する方法に従って同定された分子バリアントの表現型の影響を決定することは、上記に述べたように、疾患又は症状の治療の一部として用いることが可能である。さらに、本明細書に開示する方法に従って同定された分子バリアントの表現型の影響の決定を用いて、例えば、ある治療薬による治療のために患者を選択すること、治療のためのいくつかの可能性のある選択肢からある治療薬を選択すること、臨床治験のために患者を選択若しくは除外すること、又は、患者の予後を判断すること、が可能である。本明細書に開示する方法に従って同定された分子バリアントの可能性のある表現型の影響に応じて、医療提供者、医療費給付提供者、又はカウンセラーは、生活様式の助言を提供することが可能である。例えば、肥満に関連する分子バリアントを同定したことに応じて、対象は、当該対象の食生活の調節を助言され得、肺癌に関連する分子バリアントを同定したことに応じて、対象は、喫煙の中止を助言され得る等である。
一部の態様においては、分子バリアントの表現型の影響の決定の結果は、ある生体分子におけるバリアントの影響を通知し、生体分子、生体系又は生物医学技術の特定の性質、挙動又は目的を達成するように当該生体分子に対する変更を提案することによって、生物分子工学、分子生物工学、遺伝子工学、又は生物工学の用途において用いることが可能である。
本明細書において用いる場合、「生体分子」の語は、例えば、ヒト及び非ヒトのタンパク質、合成タンパク質、ペプチド、核酸、若しくは例えば分析物、代謝産物等これらの副産物である、生物学的由来及び人工の両方のである全ての分子、又は、例えばリガンド、小分子、他のペプチド等これらと相互作用する分子を含む。例えば、ヒトタンパク質「ブチリルコリンエステラーゼ」は、タンパク質生体分子である。
本明細書において用いる場合、「生物分子工学」、「分子生物工学」、「遺伝子工学」、又は「生物工学」は、生物学の原理の用途、及び、特定の特性をもつ産物を得るための工学ツールを意味するために用いる。例えば、ヒトタンパク質「ヒトブチリルコリンエステラーゼ」は、再改変されて、その本来の形態よりも1390倍有効であるコカインの加水分解酵素が得られた(Xue et al., Design, preparation, and characterization of high-activity mutants of human butyrylcholinesterase specific for detoxification of cocaine.Molecular pharmacology.2011)。
本明細書において用いる場合、「生体系」は、例えば微生物の群、ヒト器官、又は器官の群等である、ある生物学的な実体又は実体の群を意味するために用いる。例えば、表皮は生体系である。
本明細書において用いる場合、「生物医学技術」は、生物学を経由する、生物学に一部若しくは全体的に基づく、又は生物学に端を発する技術を意味するために用いる。例えば、PacBioシーケンシングは、組換えDNAポリメラーゼを用いた単一分子のリアルタイムシーケンシングを達成する。
本発明は、例えば以下を提供する。
(項目1)
コンピュータで実施される方法であって、
ターゲットエンティティに関して分子バリアントの予測される表現型の影響を記述するものであるエビデンスデータを含む、エビデンスモデルを記録することと、
生成データに基づいて、前記エビデンスモデルに関する検証性能データを評価することと、
前記エビデンスモデルに関する裏付けデータのハッシュ値を生成することであって、前記裏付けデータは前記エビデンスデータを含み、また前記ハッシュ値の生成により、前記エビデンスモデルに関する検定データの受信に応じて、前記エビデンスデータの予測評価が可能になるものである、前記エビデンスモデルに関する裏付けデータのハッシュ値を生成することと、
前記エビデンスモデルに関する検定データの受信に応じて、前記エビデンスデータと前記検定データとに基づいて、前記エビデンスモデルに関する検定性能データを評価することと、
前記検証性能データ又は前記検定性能データに基づいて、前記ターゲットエンティティに関するエビデンスモデルのセットにおいて前記エビデンスモデルを順位付けすることと、
バリアント解釈端末からの、前記ターゲットエンティティに関する分子バリアントの予測された表現型の影響へのクエリに応じて、順位付けに基づいて、前記ターゲットエンティティに関する最も性能のよいエビデンスモデルを用いて予測された表現型の影響を提供することと、を含む、方法。
(項目2)
前記ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む、項目1記載の方法。
(項目3)
前記記録することは、機械学習技術を用いて前記生成データに基づいてエビデンスモデルを生成することをさらに含む、項目1又は2に記載の方法。
(項目4)
前記記録することは、前記エビデンスモデル又は前記エビデンスデータをインポートすることをさらに含む、項目1から3のいずれか一項に記載の方法。
(項目5)
前記エビデンスデータ、前記生成データ、前記検定データ、前記検証性能データ、又は検定性能データのうちの少なくとも1つから、前記裏付けデータを生成することをさらに含む、項目1から4のいずれか一項に記載の方法。
(項目6)
前記ハッシュ値の生成により、前記裏付けデータの内容及び前記裏付けデータの作成の時刻を評価できるようになる、項目1から5のいずれか一項に記載の方法。
(項目7)
前記生成データを臨床知識ベースから受信することをさらに含む、項目1から6のいずれか一項に記載の方法。
(項目8)
前記検証性能データを評価することは:
前記エビデンスモデル及びモデル検証技術を用いて、前記生成データにおける前記ターゲットエンティティの前記分子バリアントに関する表現型の影響のスコアを算出することと;
関心の性能尺度を用いて、前記表現型の影響のスコアに基づいて検証性能データを生成することと、をさらに含む、項目1から7のいずれか一項に記載の方法。
(項目9)
前記検定性能データを評価することは:
前記エビデンスモデル及びモデル検証技術を用いて、前記検定データにおける前記ターゲットエンティティの前記分子バリアントに関する表現型の影響のスコアを算出することと;
関心の性能尺度を用いて、前記表現型の影響のスコアに基づいて検定性能データを生成することと、をさらに含む、項目1から8のいずれか一項に記載の方法。
(項目10)
前記裏付けデータのハッシュ値を、データベースであって、前記ハッシュ値を前記裏付けデータと関連付けるものである前記データベースに格納することをさらに含む、項目1から9のいずれか一項に記載の方法。
(項目11)
前記ハッシュ値を、分散型データ構造に挿入することをさらに含む、項目1から10のいずれか一項に記載の方法。
(項目12)
バリアント解釈端末に対して監査記録を提供することであって、該監査記録は前記分散型データ構造の中の裏付けデータに関するエントリを照会し、また前記監査記録により、前記バリアント解釈端末が、裏付けデータの内容及び裏付けデータの作成の時刻を監査できるようになるものである、前記バリアント解釈端末に対して監査記録を提供することをさらに含む、項目11記載の方法。
(項目13)
前記分散型データ構造はブロックチェーンデータ構造である、項目11又は12に記載の方法。
(項目14)
前記分散型データ構造は分散型フィードである、項目11から13のいずれか一項に記載の方法。
(項目15)
バリアント解釈端末システムであって、
メモリと、
前記メモリと結合し、かつ、
ターゲットエンティティに関する性能尺度のセットを満たすエビデンスモデルの裏付けデータに関して、バリアント解釈システムに支援クエリを送信し、
前記バリアント解釈システムから、前記裏付けデータと前記裏付けデータに関連付けられた監査記録とを受信し、
前記裏付けデータに関する監査記録を含むものである監査クエリを、分散型データ構造に送信し、
前記監査クエリの送信に応じて、分散型データベースから、監査記録に関する検証の証明書を受信し、
前記監査記録に基づくある時点における前記裏付けデータのデータ状態を決定する、
ように構成された、前記少なくとも1つのプロセッサと、を備える、バリアント解釈端末システム。
(項目16)
前記少なくとも1つのプロセッサは、
前記エビデンスモデルに関する裏付けデータのハッシュ値を算出し、
前記ハッシュ値が、前記エビデンスモデルに関する裏付けデータに関する監査記録の中のハッシュ値と合致するかを判断するように構成されるものである、項目15記載のシステム。
(項目17)
前記ターゲットエンティティは、機能性の要素、分子、又は分子バリアント、及び関心の表現型を含む、項目15又は16に記載のシステム。

Claims (16)

  1. 関心の分子バリアントの表現型の影響を予測する、コンピュータで実施される方法であって、
    (a)エビデンスデータを含むエビデンスモデルを記録することであって、前記エビデンスデータは、ターゲットエンティティの分子バリアントの表現型の影響の予測を生じる、オブジェクト、アルゴリズム、及び/又は関数であり、前記ターゲットエンティティは機能性の要素を含むことと、
    (b)生成データに基づいて、前記エビデンスデータに関する検証性能データを評価することであって、前記生成データは、臨床データ及び/又は集団データから生じる、関連付けられた表現型の影響を伴う第一の複数の分子バリアントを表し、前記検証性能データは、前記生成データを用いて算出された、性能尺度の均一なセットに相当することと、
    (c)前記エビデンスモデルに関する検定データの受信に応じて、前記エビデンスデータと検定データとに基づいて、前記エビデンスモデルに関する検定性能データを評価することであって、前記検定データは、臨床データ及び/又は集団データから生じる、関連付けられた表現型の影響を伴う第二の複数の分子バリアントを含み、前記第二の複数の分子バリアントは、前記第の複数の分子バリアントと互いに素であり、前記検定性能データは、前記検定データを用いて算出された、性能尺度の均一なセットに相当することと、
    (d)前記検証性能データ及び/又は前記検定性能データに基づいて、ターゲットエンティティに関するエビデンスモデルのセットにおいて前記エビデンスモデルを順位付けすることと、
    (e)バリアント解釈端末からの、前記ターゲットエンティティに関する関心の分子バリアントの予測された表現型の影響へのクエリに応じて、順位付けに基づいて、前記ターゲットエンティティに関する最も性能のよいエビデンスモデルを用いて予測された表現型の影響を提供することと、を含む、方法。
  2. 前記性能尺度は、診断尺度、分類尺度、または回帰の正確度尺度の1つまたは複数を含む、請求項1に記載の方法。
  3. 前記診断尺度は、そのままの正確度、平均正解率、真陽性率、真陰性率、陽性予測値、陰性予測率、真陽性、真陰性、偽陽性、偽陰性、およびカバレッジの1つまたは複数を含む、請求項2に記載の方法。
  4. 前記エビデンスモデルを記録することは、前記生成データに基づいてエビデンスモデルを生成することを含む、請求項1に記載の方法。
  5. 前記エビデンスモデルを記録することは、前記エビデンスモデル又は前記エビデンスデータをインポートすることを含む、請求項1に記載の方法。
  6. 前記エビデンスモデルに関する裏付けデータのハッシュ値を生成することをさらに含み、前記裏付けデータは、前記エビデンスデータ、前記生成データ、前記検定データ、前記検証性能データ、又は検定性能データ、又はこれらの組合せから生成される、請求項1に記載の方法。
  7. 前記エビデンスモデルに関する前記裏付けデータの前記ハッシュ値は、タイムスタンプと共に、データベースの中に格納される、請求項6に記載の方法。
  8. 前記生成データは、臨床知識ベースから受信する、請求項4に記載の方法。
  9. 前記検証性能データを評価することは:
    (1)前記エビデンスモデル及びモデル検証技術を用いて、前記生成データにおける前記ターゲットエンティティの1又は複数の分子バリアントに関する表現型の影響のスコアを算出することと;
    (2)性能尺度の均一なセットを用いて、前記表現型の影響のスコアに基づいて検証性能データを生成することと、を含む、請求項1に記載の方法。
  10. 前記検定性能データを評価することは:
    (1)前記エビデンスモデル及びモデル検証技術を用いて、前記検定データにおける前記ターゲットエンティティの1又は複数の分子バリアントに関する表現型の影響のスコアを算出することと;
    (2)性能尺度の均一なセットを用いて、前記表現型の影響のスコアに基づいて検定性能データを生成することと、を含む、請求項1に記載の方法。
  11. 前記データベースは不変である、請求項7に記載の方法。
  12. 前記データベースはブロックチェーンデータ構造である、請求項7に記載の方法。
  13. 前記データベースは分散型フィードである、請求項7に記載の方法。
  14. 前記生成データに基づいて前記エビデンスモデルを生成することは、
    (i)機械学習技術、
    (ii)機能分析、又は、
    (iii)生物物理学的シミュレーション、又は、
    (iv)これらの組合せ、を用いる、請求項4に記載の方法。
  15. 前記機械学習技術は、教師なし、教師付き、又は半教師付きである、請求項1に記載の方法。
  16. 前記バリアント解釈端末に対して監査記録を提供することをさらに含むものであって、(i)前記監査記録は、前記データベースの中の前記裏付けデータに関する前記ハッシュ値を含み、
    また(ii)前記監査記録により、前記バリアント解釈端末が、前記裏付けデータの内容及び前記裏付けデータの作成の時刻を監査できるようになる、請求項6に記載の方法。
JP2020522707A 2017-10-17 2018-10-17 遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム Active JP7258871B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762573458P 2017-10-17 2017-10-17
US62/573,458 2017-10-17
PCT/US2018/056304 WO2019079464A1 (en) 2017-10-17 2018-10-17 PLATFORM OF MOLECULAR EVIDENCE FOR CONTINUOUS AND VERIFY OPTIMIZATION OF INTERPRETATION OF VARIANTS IN TESTS AND GENETIC ANALYZES

Publications (3)

Publication Number Publication Date
JP2020537795A JP2020537795A (ja) 2020-12-24
JP2020537795A5 JP2020537795A5 (ja) 2021-07-26
JP7258871B2 true JP7258871B2 (ja) 2023-04-17

Family

ID=66174641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020522707A Active JP7258871B2 (ja) 2017-10-17 2018-10-17 遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム

Country Status (10)

Country Link
US (4) US20200251179A1 (ja)
EP (1) EP3701534B1 (ja)
JP (1) JP7258871B2 (ja)
CN (1) CN112074909B (ja)
AU (1) AU2018350975B2 (ja)
BR (1) BR112020007449A2 (ja)
CA (1) CA3079389A1 (ja)
IL (1) IL274001A (ja)
MX (1) MX2020003709A (ja)
WO (1) WO2019079464A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112074909B (zh) 2017-10-17 2024-03-19 英维特公司 变体解释终端系统
US10959277B2 (en) * 2019-04-01 2021-03-23 T-Mobile Usa, Inc. Mobile device network performance restoration and improvement
US10764062B2 (en) * 2019-06-03 2020-09-01 Alibaba Group Holding Limited Blockchain ledger compression
CN110602162B (zh) * 2019-08-06 2022-11-01 苏州龙信信息科技有限公司 终端取证方法、装置、设备和存储介质
CN110957006B (zh) * 2019-12-14 2023-08-11 杭州联川基因诊断技术有限公司 一种brca1/2基因变异的解读方法
CN112489812B (zh) * 2020-11-30 2021-07-06 北京华彬立成科技有限公司 药物开发分析方法、装置、电子设备和存储介质
US11652650B1 (en) * 2022-09-20 2023-05-16 Veiovia Limited Externally validated proof of work for appending a block record to a blockchain with a commitment database server

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000500647A (ja) 1995-10-24 2000-01-25 クレイジェン コーポレーション 配列決定を行なわないでサンプル中のdna配列を同定、分類または定量する方法及び装置
WO2016154584A1 (en) 2015-03-26 2016-09-29 Quest Diagnostics Investments Incorporated Alignment and variant sequencing analysis pipeline
US20160306923A1 (en) 2013-01-17 2016-10-20 Edico Genome, Inc. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20170270212A1 (en) 2016-03-21 2017-09-21 Human Longevity, Inc. Genomic, metabolomic, and microbiomic search engine

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6949692B2 (en) 1996-11-18 2005-09-27 Wisconsin Alumni Research Foundation Method for identifying mutants and molecules
US5780236A (en) 1996-11-18 1998-07-14 Wisconsin Alumni Research Foundation Method for identifying mutants and molecules
US7135286B2 (en) 2002-03-26 2006-11-14 Perlegen Sciences, Inc. Pharmaceutical and diagnostic business systems and methods
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
US7993833B2 (en) 2006-09-11 2011-08-09 Celera Corporation Genetic polymorphisms associated with psoriasis, methods of detection and uses thereof
KR101325736B1 (ko) 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법
US20130338012A1 (en) 2010-11-18 2013-12-19 Illumina Inc. Genetic risk factors of sick sinus syndrome
US8744982B2 (en) 2011-05-12 2014-06-03 University Of Utah Research Foundation Gene-specific prediction
US8718950B2 (en) * 2011-07-08 2014-05-06 The Medical College Of Wisconsin, Inc. Methods and apparatus for identification of disease associated mutations
US9779214B2 (en) 2012-01-06 2017-10-03 Molecular Health Gmbh Systems and methods for personalized de-risking based on patient genome data
US20140089009A1 (en) * 2012-09-27 2014-03-27 Wobblebase, Inc. Method for Personal Genome Data Management
NZ710299A (en) * 2013-01-31 2020-01-31 Codexis Inc Methods, systems, and software for identifying bio-molecules with interacting components
US10235496B2 (en) * 2013-03-15 2019-03-19 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
WO2014151764A2 (en) * 2013-03-15 2014-09-25 Veracyte, Inc. Methods and compositions for classification of samples
US20160048633A1 (en) * 2013-03-15 2016-02-18 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
US11107551B2 (en) * 2013-06-14 2021-08-31 Keygene N.V. Directed strategies for improving phenotypic traits
US20150025861A1 (en) * 2013-07-17 2015-01-22 The Johns Hopkins University Genetic screening computing systems and methods
WO2015027085A1 (en) * 2013-08-22 2015-02-26 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US20160314245A1 (en) 2014-06-17 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
EP3161698A1 (en) * 2014-06-30 2017-05-03 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests
CN106796628B (zh) 2014-09-03 2020-11-10 南坦健康有限公司 基于合成基因组变体的安全交易设备、系统和方法
WO2016172464A1 (en) * 2015-04-22 2016-10-27 Genepeeks, Inc. Device, system and method for assessing risk of variant-specific gene dysfunction
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CN112074909B (zh) 2017-10-17 2024-03-19 英维特公司 变体解释终端系统
US10978196B2 (en) * 2018-10-17 2021-04-13 Tempus Labs, Inc. Data-based mental disorder research and treatment systems and methods
US20200121715A1 (en) 2018-10-20 2020-04-23 MC Technology Holdings, LLC Composition comprising aqueous medium with reduced size water clusters to improve bioavailability of the aqueous medium and methods for making and using the compositions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000500647A (ja) 1995-10-24 2000-01-25 クレイジェン コーポレーション 配列決定を行なわないでサンプル中のdna配列を同定、分類または定量する方法及び装置
US20160306923A1 (en) 2013-01-17 2016-10-20 Edico Genome, Inc. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2016154584A1 (en) 2015-03-26 2016-09-29 Quest Diagnostics Investments Incorporated Alignment and variant sequencing analysis pipeline
US20170270212A1 (en) 2016-03-21 2017-09-21 Human Longevity, Inc. Genomic, metabolomic, and microbiomic search engine

Also Published As

Publication number Publication date
AU2018350975B2 (en) 2023-11-23
US11462299B2 (en) 2022-10-04
US20240006021A1 (en) 2024-01-04
US20200251179A1 (en) 2020-08-06
IL274001A (en) 2020-05-31
US20230117854A1 (en) 2023-04-20
US11798651B2 (en) 2023-10-24
AU2018350975A1 (en) 2020-05-07
MX2020003709A (es) 2020-07-22
EP3701534A4 (en) 2021-08-04
EP3701534C0 (en) 2024-04-10
CA3079389A1 (en) 2019-04-25
US20190189246A1 (en) 2019-06-20
EP3701534B1 (en) 2024-04-10
JP2020537795A (ja) 2020-12-24
CN112074909A (zh) 2020-12-11
BR112020007449A2 (pt) 2020-10-20
EP3701534A1 (en) 2020-09-02
WO2019079464A1 (en) 2019-04-25
CN112074909B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
JP7258871B2 (ja) 遺伝子及びゲノムの検査並びに分析におけるバリアント解釈の、監査可能な継続的な最適化のための分子エビデンスプラットフォーム
JP7390711B2 (ja) 個体およびコホートの薬理学的表現型予測プラットフォーム
Kia et al. Identification of candidate Parkinson disease genes by integrating genome-wide association study, expression, and epigenetic data sets
Li et al. Electronic health records and polygenic risk scores for predicting disease risk
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
US20120310539A1 (en) Predicting gene variant pathogenicity
JP2014140387A (ja) 遺伝子分析系および方法
Garringer et al. Hearing impairment susceptibility in elderly men and the DFNA18 locus
Wyatt et al. Genders of patients and clinicians and their effect on shared decision making: a participant-level meta-analysis
Jung et al. Transferability of Alzheimer disease polygenic risk score across populations and its association with Alzheimer disease-related phenotypes
Day et al. Association of acquired and heritable factors with intergenerational differences in age at symptomatic onset of Alzheimer disease between offspring and parents with dementia
Williams et al. 90-Day all-cause mortality can be predicted following a total knee replacement: an international, network study to develop and validate a prediction model
Zhou et al. A phenome-wide scan reveals convergence of common and rare variant associations
Feero Establishing the clinical validity of arrhythmia-related genetic variations using the electronic medical record: a valid take on precision medicine?
Kang et al. Genome-wide association study of treatment resistant depression highlights shared biology with metabolic traits
Gharahkhani et al. Genome-wide risk prediction of primary open-angle glaucoma across multiple ancestries
Tran et al. Use of Diagnostic Codes for Primary Open-Angle Glaucoma Polygenic Risk Score Construction in Electronic Health Record-linked Biobanks
Chantou Genomic Analysis to Determine Genetic Risk Factors in Degenerative Diseases in the Elderly: Challenges and Opportunities in the Genomic Era
Ryan et al. 90‑Day all‑cause mortality can be predicted following a total knee replacement: an international, network study to develop and validate a prediction model
Kang et al. Genome-Wide Association Study of Treatment-Resistant Depression: Shared Biology With Metabolic Traits
Senders Advances in Precision Medicine: Targeted Therapies and Risk Prediction Models in Cardiovascular Disease Management
WO2024129783A1 (en) Systems and methods for patient-specific treatment recommendation optimized with multistage machine learning
Jr et al. Genome-wide association study of treatment resistant depression highlights shared biology with metabolic traits
Mitchell et al. National Biobanks
Dattani downloaded from the King’s Research Portal at https://kclpure. kcl. ac. uk/portal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210611

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230405

R150 Certificate of patent or registration of utility model

Ref document number: 7258871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150