JP2020518898A - 化合物を同定するための方法 - Google Patents

化合物を同定するための方法 Download PDF

Info

Publication number
JP2020518898A
JP2020518898A JP2019556665A JP2019556665A JP2020518898A JP 2020518898 A JP2020518898 A JP 2020518898A JP 2019556665 A JP2019556665 A JP 2019556665A JP 2019556665 A JP2019556665 A JP 2019556665A JP 2020518898 A JP2020518898 A JP 2020518898A
Authority
JP
Japan
Prior art keywords
binding interaction
compound
findings
target protein
binding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019556665A
Other languages
English (en)
Other versions
JP7277378B2 (ja
Inventor
エリック アラン シーゲル,
エリック アラン シーゲル,
リング シュエ,
リング シュエ,
クリストファー ジェイムズ ミュレーン,
クリストファー ジェイムズ ミュレーン,
デニス ジョセフ モッチャ,
デニス ジョセフ モッチャ,
Original Assignee
エックス−ケム インコーポレイテッド
エックス−ケム インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エックス−ケム インコーポレイテッド, エックス−ケム インコーポレイテッド filed Critical エックス−ケム インコーポレイテッド
Publication of JP2020518898A publication Critical patent/JP2020518898A/ja
Priority to JP2023076466A priority Critical patent/JP2023113620A/ja
Application granted granted Critical
Publication of JP7277378B2 publication Critical patent/JP7277378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/10Libraries containing peptides or polypeptides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • General Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本開示は、ヌクレオチドコード化ライブラリー(例えば、DNAコード化ライブラリー)に由来するデータセットを利用する、バーチャルスクリーニング法を提供する。これらの方法は、治療剤の開発に有用な、候補化合物と、目的のタンパク質との結合相互作用についての、高信頼度の予測を可能とする。【選択図】図1

Description

背景技術
バーチャルスクリーニング法は、所与の標的に利用可能なスクリーニング選択肢を拡大することが可能であり、最適化の成功の可能性を増大させうる。バーチャルスクリーニングは、最適化のための出発点として使用される、複数の足場を同定するための、迅速かつ廉価な方法でありうる。バーチャルスクリーニングは一般に、バーチャルデータをもたらすのに、公知の実験データとの比較に依拠するので、使用される、実験により決定されたデータセットのサイズにより、能力が限定される。したがって、従来のハイスループットスクリーニング法を置きかえるために、コンピュータによる予測において十分な信頼度をもたらすように、ロバストなコンピュータ法を極めて大規模なデータセットと組み合わせた方法が必要とされている。
本開示は、治療剤として有用な化合物、および/または治療剤の開発における最適化のための出発点として有用な化合物を同定するための方法を提供する。これらの方法は、化合物とタンパク質との結合を、ヌクレオチドコード化ライブラリー(例えば、DNAコード化ライブラリー)を使用して導出された、実験データの大規模なデータセットにより予測するために有用なコンピュータ法を組み合わせる。ヌクレオチドコード化ライブラリーにより生成されたデータと、コンピュータ法との組合せは、候補化合物と、目的のタンパク質との結合相互作用についての、高信頼度の予測を可能とする。
したがって、一態様では、本開示は、(a)候補化合物(例えば、低分子化合物)のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見(例えば、少なくとも250,000の知見)を提供する工程であって、複数の結合相互作用知見のうちの少なくとも50%(例えば、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも99%)が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用(例えば、DNAコード化ライブラリーのメンバー)を表現する工程と;(b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;(c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程とを含む方法を提供する。
一部の実施形態では、複数の結合相互作用知見は、少なくとも250,000(例えば、少なくとも500,000、少なくとも100万、少なくとも200万、少なくとも500万、少なくとも1000万、少なくとも2500万)の結合相互作用知見を含む。
一部の実施形態では、複数(例えば、少なくとも250,000、少なくとも500,000、少なくとも100万、少なくとも200万、少なくとも500万、少なくとも1000万)個の化合物の識別をコード化するヌクレオチドタグを含む化合物を、標的タンパク質と、同時に(例えば同じ反応器内で、同時に)接触させることにより、複数の結合相互作用知見のうちの少なくとも50%が決定された。例えば、一部の実施形態では、推定される結合相互作用を生成するのに利用される、DNAコード化ライブラリーメンバーについての、結合相互作用知見のうちの、少なくとも50%を、単一の実験において、単一の反応器内で決定した。
一部の実施形態では、方法は、1つまたは1つより多いさらなる標的タンパク質について、1つまたは1つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、1つまたは1つより多いさらなる複数の結合相互作用知見のうちの少なくとも50%は、さらなる標的タンパク質と、工程(a)の標的タンパク質との複数の結合相互作用知見からの化合物との結合相互作用を表現する。一部の実施形態では、方法は、1つまたは1つより多いネガティブコントロール実験について、1つまたは1つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、複数の結合相互作用知見のうちの少なくとも50%は、標的タンパク質との、工程(a)の複数の結合相互作用知見からの化合物のネガティブコントロールを表現する。一部の実施形態では、方法は、1つまたは1つより多いコントロール実験について、1つまたは1つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、この場合、複数の結合相互作用知見は、化合物についての、工程(a)の標的タンパク質(例えば、公知の阻害剤または天然リガンド)との、既知の結合相互作用を伴う、結合相互作用知見を含む。一部の実施形態では、方法は、化合物または候補化合物の、標的タンパク質への結合、または推定される結合を、化合物または候補化合物の、1つまたは1つより多いさらなる標的タンパク質および/またはネガティブコントロールへの結合、または推定される結合と比較することにより、選択性スコアを生成することを含む。一部の実施形態では、候補化合物リストは、選択性スコアにより表示しランク付けすることが可能である。一部の実施形態では、1つまたは1つより多いさらなる標的タンパク質は、標的タンパク質の突然変異体を含む。
一部の実施形態では、化学構造比較を使用して、例えば、分子表現を利用して、推定される結合相互作用を生成する。分子表現は、原子、特徴、または官能基、およびそれらの接続性(例えば、フィンガープリント、接続表、分子接続性、および/または分子グラフ表現)に基づくトポロジカル表現、静電表現(例えば、表面電子情報)、幾何学表現(例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および/または原子、特徴、もしくは官能基を使用する3D分子座標)、または量子化学表現を含むがこれらに限定されない。一部の実施形態では、原子、特徴、または官能基、およびそれらの接続性(例えば、フィンガープリント、接続表、分子接続性、および/または分子グラフ表現)に基づくトポロジカル表現を使用して、推定される結合相互作用を生成する。一部の実施形態では、静電表現(例えば、表面電子情報)を使用して、推定される結合相互作用を生成する。一部の実施形態では、幾何学表現(例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および/または原子、特徴、もしくは官能基を使用する3D分子座標)を使用して、推定される結合相互作用を生成する。一部の実施形態では、量子化学表現を使用して、推定される結合相互作用を生成する。一部の実施形態では、化学フィンガープリントを使用して、推定される結合相互作用を生成する。
化学フィンガープリントを使用して、化合物についての構造情報と、結合相互作用データとを集約して、標的タンパク質への結合を示す構造パターンを同定することができる。したがって、一部の実施形態では、方法は、(i)複数の化合物についての、複数の化学フィンガープリント(例えば、ビット数が変動する(例えば、166、512、1024)、ECFP6、FCFP6、ECFP4、MACCS、またはMorgan/Circular Fingerprintsなどの化学フィンガープリント)を提供すること;および(ii)推定される結合相互作用の生成において、複数の化学フィンガープリントを利用することをさらに含む。一部の実施形態では、例えば、トレーニングセット内で、複数の化学フィンガープリントは、化合物の識別をコード化するヌクレオチドタグを含む化合物のうちの1つまたは1つより多いものについての化学フィンガープリントを含む、例えば、化学フィンガープリントは、ヌクレオチドタグを伴わない、化合物の構造の表現である。一部の実施形態では、例えば、予測セット内で、複数の化学フィンガープリントは、候補化合物のうちの1つまたは1つより多くについての化学フィンガープリントを含む。一部の実施形態では、化学フィンガープリントは、ECFP6フィンガープリントである。
一部の実施形態では、方法は、候補化合物のセットについて、1つまたは1つより多い特性知見(例えば、分子量および/またはclogP)を提供することをさらに含む。一部の実施形態では、1つまたは1つより多い特性知見を利用して、推定される結合相互作用を生成する。一部の実施形態では、候補化合物リストは、1つまたは1つより多い特性知見により表示しランク付けすることが可能である。
一部の実施形態では、方法は、インターネットを介して、またはディスプレイデバイスへと、候補化合物リストを送信することをさらに含む。一部の実施形態では、フィジカルコンピューティングデバイスは、インターネットを介してアクセスおよび操作される。
一部の実施形態では、方法は、候補化合物について推定される結合相互作用の各々の信頼性スコアを生成することをさらに含み、この場合、信頼性スコアは、候補化合物と、工程(a)の標的タンパク質についての複数の結合相互作用からの1つまたは1つより多い化合物との化学構造比較(例えば、主成分分析)を使用して、生成される。例えば、一部の実施形態では、信頼性スコアは、候補化合物の、化学空間への距離、例えば主成分分析により規定される次元内のユークリッド距離を決定することにより、候補化合物を、工程(a)の複数の結合相互作用からの化合物により規定される化学空間と比較することによって生成される。一部の実施形態では、候補化合物リストは、候補化合物について推定される結合相互作用の信頼性スコアにより表示しランク付けすることが可能である。
一部の実施形態では、方法は、(d)候補化合物のうちの1つまたは1つより多くを、候補化合物リストから合成することをさらに含む。
一部の実施形態では、方法は、(e)1つまたは1つより多い、合成された候補化合物を、標的タンパク質と接触させて、1つまたは1つより多い実験結合相互作用を決定することをさらに含む。
ある態様では、本開示は、
(a)候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
複数の結合相互作用知見のうちの少なくとも90%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
工程と;
(b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;
(c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
を含む方法を実装するように、フィジカルコンピューティングデバイスを方向付けるための、実行可能な命令をその上に記憶させた、コンピュータ可読媒体を提供する。
ある態様では、本開示は、候補化合物のセットの表現を有するフィジカルコンピューティングデバイスであって、
(a)候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
複数の結合相互作用知見のうちの少なくとも90%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
工程と;
(b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;
(c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
を含む方法を実装するように、デバイスを方向付けるための、実行可能な命令によりプログラムされたフィジカルコンピューティングデバイスを提供する。
定義
本明細書で使用される「信頼性スコア」とは、候補化合物と、推定値を作成するのに利用されるデータセット内の1つまたは1つより多い化合物との構造的類似性に基づき、候補化合物について推定される結合相互作用の信頼度を指し示す計算を指す。
本明細書で使用される「結合相互作用」という用語は、2つまたは2つより多い実体の間の会合(例えば、非共有結合的会合または共有結合的会合)を指す。「直接的」結合は、実体または部分の間の物理的接触を伴い;間接的結合は、1つまたは1つより多い介在実体との物理的接触を介する、物理的相互作用を伴う。2つまたは2つより多い実体の間の結合は、典型的に、様々な文脈であって、相互作用する実体または部分を、単離して、またはより複雑な系の文脈において(例えば、共有結合的に、または他の形で、担体実体と会合する場合に、かつ/または生物学的系もしくは細胞において)研究する場合を含む文脈のうちのいずれかにおいて評価することができる。
分子Xの、そのパートナーYに対するアフィニティーは、一般に、解離定数(K)により表すことができる。アフィニティーは、当該技術分野で公知の、一般的な方法であって、本明細書で記載される方法を含む方法により測定することができる。本明細書で使用される「K」という用語は、特定の化合物−タンパク質間相互作用または複合体−タンパク質間相互作用についての解離平衡定数を指すことを意図する。典型的に、本発明の化合物は、例えば、被分析物としてのプレゼンタータンパク質と、リガンドとしての化合物とを使用する、表面プラズモン共鳴(SPR)技術により決定する場合、約10−7M、10−8M、10−9M、もしくは10−10未満、なおまたはこれを下回るKなど、約10−6M未満の解離平衡定数(K)で、プレゼンタータンパク質に結合する。一部の実施形態では、本発明の化合物は、例えば、被分析物としての標的タンパク質と、リガンドとしての化合物とを使用する、表面プラズモン共鳴(SPR)技術により決定する場合、約10−7M、10−8M、10−9M、もしくは10−10未満、なおまたはこれを下回るKなど、約10−6M未満の解離平衡定数(K)で、標的タンパク質(例えば、哺乳動物標的タンパク質もしくは真菌標的タンパク質などの真核生物標的タンパク質、または細菌標的タンパク質などの原核生物標的タンパク質)に結合する。
本明細書で使用される「結合相互作用知見」とは、実験により、例えば、SPRにより決定された、化合物と、タンパク質(例えば、標的タンパク質)との結合相互作用、またはその欠如を指す。例えば、一部の実施形態では、結合相互作用知見は、化合物が、タンパク質(例えば、標的タンパク質)と相互作用しないことの決定を指す。
「分子表現」という用語は、例えば、化合物のトポロジカル表現、静電表現、幾何学表現、または量子化学表現を指す。分子表現は、例えば、化学フィンガープリントを含む。
「静電表現」という用語は、表面電子情報などの情報を含む、分子表現の種類を指す。
本明細書で使用される「推定される結合相互作用」とは、コンピュータによる分析を使用して予測された結合相互作用を指す。一部の実施形態では、候補化合物について推定される、標的タンパク質との結合相互作用は、候補化合物の化学構造を、標的タンパク質との結合相互作用が実験により決定されている、1つまたは1つより多い化合物の化学構造と比較することにより生成される。
本明細書で使用される「化学フィンガープリント」という用語は、化合物についての、機械で読取り可能な分子表現であって、分子の二次元構造または三次元構造の特徴を明らかにする、ビット列、すなわち、二値(0または1)の列挙などの分子表現を指す。化学フィンガープリントを生成する例示的方法は、当該技術分野で公知であり、MACCS、Extended Connectivity Fingerprints(ECFP)、Functional−Class Fingerprints(FCFP)、Morgan/Circular Fingerprints、およびChemical Hashed Fingerprintsを含むがこれらに限定されない。
本明細書で使用される「clogP」という用語は、分子または分子の部分について計算された分配係数を指す。分配係数とは、平衡した、2つの混合不可能な相(例えば、オクタノールおよび水)の混合物中の化合物の濃度比であり、化合物の疎水性または親水性を測定する。当該技術分野では、clogPを決定するための様々な方法が利用可能である。例えば、一部の実施形態では、clogPは、当該技術分野で公知の、定量的構造−特性関係アルゴリズムを使用して(例えば、その重複しない分子断片の和を決定することにより、化合物のlogPを予測する、断片ベースの予測法を使用して)決定することができる。当該技術分野では、clogPを計算するためのアルゴリズムであって、CHEMDRAW(登録商標)Pro、Version 12.0.2.1092(Cambridgesoft、Cambridge、MA)およびMARVINSKETCH(登録商標)(ChemAxon、Budapest、Hungary)などの分子編集ソフトウェアにより使用されるアルゴリズムを含むアルゴリズムが公知である。
本明細書で使用される「比較可能な」という用語は、観察される差違または類似性に基づき、結論が合理的に導かれうるように、互いに対して同一ではありえないが、それらの間の比較を可能とするのに十分に類似する、2つまたは2つより多い化合物、実体、状況(situation)、条件のセットなどを指す。一部の実施形態では、条件、状況(circumstance)、個体、または集団の比較可能なセットは、複数の実質的に同一な特徴または少数の変動する特徴により、特徴を明らかにされる。当業者は、文脈において、所与の任意の状況(circumstance)において、2つまたは2つより多い、このような化合物、実体、状況(situation)、条件のセットなどについて、どの程度の識別を比較可能であると考えることが要求されるのかを理解するであろう。例えば、当業者は、異なる状況(circumstance)、個体、または集団のセットの下で、またはこれらにより得られる結果または観察される現象の差違が、変動する特徴の変動により引き起こされるか、またはこれらを示すという合理的な結論を保証するために、状況(circumstance)、個体、または集団のセットは、十分な数および種類の、実質的に同一な特徴により特徴を明らかにされる場合に互いと同等であることを理解するであろう。
本明細書で記載される多くの方法は、「決定する」工程を含む。本明細書を読む当業者は、このような「決定すること」が、例えば、本明細書で明示的に言及される特異的な技法を含む、当業者に利用可能な様々な技法のうちのいずれかを利用しうるか、またはその使用を介して達せられうることを理解するであろう。一部の実施形態では、決定することは、物理的試料の操作を伴う。一部の実施形態では、決定することは、データまたは情報の検討および/または操作、例えば、コンピュータ、または適切な分析を実施するのに適合させた他の処理ユニットの利用を伴う。一部の実施形態では、決定することは、供給源から、関連する情報および/または材料を受容することを伴う。一部の実施形態では、決定することは、試料または実体の、1つまたは1つより多い特徴を、比較可能な基準と比較することを伴う。
「幾何学表現」という用語は、分子表現の種類を指す。幾何学表現は、例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および/または原子、特徴、もしくは官能基を使用する3D分子座標に関する情報を含みうる。
本明細書で使用される「ライブラリー」という用語は、2つ、5つ、10、10、10、10、10、10、10、10、10またはこれらより多い異なる分子の群を指す。一部の実施形態では、ライブラリー内の化合物のうちの、少なくとも10%(例えば、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも99%、または100%)は、DNAコード化化合物など、それらの識別をコード化するヌクレオチドタグを含む化合物である。
本明細書で使用される「ネガティブコントロール」という用語は、結合相互作用を決定する実験であって、標的タンパク質が存在しない実験を指す。
「極性表面積」という用語は、それらの接合された水素を含め、分子または分子の部分の全ての極性原子にわたる表面の和を指す。極性表面積は、CHEMDRAW(登録商標)Pro、Version12.0.2.1092(Cambridgesoft、Cambridge、MA)などのプログラムを使用して、コンピュータにより決定される。
本明細書で使用される「ポジティブコントロール」という用語は、結合相互作用を決定する実験であって、標的タンパク質と接触させる化合物の結合アフィニティーが公知である実験を指す。
本明細書で使用される「特性知見」とは、計算されるか、または実験により決定される、特定の化合物の特性(例えば、clogP、極性表面積、分子量)を指す。
活性を有する化合物に言及して使用される場合の「選択的」という用語は、当業者により、化合物が、潜在的な標的実体または標的状態を区別することを意味すると理解される。例えば、一部の実施形態では、化合物は、1つまたは1つより多い、競合する、代替的な標的の存在下で、この標的に、優先的に結合する場合、その標的に、「選択的に」結合するという。多くの実施形態では、選択的相互作用は、標的実体の特定の構造的特徴(例えば、エピトープ、切断部、結合部位)の存在に依存する。選択性は、絶対的である必要はないことを理解されたい。一部の実施形態では、選択性を、1つまたは1つより多い他の潜在的な標的実体(例えば、競合体)に対する結合剤の選択性と比べて査定することができる。一部の実施形態では、選択性を、基準選択的結合剤と比べて査定する。一部の実施形態では、選択性を、基準選択的結合剤と比べて査定する。一部の実施形態では、薬剤または実体は、その標的実体への結合条件下で、競合する、代替的な標的に、検出可能な形で結合しない。一部の実施形態では、結合剤は、競合する、代替的な標的と比較して、その標的実体に、会合速度を増大させ、オフ速度を減少させ、アフィニティーを増大させ、解離を減少させ、かつ/または安定性を増大させて結合する。
本明細書で使用される「選択性スコア」とは、化合物の、標的タンパク質に対する特異性の計算を指す。一部の実施形態では、選択性スコアは、化合物の、標的タンパク質への結合と、化合物の、別のタンパク質(例えば、標的タンパク質の突然変異体または非類縁タンパク質)への結合との比較により計算することができる。他の実施形態では、選択性スコアは、化合物の、標的タンパク質への結合と、ネガティブコントロールとの比較により計算することができる。
「低分子」という用語は、低分子量の有機化合物および/または無機化合物を意味する。一般に、「低分子」とは、サイズが、約5キロダルトン(kD)未満である分子である。一部の実施形態では、低分子は、約4kD、3kD、約2kD、または約1kD未満である。一部の実施形態では、低分子は、約800ダルトン(D)、約600D、約500D、約400D、約300D、約200D、または約100D未満である。一部の実施形態では、低分子は、1モル当たり約2000g未満、1モル当たり約1500g未満、1モル当たり約1000g未満、1モル当たり約800g未満、または1モル当たり約500g未満である。一部の実施形態では、低分子は、ポリマーではない。一部の実施形態では、低分子は、ポリマー性部分を含まない。一部の実施形態では、低分子は、タンパク質またはポリペプチドではない(例えば、オリゴペプチドまたはペプチドではない)。一部の実施形態では、低分子は、ポリヌクレオチドではない(例えば、オリゴヌクレオチドではない)。一部の実施形態では、低分子は、多糖ではない。一部の実施形態では、低分子は、多糖を含まない(例えば、糖タンパク質、プロテオグリカン、糖脂質などではない)。一部の実施形態では、低分子は、脂質ではない。一部の実施形態では、低分子は、モジュレート化合物である。一部の実施形態では、低分子は、生物学的に活性である。一部の実施形態では、低分子は、検出可能である(例えば、少なくとも1つの検出可能部分を含む)。一部の実施形態では、低分子は、治療剤である。
本開示を読む当業者は、本明細書で記載される、ある特定の低分子化合物を、例えば、塩形態、保護形態、プロドラッグ形態、エステル形態、異性体形態(例えば、光学異性体および/または構造異性体)、同位体形態など、様々な形態のうちのいずれかにおいて、提供および/または利用しうることを理解するであろう。一部の実施形態では、特定の化合物への言及は、この化合物の特異的な形態に関しうる。一部の実施形態では、特定の化合物への言及は、任意の形態にある、この化合物に関しうる。一部の実施形態では、化合物が、天然で存在するか、または見出される化合物である場合、この化合物を、それが天然で存在するか、または見出される形態とは異なる形態で、本発明に従い、提供および/または利用することができる。当業者は、化合物の基準調製物または供給源(例えば、天然の供給源)と異なるレベル、量、または比の、1つまたは1つより多い個別の形態を含む化合物調製物は、本明細書で記載される化合物の、異なる形態であると考えうることを理解するであろう。したがって、一部の実施形態では、例えば、化合物の、単一の立体異性体の調製物は、化合物のラセミ混合物と異なる形態の化合物であると考えることができ;化合物の特定の塩は、化合物の別の塩形態と異なる形態であると考えることができ;二重結合の、1つのコンフォメーション異性体((Z)または(E))を含有する調製物は、二重結合の、他のコンフォメーション異性体((E)または(Z))を含有する調製物と異なる形態であると考えることができ;1つまたは1つより多い原子が、基準調製物中に存在する同位体と異なる同位体である調製物は、異なる形態であると考えることができるなどである。
本明細書で使用される、「特異的結合」または「〜に対して特異的」または「〜に特異的」という用語は、結合剤と標的実体との相互作用を指す。当業者により理解される通り、相互作用、例えば、Kを10μM未満(例えば、5μM未満、1μM未満、500nM未満、200nM未満、100nM未満、75nM未満、50nM未満、25nM未満、10nM未満もしくは10nM〜100nM、50nM〜250nM、100nM〜500nM、250nM〜1μM、500nM〜2μM、1μM〜5μM)とする結合は、それが優先される場合に、代替的な相互作用の存在下で、「特異的な」であると考えられる。多くの実施形態では、特異的相互作用は、標的実体の特定の構造的特徴(例えば、エピトープ、切断部、結合部位)の存在に依存する。特異性は、絶対的である必要はないことを理解されたい。一部の実施形態では、特異性を、1つまたは1つより多い他の潜在的な標的実体(例えば、競合体)に対する結合剤の特異性と比べて査定することができる。一部の実施形態では、特異性を、基準特異的結合剤と比べて査定する。一部の実施形態では、特異性を、基準非特異的結合剤と比べて査定する。
「構造的類似性」という用語は、1つまたは1つより多い異なる化合物における、原子または部分の、二次元的または三次元的な配置および/または配向性の、互いと比べた類似性(例えば、目的の薬剤と、基準薬剤との間における、原子または部分の間の距離および/または角度の類似性)を指す。
「実質的に」という用語は、全てまたはほぼ全ての範囲または程度にわたる、または目的の特徴または特性を呈する質的状態を指す。生物学的技術分野の当業者は、生物学的現象および化学的現象が、完全性に至り、かつ/もしくは完全性まで進行するか、または絶対的結果を達成するかもしくは回避することは、仮にそうであっても稀であることを理解するであろう。したがって、本明細書では、「実質的に」という用語を、多くの生物学的現象および化学的現象に固有である、潜在的な完全性の欠如を捉えるのに使用する。
本明細書で使用される、特定のタンパク質「に実質的に結合しない」という用語は、例えば、標的に対する、10−4Mまたはこれより多い、代替的に、10−5Mまたはこれより多い、代替的に、10−6Mまたはこれより多い、代替的に、10−7Mまたはこれより多い、代替的に、10−8Mまたはこれより多い、代替的に、10−9Mまたはこれより多い、代替的に、10−10Mまたはこれより多い、代替的に、10−11Mまたはこれをより多い、代替的に、10−12Mまたはこれより多いK、または10−4M〜10−12Mもしくは10−6M〜10−10Mもしくは10−7M〜10−9Mの範囲のKを有する分子、または分子の部分により呈示することができる。
「標的タンパク質」という用語は、低分子と結合するタンパク質を指す。一部の実施形態では、標的タンパク質は、疾患、障害、または状態と関連する生物学的経路に関与する。一部の実施形態では、標的タンパク質は、天然に存在するタンパク質であり;一部のこのような実施形態では、標的タンパク質は、ある特定の哺乳動物細胞(例えば、哺乳動物標的タンパク質)、真菌細胞(例えば、真菌標的タンパク質)、細菌細胞(例えば、細菌標的タンパク質)または植物細胞(例えば、植物標的タンパク質)において天然に見出される。一部の実施形態では、標的タンパク質は、1つまたは1つより多い天然のプレゼンタータンパク質/天然の低分子複合体との、天然の相互作用により特徴を明らかにされる。一部の実施形態では、標的タンパク質は、複数の異なる天然のプレゼンタータンパク質/天然の低分子複合体との、天然の相互作用により特徴を明らかにされ;一部のこのような実施形態では、複合体の一部または全部は、同じプレゼンタータンパク質(および異なる低分子)を利用する。標的タンパク質は、天然に存在するタンパク質、例えば、野生型タンパク質でありうる。代替的に、標的タンパク質は、例えば対立遺伝子変異体、スプライス突然変異体または生物学的に活性の断片であり、野生型タンパク質とは異なりうるが、なおも生物学的機能を保持する。例示的な哺乳動物の標的タンパク質は、GTPアーゼ、GTPアーゼ活性化タンパク質、グアニンヌクレオチド交換因子、熱ショックタンパク質、イオンチャネル、コイルドコイルタンパク質、キナーゼ、ホスファターゼ、ユビキチンリガーゼ、転写因子、クロマチン修飾剤/リモデラー、古典的なタンパク質間相互作用ドメインおよびタンパク質間相互作用モチーフを伴うタンパク質、または疾患、障害、もしくは状態と関連する生物学的経路に関与する、他の任意のタンパク質である。
「トポロジカル表現」という用語は、分子のトポロジーに依存し、個別の原子の位置と、それらの間の結合による接続とを指し示す、分子表現の種類を指す。トポロジカル表現は、原子、特徴、または官能基、およびそれらの接続性(例えば、フィンガープリント、接続表、分子接続性、および/または分子グラフ表現)に基づきうる。トポロジカル表現は、分子のグラフ表現に基づき計算することができる。
「量子化学表現」という用語は、分子表現の種類を指す。量子化学表現は、例えば、化合物のエネルギーまたは電子的特性に関する情報を含みうる。
ライブラリーの数を増大させる場合の、結合相互作用の予測を例示するグラフである。 予測モデルを改善したときの、時間経過にわたる、複数回にわたる予測の試行を例示するグラフである。
本開示は、治療剤として有用な化合物、および/または治療剤の開発における最適化のための出発点として有用な化合物を同定するためのバーチャルスクリーニング法を提供する。これらの方法は、候補化合物と、目的のタンパク質との結合相互作用についての、高信頼度の予測をもたらすように、DNAコード化ライブラリーを使用して導出された実験データの、大規模なデータセットを利用する。
コード化化合物
本発明は、化学的実体、1つまたは1つより多いタグ、ならびに第1の化学的実体、および1つまたは1つより多いタグと作動的に関連するヘッドピースを含む、コード化される化学的実体を利用する方法を特徴とする。下記では、化学的実体、ヘッドピース、タグ、連結、および二官能性スペーサーについてさらに記載する。
化学的実体
本発明の方法において利用されるコード化化合物(例えば、低分子)は、1つまたは1つより多いビルディングブロックを含むことが可能であり、任意選択で、1つまたは1つより多い足場を含む。
足場Sは、単一原子足場または分子足場でありうる。例示的な単一原子足場は、炭素原子、ホウ素原子、窒素原子、またはリン原子などを含む。例示的な多原子足場は、シクロアルキル基、シクロアルケニル基、ヘテロシクロアルキル基、ヘテロシクロアルケニル基、アリール基、またはヘテロアリール基を含む。ヘテロアリール足場についての特定の実施形態は、1,3,5−トリアジン、1,2,3−トリアジン、または1,2,4−トリアジンなどのトリアジン;ピリミジン;ピラジン;ピリダジン;フラン;ピロール;ピロリン;ピロリジン;オキサゾール;ピラゾール;イソオキサゾール;ピラン;ピリジン;インドール;インダゾール;またはプリンを含む。
足場Sを、任意の有用な方法により、タグに、作動的に連結することができる。一例では、Sは、ヘッドピースへと直接的に連結されたトリアジンである。この例示的足場を得るために、トリクロロトリアジン(すなわち、3つの塩素を有するトリアジンの塩素化前駆体)を、ヘッドピースの求核基と反応させる。この方法を使用する場合、Sは、置換に利用可能な塩素を有する3つの位置を有し、ここで、2つの位置は、利用可能な多様性ノードであり、1つの位置を、ヘッドピースへと接合させる。次に、ビルディングブロックAを、足場の多様性ノードへと付加し、ビルディングブロックAをコード化するタグA(「タグA」)を、ヘッドピースへとライゲーションするが、この場合、これらの2つの工程は、任意の順序で実施することができる。次いで、ビルディングブロックBを、残りの多様性ノードへと付加し、ビルディングブロックBをコード化するタグBを、タグAの末端へとライゲーションする。別の例では、Sは、タグに作動的に連結されたトリアジンであり、この場合、トリクロロトリアジンを、タグの、PEGリンカー、脂肪族リンカー、または芳香族リンカーの求核基(例えば、アミノ基)と反応させる。ビルディングブロックおよび関連するタグは、上記で記載した通りに付加することができる。
さらに別の例では、Sは、ビルディングブロックAに作動的に連結されたトリアジンである。この足場を得るために、2つの多様性ノード(例えば、Fmoc−アミノ酸などの求電子基および求核基)を有するビルディングブロックAを、リンカーの求核基(例えば、ヘッドピースへと接合させる、PEGリンカー、脂肪族リンカー、または芳香族リンカーの末端基)と反応させる。次いで、トリクロロトリアジンを、ビルディングブロックAの求核基と反応させる。この方法を使用すると、Sの3つの塩素位置の全ては、ビルディングブロックのための多様性ノードとして使用される。本明細書で記載される通り、さらなるビルディングブロックおよびタグを付加することができ、さらなる足場Sを付加することができる。
例示的なビルディングブロックであるAは、例えば、アミノ酸(例えば、アルファ−アミノ酸、ベータ−アミノ酸、ガンマ−アミノ酸、デルタ−アミノ酸、およびエプシロン−アミノ酸のほか、天然および非天然のアミノ酸の誘導体)、アミンと化学反応性の反応物(例えば、アジドまたはアルキン鎖)もしくはチオール反応物、またはこれらの組合せを含む。ビルディングブロックAの選択は、例えば、リンカー内で使用される反応基の性質、足場部分の性質、および化学合成に使用される溶媒に依存する。
例示的なビルディングブロックであるBおよびCは、置換されていてもよい芳香族基(例えば、置換されていてもよい、フェニルまたはベンジル)、置換されていてもよいヘテロシクリル基(例えば、置換されていてもよい、キノリニル、イソキノリニル、インドリル、イソインドリル、アザインドリル、ベンズイミダゾリル、アザベンズイミダゾリル、ベンズイソオキサゾリル、ピリジニル、ピペリジル、またはピロリジニル)、置換されていてもよいアルキル基(例えば、置換されていてもよい、直鎖状もしくは分枝状の、C1〜6のアルキル基、または置換されていてもよい、C1〜6のアミノアルキル基)、または置換されていてもよいカルボシクリル基(例えば、置換されていてもよいシクロプロピル、シクロヘキシル、またはシクロヘキセニル)など、化学的実体の、任意の有用な構造的単位を含む。特に有用なビルディングブロックであるBおよびCは、反応基であるか、または反応基を形成するように化学修飾されうる、1つまたは任意選択の置換基を有する、置換されていてもよい基(例えば、本明細書で記載される任意の基)など、1つまたは1つより多い反応基を伴うビルディングブロックを含む。例示的な反応基は、アミン(−NR[式中、各Rは、独立して、Hまたは置換されていてもよいC1〜6のアルキルである])、ヒドロキシ、アルコキシ(−OR[式中、Rは、メトキシなど、置換されていてもよい、C1〜6のアルキルである])、カルボキシ(−COOH)、アミド、または化学的に反応性の置換基のうちの1つまたは1つより多いものを含む。制限部位を、例えば、タグである、BまたはCに導入することができ、この場合、PCRおよび対応する制限酵素のうちの1つによる制限消化を実施することにより、複合体を同定することができる。
ヘッドピース
コード化される化学的実体内では、ヘッドピースは、各化学的実体を、そのコード化オリゴヌクレオチドタグに、作動的に連結する。一般に、ヘッドピースは、さらに誘導体化されうる、少なくとも2つの官能基を有する、出発オリゴヌクレオチドであり、第1の官能基は、第1の化学的実体(またはその構成要素)を、ヘッドピースに作動的に連結し、第2の官能基は、1つまたは1つより多いタグを、ヘッドピースに作動的に連結する。二官能性のスペーサーを、任意選択で、ヘッドピースと、化学的実体との間のスペーシング部分として使用することができる。
ヘッドピースの官能基を使用して、化学的実体の構成要素との共有結合、およびタグとの別の共有結合を形成することができる。構成要素は、多様性ノードまたはビルディングブロックを有する足場など、低分子の任意の部分でありうる。代替的に、ヘッドピースを誘導体化して、官能基(例えば、ヒドロキシル基、アミン基、カルボキシル基、スルフヒドリル基、アルキニル基、アジド基、またはリン酸基)で終結するスペーサー(例えば、ヘッドピースを、ライブラリー内で形成される低分子から隔てるスペーシング部分)をもたらし、これを使用して、化学的実体の構成要素との、共有結合的連結を形成する。スペーサーを、ヘッドピースの、5’末端へと接合させることもでき、内部位置のうちの1つにおいて接合させることもでき、3’末端へと接合させることもできる。スペーサーを、内部位置のうちの1つへと接合させる場合、当該技術分野で公知の、標準的技法を使用して、スペーサーを、誘導体化された塩基(例えば、ウリジンのC5位)に、作動的に連結することもでき、オリゴヌクレオチド内の内部に配置することもできる。本明細書では、例示的スペーサーについて記載する。
ヘッドピースは、任意の有用な構造を有しうる。ヘッドピースは、例えば、1〜100ヌクレオチドの長さ、好ましくは、5〜20ヌクレオチドの長さであることが可能であり、最も好ましくは、5〜15ヌクレオチドの長さでありうる。ヘッドピースは、一本鎖の場合もあり、二本鎖の場合もあり、本明細書で記載される、天然ヌクレオチドまたは修飾ヌクレオチドからなりうる。例えば、化学的部分を、ヘッドピースの3’末端または5’末端に、作動的に連結することができる。特定の実施形態では、ヘッドピースは、配列内の相補性塩基により形成されるヘアピン構造を含む。例えば、化学的部分を、ヘッドピースの内部位置、3’末端、または5’末端に、作動的に連結することができる。
一般に、ヘッドピースは、重合化、酵素的ライゲーション、または化学的反応により、オリゴヌクレオチドタグを結合することを可能とする、5’末端または3’末端における、非自己相補性配列を含む。ヘッドピースは、オリゴヌクレオチドタグのライゲーション、ならびに任意選択の精製工程およびリン酸化工程を可能としうる。最後のタグの付加の後で、さらなるアダプター配列を、最後のタグの5’末端へと付加することができる。例示的アダプター配列は、プライマー結合配列または標識(例えば、ビオチン)を有する配列を含む。多くの(例えば、100の)ビルディングブロックと、対応するタグとを使用する場合、混合分割戦略を用いて、オリゴヌクレオチド合成工程中に、必要な数のタグを創出する。当該技術分野では、DNA合成のための、このような混合分割戦略が公知である。結果として得られるライブラリーメンバーを、目的の標的と対比した結合実体についての選択の後におけるPCRにより増幅することができる。
ヘッドピースまたは複合体は、任意選択で、1つまたは1つより多いプライマー結合配列を含みうる。例えば、ヘッドピースは、増幅のためのプライマー結合領域として用いられる、ヘアピンのループ領域内の配列を有し、この場合、プライマー結合領域は、ヘッドピース内の配列に対する溶融温度より、その相補性プライマー(例えば、これは、フランキングの識別子領域を含みうる)に対する溶融温度が高い。他の実施形態では、複合体は、1つまたは1つより多いビルディングブロックをコード化する、1つまたは1つより多いタグの両側に、2つのプライマー結合配列(例えば、PCR反応を可能とする)を含む。代替的に、ヘッドピースは、5’末端または3’末端において、1つのプライマー結合配列を含有しうる。他の実施形態では、ヘッドピースは、ヘアピンであり、ループ領域は、プライマー結合部位を形成するか、またはプライマー結合部位を、オリゴヌクレオチドの、ループの3’側におけるヘッドピースへのハイブリダイゼーションを介して導入する。ヘッドピースの3’末端と相同な領域を含有するプライマーオリゴヌクレオチド、およびその5’末端上のプライマー結合領域(例えば、PCR反応を可能とする)を保有するプライマーオリゴヌクレオチドは、ヘッドピースとハイブリダイズすることが可能であり、ビルディングブロックをコード化するタグ、またはビルディングブロックの付加を含有しうる。プライマーオリゴヌクレオチドは、例えば、2〜16ヌクレオチドの長さの、ランダム化ヌクレオチドの領域などの、さらなる情報であって、バイオインフォマティクス分析のために含まれる情報を含有しうる。
ヘッドピースは、任意選択で、ヘアピン構造を含むことが可能であり、この場合、この構造は、任意の有用な方法により達成することができる。例えば、ヘッドピースは、ワトソン−クリックによるDNA塩基ペアリング(例えば、アデニン−チミンおよびグアニン−シトシン)、および/またはゆらぎ塩基ペアリング(例えば、グアニン−ウラシル、イノシン−ウラシル、イノシン−アデニン、およびイノシン−シトシン)などにより、分子間塩基ペアリングパートナーを形成する相補性塩基を含みうる。別の例では、ヘッドピースは、非修飾ヌクレオチドと比較して、高アフィニティーの二重鎖を形成しうる、修飾ヌクレオチドまたは置換ヌクレオチドを含むことが可能であり、当該技術分野では、このような修飾ヌクレオチドまたは置換ヌクレオチドが公知である。さらに別の例では、ヘッドピースは、ヘアピン構造を形成するように、1つまたは1つより多い架橋塩基を含む。例えば、例えば、ソラレンを使用することにより、一本鎖内の塩基、または異なる二本鎖内の塩基を架橋することができる。
ヘッドピースまたは複合体は、任意選択で、検出を可能とする、1つまたは1つより多い標識を含みうる。例えば、ヘッドピース、1つもしくは1つより多いオリゴヌクレオチドタグ、および/または1つもしくは1つより多いプライマー配列は、同位体、放射性イメージング剤、マーカー、トレーサー、蛍光標識(例えば、ローダミンまたはフルオレセイン)、化学発光標識、量子ドット、およびレポーター分子(例えば、ビオチンまたはhisタグ)を含みうる。
他の実施形態では、ヘッドピースまたはタグを修飾して、半還元条件下、還元条件下、または非水性(例えば、有機)条件下における溶解度を促進することができる。ヘッドピースまたはタグのヌクレオチド塩基は、例えば、T塩基またはC塩基のC5位を、脂肪族鎖で修飾することにより、それらの相補性塩基に水素結合するそれらの能力を、それほど破壊せずに、より疎水性とすることができる。例示的な修飾ヌクレオチドまたは置換ヌクレオチドは、5’−ジメトキシトリチル−N4−ジイソブチルアミノメチリデン−5−(1−プロピニル)−2’−デオキシシチジン、3’−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;5’−ジメトキシトリチル−5−(1−プロピニル)−2’−デオキシウリジン、3’−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;5’−ジメトキシトリチル−5−フルオロ−2’−デオキシウリジン、3’−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;および5’−ジメトキシトリチル−5−(ピレン−1−イル−エチニル)−2’−デオキシウリジン、または3’−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイトである。
加えて、ヘッドピースオリゴヌクレオチドに、有機溶媒中の溶解度を促進する修飾を散在させることができる。例えば、アゾベンゼンホスホラミダイトは、疎水性部分を、ヘッドピース設計へと導入しうる。疎水性アミダイトの、ヘッドピースへの、このような挿入は、分子内の任意の場所で生じうる。しかし、挿入は、ライブラリー合成時における、さらなるDNAタグを使用する、後続のタグづけ、または、選択が完了したら、これに後続するPCR、またはタグのデコンボリューションのために使用される場合のマイクロアレイ解析に干渉しえない。本明細書で記載されるヘッドピース設計への、このような付加であれば、ヘッドピースを、例えば、15%、25%、30%、50%、75%、90%、95%、98%、99%、または100%の有機溶媒中で可溶型とするであろう。したがって、疎水性残基の、ヘッドピース設計への付加は、半水性または非水性の(例えば、有機)条件下における溶解度の改善を可能としながら、ヘッドピースを、オリゴヌクレオチドのタグづけにコンピテントとする。さらに、その後、ライブラリーへと導入されるDNAタグはまた、それらがまた、後続のライブラリー合成工程のために、ライブラリーを、より疎水性とし、かつ、有機溶媒中で可溶型ともするように、T塩基またはC塩基のC5位においても修飾することができる。
特定の実施形態では、ヘッドピースと、第1のタグとは、同じ実体でありうる、すなわち、全てが、共通部分(例えば、プライマー結合領域)を共有し、全てが、別の部分(例えば、コード化領域)では異なる、複数のヘッドピース−タグ実体を構築することができる。これらは、「分割」工程において利用することができ、コード化イベントがなされた後で、プールすることができる。
特定の実施形態では、ヘッドピースは、例えば、特異的なライブラリーに関連する特定の配列を使用することなどを介して、第1の分割工程をコード化する配列、またはライブラリーの識別をコード化する配列を含むことにより、情報をコード化しうる。
オリゴヌクレオチドタグ
本明細書で記載されるオリゴヌクレオチドタグ(例えば、タグまたはヘッドピースの部分またはテールピースの部分)を使用して、分子、化学的実体の部分、構成要素(例えば、足場またはビルディングブロック)の付加、ライブラリー内のヘッドピース、ライブラリーの識別、1つまたは1つより多いライブラリーメンバーの使用(例えば、ライブラリーのアリコート内のメンバーの使用)、および/またはライブラリーメンバーの由来(例えば、由来配列の使用による)など、任意の有用な情報をコード化することができる。
オリゴヌクレオチド内の任意の配列を使用して、任意の情報をコード化することができる。したがって、1つのオリゴヌクレオチド配列は、2種類もしくは2種類より多い情報をコード化すること、または1種類もしくは1種類より多い情報もまたコード化する出発オリゴヌクレオチドをもたらすことなど、1つより多い目的に資することが可能である。例えば、第1のタグは、第1のビルディングブロックの付加のほか、ライブラリーの同定をコード化しうる。別の例では、ヘッドピースを使用して、化学的実体を、タグに、作動的に連結する、出発オリゴヌクレオチドをもたらすことができ、この場合、ヘッドピースは、加えて、ライブラリーの識別をコード化する配列(すなわち、ライブラリー同定配列)を含む。したがって、本明細書で記載される情報のうちのいずれかを、別個のオリゴヌクレオチドタグ内でコード化することもでき、同じオリゴヌクレオチド配列(例えば、タグまたはヘッドピースなどのオリゴヌクレオチドタグ)内に組み合わせ、コード化することもできる。
ビルディングブロック配列は、ビルディングブロックの識別および/またはビルディングブロックによりなされる結合反応の種類をコード化する。このビルディングブロック配列は、タグ内に含まれ、この場合、タグは、任意選択で、下記で記載される、1種類または1種類より多い配列(例えば、ライブラリー同定配列、使用配列、および/または由来配列)を含みうる。
ライブラリー同定配列は、特定のライブラリーの識別をコード化する。2つまたは2つより多いライブラリーの混合を可能とするために、ライブラリーメンバーは、ライブラリー同定タグ(すなわち、オリゴヌクレオチドを含むことライブラリー同定配列)、ライゲーションされたタグ、ヘッドピース配列の部分、またはテールピース配列などの中に、1つまたは1つより多いライブラリー同定配列を含有しうる。これらのライブラリー同定配列を使用して、コード化関係を推定することができ、この場合、タグの配列は、翻訳すると、化学的(合成)履歴情報と相関する。したがって、これらのライブラリー同定配列は、選択、増幅、精製、シーケンシングなどのために、2つまたは2つより多いライブラリーを、一体に混合することを可能とする。
使用配列は、ライブラリーの個別のアリコート内の、1つまたは1つより多いライブラリーメンバーの履歴(すなわち、使用)をコード化する。例えば、個別のアリコートを、異なる反応条件、ビルディングブロック、および/または選択工程により処理することができる。特に、この配列を使用して、このようなアリコートを同定し、それらの履歴(使用)を推定し、これにより、選択、増幅、精製、シーケンシングなどのために、試料を、一体に混合することを目的として、異なる複数の履歴(複数の使用)(例えば、異なる選択実験)を伴う、同じライブラリーのアリコートを、一体に混合することを可能とすることができる。これらの使用配列を、ヘッドピース、テールピース、タグ、使用タグ(すなわち、使用配列を含むオリゴヌクレオチド)、または本明細書で記載される、他の任意のタグ(例えば、ライブラリー同定タグまたは由来タグ)内に組み入れることができる。
由来配列とは、ライブラリーメンバーの由来をコード化する、任意の有用な長さ(例えば、約6ヌクレオチド)の、縮重(ランダムに、確率的に生成された)オリゴヌクレオチド配列である。この配列は、固有の前駆鋳型(例えば、選択されたライブラリーメンバー)に由来する、増幅産物の観察を、同じ前駆鋳型(例えば、選択されたライブラリーメンバー)に由来する、複数の増幅産物の観察から識別しうるように、他の全ての点で同一なライブラリーメンバーを、配列情報により識別可能な実体へと、確率的に細分化するのに用いられる。例えば、ライブラリー形成の後で、かつ、選択工程の前に、各ライブラリーメンバーは、由来タグ内などに、異なる由来配列を含みうる。選択の後、選択されたライブラリーメンバーを、増幅して、増幅産物を作製することができ、由来配列(例えば、由来タグ内に)を含むことが期待されるライブラリーメンバーの部分を観察し、他のライブラリーメンバーの各々の中の由来配列と比較することができる。由来配列は、縮重であるので、各ライブラリーメンバーの、各増幅産物は、異なる由来配列を有するはずである。しかし、増幅産物中に、同じ由来配列を観察できれば、同じ鋳型分子に由来する複数のアンプリコンを指し示しうるであろう。増幅前における、コード化タグの集団の統計学および人口学を、増幅後と対比して決定することが所望される場合、由来タグを使用することができる。これらの由来配列を、ヘッドピース内、テールピース内、タグ内、由来タグ(すなわち、由来配列を含むオリゴヌクレオチド)内、または本明細書で記載される、他の任意のタグ(例えば、ライブラリー同定タグまたは使用タグ)内に組み入れることができる。
本明細書で記載される、種類の配列のうちのいずれかを、ヘッドピース内に組み入れることができる。例えば、ヘッドピースは、ビルディングブロック配列、ライブラリー同定配列、使用配列、または由来配列のうちの1つまたは1つより多い配列を含みうる。
本明細書で記載される、これらの配列のうちのいずれかを、テールピース内に組み入れることができる。例えば、テールピースは、ライブラリー同定配列、使用配列、または由来配列のうちの1つまたは1つより多い配列を含みうる。
本明細書で記載されるタグのうちのいずれかは、固定配列を有する5’末端または3’末端において、またはこの近傍にコネクターを含みうる。コネクターは、反応基(例えば、化学反応基または光反応基)をもたらすことにより、または連結を可能とする薬剤(例えば、コネクター内または架橋オリゴヌクレオチド内の、挿入部分または可逆性反応基による薬剤)のための部位をもたらすことにより、連結(例えば、化学結合)の形成を容易とする。各5’コネクターは、同じ場合もあり、異なる場合もあり、各3’コネクターは、同じ場合もあり、異なる場合もある。1つより多いタグを有する、例示的で非限定的な複合体では、各タグは、5’コネクターおよび3’コネクターを含むことが可能であり、この場合、各5’コネクターは、同じ配列を有し、各3’コネクターは、同じ配列を有する(例えば、この場合、5’コネクターの配列は、3’コネクターの配列と、同じ場合もあり、異なる場合もある)。コネクターは、1つまたは1つより多い連結のために使用されうる配列をもたらす。リレープライマーの結合を可能とするか、または架橋オリゴヌクレオチドをハイブリダイズさせるために、コネクターは、連結(例えば、ポリメラーゼの、それを通して、読み取る能力または移動する能力が低減される連結であって、化学結合などの連結)を可能とする、1つまたは1つより多い官能基を含みうる。
これらの配列は、オリゴヌクレオチドのための、本明細書で記載される、任意の修飾であって、有機溶媒(例えば、ヘッドピースのための有機溶媒など、任意の、本明細書で記載される有機溶媒)中の溶解度を促進するか、天然のホスホジエステル連結のアナログ(例えば、ホスホロチオエートアナログ)をもたらすか、または1つもしくは1つより多い、非天然のオリゴヌクレオチド(例えば、2’−O−メチル化ヌクレオチドおよび2’−フルオロヌクレオチド、または任意の、本明細書で記載されるヌクレオチドなどの2’−置換ヌクレオチド)をもたらす、1つまたは1つより多い修飾などの修飾を含みうる。
これらの配列は、オリゴヌクレオチドについての、本明細書で記載される任意の特性を含みうる。例えば、これらの配列を、20ヌクレオチド未満のタグ(例えば、本明細書で記載される)内に組み入れることができる。他の例では、これらの配列のうちの1つまたは1つより多い配列を含むタグは、ほぼ同じヌクレオチド量を有する(例えば、各タグは、特異的な変数をコード化するタグの特異的なセット内の平均ヌクレオチド量から、約±10%のヌクレオチド量を有する)か;プライマー結合(例えば、定常)領域を欠くか;定常領域を欠くか;または定数領域の長さが低減されている(例えば、30ヌクレオチド未満、25ヌクレオチド未満、20ヌクレオチド未満、19ヌクレオチド未満、18ヌクレオチド未満、17ヌクレオチド未満、16ヌクレオチド未満、15ヌクレオチド未満、14ヌクレオチド未満、13ヌクレオチド未満、12ヌクレオチド未満、11ヌクレオチド未満、10ヌクレオチド未満、9ヌクレオチド未満、8ヌクレオチド未満、または7ヌクレオチド未満の長さである)。
この長さのライブラリーおよびオリゴヌクレオチドのためのシーケンシング戦略は、任意選択で、それぞれ、リードの忠実度またはシーケンシングの深度を増大させるように、濃縮戦略またはカテネーション戦略を含みうる。特に、プライマー結合領域を欠く、コード化されたライブラリーの選択については、本明細書に参照により援用される、Jaroschら、Nucleic Acids Res.、34:e86(2006)において記載されているものなど、SELEXについての文献において記載されている。例えば、ライブラリーメンバーは、複合体の5’末端上の、第1のアダプター配列と、複合体の3’末端上の、第2のアダプター配列とを含むように、修飾する(例えば、選択工程の後で)ことができ、この場合、第1の配列は、第2の配列と、実質的に相補性であり、二重鎖の形成を結果としてもたらす。収率をさらに改善するために、2つの固定された懸垂ヌクレオチド(例えば、CC)を、5’末端へと付加する。
連結
本発明の連結は、情報をコード化するオリゴヌクレオチドの間(例えば、ヘッドピースとタグとの間、2つのタグの間、またはタグとテールピースとの間など)に存在する。例示的連結は、ホスホジエステル、ホスホネート、およびホスホロチオエートを含む。一部の実施形態では、ポリメラーゼは、1つまたは1つより多い連結を通して、読み取る能力または移動する能力が低減される。ある特定の実施形態では、化学結合は、一リン酸基および/またはヒドロキシル基、光反応基、挿入部分、架橋オリゴヌクレオチド、または可逆性の共反応基などの化学反応基のうちの1つまたは1つより多いものを含む。
連結を調べて、ポリメラーゼは、この連結を通して、読み取る能力または移動する能力が低減されているのかどうかを決定することができる。この能力は、液体クロマトグラフィー−質量分析、RT−PCR分析、配列人口学、および/またはPCR分析など、任意の有用な方法により調べることができる。
一部の実施形態では、化学的ライゲーションは、一リン酸連結およびヒドロキシル連結などの連結をもたらすように、1つまたは1つより多い化学反応対の使用を含む。本明細書で記載される通り、読取り可能な連結は、化学的ライゲーションにより、例えば、シアノイミダゾールおよび二価金属供給源(例えば、ZnCl)の存在下における、5’末端または3’末端における、一リン酸基、モノホスホチオエート基、またはモノホスファネート基の、5’末端または3’末端におけるヒドロキシル基との反応により合成することができる。
他の例示的な化学反応対は、ヒュスゲン1,3−双極子付加環化反応を介して、トリアゾールを形成する、置換されていてもよいアルキニル基、および置換されていてもよいアジド基;ディールス−アルダー反応を介して、シクロアルケニルを形成する、4π電子系(例えば、置換されていてもよい1,3−ブタジエン、1−メトキシ−3−トリメチルシリルオキシ−1,3−ブタジエン、シクロペンタジエン、シクロヘキサジエン、またはフランなど、置換されていてもよい1,3−不飽和化合物)を有する、置換されていてもよいジエン、および2π電子系(例えば、置換されていてもよいアルケニル基または置換されていてもよいアルキニル基)を有する置換されていてもよい求ジエン種、もしくは置換されていてもよいヘテロ求ジエン種;歪みヘテロシクリルによる求電子種(例えば、置換されていてもよいエポキシド、アジリジン、アジリジニウムイオン、またはエピスルホニウムイオン)と共に、開環反応を介して、ヘテロアルキルを形成する求核種(例えば、置換されていてもよいアミンまたは置換されていてもよいチオール);5’−ヨードdTを含有するオリゴヌクレオチドの、3’−ホスホロチオエートオリゴヌクレオチドとのスプリントライゲーションなど、ヨード基を伴うホスホロチオエート基;任意選択で、市販の3’−グリセリル修飾オリゴヌクレオチドを酸化することにより得られうる、3’−アルデヒド修飾オリゴヌクレオチドの、5’−アミノオリゴヌクレオチド(すなわち、還元的アミノ化反応における)もしくは5’−ヒドラジドオリゴヌクレオチドとの反応など、アルデヒド基もしくはケトン基を伴う、置換されていてもよいアミノ基;置換されていてもよいアミノ基と、カルボン酸基もしくはチオール基との対(例えば、スクシンイミジルtrans−4−(マレイミジルメチル)シクロヘキサン−1−カルボキシレート(SMCC)または1−エチル−3−(3−ジメチルアミノプロピル)カルボジイミド(EDAC)の使用を伴うか、または伴わない;置換されていてもよいヒドラジン基と、アルデヒド基もしくはケトン基との対;置換されていてもよいヒドロキシルアミン基と、アルデヒド基もしくはケトン基との対;または求核種と、置換されていてもよいアルキルハロゲン化物との対を含む対である。
白金錯体、アルキル化剤、またはフラン修飾ヌクレオチドもまた、鎖間連結または鎖内連結を形成するための化学反応基として使用することができる。このような薬剤は、2つのオリゴヌクレオチドの間で使用することができ、任意選択で、架橋オリゴヌクレオチド内に存在しうる。
例示的で非限定的な白金錯体は、シスプラチン(例えば、GG鎖内連結を形成するための、cis−ジアンミンジクロロ白金(II))、トランスプラチン(例えば、GXG鎖間連結[配列中、Xは、任意のヌクレオチドでありうる]を形成するための、trans−ジアンミンジクロロ白金(II))、例えば、GC、CG、AG、またはGG連結を形成するための、カルボプラチン、ピコラチン(ZD0473)、オルマプラチン、またはオキサリプラチンを含む。これらの連結のうちのいずれも、鎖間連結または鎖内連結でありうる。
例示的で非限定的なアルキル化剤は、ナイトロジェンマスタード(例えば、GG連結を形成するための、メクロレタミン)、クロラムブシル、メルファラン、シクロホスファミド、シクロホスファミドのプロドラッグ形態(例えば、4−ヒドロペルオキシシクロホスファミドおよびイホスファミド))、1,3−ビス(2−クロロエチル)−1−ニトロソウレア(BCNU、カルムスチン)、アジリジン(例えば、GG連結またはAG連結を形成するための、マイトマイシンC、トリエチレンメラミン、またはトリエチレンチオホスホルアミド(チオテパ))、ヘキサメチルメラミン、アルキルスルホネート(例えば、GG連結を形成するための、ブスルファン)、またはニトロソウレア(例えば、カルムスチン(BCNU)、クロロゾトシン、ロムスチン(CCNU)、およびセムスチン(メチル−CCNU)など、GG連結またはCG連結を形成するための、2−クロロエチルニトロソウレア)を含む。これらの連結のうちのいずれも、鎖間連結または鎖内連結でありうる。
フラン修飾ヌクレオチドもまた、連結を形成するのに使用することができる。in situにおいて酸化すると(例えば、N−ブロモコハク酸イミド(NBS)により)、フラン部分は、相補性塩基と反応して、鎖間連結を形成する、反応性のオキソエナール誘導体を形成する。一部の実施形態では、フラン修飾ヌクレオチドは、相補性のAヌクレオチドまたはCヌクレオチドとの連結を形成する。例示的で非限定的なフラン修飾ヌクレオチドは、任意の2’−(フラン−2−イル)プロパノイルアミノ修飾ヌクレオチド;または2−(フラン−2−イル)エチルグリコール核酸の、非環式の修飾ヌクレオチドを含む。
光反応基もまた、反応基として使用することができる。例示的で非限定的な光反応基は、挿入部分、ソラレン誘導体(例えば、ソラレン、HMT−ソラレン、または8−メトキシソラレン)、置換されていてもよいシアノビニルカルバゾール基、置換されていてもよいビニルカルバゾール基、置換されていてもよいシアノビニル基、置換されていてもよいアクリルアミド基、置換されていてもよいジアジリン基、置換されていてもよいベンゾフェノン(例えば、4−ベンゾイル安息香酸またはイソシアン酸ベンゾフェノンのスクシンイミジルエステル)、置換されていてもよい5−(カルボキシ)ビニルウリジン基(例えば、5−(カルボキシ)ビニル−2’−デオキシウリジン)、または置換されていてもよいアジド基(例えば、アリールアジド、または4−アジド−2,3,5,6−テトラフルオロ安息香酸(ATFB)のスクシンイミジルエステルなどのハロゲン化アリールアジド)を含む。
挿入部分もまた、反応基として使用することができる。例示的で非限定的な挿入部分は、ソラレン誘導体、アルカロイド誘導体(例えば、ベルベリン、パルマチン、コラリン、サンギナリン(例えば、そのイミニウム形態またはアルカノールアミン形態)、またはアリストロラクタム−β−D−グルコシド)、エチジウムカチオン(例えば、エチジウムブロマイド)、アクリジン誘導体(例えば、プロフラビン、アクリフラビン、またはアムサクリン)、アントラサイクリン誘導体(例えば、ドキソルビシン、エピルビシン、ダウノルビシン(ダウノマイシン)、イダルビシン、およびアクラルビシン)、またはサリドマイドを含む。
架橋オリゴヌクレオチドのために、任意の有用な反応基(例えば、本明細書で記載される)を使用して、鎖間連結または鎖内連結を形成することができる。例示的な反応基は、化学反応基、光反応基、挿入部分、および可逆性の共反応基を含む。架橋オリゴヌクレオチドを伴う使用のための架橋結合剤は、限定せずに述べると、アルキル化剤(例えば、本明細書で記載される)、シスプラチン(cis−ジアンミンジクロロ白金(II))、trans−ジアンミンジクロロ白金(II)、ソラレン、HMT−ソラレン、8−メトキシソラレン、フラン修飾ヌクレオチド、2−フルオロデオキシイノシン(2−F−dI)、5−ブロモデオキシシトシン(5−Br−dC)、5−ブロモデオキシウリジン(5−Br−dU)、5−ヨードデオキシシトシン(5−I−dC)、5−ヨードデオキシウリジン(5−I−dU)、スクシンイミジルtrans−4−(マレイミジルメチル)シクロヘキサン−1−カルボキシレート、SMCC、EDAC、またはスクシンイミジルアセチルチオアセテート(SATA)を含む。
オリゴヌクレオチドはまた、マレイミド、ハロゲン、およびヨードアセトアミドなど、様々なチオール反応基と反応させうる、チオール部分を含有するようにも修飾することができ、これにより、2つのオリゴヌクレオチドを架橋するために使用することができる。チオール基は、オリゴヌクレオチドの5’末端または3’末端へと連結することができる。
ピリミジン(例えば、チミジン)位における、二重鎖オリゴヌクレオチドの間の鎖間架橋のためには、挿入、光反応性部分であるソラレンを選択することができる。ソラレンは、二重鎖へと挿入され、紫外光(約254nm)で照射すると、優先的に、5’−TpA部位において、ピリミジンとの共有結合的鎖間架橋を形成する。ソラレン部分は、修飾オリゴヌクレオチドへと、共有結合的に接合させることができる(例えば、C1〜10のアルキルなどのアルカン鎖、または−(CHCHO)CHCH−[式中、nは、1〜50の整数である]などのポリエチレングリコール基により)。例示的ソラレン誘導体もまた、使用することができ、この場合、非限定的な誘導体は、4’−(ヒドロキシエトキシメチル)−4,5’,8−トリメチルソラレン(HMT−ソラレン)、および8−メトキシソラレンを含む。
架橋オリゴヌクレオチドの多様な部分を修飾して、連結を導入することができる。例えば、オリゴヌクレオチド内末端のホスホロチオエートもまた、2つの隣接するオリゴヌクレオチドを連結するために使用することができる。ハロゲン化ウラシル/シトシンもまた、オリゴヌクレオチド内の架橋剤修飾として使用することができる。例えば、2−フルオロ−デオキシイノシン(2−F−dI)修飾オリゴヌクレオチドを、ジスルフィド含有ジアミンまたはチオプロピルアミンと反応させて、ジスルフィド連結を形成することができる。
下記で記載される、可逆性の共反応基は、シアノビニルカルバゾール基、シアノビニル基、アクリルアミド基、チオール基、またはスルホニルエチルチオエーテルから選択される共反応基を含む。置換されていてもよいシアノビニルカルバゾール(CNV)基もまた、相補性鎖内のピリミジン塩基(例えば、シトシン、チミン、およびウラシルのほか、その修飾塩基)を架橋するのに、オリゴヌクレオチド内で使用することができる。CNV基は、鎖間架橋を結果としてもたらす、366nmにおける照射時に、隣接するピリミジン塩基との[2+2]環化付加を促進する。312nmにおける照射は、架橋を戻すので、オリゴヌクレオチド鎖の可逆性架橋のための方法をもたらす。非限定的なCNV基は、カルボキシビニルカルバゾールヌクレオチドとして(例えば、3−カルボキシビニルカルバゾール−1’−β−デオキシリボシド−5’−三リン酸として)含まれうる、3−シアノビニルカルバゾールである。
CNV基を修飾して、反応性のシアノ基を、別の反応基で置きかえて、置換されていてもよいビニルカルバゾール基をもたらすことができる。ビニルカルバゾール基のための、例示的で非限定的な反応基は、−CONRN1N2[式中、各RN1およびRN2は、同じ場合もあり、異なる場合もあり、独立して、HおよびC1〜6のアルキル、例えば、−CONHである]のアミド基;−COHのカルボキシル基;またはC2〜7のアルコキシカルボニル基(例えば、メトキシカルボニル)を含む。さらに、反応基は、ビニル基のアルファ炭素またはベータ炭素上にも配置しうる。例示的なビニルカルバゾール基は、本明細書で記載されるシアノビニルカルバゾール基;アミドビニルカルバゾール基(例えば、3−アミドビニルカルバゾール−1’−β−デオキシリボシド−5’−三リン酸などのアミドビニルカルバゾールヌクレオチド);カルボキシビニルカルバゾール基(例えば、3−カルボキシビニルカルバゾール−1’−β−デオキシリボシド−5’−三リン酸などのカルボキシビニルカルバゾールヌクレオチド);およびC2〜7のアルコキシカルボニルビニルカルバゾール基(例えば、3−メトキシカルボニルビニルカルバゾール−1’−β−デオキシリボシド−5’−三リン酸などのアルコキシカルボニルビニルカルバゾールヌクレオチド)を含む。さらなる置換されていてもよいビニルカルバゾール基、およびこのような基を有するヌクレオチドについては、それらの両方の全内容が本明細書に参照により援用される、米国特許第7,972,792号;ならびにYoshimuraおよびFujimoto、Org.Lett.、10:3227〜3230(2008)の化学式に提供されている。
他の可逆性反応基は、ジスルフィドを形成するために、チオール基と、別のチオール基とを含むほか、スルホニルエチルチオエーテルを形成するために、チオール基と、ビニルスルホン基とを含む。チオール−チオール基は、任意選択で、ビス−((N−ヨードアセチル)ピペラジニル)スルホンローダミンとの反応により形成される連結を含みうる。他の可逆性反応基(例えば、一部の光反応基など)は、置換されていてもよいベンゾフェノン基を含む。非限定的な例は、BPU含有オリゴヌクレオチド二重鎖の鎖間架橋の部位選択的形成および配列選択的形成のために使用されうる、ベンゾフェノンウラシル(BPU)である。この架橋は、加熱すると戻しうることから、2つのオリゴヌクレオチド鎖の可逆性架橋のための方法がもたらされる。
他の実施形態では、化学的ライゲーションは、例えば、選択後PCR分析およびシーケンシングのために、ホスホジエステル結合のアナログを導入することを含む。ホスホジエステルの例示的アナログは、ホスホロチオエート連結(例えば、ホスホロチオエート基と、ヨード基などの脱離基との使用により導入される)、ホスホミルアド連結、またはホスホロジチオエート連結(例えば、ホスホロジチオエート基と、ヨード基などの脱離基との使用により導入される)を含む。
本明細書で記載される基のうちのいずれか(例えば、化学反応基、光反応基、挿入部分、架橋オリゴヌクレオチド、または可逆性の共反応基)のために、基を、オリゴヌクレオチド末端の近傍に組み込むこともでき、5’末端と3’末端との間に組み込むこともできる。さらに、各オリゴヌクレオチド内には、1つまたは1つより多い基も存在しうる。反応基の対が要求される場合は、基の対の間の反応を容易とするように、オリゴヌクレオチドを設計することができる。ピリミジン塩基と共反応するシアノビニルカルバゾール基についての非限定的な例では、第1のオリゴヌクレオチドを、5’末端において、またはこの近傍に、シアノビニルカルバゾール基を含むように設計することができる。この例では、第2のオリゴヌクレオチドを、第1のオリゴヌクレオチドと、第2のオリゴヌクレオチドとがハイブリダイズする場合は、第1のオリゴヌクレオチドと相補性となり、シアノビニルカルバゾール基と符合する位置において、共反応性のピリミジン塩基を含むように設計することができる。本明細書における基のうちのいずれか、および1つまたは1つより多い基を有するオリゴヌクレオチドのうちのいずれかを、基の間の反応を容易として、1つまたは1つより多い連結を形成するように設計することができる。
二官能性スペーサー
ヘッドピースと、化学的実体との間の二官能性スペーサーを変動させて、適切なスペーシング部分をもたらし、かつ/またはヘッドピースの、有機溶媒中溶解度を増大させることができる。ヘッドピースを、低分子ライブラリーとカップリングさせうる、多種多様なスペーサーが市販されている。スペーサーは、典型的に、直鎖状鎖または分枝状鎖からなり、C1〜10のアルキル、原子1〜10個のヘテロアルキル、C2〜10のアルケニル、C2〜10のアルキニル、C5〜10のアリール、原子3〜20個の環式系もしくは多環式系、ホスホジエステル、ペプチド、オリゴ糖、オリゴヌクレオチド、オリゴマー、ポリマー、またはポリアルキルグリコール(例えば、−(CHCHO)CHCH−[ここで、nは、1〜50の整数である]などのポリエチレングリコール基)またはこれらの組合せを含みうる。
二官能性スペーサーは、ライブラリーのヘッドピースと、化学的実体との間に、適切なスペーシング部分をもたらしうる。ある特定の実施形態では、二官能性スペーサーは、3つの部分を含む。部分1は、例えば、好ましくは、DNA上のアミノ基(例えば、アミノ修飾されたdT)と反応するように、N−ヒドロキシスクシンイミド(NHS)エステルにより活性化させたカルボン酸、一本鎖ヘッドピースの5’末端または3’末端を修飾するアミダイト(標準的オリゴヌクレオチド化学反応により達成される)、化学反応対(例えば、Cu(I)触媒、または本明細書で記載される任意の触媒の存在下における、アジド−アルキン環化付加)、またはチオール反応基など、DNAとの共有結合を形成する反応基でありうる。部分2もまた、ビルディングブロックAまたは足場である、化学的実体との共有結合を形成する反応基でありうる。このような反応基は、例えば、アミン、チオール、アジド、またはアルキンでありうるであろう。部分3は、部分1と、部分2との間に導入される、可変的な長さの、化学的に不活性のスペーシング部分でありうる。このようなスペーシング部分は、エチレングリコール単位(例えば、異なる長さのPEG)による鎖、アルカン鎖、アルケン鎖、ポリエン鎖、またはペプチド鎖でありうる。スペーサーは、ヘッドピースの、有機溶媒中溶解度を改善するための疎水性部分(例えば、ベンゼン環など)のほか、ライブラリーの検出を目的として使用される蛍光性部分(例えば、フルオレセインまたはCy−3)による分枝または挿入を含有しうる。ヘッドピース設計における疎水性残基は、有機溶媒中のライブラリー合成を容易とするように、スペーサー設計により変動させることができる。例えば、ヘッドピースとスペーサーとの組合せは、適切な残基を有するように設計するが、この場合、オクタノール:水係数(Poct)は、例えば、1.0〜2.5である。
スペーサーは、ライブラリーを、有機溶媒中、例えば、15%、25%、30%、50%、75%、90%、95%、98%、99%、または100%の有機溶媒中で合成しうるように、所与の低分子ライブラリー設計について経験的に選択することができる。スペーサーは、ヘッドピースを、有機溶媒中で可溶化させるのに適する鎖長を選択するように、ライブラリー合成の前に、モデル反応を使用して変動させることができる。例示的スペーサーは、アルキル鎖長を増大させるか、ポリエチレングリコール単位を増大させるか、正の電荷(ヘッドピース上の、負のリン酸電荷を中和する)を伴う分枝状種を有するか、または疎水性の量を増大させた(例えば、ベンゼン環構造を付加した)スペーサーを含む。
市販のスペーサーの例は、ペプチド(例えば、Z−Gly−Gly−Gly−Osu(N−アルファ−ベンシルオキシカルボニル−(グリシン)−N−スクシンイミジルエステル)またはZ−Gly−Gly−Gly−Gly−Gly−Gly−Osu(N−アルファ−ベンシルオキシカルボニル−(グリシン)−N−スクシンイミジルエステル、配列番号1))、PEG(例えば、Fmoc−アミノPEG2000−NHSまたはアミノPEG(12〜24)−NHS)、またはアルカン酸鎖(例えば、Boc−ε−アミノカプロン酸−Osu)であるスペーサーなど、アミノカルボキシル基を有するスペーサー;本明細書で記載された化学反応対であって、ペプチド部分(例えば、アジドホモアラニン−Gly−Gly−Gly−OSu(配列番号2)、またはプロパルギルグリシン−Gly−Gly−Gly−OSu(配列番号3))、PEG(例えば、アジド−PEG−NHS)、またはアルカン酸鎖部分(例えば、5−アジドペンタン酸、(S)−2−(アジドメチル)−1−Boc−ピロリジン、4−アジドアニリン、または4−アジド−ブタン−1−酸N−ヒドロキシスクシンイミドエステル)と組み合わせた化学反応対などの化学反応対スペーサー;PEG(例えば、SM(PEG)n NHS−PEG−マレイミド)、アルカン鎖(例えば、3−(ピリジン−2−イルジスルファニル)プロピオン酸−Osu、またはスルホスクシンイミジル6−(3’−[2−ピリジルジチオ]−プロピオンアミド)ヘキサノエート))であるスペーサーなど、チオール反応性のスペーサー;およびアミノ修飾剤(例えば、6−(トリフルオロアセチルアミノ)−ヘキシル−(2−シアノエチル)−(N,N−ジイソプロピル)−ホスホラミダイト)、チオール修飾剤(例えば、S−トリチル−6−メルカプトヘキシル−1−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト、または化学反応性の対修飾剤(例えば、6−ヘキシン−1−イル−(2−シアノエチル)−(N,N−ジイソプロピル)−ホスホラミダイト、3−ジメトキシトリチルオキシ−2−(3−(3−プロパルギルオキシプロパンアミド)プロパンアミド)プロピル−1−O−スクシノイル、長鎖アルキルアミノCPG、または4−アジド−ブタン−1−酸N−ヒドロキシスクシンイミドエステル))など、オリゴヌクレオチド合成のためのアミダイトを含む。当該技術分野では、さらなるスペーサーが公知であり、ライブラリー合成時に使用されうるスペーサーは、5’−O−ジメトキシトリチル−1’,2’−ジデオキシリボース−3’−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;9−O−ジメトキシトリチル−トリエチレングリコール、1−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;3−(4,4’−ジメトキシトリチルオキシ)プロピル−1−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイト;および18−O−ジメトキシトリチルヘキサエチレングリコール、1−[(2−シアノエチル)−(N,N−ジイソプロピル)]−ホスホラミダイトを含むがこれらに限定されない。本明細書におけるスペーサーのうちのいずれかを、タンデムで、互いへと、異なる組合せで付加して、異なる所望の長さのスペーサーを生成することができる。
スペーサーはまた、分枝状であることも可能であり、この場合、分枝状スペーサーは、当該技術分野で周知であり、例は、対称性もしくは非対称性のダブラー、または対称性のトレブラーからなりうる。例えば、Newcomeら、「Dendritic Molecules:Concepts,Synthesis,Perspectives」、VCH Publishers(1996);Boussifら、Proc.Natl.Acad.Sci.USA、92:7297〜7301(1995);およびJansenら、Science、266:1226(1994)を参照されたい。
複合体のヌクレオチド配列を決定するための方法
本発明は、アセンブルされたタグ配列の配列と、化学的実体の構造単位(またはビルディングブロック)の配列との間で、コード化関係を確立しうるように、複合体のヌクレオチド配列を決定することを含む方法を特徴とする。特に、化学的実体の識別および/または履歴を、オリゴヌクレオチド内の塩基の配列から推定することができる。この方法を使用すると、多様な化学的実体またはメンバー(例えば、低分子またはペプチド)を含むライブラリーを、特定のタグ配列でアドレス指定することができる。
本明細書で記載される連結のうちのいずれかは、可逆性の場合もあり、不可逆性の場合もある。可逆性連結は、光反応性連結(例えば、シアノビニルカルボゾール(carbozole)基およびチミジン)およびレドックス連結を含む。本明細書では、さらなる連結についても記載する。
代替的な実施形態では、読取り可能な連結、または少なくとも、移動可能な連結を作出するために、「読取り不可能な」連結を、酵素的に修復することができる。当業者には、酵素的修復過程が周知であり、ピリミジン(例えば、チミジン)ダイマー修復機構(例えば、ホトリアーゼまたはグリコシラーゼ(例えば、T4ピリミジンダイマーグリコシラーゼ(PDG))を使用する)、塩基切出し修復機構(例えば、修復のために、任意選択で、1つまたは1つより多いエンドヌクレアーゼ、DNAポリメラーゼもしくはRNAポリメラーゼ、および/またはDNAリガーゼもしくはRNAリガーゼと組み合わされうる、グリコシラーゼ、アプリン/アピリミジン(AP)エンドヌクレアーゼ、Flapエンドヌクレアーゼ、またはポリADPリボースポリメラーゼ(例えば、ヒトアプリン/アピリミジン(AP)エンドヌクレアーゼ、APE 1;エンドヌクレアーゼIII(Nth)タンパク質;エンドヌクレアーゼIV;エンドヌクレアーゼV;ホルムアミドピリミジン[fapy]−DNAグリコシラーゼ(Fpg);ヒト8−オキソグアニングリコシラーゼ1(αアイソフォーム)(hOGG1);ヒトエンドヌクレアーゼVIII様1(hNEIL1);ウラシルDNAグリコシラーゼ(UDG);ヒト一本鎖選択的一官能性ウラシルDNAグリコシラーゼ(SMUG1);およびヒトアルキルアデニンDNAグリコシラーゼ(hAAG))を使用する)、メチル化修復機構(例えば、メチルグアニンメチルトランスフェラーゼを使用する)、AP修復機構(例えば、修復のために、任意選択で、1つまたは1つより多いエンドヌクレアーゼ、DNAポリメラーゼもしくはRNAポリメラーゼ、および/またはDNAリガーゼもしくはRNAリガーゼと組み合わされうる、アプリン/アピリミジン(AP)エンドヌクレアーゼ(例えば、APE 1;エンドヌクレアーゼIII;エンドヌクレアーゼIV;エンドヌクレアーゼV;Fpg;hOGG1;およびhNEIL1)を使用する)、ヌクレオチド切出し修復機構(例えば、修復のために、任意選択で、1つまたは1つより多いエンドヌクレアーゼ、DNAポリメラーゼもしくはRNAポリメラーゼ、および/またはDNAリガーゼもしくはRNAリガーゼと組み合わされうる、切出し修復のための交差相補性タンパク質または切出しヌクレアーゼを使用する)、およびミスマッチ修復機構(例えば、修復のために、任意選択で、1つまたは1つより多いエキソヌクレアーゼ、エンドヌクレアーゼ、ヘリカーゼ、DNAポリメラーゼもしくはRNAポリメラーゼ、および/またはDNAリガーゼもしくはRNAリガーゼと組み合わされうる、エンドヌクレアーゼ(例えば、T7エンドヌクレアーゼI;MutS、MutH、および/またはMutL)を使用する)を含むがこれらに限定されない。これらの種類の修復機構をたやすくもたらすのに、市販の酵素混合物、例えば、Taq DNAリガーゼ、エンドヌクレアーゼIV、Bst DNAポリメラーゼ、Fpg、ウラシルDNAグリコシラーゼ(UDG)、T4 PDG(T4 エンドヌクレアーゼV)、およびエンドヌクレアーゼVIIIを含むPreCR(登録商標)Repair Mix(New England Biolabs Inc.、Ipswich MA)が利用可能である。
ライブラリー内の化学的実体をコード化するための方法
本発明の方法は、オリゴヌクレオチドタグによりコード化される、多様な数の化学的実体を有するライブラリーを利用しうる。ビルディングブロックおよびコード化DNAタグの例は、そのビルディングブロックおよびタグが、本明細書に参照により援用される、米国特許出願公開第2007/0224607号において見出される。
各化学的実体は、1つまたは1つより多いビルディングブロックと、任意選択で、足場とから形成される。足場は、特定の形状の、1つまたは1つより多い多様性ノード(例えば、ヘテロアリール環の近傍に空間的に配置された3つのノード、または直鎖形状をもたらすトリアジン)をもたらすのに用いられる。
ビルディングブロックおよびそれらのコード化タグを、直接的または間接的に(例えば、スペーサーを介して)、ヘッドピースへと添加して、複合体を形成することができる。ヘッドピースが、スペーサーを含む場合は、ビルディングブロックまたは足場を、スペーサーの末端へと添加する。スペーサーが存在しない場合は、ビルディングブロックを、ヘッドピースへと、直接的に添加することもでき、ビルディングブロック自体が、ヘッドピースの官能基と反応するスペーサーを含む場合もある。本明細書では、例示的スペーサーおよびヘッドピースについて記載する。
足場を、任意の有用な形で付加することができる。例えば、足場を、スペーサーまたはヘッドピースの末端へと付加することができ、後続のビルディングブロックAを、利用可能な足場の多様性ノードへと付加することができる。別の例では、ビルディングブロックを、まず、スペーサーまたはヘッドピースへと付加し、次いで、足場の多様性ノードSを、ビルディングブロックA内の官能基と反応させる。特定の足場をコード化するオリゴヌクレオチドタグを、任意選択で、ヘッドピースまたは複合体へと付加することができる。例えば、Sを、n個の反応器[ここで、nは、1より大きい整数である]内の複合体へと付加し、タグS(すなわち、タグS、S、・・・、Sn−1、S)を、複合体の官能基に結合させる。
ビルディングブロックを、複数の合成工程において添加することができる。例えば、任意選択で、スペーサーを接合させた、ヘッドピースのアリコートを、n個の反応器へと分割する[ここで、nは、2または2より大きい整数である]。第1の工程では、ビルディングブロックAを、各n個の反応器へと添加する(すなわち、ビルディングブロックA、A、・・・An−1、Aを、反応器1、2、・・・n−1、nへと添加する)[ここで、nは、整数であり、各ビルディングブロックAは、固有である]。第2の工程では、足場Sを、各反応器へと添加して、A−S複合体を形成する。任意選択で、足場Sを、各反応器へと添加して、A−S複合体を形成することができる[ここで、nは、2より大きい整数であり、各足場Sは、固有でありうる]。第3の工程では、ビルディングブロックBを、A−S複合体を含有する、各n個の反応器へと添加する(すなわち、ビルディングブロックB、B、・・・Bn−1、Bを、A−S、A−S、・・・An−1−S、A−S複合体を含有する、反応器1、2、・・・n−1、nへと添加する)[ここで、各ビルディングブロックBは、固有である]。さらなる工程では、ビルディングブロックCを、B−A−S複合体を含有する、各n個の反応器へと添加することができる(すなわち、ビルディングブロックC、C、・・・Cn−1、Cを、B−A−S、・・・B−A−S複合体を含有する、反応器1、2、・・・n−1、nへと添加する)[ここで、各ビルディングブロックCは、固有である]。結果として得られるライブラリーは、nのタグを有する、nの数の複合体を有するであろう。このようにして、さらなる合成工程を使用して、さらなるビルディングブロックを結合させて、ライブラリーを、さらに多様化させることができる。
ライブラリーを形成した後で、結果として得られる複合体を、任意選択で、精製し、例えば、重合化反応またはテールピースとのライゲーション反応にかけることができる。この一般的戦略は、さらなる多様性ノードおよびビルディングブロック(例えば、D、E、Fなど)を含むように拡張することができる。例えば、第1の多様性ノードを、ビルディングブロックおよび/またはSと反応させ、オリゴヌクレオチドタグによりコード化する。次いで、さらなるビルディングブロックを、結果として得られる複合体と反応させ、後続の多様性ノードを、さらなるビルディングブロックにより誘導体化し、これを、重合化反応またはライゲーション反応のために使用されるプライマーによりコード化する。
コード化されたライブラリーを形成するために、オリゴヌクレオチドタグを、各合成工程の後で、またはこの前に、複合体へと付加する。例えば、ビルディングブロックAの、各反応器への添加の前に、またはこの後で、タグAを、ヘッドピースの官能基に結合させる(すなわち、タグA、A、・・・An−1、Aを、ヘッドピースを含有する反応器1、2、・・・n−1、nへと添加する)。各タグAは、各固有のビルディングブロックAと相関する、異なる配列を有し、タグの配列を決定することにより、ビルディングブロックAの化学構造が提供される。このようにして、さらなるタグを使用して、さらなるビルディングブロックまたはさらなる足場をコード化する。
さらに、複合体へと付加される最後のタグは、プライマー結合配列を含むか、またはプライマー結合配列の結合(例えば、ライゲーションによる)を可能とする官能基をもたらす。複合体のオリゴヌクレオチドタグを増幅およびシーケンシングするために、プライマー結合配列を使用することができる。増幅およびシーケンシングのための例示的方法は、ポリメラーゼ連鎖反応(PCR)、直鎖状鎖増幅(LCR)、ローリングサークル増幅(RCA)、または核酸配列を増幅もしくは決定するための、当該技術分野で公知である、他の任意の方法を含む。
これらの方法を使用して、多数の、コード化される化学的実体を有する、大規模なライブラリーを形成することができる。例えば、ヘッドピースを、スペーサーおよび1,000の異なる変異体(すなわち、n=1,000)を含む、ビルディングブロックAと反応させる。各ビルディングブロックAについて、DNAタグAを、ヘッドピースとライゲーションするか、またはプライマーを、ヘッドピースへと拡張する。これらの反応は、1,000ウェルプレート内または10×100ウェルプレート内で実施することができる。全ての反応は、プールし、任意選択で、精製し、プレートの第2のセットへと分割することができる。次に、同じ手順を、これもまた、1,000の異なる変異体を含む、ビルディングブロックBに関しても実施することができる。DNAタグBを、A−ヘッドピース複合体へとライゲーションし、全ての反応をプールすることができる。結果として得られるライブラリーは、1,000,000の異なるタグの組合せによりタグづけされた、A×Bの、1,000×1,000の組合せ(すなわち、1,000,000個の化合物)を含む。同じ手法を拡張して、ビルディングブロックC、D、Eなどを付加することができる。次いで、作出されたライブラリーを使用して、標的に結合する化合物を同定することができる。任意選択で、ライブラリーに結合する化学的実体の構造を、DNAタグのPCRおよびシーケンシングにより評価して、エンリッチされた化合物を同定することができる。
この方法を改変して各ビルディングブロックの添加の後におけるタグづけを回避することもでき、プーリング(または混合)を回避することもできる。例えば、方法は、ビルディングブロックAを、n個の反応器[ここで、nは、1より大きい整数である]へと添加し、同一なビルディングブロックBを、各反応ウェルへと添加することにより改変することができる。この場合、Bは、各化学的実体について同一であり、したがって、このビルディングブロックをコード化するオリゴヌクレオチドタグは、必要とされない。ビルディングブロックを添加した後で、複合体をプールする場合もあり、プールしない場合もある。例えば、ビルディングブロック添加の最終工程の後では、ライブラリーをプールせず、プールは、標的に結合する化合物を同定するように、個別にスクリーニングする。合成後における、全ての反応物のプーリングを回避するために、例えば、結合アッセイ、例えば、ELISA、SPR、ITC、Tmシフト、SEC、または類似のアッセイを使用して、ハイスループットフォーマット(例えば、384ウェルプレートおよび1,536ウェルプレート)内のセンサー表面における結合をモニタリングすることができる。例えば、ビルディングブロックAは、DNAタグAによりコード化することができ、ビルディングブロックBは、ウェルプレート内のその位置によりコード化することができる。次いで、結合アッセイ(例えば、ELISA、SPR、ITC、Tmシフト、SEC、または類似のアッセイ)を使用し、シーケンシング、マイクロアレイ解析、および/または制限消化分析を介して、タグを分析することにより、候補化合物を同定することができる。この分析は、所望の分子をもたらす、ビルディングブロックAとビルディングブロックBとの組合せの同定を可能とする。
増幅法は、任意選択で、油中水エマルジョンを形成して、複数の水性マイクロリアクターを創出することを含みうる。反応条件(例えば、複合体の濃度、およびマイクロリアクターのサイズ)は、平均で、化合物ライブラリーの、少なくとも1つのメンバーを有するマイクロリアクターをもたらすように調整することができる。各マイクロリアクターはまた、標的、複合体または複合体の部分(例えば、1つまたは1つより多いタグ)および/または結合標的への結合が可能な、単一のビーズ、ならびに核酸増幅を実施するのに必要な、1つまたは1つより多い試薬を有する増幅反応溶液も含有しうる。マイクロリアクター内のタグを増幅した後で、増幅されたタグのコピーは、マイクロリアクター内のビーズに結合し、コーティングされたビーズは、任意の有用な方法により同定することができる。
目的の標的に結合する、第1のライブラリーに由来するビルディングブロックを同定したら、第2のライブラリーを、反復により調製することができる。例えば、1つまたは2つの、さらなる多様性ノードを付加することができ、本明細書で記載される通りに、第2のライブラリーを作製およびサンプリングする。この過程は、所望の分子特性および薬学的特性を伴う分子を創出するのに必要なだけの多数回にわたり反復することができる。
多様なライゲーション法を使用して、足場、ビルディングブロック、スペーサー、連結、およびタグを付加することができる。したがって、本明細書で記載される結合工程のうちのいずれかは、1つまたは複数の、任意の有用なライゲーション法を含みうる。例示的なライゲーション法は、本明細書で記載される、1つまたは1つより多いRNAリガーゼおよび/またはDNAリガーゼの使用などの酵素的ライゲーション;および本明細書で記載される、化学反応対の使用などの化学的ライゲーションを含む。
スクリーニング法
例えば、Kdを決定することにより、化合物の、タンパク質への結合を決定するための、複数の確立された技術的方法が存在する。化合物の、標的タンパク質への結合を検出または定量化するための方法は、例えば、吸光度、蛍光、ラマン散乱、リン発光、発光、ルシフェラーゼアッセイ、および放射能を含む。例示的技法は、表面プラズモン共鳴(SPR)および蛍光偏光(FP)を含む。SPRは、化合物が、この金属表面上に固定化されているタンパク質に結合するときの、金属表面の反射率の変化を測定するのに対し、FPは、入射光の偏光喪失を使用して、化合物について、それがタンパク質に結合したときのタンブリング速度の変化を測定する。一部の実施形態では、本発明の方法を使用して、標的タンパク質に結合することが予測される候補化合物の結合を、実験により決定するのに、これらの方法を使用することができる。
代替的に、アフィニティーベースの方法を使用して、標的タンパク質に結合する化合物を同定することもできる。例えば、アフィニティータグ(例えば、ポリHisタグ)を伴う標的タンパク質を、飽和濃度の、1つまたは1つより多い候補化合物と共にプレインキュベートすることができる。後続のアフィニティー精製および化合物同定(例えば、識別タグの利用を介する)は、標的タンパク質に結合する化合物の同定を可能とするであろう。
標的タンパク質
標的タンパク質(例えば、哺乳動物標的タンパク質もしくは真菌標的タンパク質などの真核生物標的タンパク質、または細菌標的タンパク質などの原核生物標的タンパク質)とは、疾患状態または疾患状態の症候を媒介するタンパク質である。こうして、所望の治療効果は、その活性をモジュレートすること(阻害するか、または増大させること)により達成することができる。
標的タンパク質は、天然に存在するタンパク質、例えば、野生型タンパク質でありうる。代替的に、標的タンパク質は、例えば対立遺伝子変異体、スプライス突然変異体または生物学的に活性の断片であり、野生型タンパク質とは異なりうるが、なおも生物学的機能を保持する。
一部の実施形態では、標的タンパク質は、酵素(例えば、キナーゼ)である。一部の実施形態では、標的タンパク質は、膜貫通タンパク質である。一部の実施形態では、標的タンパク質は、コイルドコイル構造を有する。ある特定の実施形態では、標的タンパク質は、ダイマー複合体による、1つのタンパク質である。
一部の実施形態では、標的タンパク質は、DIRAS1、DIRAS2、DIRAS3、ERAS、GEM、HRAS、KRAS、MRAS、NKIRAS1、NKIRAS2、NRAS、RALA、RALB、RAP1A、RAP1B、RAP2A、RAP2B、RAP2C、RASD1、RASD2、RASL10A、RASL10B、RASL11A、RASL11B、RASL12、REM1、REM2、RERG、RERGL、RRAD、RRAS、RRAS2、RHOA、RHOB、RHOBTB1、RHOBTB2、RHOBTB3、RHOC、RHOD、RHOF、RHOG、RHOH、RHOJ、RHOQ、RHOU、RHOV、RND1、RND2、RND3、RAC1、RAC2、RAC3、CDC42、RAB1A、RAB1B、RAB2、RAB3A、RAB3B、RAB3C、RAB3D、RAB4A、RAB4B、RAB5A、RAB5B、RAB5C、RAB6A、RAB6B、RAB6C、RAB7A、RAB7B、RAB7L1、RAB8A、RAB8B、RAB9、RAB9B、RABL2A、RABL2B、RABL4、RAB10、RAB11A、RAB11B、RAB12、RAB13、RAB14、RAB15、RAB17、RAB18、RAB19、RAB20、RAB21、RAB22A、RAB23、RAB24、RAB25、RAB26、RAB27A、RAB27B、RAB28、RAB2B、RAB30、RAB31、RAB32、RAB33A、RAB33B、RAB34、RAB35、RAB36、RAB37、RAB38、RAB39、RAB39B、RAB40A、RAB40AL、RAB40B、RAB40C、RAB41、RAB42、RAB43、RAP1A、RAP1B、RAP2A、RAP2B、RAP2C、ARF1、ARF3、ARF4、ARF5、ARF6、ARL1、ARL2、ARL3、ARL4、ARL5、ARL5C、ARL6、ARL7、ARL8、ARL9、ARL10A、ARL10B、ARL10C、ARL11、ARL13A、ARL13B、ARL14、ARL15、ARL16、ARL17、TRIM23、ARL4D、ARFRP1、ARL13B、RAN、RHEB、RHEBL1、RRAD、GEM、REM、REM2、RIT1、RIT2、RHOT1、またはRHOT2などのGTPアーゼである。一部の実施形態では、標的タンパク質は、NF1、IQGAP1、PLEXIN−B1、RASAL1、RASAL2、ARHGAP5、ARHGAP8、ARHGAP12、ARHGAP22、ARHGAP25、BCR、DLC1、DLC2、DLC3、GRAF、RALBP1、RAP1GAP、SIPA1、TSC2、AGAP2、ASAP1、またはASAP3などのGTPアーゼ活性化タンパク質である。一部の実施形態では、標的タンパク質は、CNRASGEF、RASGEF1A、RASGRF2、RASGRP1、RASGRP4、SOS1、RALGDS、RGL1、RGL2、RGR、ARHGEF10、ASEF/ARHGEF4、ASEF2、DBS、ECT2、GEF−H1、LARG、NET1、OBSCURIN、P−REX1、P−REX2、PDZ−RHOGEF、TEM4、TIAM1、TRIO、VAV1、VAV2、VAV3、DOCK1、DOCK2、DOCK3、DOCK4、DOCK8、DOCK10、C3G、BIG2/ARFGEF2、EFA6、FBX8、またはGEP100などのグアニンヌクレオチド交換因子である。ある特定の実施形態では、標的タンパク質は、ARM;BAR;BEACH;BH;BIR;BRCT;BROMO;BTB;C1;C2;CARD;CC;CALM;CH;CHROMO;CUE;DEATH;DED;DEP;DH;EFハンド;EH;ENTH;EVH1;Fボックス;FERM;FF;FH2;FHA;FYVE;GAT;GEL;GLUE;GRAM;GRIP;GYF;HEAT;HECT;IQ;LRR;MBT;MH1;MH2;MIU;NZF;PAS;PB1;PDZ;PH;POLOボックス;PTB;PUF;PWWP;PX;RGS;RING;SAM;SC;SH2;SH3;SOCS;SPRY;START;SWIRM;TIR;TPR;TRAF;SNARE;TUBBY;TUDOR;UBA;UEV;UIM;VHL;VHS;WD40;WW;SH2;SH3;TRAF;ブロモドメイン;またはTPRなどのタンパク質間相互作用ドメインを伴うタンパク質である。一部の実施形態では、標的タンパク質は、Hsp20、Hsp27、Hsp70、Hsp84、アルファBクリスタリン、TRAP−1、hsf1、またはHsp90などの熱ショックタンパク質である。ある特定の実施形態では、標的タンパク質は、Cav2.2、Cav3.2、IKACh、Kv1.5、TRPA1、NAv1.7、Nav1.8、Nav1.9、P2X3、またはP2X4などのイオンチャネルである。一部の実施形態では、標的タンパク質は、ジェミニン、SPAG4、VAV1、MAD1、ROCK1、RNF31、NEDP1、HCCM、EEA1、ビメンチン、ATF4、Nemo、SNAP25、シンタキシン1a、FYCO1、またはCEP250などのコイルドコイルタンパク質である。ある特定の実施形態では、標的タンパク質は、ABL、ALK、AXL、BTK、EGFR、FMS、FAK、FGFR1、2、3、4、FLT3、HER2/ErbB2、HER3/ErbB3、HER4/ErbB4、IGF1R、INSR、JAK1、JAK2、JAK3、KIT、MET、PDGFRA、PDGFRB、RET RON、ROR1、ROR2、ROS、SRC、SYK、TIE1、TIE2、TRKA、TRKB、KDR、AKT1、AKT2、AKT3、PDK1、PKC、RHO、ROCK1、RSK1、RKS2、RKS3、ATM、ATR、CDK1、CDK2、CDK3、CDK4、CDK5、CDK6、CDK7、CDK8、CDK9、CDK10、ERK1、ERK2、ERK3、ERK4、GSK3A、GSK3B、JNK1、JNK2、JNK3、AurA、ARuB、PLK1、PLK2、PLK3、PLK4、IKK、KIN1、cRaf、PKN3、c−Src、Fak、PyK2、またはAMPKなどのキナーゼである。一部の実施形態では、標的タンパク質は、WIP1、SHP2、SHP1、PRL−3、PTP1B、またはSTEPなどのホスファターゼである。ある特定の実施形態では、標的タンパク質は、BMI−1、MDM2、NEDD4−1、ベータ−TRCP、SKP2、E6AP、またはAPC/Cなどのユビキチンリガーゼである。一部の実施形態では、標的タンパク質は、遺伝子である、BRG1、BRM、ATRX、PRDM3、ASH1L、CBP、KAT6A、KAT6B、MLL、NSD1、SETD2、EP300、KAT2A、またはCREBBPによりコード化されるクロマチン修飾剤/リモデラーなどのクロマチン修飾剤/リモデラーである。一部の実施形態では、標的タンパク質は、遺伝子である、EHF、ELF1、ELF3、ELF4、ELF5、ELK1、ELK3、ELK4、ERF、ERG、ETS1、ETV1、ETV2、ETV3、ETV4、ETV5、ETV6、FEV、FLI1、GAVPA、SPDEF、SPI1、SPIC、SPIB、E2F1、E2F2、E2F3、E2F4、E2F7、E2F8、ARNTL、BHLHA15、BHLHB2、BHLBHB3、BHLHE22、BHLHE23、BHLHE41、CLOCK、FIGLA、HAS5、HES7、HEY1、HEY2、ID4、MAX、MESP1、MLX、MLXIPL、MNT、MSC、MYF6、NEUROD2、NEUROG2、NHLH1、OLIG1、OLIG2、OLIG3、SREBF2、TCF3、TCF4、TFAP4、TFE3、TFEB、TFEC、USF1、ARF4、ATF7、BATF3、CEBPB、CEBPD、CEBPG、CREB3、CREB3L1、DBP、HLF、JDP2、MAFF、MAFG、MAFK、NRL、NFE2、NFIL3、TEF、XBP1、PROX1、TEAD1、TEAD3、TEAD4、ONECUT3、ALX3、ALX4、ARX、BARHL2、BARX、BSX、CART1、CDX1、CDX2、DLX1、DLX2、DLX3、DLX4、DLX5、DLX6、DMBX1、DPRX、DRGX、DUXA、EMX1、EMX2、EN1、EN2、ESX1、EVX1、EVX2、GBX1、GBX2、GSC、GSC2、GSX1、GSX2、HESX1、HMX1、HMX2、HMX3、HNF1A、HNF1B、HOMEZ、HOXA1、HOXA10、HOXA13、HOXA2、HOXAB13、HOXB2、HOXB3、HOXB5、HOXC10、HOXC11、HOXC12、HOXC13、HOXD11、HOXD12、HOXD13、HOXD8、IRX2、IRX5、ISL2、ISX、LBX2、LHX2、LHX6、LHX9、LMX1A、LMX1B、MEIS1、MEIS2、MEIS3、MEOX1、MEOX2、MIXL1、MNX1、MSX1、MSX2、NKX2−3、NKX2−8、NKX3−1、NKX3−2、NKX6−1、NKX6−2、NOTO、ONECUT1、ONECUT2、OTX1、OTX2、PDX1、PHOX2A、PHOX2B、PITX1、PITX3、PKNOX1、PROP1、PRRX1、PRRX2、RAX、RAXL1、RHOXF1、SHOX、SHOX2、TGIF1、TGIF2、TGIF2LX、UNCX、VAX1、VAX2、VENTX、VSX1、VSX2、CUX1、CUX2、POU1F1、POU2F1、POU2F2、POU2F3、POU3F1、POU3F2、POU3F3、POU3F4、POU4F1、POU4F2、POU4F3、POU5F1P1、POU6F2、RFX2、RFX3、RFX4、RFX5、TFAP2A、TFAP2B、TFAP2C、GRHL1、TFCP2、NFIA、NFIB、NFIX、GCM1、GCM2、HSF1、HSF2、HSF4、HSFY2、EBF1、IRF3、IRF4、IRF5、IRF7、IRF8、IRF9、MEF2A、MEF2B、MEF2D、SRF、NRF1、CPEB1、GMEB2、MYBL1、MYBL2、SMAD3、CENPB、PAX1、PAX2、PAX9、PAX3、PAX4、PAX5、PAX6、PAX7、BCL6B、EGR1、EGR2、EGR3、EGR4、GLIS1、GLIS2、GLI2、GLIS3、HIC2、HINFP1、KLF13、KLF14、KLF16、MTF1、PRDM1、PRDM4、SCRT1、SCRT2、SNAI2、SP1、SP3、SP4、SP8、YY1、YY2、ZBED1、ZBTB7A、ZBTB7B、ZBTB7C、ZIC1、ZIC3、ZIC4、ZNF143、ZNF232、ZNF238、ZNF282、ZNF306、ZNF410、ZNF435、ZBTB49、ZNF524、ZNF713、ZNF740、ZNF75A、ZNF784、ZSCAN4、CTCF、LEF1、SOX10、SOX14、SOX15、SOX18、SOX2、SOX21、SOX4、SOX7、SOX8、SOX9、SRY、TCF7L1、FOXO3、FOXB1、FOXC1、FOXC2、FOXD2、FOXD3、FOXG1、FOXI1、FOXJ2、FOXJ3、FOXK1、FOXL1、FOXO1、FOXO4、FOXO6、FOXP3、EOMES、MGA、NFAT5、NFATC1、NFKB1、NFKB2、TP63、RUNX2、RUNX3、T、TBR1、TBX1、TBX15、
TBX19、TBX2、TBX20、TBX21、TBX4、TBX5、AR、ESR1、ESRRA、ESRRB、ESRRG、HNF4A、NR2C2、NR2E1、NR2F1、NR2F6、NR3C1、NR3C2、NR4A2、RARA、RARB、RARG、RORA、RXRA、RXRB、RXRG、THRA、THRB、VDR、GATA3、GATA4、またはGATA5、またはC−myc、Max、Stat3、アンドロゲン受容体、C−Jun、C−Fox、N−Myc、L−Myc、MITF、Hif−1アルファ、Hif−2アルファ、Bcl6、E2F1、NF−カッパB、Stat5、またはER(coact)によりコード化される転写因子などの転写因子である。ある特定の実施形態では、標的タンパク質は、TrkA、P2Y14、mPEGS、ASK1、ALK、Bcl−2、BCL−XL、mSIN1、RORγt、IL17RA、eIF4E、TLR7R、PCSK9、IgER、CD40、CD40L、Shn−3、TNFR1、TNFR2、IL31RA、OSMR、IL12β1、2、タウ、FASN、KCTD6、KCTD9、Raptor、Rictor、RALGAPA、RALGAPB、アネキシンファミリーメンバー、BCOR、NCOR、ベータカテニン、AAC11、PLD1、PLD2、Frizzled 7、RaLP、,MLL−1、Myb、Ezh2、RhoGD 12、EGFR、CTLA4R、GCGC(coact)、AdiponectinR2、GPR81、IMPDH2、IL−4R、IL−13R、IL−1R、IL2−R、IL−6R、IL−22R、TNF−R、TLR4、Nrlp3、またはOTRである。
バーチャルスクリーニング法
データの収集および統計の生成
一部の実施形態では、本発明バーチャルスクリーニング法における工程は、標的タンパク質に対する、DNAコード化ライブラリー選択実験(例えば、アフィニティーベースの実験)に由来するデータの収集を伴う。選択データを、DNA配列として読み出し、次いで、統計学的に読出し、例えば、配列カウントへと集約する。統計への集約は、一般的なコード化化合物、例えば、DNAによりコード化される推定化学構造(インスタンスレベル)、またはこのコード化された化学反応の、部分的亜構造(モノシントン、ジシントン、またはトリシントンのレベル)を群分けすることに基づく。化合物または部分的化合物が、標的に結合するのかどうか(結合剤であるのかどうか)の決定は、1つまたは1つより多い選択条件から、シーケンシングにより導出される統計についてのカットオフ値を使用して下す。真の、基底をなす低分子/タンパク質結合を反映する、有意な統計を収集するために、選択条件1つ当たり数百万〜数千万(なおまたは数億)の配列を使用する。
機械学習
当該技術分野では、機械学習法が公知であり、例えば、非限定的な機械学習法は、ナイーブベイズ、ランダムフォレスト、決定木、サポートベクターマシン、ニューラルネット、およびディープラーニングを含む。
一部の実施形態では、データ収集工程に由来する各データ点を、機械学習アルゴリズムのトレーニングに使用する。各データ点は、DNAコード化ライブラリーからの、分子化合物の構造(完全なまたは部分的な)、および1つまたは1つより多い選択実験からの、関連する統計に由来する情報を含む。構造を使用して、数値入力(計算された化学的特性、例えば、分子量、cLogP)、および二進列(例えば、原子、原子群、および構造内の接続性を反映する化学フィンガープリント)を生成する。これらの分子の計算された読出しを、機械学習アルゴリズムのトレーニングおよびこれによる予測のための入力列として使用する。一部の実施形態では、要求される唯一の入力が、分子の構造に直接的に由来する入力であるように、モデルを構築する。一部の実施形態では、これらのフィンガープリントおよび特性を計算しうる任意の構造は、予測を生成しうる。
一部の実施形態では、化合物をさらなる構造的誘導体(例えば、側鎖を除去するコア解析)を使用して、トレーニングおよび予測に使用される、さらなるフィンガープリントおよび特性計算、または代替的な構造的フィンガープリントをもたらすことができる。
一部の実施形態では、1つまたは1つより多いDNAコード化ライブラリーの選択に由来するデータを使用して、分子が、結合剤(陽性)の例を表現するとみなされるのか、非結合剤(陰性)の例を表現するとみなされるのか、非特異的な結合剤(陰性)の例を表現するとみなされるのかを評価する。評価(陽性または陰性)が、少なくとも1つのDNAコード化ライブラリーの選択における、コード化された分子の行動に基づくのに対し、他の供給源からのさらなる情報を使用して、トレーニングに使用される陽性および陰性の分類を評価しうるであろう。さらに注目すべきことに、ライブラリー内で合成されたことが既知であるが、シーケンシングによるカウントを呈さない分子の構造は、トレーニングにおいて、陰性例であると考えられる。一部の実施形態では、ポジティブコントロールを、データセット内に組み入れる。例えば、標的タンパク質に対する、公知の結合アフィニティー(例えば、公知の阻害剤または天然のリガンド)を伴う化合物からの結合相互作用データは、組み入れることができる。
一実施形態では、入力分子についての結合の評価は、標的タンパク質を含有する選択における、統計学的に有意なエンリッチメント(配列カウントの増大)の検出を介して決定する。標的タンパク質が含まれないコントロール条件下のエンリッチメントもまた、結合の特異性を評価するのに使用する。この条件は一般に、選択時にタンパク質を捕捉するために使用される樹脂を含むが、タンパク質の添加は伴わない。さらなる情報、例えば、さらなる条件下、または類縁タンパク質に対して選択された場合におけるエンリッチメントまたは非エンリッチメントを、特定の分子または部分的分子を、陽性として表現することの決定において使用することができる。多数の非標的タンパク質に対する選択に由来する情報、例えば、所与の分子または部分的な分子が、それらに対する選択におけるエンリッチメントを裏付けるタンパク質の総数のカウントもまた、使用することができる。例えば、データベース内の、いくつかのさらなる標的に対する、所与の分子のエンリッチメントの検出は、特異性の欠如に起因する、陰性の指定をもたらしうる。
分子表現
本発明の一部の実施形態では、分子表現を使用して、推定される結合計算を生成する。分子表現は、例えば、トポロジカル表現、静電表現、幾何学表現、または量子化学表現を含む。トポロジカル表現は、原子、特徴または官能基、およびそれらの接続性(例えば、フィンガープリント、接続表、分子接続性、および/または分子グラフ表現)に基づきうる。静電表現は、例えば、表面電子情報を含む。幾何学表現は、例えば、ファーマコフォア、ファーマコフォアフィンガープリント、形状ベースのフィンガープリント、および/または原子、特徴、もしくは官能基を使用する3D分子座標である。一部の実施形態では、量子化学表現を使用する。一部の実施形態では、電子的分子表現は、化学フィンガープリントである。
一部の実施形態では、本発明バーチャルスクリーニング法における工程は、結合相互作用データが生成された化合物、および候補化合物の両方についての化学フィンガープリントの生成を伴う。化学フィンガープリントは、当該技術分野で公知である、任意の方法、例えば、ECFP6、FCFP6、ECFP4、MACCS、またはMorgan/Circular Fingerprintsを使用して生成することができる。次いで、化学フィンガープリントを分析して、パターンを同定する、例えば、標的タンパク質への結合を増大または減少させる構造特徴を同定する。多数の化合物、例えば、少なくとも250,000の分子についての、化学フィンガープリント比較から生成された情報を使用して、生成される推定結合相互作用の精度を、少数の化合物、例えば、100,000を下回る化合物についての化学フィンガープリント比較と比較して増大させることができる。一部の実施形態では、化学フィンガープリントを、本方法における、機械学習のための一次情報として使用する。
例えば、8ビットのフィンガープリントのトレーニングセット入力の例は、
Figure 2020518898
を含みうる。
フィンガープリントとは、化学的実体の表現である。機械学習は、トレーニング行、すなわち、各化合物に、列、すなわち、フィンガープリントビットに、それが、陽性例または陰性例であることを指し示すトレーニング列を加えた列をフィードすることにより進行する。
アルゴリズム(RF、ナイーブベイズ、ディープラーニング、ニューラルネットなど)は、真または偽の指定と相関するパターンを探索することにより作動する。これらのパターンは、1つまたは1つより多いビットを伴いうる。これらのパターンは、統計(例えば、ナイーブベイズ、ランダムフォレスト)を、明示的に分析することにより、または変動するモデルパラメータ(例えば、ニューラルネットワーク)からの経験的フィードバックを介して発見することができる。
使用されうる別の手法は、フィンガープリントに加えて、計算された特性列(例えば、MW、cLogP、tPSA)を追加することである。この場合、機械学習アルゴリズムは、その統計学的分析またはそのモデルパラメータ検索において、これらのさらなる列を利用しうる。分析における特性の使用は、特性の使用を伴わずに実施された予測と比較した場合に、予測の精度を改善しうる。
この手法の後続において予測される分子は、トレーニングセット内で表された分子と全く同じ形で表されるが、重要な差違は、上記で見られたトレーニング列が、今回は未知であるということである。モデルは、結合特徴づけ列(例えば、結合予測列)へと記入されることが予測される値を生成する。一部の実施形態では、列は、ブール型列(T/F)、カテゴリカル列(例えば、非結合剤、競合的結合剤、非競合的結合剤、非競合的結合剤)、または数値列(例えば、結合剤の確率を反映するスコア)である。
Figure 2020518898
予測のための分子であって、フィンガープリント列だけを含む分子を、上記の第1の例により生成されたモデルと共に使用することができる。
Figure 2020518898
下記は、上記の第2の例により作成されたモデルと共に使用しうる特性を含むように拡張された入力情報による予測の例である。
Figure 2020518898
出力
一部の実施形態では、生成されるモデルは、候補化合物が、陽性もしくは陰性であることを指し示す二値スコア、または候補化合物が、活性/結合について陽性もしくは陰性である可能性についての、モデルの評価を指し示す確率スコア(例えば、0〜1)をもたらすであろう。次いで、この値を使用して、所与の分子についての選択/不選択の判定(二値の場合)を下すか、または候補化合物(確率スコア)の優先順位決定のために情報を提供することができる。
実施例1
ライブラリーのセットに由来する可溶型エポキシドヒドロラーゼ(sEH)についての選択データを使用して、いくつかの機械学習モデル(ランダムフォレスト、ナイーブベイズ、またはニューラルネットワーク)のうちの1つをトレーニングし、次いで、これを使用して、同じ標的に対するトレーニングセット内に含まれなかったライブラリーに由来する分子の選択行動を予測した。トレーニングセット内で使用されるライブラリーは、25,844,065個の化合物を伴う、直鎖状ペプチドライブラリー、3,976,320個の化合物を伴う、3サイクルのピラゾールライブラリー、5,079,459個の化合物を伴う、2サイクルのピリジンライブラリー、および1,511,399,304個の化合物を伴う、4サイクルのマクロサイクルライブラリーを含んだ。予測セット内で使用されるライブラリーは、221,580,000個の化合物を伴う、3サイクルの直鎖状ペプチドライブラリー、285,917,292個の化合物を伴う、3サイクルのピリジンライブラリー、および1,622,820個の化合物を伴う、2サイクルのベンズイミダゾールライブラリーを含んだ。
図1に示す通り、予測セット内では、結合剤のエンリッチメントが見られた。グラフ内の4つの象限は、ライブラリー数の増大(左から右へ、上から下への)を使用する、陽性ジシントンの予測を表現する。Y軸は、予測セット内の陽性の、元の集団からのランダム選択と比較したエンリッチメントを表す。Y軸は、予測セット内で見出された、元のセット内の陽性の百分率を示す。結果は、トレーニングおよびテストセット(トレーニングセット内で除外されず、同じライブラリーに由来するジシントン)について、予測セットが、一貫して、元の集団の2〜2.5倍にエンリッチされたことを裏付ける。予測セットは、トレーニングにおいて使用されなかったライブラリーに由来するジシントンである。この場合、トレーニングにおいて使用されるライブラリー数の増大は、予測集団内の、元の集団と比較した陽性率の増大を示す。
実施例2
sEHについて、実施例1と同じライブラリーからの選択データを、機械学習アルゴリズム(RF、MLP、ディープラーニング)と共に使用して、モデルをトレーニングし、かつ、作製し、これを使用して、DNAコード化ライブラリー内で見出されない分子の活性を予測した。例えば、データをフィードし、従来のハイスループットスクリーニング(HTS)実験(すなわち、10K〜1Mの分子におけるロボットテスト)において調べた分子の活性を予測しうるモデルを作製する。10,000〜100,000またはこれより多い分子による初期リストから、リスト(例えば、数百個の化合物)を生成するためのフィルターとして、モデルによる予測を適用する。目標は、最終的なリストが、初期セット内で見出される、基調となる活性分子率を超えて、大幅(10倍〜100倍)にエンリッチされるように、この短いリスト内で分子を同定することである。
図2に示す通り、予測分子の、ランダム選択に対する、>40倍のエンリッチメントが観察された。図2は、予測モデルを改善したときの、時間経過にわたる、複数回の試行を例示する。傾向は、一次HTSヒット、および予測セット内の厳密に確認された活性分子の両方の、ランダム選択と比較したエンリッチメントの増大を示す。確認された活性分子を、二次確認のための生化学アッセイにかけ、活性を裏付けた。最良の結果は、結果として得られる予測セットが、元の集団からの、分子のランダム選択に対して、>40倍改善されたことを示す。
実施例3
予測の最適化
所与の1つまたは複数の標的について、HTSデータの既知のセットが存在する。高予測率を達成するために、複数のパラメータ設定について調べる。実際、高予測率は、HTS結果に対する予測への微調整の結果である。次いで、HTSを使用して、適用可能性を確認することにより、モデルを使用して、新規の化合物または既存の化合物(例えば、市販の化合物ライブラリーまたは既存の私製の化合物ライブラリー)を予測することができる。次いで、ランダム試料の基調の活性率に関わらない、予測セット内の高活性分子率、例えば、1%または10%より多い活性分子を期待して、これらの分子を調べることができる。
実施例4
予測の最適化
所与の標的に対する選択であるが、異なる条件(例えば、異なるタンパク質断片、突然変異体、アイソフォームを使用する条件、近縁の標的を使用する条件、公知の低分子競合体を使用する条件など)下の選択に由来するデータを使用して、モデルをトレーニングするのに使用されるトレーニングセット内で、陽性データの規定を、さらに精緻化する。
実施例5
予測の最適化
数十〜数百のタンパク質標的、突然変異体、アイソフォームなどに対する選択に由来するデータを、マシン学習モデルをトレーニングするための陽性例または陰性例を規定するために、一連のさらなるデータ列として使用する。
他の実施形態
当業者には、本発明の範囲および精神から逸脱しない限りにおいて、記載された本発明の方法およびシステムの、多様な改変および変更が明らかであろう。具体的な、所望の実施形態との関係で、本発明について記載してきたが、特許請求される本発明は、このような具体的実施形態に、不当に限定されるべきではないことを理解されたい。実際、本発明を実行するための、記載された方式の、多様な改変であって、医学、薬理学の分野、または関連分野における当業者に明らかな改変は、本発明の範囲内にあることを意図する。

Claims (26)

  1. (a)候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
    複数の結合相互作用知見のうちの少なくとも90%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
    工程と;
    (b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;
    (c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
    を含む方法。
  2. 複数の結合相互作用知見が、少なくとも100万の結合相互作用知見を含む、請求項1に記載の方法。
  3. 複数の結合相互作用知見のうちの少なくとも95%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する、請求項1または2に記載の方法。
  4. 複数の結合相互作用知見のうちの少なくとも99%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する、請求項1から3のいずれか一項に記載の方法。
  5. 化合物の識別をコード化するヌクレオチドタグを含む複数の化合物を、標的タンパク質と同時に接触させることにより、複数の結合相互作用知見のうちの少なくとも50%が決定された、請求項1から4のいずれか一項に記載の方法。
  6. 1つまたは1つより多いさらなる標的タンパク質について、1つまたは1つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、複数の結合相互作用知見のうちの少なくとも50%が、さらなる標的タンパク質と、標的タンパク質との複数の結合相互作用からの化合物との結合相互作用を表現する、請求項1から5のいずれか一項に記載の方法。
  7. 候補化合物リストが、1つまたは1つより多いさらなる標的タンパク質にわたる標的タンパク質に対する、候補化合物の選択性により表示しランク付けすることが可能である、請求項6に記載の方法。
  8. 1つまたは1つより多いさらなる標的タンパク質が、標的タンパク質の突然変異体を含む、請求項6または7に記載の方法。
  9. 1つまたは1つより多いネガティブコントロール実験について、1つまたは1つより多いさらなる複数の結合相互作用知見を提供することをさらに含み、複数の結合相互作用知見のうちの少なくとも50%が、標的タンパク質との複数の結合相互作用からの化合物のネガティブコントロール実験を表現する、請求項1から8のいずれか一項に記載の方法。
  10. インターネットを介して、またはディスプレイデバイスへと、候補化合物リストを送信することをさらに含む、請求項1から9のいずれか一項に記載の方法。
  11. フィジカルコンピューティングデバイスが、インターネットを介してアクセスおよび操作される、請求項1から10のいずれか一項に記載の方法。
  12. 化学構造比較を使用して、推定される結合相互作用を生成する、請求項1から11のいずれか一項に記載の方法。
  13. 化学構造比較が、分子表現を利用する、請求項12に記載の方法。
  14. 分子表現が、化学フィンガープリントを含む、請求項13に記載の方法。
  15. 化学フィンガープリント分析が、ECFP6、FCFP6、ECFP4、MACCS、またはMorgan/Circular Fingerprintsである、請求項14に記載の方法。
  16. 候補化合物について推定される結合相互作用の各々の信頼性スコアを生成することをさらに含み、信頼性スコアが、候補化合物と、標的タンパク質についての複数の結合相互作用からの1つまたは1つより多い化合物との化学構造比較を使用して生成される、請求項1から15のいずれか一項に記載の方法。
  17. 化学構造比較が、主成分分析である、請求項16に記載の方法。
  18. 候補化合物リストが、候補化合物について推定される結合相互作用の信頼性スコアにより表示しランク付けすることが可能である、請求項16または17に記載の方法。
  19. 候補化合物のセットについて、1つまたは1つより多い特性知見を提供することをさらに含む、請求項1から18のいずれか一項に記載の方法。
  20. 1つまたは1つより多い特性知見が、分子量および/またはclogPを含む、請求項19に記載の方法。
  21. 1つまたは1つより多い特性知見を利用して、推定される結合相互作用を生成する、請求項19または20に記載の方法。
  22. 候補化合物リストが、1つまたは1つより多い特性知見により表示しランク付けすることが可能である、請求項19から21のいずれか一項に記載の方法。
  23. (d)候補化合物のうちの1つまたは1つより多くを、候補化合物リストから合成することをさらに含む、請求項1から22のいずれか一項に記載の方法。
  24. 1つまたは1つより多い、合成された候補化合物を、標的タンパク質と接触させて、1つまたは1つより多い実験結合相互作用を決定することをさらに含む、請求項23に記載の方法。
  25. (a)候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
    複数の結合相互作用知見のうちの少なくとも90%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
    工程と;
    (b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;
    (c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
    を含む方法を実装するように、フィジカルコンピューティングデバイスを方向付けるための、実行可能な命令をその上に記憶させた、コンピュータ可読媒体。
  26. 候補化合物のセットの表現を有するフィジカルコンピューティングデバイスであって、
    (a)候補化合物のセットを表現するフィジカルコンピューティングデバイス内で、標的タンパク質についての、複数の結合相互作用知見を提供する工程であって、
    複数の結合相互作用知見のうちの少なくとも90%が、標的タンパク質と、化合物の識別をコード化するヌクレオチドタグを含む化合物との結合相互作用を表現する
    工程と;
    (b)複数の結合相互作用知見を使用して、候補化合物について推定される結合相互作用を生成するのにコンピューティングデバイスを使用する工程と;
    (c)最大推定結合相互作用により表示しランク付けすることが可能な候補化合物リストについての出力を得る工程と
    を含む方法を実装するように、デバイスを方向付けるための、実行可能な命令によりプログラムされたフィジカルコンピューティングデバイス。
JP2019556665A 2017-04-18 2018-04-18 化合物を同定するための方法 Active JP7277378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023076466A JP2023113620A (ja) 2017-04-18 2023-05-08 化合物を同定するための方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762486692P 2017-04-18 2017-04-18
US62/486,692 2017-04-18
PCT/US2018/028050 WO2018195134A1 (en) 2017-04-18 2018-04-18 Methods for identifying compounds

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023076466A Division JP2023113620A (ja) 2017-04-18 2023-05-08 化合物を同定するための方法

Publications (2)

Publication Number Publication Date
JP2020518898A true JP2020518898A (ja) 2020-06-25
JP7277378B2 JP7277378B2 (ja) 2023-05-18

Family

ID=63856100

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019556665A Active JP7277378B2 (ja) 2017-04-18 2018-04-18 化合物を同定するための方法
JP2023076466A Pending JP2023113620A (ja) 2017-04-18 2023-05-08 化合物を同定するための方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023076466A Pending JP2023113620A (ja) 2017-04-18 2023-05-08 化合物を同定するための方法

Country Status (9)

Country Link
US (1) US20200143903A1 (ja)
EP (1) EP3612545A4 (ja)
JP (2) JP7277378B2 (ja)
CN (1) CN110730822B (ja)
AU (2) AU2018256367A1 (ja)
BR (1) BR112019021786A2 (ja)
EA (1) EA201992476A1 (ja)
MA (1) MA51864A (ja)
WO (1) WO2018195134A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112021024915A2 (pt) * 2019-06-12 2022-01-18 Quantum Si Inc Técnicas para a identificação de proteína ao usar aprendizagem de máquina e sistemas e métodos relacionados
US20210303762A1 (en) * 2020-03-31 2021-09-30 International Business Machines Corporation Expert-in-the-loop ai for materials discovery
CN111863120B (zh) * 2020-06-28 2022-05-13 深圳晶泰科技有限公司 晶体复合物的药物虚拟筛选系统及方法
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
WO2023069592A1 (en) * 2021-10-21 2023-04-27 Google Llc Multi-label neural architecture for modeling dna-encoded libraries data
WO2023239720A1 (en) * 2022-06-06 2023-12-14 The Trustees Of Indiana University Method of predicting ms/ms spectra and properties of chemical compounds

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001507675A (ja) * 1996-11-04 2001-06-12 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 所望の特性を有する化合物を識別するシステム、方法、コンピュータ・プログラム製品
JP2005526518A (ja) * 2002-05-20 2005-09-08 アブマクシス,インコーポレイティド タンパク質ライブラリーのinsilico作成と選択
WO2006078228A1 (en) * 2002-09-16 2006-07-27 Plexxikon, Inc. Methods for the design of molecular scaffolds and ligands
JP2015529449A (ja) * 2012-07-13 2015-10-08 エックス−ケム インコーポレイテッド ポリメラーゼによって読み取れないコードオリゴヌクレオチドリンケージを有するdnaコード化ライブラリー
WO2016109423A1 (en) * 2014-12-30 2016-07-07 X-Chem, Inc. Methods for tagging dna-encoded libraries

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040010376A1 (en) * 2001-04-17 2004-01-15 Peizhi Luo Generation and selection of protein library in silico
WO2014201435A1 (en) * 2013-06-13 2014-12-18 Biodesy, Inc. Method of screening candidate biochemical entities targeting a target biochemical entity
TW201629069A (zh) * 2015-01-09 2016-08-16 霍普驅動生物科技股份有限公司 參與協同結合之化合物及其用途

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001507675A (ja) * 1996-11-04 2001-06-12 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 所望の特性を有する化合物を識別するシステム、方法、コンピュータ・プログラム製品
JP2005526518A (ja) * 2002-05-20 2005-09-08 アブマクシス,インコーポレイティド タンパク質ライブラリーのinsilico作成と選択
WO2006078228A1 (en) * 2002-09-16 2006-07-27 Plexxikon, Inc. Methods for the design of molecular scaffolds and ligands
JP2015529449A (ja) * 2012-07-13 2015-10-08 エックス−ケム インコーポレイテッド ポリメラーゼによって読み取れないコードオリゴヌクレオチドリンケージを有するdnaコード化ライブラリー
WO2016109423A1 (en) * 2014-12-30 2016-07-07 X-Chem, Inc. Methods for tagging dna-encoded libraries

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANTIAGO VILAR、ほか6名: "Computational Drug Target Screening through Protein Interaction Profiles", SCIENTIFIC REPORTS [ONLINE], JPN6022024827, 15 November 2016 (2016-11-15), pages 1 - 13, ISSN: 0004803768 *
WILLY DECURTINS、ほか7名: "Automated screening for small organic ligands using DNA-encoded chemical libraries", NATURE PROTOCOLS [ONLINE], vol. 第11巻,第4号, JPN6022024828, 30 April 2016 (2016-04-30), pages 764 - 780, ISSN: 0004803769 *

Also Published As

Publication number Publication date
EP3612545A4 (en) 2021-01-13
JP2023113620A (ja) 2023-08-16
WO2018195134A1 (en) 2018-10-25
CN110730822B (zh) 2024-03-08
AU2018256367A1 (en) 2019-11-28
MA51864A (fr) 2020-02-26
AU2023206117A1 (en) 2023-08-10
CN110730822A (zh) 2020-01-24
JP7277378B2 (ja) 2023-05-18
US20200143903A1 (en) 2020-05-07
EP3612545A1 (en) 2020-02-26
BR112019021786A2 (pt) 2020-05-05
EA201992476A1 (ru) 2020-02-25

Similar Documents

Publication Publication Date Title
JP7277378B2 (ja) 化合物を同定するための方法
Hua et al. Defining genome architecture at base-pair resolution
Gironda-Martínez et al. DNA-encoded chemical libraries: a comprehensive review with succesful stories and future challenges
Jain et al. Rules of RNA specificity of hnRNP A1 revealed by global and quantitative analysis of its affinity distribution
Buenrostro et al. Quantitative analysis of RNA-protein interactions on a massively parallel array reveals biophysical and evolutionary landscapes
She et al. Comprehensive and quantitative mapping of RNA–protein interactions across a transcribed eukaryotic genome
Clark et al. Design, synthesis and selection of DNA-encoded small-molecule libraries
WO2016149422A1 (en) Encoding of dna vector identity via iterative hybridization detection of a barcode transcript
US20200248229A1 (en) Unbiased detection of nucleic acid modifications
Rowland et al. Microscopic mechanism of DNA damage searching by hOGG1
CN106460065A (zh) 用于基因组应用和治疗应用的核酸分子的克隆复制和扩增的系统和方法
US20200190574A1 (en) Rna-stitch sequencing: an assay for direct mapping of rna : rna interactions in cells
CN113302300A (zh) 高通量单细胞核和单细胞文库及其制备和使用方法
Adey Tagmentation-based single-cell genomics
Svensen et al. Peptide Synthesis on a Next‐Generation DNA Sequencing Platform
Akoopie et al. A GTP-synthesizing ribozyme selected by metabolic coupling to an RNA polymerase ribozyme
US20200109446A1 (en) Chip hybridized association-mapping platform and methods of use
Vaknin et al. Molecular and experimental tools to design synthetic enhancers
Jonchhe et al. Ensemble sensing using single-molecule DNA copolymers
US20170312727A1 (en) Analysis method on the basis of an array
Wang et al. Comparative Study of DNA Barcode Integrity Evaluation Approaches in the Early-Stage Development of DNA-Compatible Chemical Transformation
EA042768B1 (ru) Способы идентификации соединений
Qi et al. Utilizing Epigenetic Modification as a Reactive Handle To Regulate RNA Function and CRISPR-Based Gene Regulation
Ebert et al. Structural Insights into the Recognition of N2‐Aryl‐and C8‐Aryl DNA Lesions by the Repair Protein XPA/Rad14
Rama-Garda et al. Design, synthesis and validation of a new Crimped Head-Piece for DNA-Encoded libraries generation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7277378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150