JP2008503589A - 機能的生体分子を同定するための方法、システムおよびソフトウェア - Google Patents

機能的生体分子を同定するための方法、システムおよびソフトウェア Download PDF

Info

Publication number
JP2008503589A
JP2008503589A JP2007518248A JP2007518248A JP2008503589A JP 2008503589 A JP2008503589 A JP 2008503589A JP 2007518248 A JP2007518248 A JP 2007518248A JP 2007518248 A JP2007518248 A JP 2007518248A JP 2008503589 A JP2008503589 A JP 2008503589A
Authority
JP
Japan
Prior art keywords
sequence
activity
model
code
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007518248A
Other languages
English (en)
Inventor
リチャード ジョン フォックス,
Original Assignee
マキシジェン, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=35159678&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2008503589(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by マキシジェン, インコーポレイテッド filed Critical マキシジェン, インコーポレイテッド
Publication of JP2008503589A publication Critical patent/JP2008503589A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Urology & Nephrology (AREA)
  • Plant Pathology (AREA)
  • Ecology (AREA)

Abstract

本発明は一般的に、生物学的に関連するデータスペースを迅速かつ効率的に検索する方法に関する。さらに詳細には、本発明は、所望の特性を有する生体分子を同定する方法、または、複雑な生体分子ライブラリもしくはこのようなライブラリのセットから、このような特性を獲得するために最も適切である方法を包含する。本発明はまた、配列活性関係をモデリングする方法を提供する。この方法の多くはコンピューターで実行されるので、本発明はさらに、これらの方法を行うためのデジタルシステムおよびソフトウェアを提供する。

Description

(関連出願への相互参照)
本願は、2003年7月29日に出願され、発明者としてGustafssonらを指定し、そして「Methods,Systems,and Software for Identifying Functional Bio−Molecules」という名称の、米国特許出願第10/629,351号の一部継続出願である。この米国特許出願第10/629,351号は、2003年3月3日に出願され、発明者としてGustafssonらを指定し、そして「Methods,Systems,and Software for Identifying Functional Bio−Molecules」という名称の、米国特許出願第10/379,378号の一部継続出願である。米国特許出願第10/379,378号は、米国特許法第119(e)条の下で、2002年3月1日に出願された米国仮特許出願第60/360,982号からの優先権を主張する。これらの文書の各々は、その全体が、全ての目的に対して、本明細書中に参考として援用される。
(背景)
本発明は、分子生物学、分子進化、バイオインフォマティクスおよびデジタルシステムの分野に関する。さらに詳細には、本発明は、生体分子の活性をコンピューターで予測するための方法に関する。デジタルシステムを含むシステム、およびこれらの方法を行うためのシステム・ソフトウェアも提供される。本発明の方法は、産業的な用途および治療用途のためのタンパク質の最適化において有用性を有する。
タンパク質デザインは、検索可能な配列スペースを構成する可能な分子の組み合わせ的な激増というだけの理由で、困難な課題であることが長らく公知である。タンパク質の配列スペースは、膨大であり、そして徹底的に探究することが不可能である。この複雑性の理由で、良好なタンパク質を設計するためには多くの近似手法が用いられている。それらの中で最重要なのは指向進化の方法である。タンパク質の指向進化は、今日では、しばしば反復して行われる、種々のハイスループットスクリーニングおよび組み換え方式によって支配される。
並行して、配列活性スペースを探索するために、種々のコンピューター技術が提唱されている。相対的に言って、これらの技術は、その初期にあり、そして大きな利点が依然として必要である。従って、機能的なタンパク質を同定するために配列スペースを効率的に検索するための新規な方法が極めて望ましい。
(要旨)
本発明は、非線形項、詳細には、この配列における2つ以上の残基の間の相互作用を説明する項を使用するモデルを生成し、そして用いるための技術を提供する。これらの非線形項は、相互作用に関係する残基の存在(または非存在)を各々が示す、2つ以上の変数の乗算を含む「外積(cross product)」項であってもよい。ある実施形態では、本発明は、配列の活性を最も良好に記載する非線形項を選択するための技術に関する。残基の間に真の相互作用があるよりも、しばしばはるかに多い潜在的な非線形相互作用項が存在することに注目のこと。従って、オーバーフィッティング(overfitting)を回避するために、限られた数の非線形のみが代表的には使用されて、使用されるものは活性に影響する相互作用を反映するはずである。
本発明の1局面は、タンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するための方法を提供する。この方法は、以下の操作によって特徴づけられ得る:(a)タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程(b)このデータから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびあるタンパク質配列における位置に対応させる工程;ならびに(c)この配列活性モデルを用いて所望の活性に影響を与えるバリエーションについて特定の位置で1つ以上のアミノ酸残基を同定する工程。この配列活性モデルは、1つ以上の非線形項を含み、その各々がタンパク質配列における2つ以上のアミノ酸残基の間の相互作用を示す。このトレーニングセットのデータは、このトレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供する。
このタンパク質改変体ライブラリは、種々の供給源由来のタンパク質を含んでもよい。1実施例では、このメンバーは、単一の遺伝子ファミリーのメンバーによってコードされるタンパク質のような天然に存在するタンパク質を包含する。別の実施例では、このメンバーは、組み換えベースの多様性生成機構を用いることによって得られたタンパク質を含む。例えば、DNA断片化媒介性組み換え、合成オリゴヌクレオチド媒介性組み換え、またはその組み合わせは、この目的のために、1つ以上の天然に存在する親タンパク質の全てまたは一部をコードする核酸で行われ得る。さらに別の実施例では、このメンバーは、系統的に改変された配列を同定するためにDOEを行なうことによって得られる。
ある実施形態では、少なくとも1つの非線形項は外積項であり、この外積項が1つの相互作用する残基の存在を示す1つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む。この配列活性モデルの形式は、少なくとも1つの外積項および1つ以上の線形項の合計を含んでもよく、この線形項の各々が上記トレーニングセットにおける可変残基の存在を示す。この外積項は、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を、例えば、包含する、種々の技術によって、ある群の潜在的な外積項から選択されてもよい。
この配列活性モデルは、多くの異なる技術によってトレーニングセットから生成され得る。好ましい実施形態では、このモデルは、回帰モデル、例えば、部分最小自乗モデルまたは主成分回帰モデルである。別の実施例では、このモデルはニューラル・ネットワークである。
ある実施形態では、この方法はまた、(d)上記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである(改変されているのとは反対)1つ以上のアミノ酸残基を同定する工程を包含する。
固定またはバリエーションについて残基を同定するための配列活性モデルを用いることは、多くの異なる可能性のある分析的技術のいずれかに関与し得る。ある場合には、「参照配列(reference sequence)」を用いてバリエーションを既定する。このような配列は、所望の活性の最高値(または最高値の1つ)を有することがモデルによって予測される配列であり得る。別の場合には、参照配列は、オリジナルのタンパク質改変体ライブラリのメンバーの配列であってもよい。この方法は、参照配列から、バリエーションを達成するための部分列(subsequence)を選択し得る。さらに、またはあるいは、この配列活性モデルは、所望の活性に対する影響順で残基位置(または特定の位置での特異的な残基)をランク付けする。
この方法の1つの目標は、新規なタンパク質改変体ライブラリを生成することであり得る。このプロセスの一部として、この方法は、この新規なライブラリを生成するために用いられるべき配列を同定してもよい。このような配列は、上記(c)において同定される残基上にバリエーションを含むか、またはこのようなバリエーションを引き続き誘導するために用いられる前駆体である。この配列は、タンパク質改変体の新規なライブラリを生成するために突然変異誘発または組み換えに基づく多様性生成機構を行うことによって改変され得る。これは、指向進化手順の一部を形成し得る。この新規なライブラリはまた、新規な配列活性モデルを開発するのに用いられ得る。この新規なタンパク質改変体ライブラリは、特定の活性、例えば、安定性、触媒活性、治療活性、病原体または毒素に対する耐性、毒性などに対する効果を評価するために分析される。
ある実施形態では、この方法は、生成のために新規なタンパク質改変体ライブラリの1つ以上のメンバーを選択する工程を包含する。次いで、これらの1つ以上が発現系において合成および/または発現され得る。特定の実施形態では、この方法は以下の方式で続く:(i)新規なタンパク質改変ライブラリの選択されたメンバーが発現され得る発現系を提供する工程;および(ii)新規なタンパク質改変体ライブラリの選択されたメンバーを発現する工程。
ある実施形態では、アミノ酸配列使用以外に、この方法は、モデルを作成して活性を予測するためにヌクレオチド配列を使用する。ヌクレオチドの群、例えばコドンにおけるバリエーションは、ヌクレオチド配列によってコードされるペプチドの活性に影響する。ある実施形態では、このモデルは、ペプチドを発現するために使用される宿主に依存して、(同じアミノ酸をコードする他のコドンと比較して)優先的に発現されるコドンについてのバイアスを提供し得る。
本発明のさらに別の局面は、機械読み取り可能な媒体を含む装置およびコンピュータープログラム製品であって、この媒体に対して上記の方法およびソフトウェアシステムを実行するためのプログラム命令および/またはデータの配置が与えられる、装置およびコンピュータープログラム製品に関連する。高頻度に、このプログラム命令は、特定の方法操作を行うためのコードとして提供される。データは、本発明の特徴を実行するために使用される場合、データ構造、データベース・テーブル、データ・オブジェクトまたは特定の情報の他の適切な配置として提供され得る。本発明の任意の方法またはシステムは、機械読み取り可能な媒体に対して与えられたプログラム命令および/またはデータのように、全体としてまたは一部で、呈示され得る。
本発明のこれらおよび他の特徴は、本発明の詳細な説明において、そして添付の図面と組み合わせて、下にさらに詳細に記載される。
(発明の詳細な考察)
(I.定義)
本発明を詳細に記載する前に、本発明は、当然ながら変化し得る、特定の配列、組成物、アルゴリズムまたはシステムに限定されないことが理解されるべきである。本明細書に用いられる専門用語は、特定の実施形態を記載する目的にのみ用いられ、限定を意図するものではないこともまた理解されるべきである。本明細書および添付の特許請求の範囲に用いられる場合、単数形「1つの、ある(a、an)」、および「この、その(the)」は、内容および文脈が明確に他を示すのでない限り、複数の言及を包含する。従って、例えば、「あるデバイス、1つのデバイス(a device)」という言及は、このようなデバイスの2つ以上の組み合わせなどを包含する。他に示さない限り、「または(or)」の接続詞はブール論理演算子(Boolean logical operator)として正確な意味で用いられるものとし、選択肢における特徴の選択(AまたはB、ここでAの選択はBと相互排他的である)および接続詞における特徴の選択(AまたはB、ここでAおよびBの両方が選択される)の両方を包含する。
以下の定義および本開示全体を通じて含まれる定義によって、当業者に公知の定義が補完される。
「生体分子(bio−molecule)」とは、生物学的な生物体において一般に見出される分子をいう。好ましい生物学的な分子としては、事実上複数のサブユニットから構成されている代表的には重合体である生物学的な高分子が挙げられる(すなわち、「バイオポリマー(biopolymers)」)。代表的な生体高分子としては、限定はしないが、天然に存在するポリマー、例えば、RNA(ヌクレオチドサブユニットから形成される)、DNA(ヌクレオチドサブユニットから形成される)、およびポリペプチド(アミノ酸サブユニットから形成される)、例えば、RNA、RNAアナログ、DNA、DNAアナログ、ポリペプチド、ポリペプチドアナログ、ペプチド核酸(PNA)、RNAおよびDNAの組み合わせ(例えば、キメラプラスト(chimeraplast))などと、いくつかの構造的な特徴を共有する分子が挙げられる。生体分子としてまた、例えば、脂質、炭水化物または、1つ以上の遺伝的にコード可能な分子(例えば、1つ以上の酵素または酵素経路)によって作成される他の有機分子などが挙げられる。
「核酸(nucleic acid)」という用語は、デオキシリボヌクレオチドまたはリボヌクレオチドおよびそのポリマー(例えば、オリゴヌクレオチド、ポリヌクレオチドなど)を、その一本鎖型または二本鎖型でいう。特に限定されない限り、この用語は、核酸であって、この核酸は、参照核酸と同様の結合特性を有し、そして天然に存在するヌクレオチドと同様の方式で代謝される天然のヌクレオチドの公知のアナログを含有する核酸を包含する。他に示さない限り、特定の核酸配列とはまた、その保存的に改変された改変体(例えば、縮重コドン置換)および相補的な配列ならびに明白に示された配列を暗黙のうちに包含する。詳細には、縮重コドン置換は、1つ以上の選択された(または全ての)コドンの第三の位置が混合塩基および/またはデオキシイノシン残基で置換されている配列を生成することによって達成され得る(Batzerら(1991)Nucleic Acid Res.19:5081;Ohtsukaら(1985)J.Biol.Chem.260:2605〜2608;Rossoliniら(1994)Mol.Cell.Probes 8:91〜98)。核酸という用語は、例えば、オリゴヌクレオチド、ポリヌクレオチド、cDNAおよびmRNAと交換可能に用いられる。
「核酸配列(nucleic acid sequence)」とは、核酸を含むヌクレオチドの順序および同一性をいう。
「ポリヌクレオチド(polynucleotide)」とは、ヌクレオチド(A、C、T、U、Gなど、または天然に存在するかもしくは人工的なヌクレオチドアナログ)のポリマーまたは、状況によっては、ヌクレオチドのポリマーを示す文字列である。所定の核酸または相補的な核酸のいずれかは、任意の特定のポリヌクレオチド配列から決定され得る。
「ポリペプチド(polypeptide)」および「タンパク質(protein)」という用語は、アミノ酸残基のポリマーを指すために本明細書において交換可能に用いられる。代表的には、このポリマーは、少なくとも約30アミノ酸残基、そして通常は少なくとも約50アミノ酸残基を有する。さらに代表的には、それらは、少なくとも約100アミノ酸残基を含む。この用語は、1つ以上のアミノ酸残基が、対応する天然に存在するアミノ酸のアナログ、誘導体または模倣物であるアミノ酸ポリマーに、そして天然に存在するアミノ酸ポリマーにあてはまる。例えば、ポリペプチドは、例えば、糖タンパク質を形成するための炭水化物残基の添加によって、改変または誘導体化され得る。用語「ポリペプチド」および「タンパク質」とは、糖タンパク質および非糖タンパク質を包含する。
「モチーフ」とは、生物学的分子の中でまたは生物学的分子の間でのサブユニットのパターンをいう。例えば、モチーフとは、コードされない生物学的分子のサブユニットパターンをいっても、または生物学的分子のコードされた表示のサブユニットパターンをいってもよい。
「スクリーニング(screening)」とは、1つ以上の生体分子の1つ以上の特性が決定されるプロセスをいう。例えば、代表的なスクリーニングプロセスは、1つ以上のライブラリの1つ以上のメンバーの1つ以上の特性が決定されるプロセスを包含する。
「共分散(covariation)」という用語は、2つ以上の変数(例えば、ポリペプチド中のアミノ酸など)の相関変数をいう。
「指向進化(directed evolution)」または「人工的進化(artificial evolution)」とは、人工的な選択、組み換えまたは他の操作によって文字列を人工的に変化するプロセス、すなわち、(1)個体のばらつきがあり、いくつかのばらつきは(2)遺伝性であって、(3)そのいくつかのばらつきが適合(予め決定された特性(所望の特徴)についての選択の結果によって決定される繁殖成功)において異なる生殖集団で生じるプロセスをいう。この生殖集団は、コンピューターシステムにおける、例えば、物理的集団または仮想集団であってもよい。
「データ構造(data structure)」とは、情報、代表的には情報の複数の「ピース(pieces)」の記憶のための機構および必要に応じて関連のデバイスをいう。このデータ構造は、情報(例えば、リスト)の単純な記憶であってもよいし、またはデータ構造は、そこに含まれる情報に関するさらなる情報(例えば、アノテーション)を含んでもよく、データ構造の種々の「メンバー(members)」(すなわち、情報「ピース」)の間の関係を達成し得、そしてデータ構造に対して外部のリソースにポインタまたはリンクを提供してもよい。このデータ構造は、無形であってもよいが、有形の媒体(例えば、紙、コンピューター読み取り媒体、など)に記憶または呈示される場合、有形にされる。このデータ構造は、限定はしないが、シンプルなリスト、リンクしたリスト、インデックス付きリスト、データ・テーブル、インデックス、ハッシュ・インデックス、フラット・ファイル・データベース、リレーショナル・データベース、ローカル・データベース、分散型データベース、シン・クライアント・データベースなどを含む種々の情報アーキテクチュアを呈示し得る。好ましい実施形態では、このデータ構造は、1つ以上の文字列の記憶に十分な分野を提供する。このデータ構造は必要に応じて、文字列のアラインメントが可能になるように、そして必要に応じてこのアラインメントおよび/または文字列類似性および/または文字列相違に関して情報を記憶するように編成される。1実施形態では、この情報は、アラインメント「スコア(score)」(例えば、類似性インデックス(similarity indecex))および/または個々のサブユニット(例えば、核酸の場合にはヌクレオチド)のアラインメントを示すアラインメントマップの形態である。「コードされた文字列(encoded character string)」という用語は、その分子に関する所望の配列/構造情報を保存する生物学的分子の表示をいう。全体を通じて注記されるとおり、生体分子の非配列特性は、データ構造において記憶され得る、そしてこのような非配列特性のアラインメントは、配列ベースのアラインメントと類似の方式で実行され得る。
「ライブラリ(library)」または「集団(population)」とは、少なくとも2つの異なる分子、文字列および/またはモデル、例えば、核酸配列(例えば、遺伝子、オリゴヌクレオチドなど)またはそれ由来の発現産物(例えば、酵素)のコレクションをいう。ライブラリまたは集団は一般に、多数の異なる分子を包含する。例えば、ライブラリまたは集団は代表的に、少なくとも約10個の異なる分子を包含する。大型のライブラリは代表的には、少なくとも約100個の異なる分子、さらに代表的には少なくとも約1000個の異なる分子を包含する。いくつかの適用については、このライブラリは、少なくとも約10000個以上の異なる分子を包含する。
「系統分散(systematic variance)」とは、項目の異なる記述子または、異なる組み合わせで変化されている項目のセットをいう。
「系統的に分散されたデータ(systematically varied data)」とは、異なる組み合わせにおいて変化されている項目または項目のセットの異なる記述子から生成されるか、それに由来するか、またはそれから生じるデータをいう。多くの異なる記述子が、同時に、ただし異なる組み合わせで変化され得る。例えば、アミノ酸の組み合わせが変化されているポリペプチドから集められた活性データは、系統的に分散されたデータである。
「配列(sequence)」および「文字列(character strings)」という用語は、本明細書において交換可能に用いられて、タンパク質中のアミノ酸残基の順序および同一性(すなわち、タンパク質配列またはタンパク質文字列)、または核酸分子におけるヌクレオチドの順序および同一性(すなわち、核酸配列または核酸文字列)を指す。
(II.改善されたタンパク質改変体ライブラリの生成)
本発明によれば、タンパク質配列および活性スペースを探索するために用いられ得る新規なタンパク質改変ライブラリを生成するための種々の方法が提供される。多くのこのような方法の特徴は、所望の活性に影響を与えることが予測されるタンパク質配列においてアミノ酸残基を同定するための手順である。1例として、このような手順は以下の操作を包含する:
(a)タンパク質改変体のトレーニングセットを特徴付けるデータを受容する工程であって、このデータがこのトレーニングセットにおける各々のタンパク質改変体についての活性および配列情報を提供する工程と;
(b)このデータから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびこの配列における位置に対応させる工程(好ましくは、このモデルは、1つ以上の非線形項を含み、各々が2つ以上のアミノ酸残基の間の相互作用を示す)と;
(c)この配列活性モデルを用いて、所望の活性に影響を与えるように変化されるべき1つ以上のタンパク質改変体において特定の位置で1つ以上のアミノ酸残基を同定する工程。
図1は、本発明の1つの適用を示すフローチャートを示す。これは、他の示された、またはいくつかの他の順序で行われ得る種々の操作を示す。示されるとおり、01のプロセスは、タンパク質改変体ライブラリについての残基配列を含むトレーニングセットを記載するデータの受容を伴いブロック03で開始する。言い換えれば、このトレーニングセットデータは、タンパク質改変体ライブラリ由来である。代表的には、そのデータは、ライブラリ中の各々のタンパク質について、活性値を有する完全なまたは部分的な残基配列を含む。ある場合には、複数のタイプの活性(例えば、速度定数データおよび熱安定性データ)がトレーニングセットにおいて一緒に提供される。
多くの実施形態では、タンパク質改変体ライブラリの個々のメンバーが、広範な配列および活性を示す。これによって、広範な領域の配列スペースにわたって適応性を有する配列活性モデルを生成することが可能になる。このような多様なライブラリを生成するための技術としては、タンパク質配列の系統的分散および指向進化技術が挙げられる。これらの両方とも、本明細書のいずれかにさらに詳細に記載される。ただし、特定の遺伝子ファミリー(例えば、複数の種で見出される特定のキナーゼ)に相当する遺伝子配列からモデルを生成することがしばしば所望されることに注意のこと。ほとんどの残基は、ファミリーの全てのメンバーにまたがって同一であるので、このモデルは、変化する残基のみを描写する。従って、全ての可能性のある改変体のセットに比較して、このような相対的に小さいトレーニングセットに基づく統計学的なモデルは、局所的な意味で有効である。この目的は、全体的な適合度関数を見出すことではない。なぜなら、それは、検討中のシステムの容量(およびしばしば必要性)を超えるからである。
活性データは、活性の大きさを測定するために適切にデザインされているアッセイまたはスクリーンによって獲得され得る。このような技術は、周知であり、そして本発明の中心ではない。適切なアッセイまたはスクリーンを設計するための原理は広く理解される。タンパク質配列を得るための技術はまた、周知であって、本発明の中心ではない。本発明とともに用いられる活性は、タンパク質安定性(例えば、熱安定性)であってもよい。しかし、多くの重要な実施形態が、他の活性、例えば、触媒活性、病原体および/または毒素に対する耐性、治療活性、毒性などを考慮する。
トレーニングセットのデータが生成または獲得された後、このプロセスは、このデータセットを用いて、配列情報の関数として活性を予測する配列活性モデルを生成する。ブロック05を参照のこと。このようなモデルは、非線形の式、アルゴリズム、または他のツールであって、ある特定のタンパク質についての配列情報を提供した場合、そのタンパク質の相対的な活性を予測するものである。言い換えれば、タンパク質配列情報は入力であって、活性予測が出力である。本発明の多くの実施形態については、このモデルはまた、活性に対する種々の残基の寄与をランク付けし得る。このようなモデルを生成する方法は、機械の学習能力下に全てがおさまる(例えば、部分的最小自乗回帰(partial least squares regression)(PLS)、主成分回帰(principal component regression)(PCR)および多重線形回帰(MLR))が、独立変数(配列情報)の形式、従属変数(単数または複数)(活性)の形式、およびそのモデルの形式(例えば、線形一次式)とともに以下に考察されている。
ブロック05で生成されたモデルを使用して、活性に影響すると予測される複数の残基位置(例えば、位置35)、または特定の残基の値(例えば、35位置のグルタミン)を同定する。ブロック07を参照のこと。このような位置を同定することに加えて、それらの活性に対する寄与に基づいて残基位置または残基の値を「ランク付け(rank)」してもよい。例えば、このモデルは、35位置のグルタミンが、活性に対して最も顕著な正の効果を有し、208位置のフェニルアラニンが2番目に顕著な正の結果を有することなどを予測し得る。下に記載される特定のアプローチでは、PLSまたはPCR回帰の係数を使用して、特定の残基の重要性をランク付けする。別の特定のアプローチでは、PLSロードマトリクスを使用して、特定の残基位置の重要性をランク付けする。
このプロセスで活性に影響を与える残基を同定した後、それらのいくつかをブロック09に示されるようにバリエーションについて選択する。これは、配列スペースを探索する目的で行なわれる。任意の多数の異なる選択プロトコールであって、そのいくつかは以下に記載されているプロトコールを用いて残基を選択する。1実施例では、活性に対して最も有益な影響を有すると予測される特定の残基が保存される(すなわち、変化されない)。しかし、有する影響が小さいと予測される他の残基の特定の数がバリエーションについて選択される。別の例では、活性に対して最大の影響を有することが見出される残基位置がバリエーションについて選択されるが、ただし、トレーニングセットの高能力メンバーにおいてそれらが変化することが見出される場合のみである。例えば、残基位置197が活性に対して最大の影響を有するが、高い活性を有するタンパク質の全てまたはほとんどが、この位置でロイシンを有することがこのモデルで予想されるならば、197位置は、このアプローチにおけるバリエーションについて選択されない。言い換えれば、次世代のライブラリにおける全てまたはほとんどのタンパク質が197位置でロイシンを有する。しかし、いくつかの「良好な(good)」タンパク質が、この位置でバリンを有し、かつその他がロイシンを有するならば、このプロセスは、この位置でアミノ酸を変化させることを選択する。ある場合には、2つ以上の相互作用する残基の組み合わせが活性に最高の影響を有することが見出される。従って、あるストラテジーでは、これらの残基は共変される。
バリエーションに関する残基が同定された後、この方法では次に、専門的な残基バリエーションを有する新規な改変体ライブラリを生成する。ブロック11を参照のこと。この目的のためには種々の方法論が利用可能である。1実施例では、インビトロまたはインビボの組み換えに基づく多様性生成機構を行って、新規な改変体ライブラリを生成する。このような手順は、親の改変体ライブラリのタンパク質をコードするための配列またはサブ配列を含むオリゴヌクレオチドを使用し得る。いくつかのオリゴヌクレオチドは、密接に関連しており、09位置でバリエーションについて選択される別のアミノ酸についてのコドンの選択においてのみ異なる。組み換えに基づく多様性生成機構は、1または複数のサイクルで行われ得る。複数のサイクルが用いられる場合、各々は、どの改変体が次の組み換えサイクルにおいて用いられるのに受容可能な能力を有するかを同定するために、スクリーニング工程を包含する。これは、指向進化の形態である。
異なる実施例では、「参照(reference)」タンパク質配列を選択して、09で選択された残基を、「切り換えて(toggled)」改変体ライブラリの個々のメンバーを同定する。このように同定された新規なタンパク質を適切な技術によって合成して、新規なライブラリを生成する。1実施例では、この参照配列は、PLSまたはPCRモデルによって予測される、トレーニングセットのトップ能力(top−performing)のメンバー、すなわち「ベスト(best)」の配列であり得る。
別のアプローチでは、この配列活性モデルは、配列スペースを探索するための遺伝的アルゴリズムにおける「適合度関数(fitness function)」として用いられる。遺伝的アルゴリズムの1回以上(遺伝子操作のための1つ以上の可能性のある配列を選択するために各々の回では適合度関数を用いる)の後、次の世代のライブラリを、このフローチャートにおいて記載されるとおり、使用のために同定する。極めて現実的な意味で、このストラテジーは、インシリコの指向進化とみることができる。理想的な場合には、正確、厳格な全体的または局所的な適合度関数を当業者が手中にしているならば、当業者は、インシリコで全ての進化を行い、そして最終の商業的または研究的な適用における使用のために単独のベストの改変体を合成することができる。これは、ほとんどの場合には達成不能であると思われるが、このプロセスのこのような見方によって、指向進化のために機械学習技術を用いるという目標およびアプローチが明確になる。
新規なライブラリが生成された後、ブロック13に示されたとおり、このライブラリは、活性についてスクリーニングされる。理想的には、新規なライブラリは、前のライブラリで観察されたよりも良好な活性を有する1つ以上のメンバーを呈示する。しかし、このような利点がなくても、この新規なライブラリは、有益な情報を提供し得る。そのメンバーは、09において選択されたバリエーションの効果を説明する改良モデルを生成するために使用され得、そしてその結果、配列スペースのより広い領域にまたがって、さらに正確に活性を予測する。さらに、このライブラリは、(活性において)局所最大から全体の最大へ向かう配列スペースにおける通過に相当し得る。
プロセス01の目標に依存して、一連の新規なタンパク質改変体ライブラリを生成することが所望され得、このライブラリでは各々がトレーニングセットの新規なメンバーを提供する。次いで、最新のトレーニングセットを用いて改良モデルを生成する。このために、プロセス01は、さらに別のタンパク質改変体ライブラリが生成されるべきか否かを決定する、決定操作15とともに示される。種々の基準を用いてこの決定を行ってもよい。例としては、いままで生成されたタンパク質改変体ライブラリの数、現在のライブラリ由来のトップのタンパク質の活性、所望の活性の大きさ、および近年の新規なライブラリで観察された改善のレベルが挙げられる。
このプロセスを新しいライブラリで継続すると仮定すれば、このプロセスは、操作05に戻り、ここで新しい配列活性モデルを現在のタンパク質改変体ライブラリについて得られた配列および活性データから生成する。言い換えれば、現在のタンパク質改変体ライブラリの配列および活性のデータは、新規なモデルについてのトレーニングセットの一部として機能する(または、それは全体的なトレーニングセットとして機能し得る)。その後、操作07、09、11、13および15を上記のように、ただし、新規なモデルを用いて行う。
いくつかのポイントでは、プロセス01では、このサイクルは終わって、新規なライブラリは生成されない。その時点では、このプロセスは単に終わってもよいし、またはこのライブラリの1つ以上に由来する1つ以上の配列が開発および/または製造のために選択されてもよい。ブロック17を参照のこと。
(A.タンパク質改変体ライブラリ選択)
タンパク質改変体ライブラリとは、ライブラリにおいてメンバー間で異なる1つ以上の残基を有する複数のタンパク質の群である。それらは、本発明の方法によって生成され得る。それらは、本発明に従う配列活性モデルを生成するために用いられるトレーニングセットのためのデータを提供し得る。タンパク質改変体ライブラリに含まれるタンパク質の数は、適用およびコストに依存する。
1実施例では、タンパク質改変体ライブラリは、単独の遺伝子ファミリーによってコードされるタンパク質のメンバーであり得る、1つ以上の天然に存在するタンパク質から生成される。ライブラリについての他の開始ポイントが用いられてもよい。これらの種子または開始タンパク質から、このライブラリは種々の技術によって生成され得る。1つの場合には、このライブラリは、Stemmer(1994)Proc.Natl.Acad.Sci.USA 10747〜10751およびWO 95/22625に記載されるようなDNA断片化媒介性組み換え、1つ以上の親タンパク質の一部または全てをコードする核酸上での、Nessら(2002)Nature,Biotechnology 20:1251〜1255およびWO 00/42561)に記載されるような合成オリゴヌクレオチド媒介性組み換えによって生成され得る。これらの方法の組み合わせが同様に用いられ(すなわち、DNAフラグメントおよび合成オリゴヌクレオチドの組み換え)、そして例えばWO97/20078およびWO98/27230に記載される他の組み換えに基づく方法も用いられ得る。
別の例では、単一の出発配列がライブラリを生成するために種々の方法で改変される。好ましくはこのライブラリは、この出発配列の個々の残基を系統的に変化させることによって生成される。1実施例では、実験計画法(design of experiment)(DOE)方法論を使用して、系統的に変化される配列を同定する。別の例では、オリゴヌクレオチド媒介性組み換えのような「ウエット・ラボ(wet lab)」手順を用いて、いくつかのレベルの系統的変化を導入する。
本明細書において用いる場合、「系統的に変化した配列(systematically varied sequences)」という用語は、各々の残基が複数の状況でみられる配列のセットをいう。原理的には、この系統的な改変のレベルは、この配列がお互いと直交性である程度(平均と比較した最大相違)によって定量され得る。実際には、このプロセスは、最大直交配列を有することには依存しないが、モデルの量は、試験された配列スペースの直交性に直接関係して改善される。単純な例では、ペプチド配列は、2つの残基位置であって、その各々が2つの異なるアミノ酸のうちの1つを有し得る残基位置を同定することによって系統的に変化される。最大多様性ライブラリは、4つの可能性のある配列全てを包含する。このような最大の系統的バリエーションは、可変位置の数で指数関数的に増大する。例えば、N残基位置の各々に2つの選択肢が存在する場合、2によって増大する。当業者は、最大系統的バリエーションが、しかし、本発明の方法によっては必要とされないことを容易に認識する。系統的変化は、配列スペースの良好なサンプリングを提供する試験のために比較的小セットの配列を同定するための機構を提供する。
系統的に変化された配列を有するタンパク質改変体は、当業者に周知である技術を用いる多数の方法で得ることができる。示されたとおり、適切な方法としては、1つ以上の「親の(parental)」ポリヌクレオチド配列に基づいて改変体を生成する組み換えに基づく方法が挙げられる。ポリヌクレオチド配列は、例えば、組み換えられるべきポリヌクレオチドのDNAse消化、続いて、ライゲーションおよび/または核酸のPCR再アセンブリを含む、種々の技術を用いて組み換えられ得る。これらの方法としては、例えば、Stemmer(1994)Proc.Natl.Acad.Sci.USA,91:10747〜10751、米国特許第5,605,793号、「Methods for In Vitro Recombination」米国特許第5,811,238号、「Methods for Generating Polynucleotides having Desired Characteristics by Interative Selection and Recombination」、米国特許第5,830,721号、「DNA Mutagenesis by Random Fragmentation and Reassembly」、米国特許第5,834,252号、「End Complementary Polymerase Reaction」、米国特許第5,837,458号、「Methods and Compositions for Cellular and Metabolic Engineering」、「WO98/42832、「Recombination of Polynucleotide Sequence Using Random or Defined Primers」、WO 98/27230、「Methods and Compositions for Polypeptide Engineering」、WO99/29902、「Methods for Creating Polynucleotide and Polypeptide Sequences」などに記載される方法が挙げられる。
合成組み換え方法はまた、系統的バリエーションを有するタンパク質改変体ライブラリを生成するために特に十分に適している。合成組み換え方法では、組み換えられるべき多数の遺伝子を集合的にコードする、多数のオリゴヌクレオチドを合成する。代表的には、このオリゴヌクレオチドは相同な親の遺伝子由来の配列を集合的にコードする。例えば、目的の相同な遺伝子は、BLASTのような配列アラインメントプログラムを用いて整列される(Atschulら、J.Mol.Biol.,215:403〜410(1990))。ホモログ間でのアミノ酸のバリエーションに対応するヌクレオチドが注目される。これらのバリエーションは、親の配列の共分散分析、親の配列についての機能的な情報、親の配列の間の保存的または非保存的な変化の選択、または他の同様の基準に基づいて全ての可能性のあるバリエーションのサブセットに対して必要に応じてさらに制限される。バリエーションは、必要に応じて、例えば、親の配列の共分散分析、親の配列についての機能的な情報、親の配列の間の保存的または非保存的な変化の選択、またはバリエーションについての位置のみかけの耐性によって同定される位置でさらなるアミノ酸多様性をコードするようにさらに増大される。この結果は、親の遺伝子配列由来のコンセンサスなアミノ酸配列をコードする縮重遺伝子配列であり、アミノ酸バリエーションをコードする位置で縮重ヌクレオチドを伴う。縮重遺伝子に存在する多様性をアセンブルするために必要であるヌクレオチドを含むオリゴヌクレオチドが設計される。このようなアプローチに関する詳細は、例えば、Nessら(2002)、Nature Biotechnology 20:1251〜1255、WO00/42561「Oligonucleotide Mediated Nucleic Acid Recombination」WO 00/42560、「Methods for Making Character Strings,Polynucleotides and Polypeptides having Desired Characteristics」、WO01/75767、「In Silico Cross−Over Site Selection」、およびWO 01/64864、「Single−Stranded Nucleic Acid Template−Mediated Recombination and Nucleic Acid Fragment Isolation」に見出され得る。この同定されたポリヌクレオチド改変体配列は、タンパク質改変体配列のセットまたはライブラリを生成するために、インビトロまたはインビボで転写および翻訳されてもよい。
系統的に変化された配列のセットはまた、データセットにおける配列を規定するための実験計画法(DOE)を用いて先験的に設計され得る。DOE法の説明は、Diamond,W.J.(2001)Practical Experiment Designs:for Engineers and Scientists,John Wiley & Sonsにおいて、そして「Practical Experimental Design for engineers and Scientist」、William J Drummond(1981)Van Nostrand Reinhold Co New York,「Statistics for experimenters」George E.P.Box,William G HunterおよびJ.Stuart Hunter(1978)John Wiley and Sons,New Yorkにおいて,または、例えば、itl.nist.gov/div898/handbook/のワールド・ワイド・ウェブで見出すことが可能である。関連の数学を行うのに利用可能ないくつかのコンピューターパッケージがあり、これにはStatistics Toolbox(MatLab)、JMP、Statistica and Statease Design expertが挙げられる。この結果は、本発明の配列活性モデルを構築するのに適している配列の、系統的に変換された、そして直交性に分散されたデータセットである。DOEに基づくデータセットは、Plackett−BurmanまたはFractional Factorial designs.Idのいずれかを用いて容易に生成され得る。
操作および化学的な化学では、例えば、一部実施要因計画を用いて、(完全分画デザインにおいてよりも)より少ない実験を規定し、ここでは、2つ以上のレベルの間で、ある要因を変化させる(切り替える)。最適化技術を用いて、選択された実験は、因子空間の不一致を説明するのにおける最大の情報であることを確認する。同じデザインアプローチ(例えば、一部実施要因、D−最適計画)をタンパク質操作に割り当てて、より小さい配列を構築し、ここで所定の数の位置を2つ以上の残基の間で切り替える。このセットの配列は、問題になっているタンパク質配列スペースに存在する系統的な分散の最適の説明である。
タンパク質操作に適用したDOEアプローチの例としては、以下の操作が挙げられる:
1)前に記載された原理(親の配列における存在、保存のレベル、など)に基づいて切り替えるための位置を同定する;
2)要因の数(可変位置)、レベルの数(各々の位置での選択)、および行う実験の数を規定することによって、市販の統計学的に利用可能なパッケージの1つを用いるDOE実験を作成する。出力マトリクスの情報内容(代表的には、各々の位置での残基選択に相当する1sおよび0sからなる)は、行われる実験の数(多いほどよい)に直接依存する;
3)出力マトリクスを用いて、各々の位置での特定の残基選択に対する1sおよび0sの戻りをコードするタンパク質アラインメントを構築する;
4)タンパク質アラインメントに示されるタンパク質をコードする遺伝子を合成する;
5)関連のアッセイ(単数または複数)において、合成遺伝子によってコードされるタンパク質を試験する;
6)試験された遺伝子/タンパク質に対するモデルを構築する;
7)前に記載された工程に従って、重要な位置を同定し、そして改善された適合度を有する引き続くライブラリを構築する。
例示の目的で、たとえば各々の位置で利用可能な2つの可能性のあるアミノ酸が存在する場合、20位置での機能的にベストのアミノ酸残基が決定されるタンパク質を考慮する。この場合には、レソルーション(resolution)IV要因配置実験(factrial design)が適切である。レソルーション(resolution)IV計画は、全ての単一の変数の効果を解明し得るものとして規定され、ここでは重複するそれらに影響する2因子はない。次いで、このデザインは、全部で220(約百万)の可能性のある配列をカバーする、40個の特定のアミノ酸のセットを同定する。次いで、これらの配列を、標準的な遺伝子合成プロトコールによって生成し、これらのクローンの機能および適合度を決定する。
上記のアプローチに対する代替は、全ての利用可能な配列、例えば、GenBank(登録商標)データベースおよび他の公的な供給源を使用して、タンパク質改変体ライブラリを提供することである。これは、大規模な演算能力を必要とするが、現在の技術は、実行可能なアプローチを達成する。全ての利用可能な配列をマッピングさせることによって、目的の配列スペース領域の開始を得る。
(B.配列活性モデルを作製する工程、およびバリエーションについての残基位置を同定するためにそのモデルを使用する工程)
上記のとおり、本発明で用いられる配列活性モデルは、タンパク質配列情報をタンパク質活性に対して関係させる。このモデルによって用いられるこのタンパク質配列情報は、多くの形態を利用する。高頻度に、これは、タンパク質中のアミノ酸残基の完全な配列、例えば、HGPVFSTGGA....である。しかし、ある場合には、完全なアミノ酸配列を提供することは必要ではないかもしれない。例えば、特定の研究労力において変化されるべき残基のみを提供するだけで十分であるかもしれない。例えば、研究の後期段階では、多くの残基を固定してもよいし、配列スペースの限られた領域のみが探索され続けてもよい。このような状況では、探索を続けるタンパク質の領域における残基の同定のみを入力として要する、配列活性モデルを提供することが便利であり得る。さらに、いくつかのモデルは、この残基位置で残基の正確な同定は必要としないかもしれないが、代わりに、特定の残基位置でアミノ酸を特徴付ける1つ以上の物理的または化学的な特性を同定し得る。例えば、このモデルは、バルク、疎水性、酸性度などによって残基位置の同定を要し得る。いくつかのモデルでは、このような特性の組み合わせが使用される。
配列活性モデルの形態は、配列情報に基づくタンパク質の関連の活性を正確に近似するためのビヒクルを提供する限り、広範に変化してもよい。一般には、従属変数として活性を、そして独立変数として配列/残基の値を処理する。モデルの数学的/論理的形態の例としては、種々の次数の線形および非線形の数学的式、ニューラル・ネットワーク、分類および回帰ツリー/グラフ、クラスタ化アプローチ、再帰分割、サポート・ベクタ・マシンなどが挙げられる。1つの好ましい実施形態では、このモデル型は、線形の加法モデルであって、係数および残基の値の積を合計する。別の好ましい実施形態では、このモデル型は、特定の残基の外積(残基の間の相互作用項に相当する)を含む、種々の配列/残基の項の非線形の積である。
活性と配列との間の数学的/論理的な関係を提供するための配列情報に対する活性のトレーニングセットからモデルを開発する。この関係は代表的には、新規な配列の活性または残基の重要性を予測するための使用の前に確証される。
モデルを生成するための種々の技術が利用可能である。高頻度には、このような技術は最適化または最小化技術である。特異的な例としては、部分最小自乗、種々の他の回帰技術、および遺伝子プログラミング最適化技術、ニューラル・ネットワーク技術、再帰分割、サポート・ベクタ・マシン技術、CART(分類および回帰ツリー)および/またはその他が挙げられる。一般には、この技術は、活性に対して有意な影響を有する残基を、そうでない残基から識別し得るモデルを生成するはずである。好ましくは、このモデルはまた、活性に対するそれらの影響に基づく個々の残基(単数または複数)位置をランク付けするはずである。
1つの重要なクラスの技術では、トレーニングセットにおける独立変数および従属変数の共分散を同定する回帰技術によってモデルが生成される。種々の回帰技術が公知であり、そして広範に用いられる。例としては、多重線形回帰(MLR)、主成分回帰(PCR)および部分最小自乗回帰(PLS)が挙げられる。
MLRは、これらの技術の最も基本的なものである。これによってトレーニングセットのメンバーについて1セットの係数式を簡単に解く。各々の式は、特定の位置での特定の残基の有無(独立変数)とともに、トレーニングセットのメンバー(従属変数)の活性に関する。トレーニングセットにおける残基位置の数に依存して、これらの発現は、かなり大きくてもよい。
MLRと同様、PLSおよびPCRは、残基の値に対する配列活性に関する式からモデルを生成する。しかし、これらの技術は、異なる方式でそのように生成する。それらは、独立変数の数を減らせるために最初に座標変換を行う。次いで、それらは、変換された変数に対して回帰を行う。MLRでは、潜在的に大量の独立変数がある:トレーニングセット内で変化する各々の残基位置について2つ以上。目的のタンパク質およびペプチドはしばしば、かなり大きく、そしてトレーニングセットは、多くの異なる配列を提供し得ることを考慮すれば、独立変数の数は、急速に極めて大きくなり得る。データセットにおけるほとんどのバリエーションを提供するものに対して集中するように変数の数を減少させることによって、PLSおよびPCRは一般に、より少ないサンプルしか必要とせず、そしてモデルを作製するという問題を簡単にする。
PCRは、PLS回帰と同様であって、ここでは実際の回帰は、生の独立変数(残基の値)の座標変換によって得られた比較的少数の潜在的変数で行なわれる。PLSとPCRとの間の相違は、PCRにおける潜在的変数が、独立変数(残基の値)の間で共分散を最大化することによって構築される。PLS回帰では、独立変数と従属変数(活性値)との間で共分散を最大化するような方法で、潜在的変数を構築する。部分最小自乗回帰は、Hand,D.J.ら(2001)Principles of Data Mining(Adaptive Computation and Machine Learning)、Boston,MA,MIT Pressにおいて、そしてGeladiら(1986)「Partial Least−Squares Regression:a Tutorial」Anal.Chim.Acta,198:1〜17に記載されている。これらの参照配列の両方とも、全ての目的のために参考によって、本明細書に援用されている。
PCRおよびPLSでは、回帰の直接の結果は、重み付けされた潜在的変数の関数である、活性の式である。この式は、潜在的変数をもとの独立変数に戻す変換をする座標変換を行うことによって、もとの独立変数の関数として活性についての式に変換され得る。
本質的には、PCRもPLSも両方とも、まずトレーニングデータセットに含まれる情報の次元を低下させ、次いで、変換されたデータセットに対する回帰分析を行う。これは、新しい独立変数を作成するために変換されているが、もとの独立変数値を保存する。データセットの変換されたバージョンは、回帰分析を行うための比較的少ない式のみを生じ得る。これを、次元の低下が行われない状況と比較する。その状況では、バリエーションが存在し得る各々の別の残基を考慮しなければならない。これは、極めて大きいセットの係数であってもよい。係数2、ここでNは、トレーニングセットにおいて変化し得る残基位置の数である。代表的な主成分分析では、わずか3、4、5、6の主成分が使用される。
機械学習技術がトレーニングデータを適合する能力はしばしば、「モデル・フィット(model fit)」と呼ばれ、そして、回帰技術、例えば、MLR、PCRおよびPLSでは、測定値と予測値との間の相違平方和(sum squared difference)によって代表的に測定される。所定のトレーニングセットについては、最適のモデル・フィットは常に、MLRを用いて達成され、PCRおよびPLSはしばしば悪いモデル・フィット(測定値と予測値との間の誤差平方和がさらに高い)を有する。しかし、PCRおよびPLSのような潜在性変数回帰技術を用いることの主な利点は、このようなモデルの予測能力に依存する。極めて小さい誤差平方和を有するモデル・フィットを得ることは、このモデルが、トレーニングセットにおいてみられていない新規なサンプルを正確に予測可能であることを、決して保証するものではない。実際に、これはしばしば、特に多くの変数があり、そして観察(サンプル)がごくわずかである場合には、反対の状況である。従って、潜在性変数回帰技術(PCR、PLS)は、しばしば、トレーニングデータに対して悪いモデル・フィットを有するが、通常はさらに強固であって、トレーニングセット以外の新規なサンプルをさらに正確に予測できる。
本発明に従うモデルを生成するために用いられ得る別のクラスのツールは、サポート・ベクタ・マシンである。これらの数学的ツールは、活性に基づいて2つ以上の群に分類されている、配列のトレーニングセットを入力として採用する。サポート・ベクタ・マシンは、トレーニングセットの「活性(active)」および「不活性(inactive)」メンバーを隔てる超平面インターフェース(hyperplane interface)に対してそれらがどれほど近いかに別々に依存して、トレーニングセットの異なるメンバーを異なって重み付けすることによって動作する。この技術では、どのトレーニングセットのメンバーが活性な群に配置され、そしてどのトレーニングセットのメンバーが不活性な群に配置されるかを最初に科学者が決定することを要する。これは、トレーニングセットの活性なメンバーと不活性なメンバーとの間の境界として働く活性の適切な数学的な値を選択することによって達成され得る。この分類から、サポート・ベクタ・マシンは、ベクトルWを生成し、これは、トレーニングセットにおける活性および不活性な基の配列を規定する独立変数の個々の1つについての係数値を提供し得る。これらの係数は、本明細書のいずれかに記載されるような個々の残基を「ランク付けする(rank)」ために用いられ得る。この技術は、その平面の反対側の上の最もせまいトレーニングセットメンバーの間の距離を最大化する超平面を同定することを試みる。別のバリエーションでは、サポート・ベクタ・回帰モデリングを行う。この場合、独立変数は、連続的活動値のベクトルである。サポート・ベクタ・回帰モデルは、係数ベクトルWを生成し、これは個々の残基をランク付けするために用いられ得る。
SVMは、多くの研究において大きなデータセットを探すために用いられており、そしてDNAマイクロアレイの分野ではかなりポピュラーである。それらの潜在的な長所としては、どの要因がサンプルをお互いから隔てるかを詳細に識別する(重み付けによる)能力が挙げられる。どの残基が機能に寄与するかをSVMが正確に引き出し得る限りでは、これは、本発明に従う残基をランク付けするための特に有用なツールであり得る。SVMは、全ての目的のために参考によって本明細書に援用される、S.Gunn(1998)「Support Vector Machines for Classification and Regressions」、Technical Report,Faculty of Engineering and Applied Science,Department of Electronics and Computer Science,University of Southamptonに記載される。
目的の別のモデルの生成技術は、遺伝的プログラミングである。この技術は、トレーニングセットのデータを特徴付ける式および規則を発見するためにDarwinianスタイルの進化を使用する。これは、本明細書に記載されるタイプの回帰問題で用いられ得る。背景にある効果は、線形であっても非線形であってもよい。遺伝的プログラミングは、全ての目的のために参考によって本明細書に援用される、R.Goodacreら(2000)「Detection of the Dipicolinic Acid Biomarker in Bacillus Spores Using Curie−Point Pyrolysis Mass Spectrometry and Fourier Transform Infrared Spectroscopy」、Anal.Chem.,72,119〜127に記載される。遺伝的プログラミングを行うためのソフトウェアツールの例としては、Aber Genomic Computing Ltd of Wales,UKから入手可能な「GMAX」および「GMAX−Bio」が挙げられる。
(i)線形モデルの例
本発明は、非線形モデルに関するが、これらは、活性に対する配列の線形モデルの文脈ではさらに容易に理解され得る。従って、線形モデルの形態および開発をここに記載する。一般には、活性対配列の線形回帰モデルは以下の式を有する:
Figure 2008503589
この線形の式では、yは予測される応答であるが、cijおよびxijは、それぞれ、この配列におけるiの位置で残基選択を示すために用いられる、回帰係数およびビット値またはダミー変数である。タンパク質改変体ライブラリの配列にはNの残基位置が存在し、これらの各々は、1つ以上の残基によって占有され得る。任意の所定の位置では、j=1〜Mで、別の残基タイプがあり得る。このモデルは、あらゆる位置で残基の間の線形(相加的な)の関係を想定する。式1の展開バージョンは以下のとおりである:
Figure 2008503589
示されるとおり、活性および配列情報の形態でのデータは、最初のタンパク質改変体ライブラリ由来であり、そしてモデルの回帰係数を決定するために用いられる。ダミー変数は最初に、タンパク質改変体配列のアラインメントから同定される。アミノ酸残基位置は、タンパク質改変体配列であって、その位置におけるアミノ酸残基が配列間で異なるタンパク質改変体配列の中から同定される。これらの改変残基位置のいくつかまたは全てにおけるアミノ酸残基情報は、配列活性モデルに取り込まれてもよい。
表Iは、10個の例示的な改変体タンパク質についての可変残基位置および残基タイプの形態の配列情報を、お互いの改変体タンパク質に相当する活性値とともに含む。全ての係数について解くために十分な式を作成するために必要である、代表的なメンバーの大きいセットが存在することが理解される。従って、例えば、表Iにおける例示的なタンパク質改変体配列について、位置10、166、175および340は、可変残基位置であり、そして全ての他の位置、すなわち、表に示されない位置は、改変体1〜10の間で同一である残基を含む。
Figure 2008503589
など。
従って、式1に基づいて、回帰モデルは、表Iにおける系統的に変化されたライブラリ由来であってもよい、すなわち、
Figure 2008503589
ビット値(×ダミー変数)は、示されたアミノ酸残基の有無、あるいは、1、もしくは−1、またはいくつかの他の代用表示として1または0のどちらかで呈示され得る。例えば、1または0の記号を用いて、X10Alaは、改変体1については「1」、そして改変体2については「0」である。1もしくは−1の記号を用いて、X10Alaは、改変体1については「1」、そして改変体2については「−1」である。従って、回帰係数は、ライブラリにおける全ての改変体についての配列活性情報に基づいて、回帰方程式から誘導され得る。改変体1〜10についてのこのような式の例(xについては1または0の記号を用いる)は以下のとおりである:
Figure 2008503589
Figure 2008503589
式の完全なセットを、回帰技術(例えば、PCR、PLSまたはMLR)を用いて容易に溶解して、目的の各々の残基および位置に相当する回帰係数についての値を決定することができる。この実施例では、回帰係数の相対的な大きさは、活性に対して特定の位置で特定のその残基の寄与の相対的な大きさに相関する。次いで、回帰係数は、どの残基が所望の活性に都合よく寄与する可能性がより高いかを決定するために、ランク付けされるか、そうでなければ分類されてもよい。表IIは、表Iに例示される系統的に変化されたライブラリに相当する例示的な回帰係数の値を示す。
Figure 2008503589
回帰係数のランク順序付けリストは、所望の活性(すなわち、適合度の改善)に関して最適化される、タンパク質改変体の新規なライブラリを構築するために用いられ得る。これは、種々の方法で行われてもよい。1つの場合には、最高値が観察された係数を有するアミノ酸残基を保持することによって達成され得る。これらは、回帰モデルによって、所望の活性に対して最も寄与することが示された残基である。負の記述子を使用して、残基(例えば、ロイシンについて1、グリシンについて−1)を同定する場合、係数の絶対値に基づいて残基位置をランク付けすることが必要になる。このような状況では、各々の残基について代表的には単一の係数しか存在しないことに注意のこと。係数の大きさの絶対値によって、対応する残基位置のランク付けが得られる。次いで、それらの各々が所望の活性に関して有害であるか有益であるかを決定するために、個々の残基のサインを考慮することが必要になる。
(ii)非線形モデル
非線形モデリングを使用して、タンパク質中の活性に寄与する残基間の相互作用を説明する。N−Kのランドスケープはこのタンパク質を描写する。パラメーターNは、関連のポリペプチド配列のコレクションにおける可変残基の数をいう。パラメーターKは、これらのポリペプチドのいずれかの中の個々の残基の間の相互作用を示す。相互作用は通常は、ポリペプチドの一次構造、二次構造または三次構造のいずれかにおける種々の残基の間の緊密な物理的近接の結果である。相互作用は、直接相互作用、間接相互作用、物理化学相互作用、折り畳み中間体に起因する相互作用、翻訳効果などに起因し得る。
パラメーターKは、K=1の値について、各々の可変残基(例えば、それらのうち20が存在する)がその配列における正確に1つの他の残基と相互作用するように規定される。全ての残基が物理的および化学的に他の全ての残基の影響から隔てられている場合、Kの値はゼロである。明らかに、ポリペプチドの構造に依存して、Kは、広範な種々の値を有し得る。問題になっているポリペプチドの厳格に解かれた構造を考慮すれば、Kの値は評価され得る。しかし、しばしばこれは事実とは異なる。
ポリペプチド活性の純粋に線形の相加モデル(上記のとおり)は、2つ以上の残基の間の特異的な相互作用に相当する1つ以上の非線形相互作用項を含むことによって、改良され得る。上記で示されるモデル形態の状況では、これらの項は、有意な正の影響または負の影響を活性に対して有するように相互作用する2つ以上の特定の残基(各々が、この配列における特定の位置に関連する)に相当する2つ以上のダミー変数を含む「外積(cross−products)」として描写される。例えば、外積項は、cab型を有してもよく、ここでxは、配列上の特定の位置で特定の残基の存在に相当するダミー変数であり、そして変数xは、ポリペプチド配列における種々の位置(第一の位置と相互作用する)での特定の残基の存在を示す。このモデルの詳細な例の形態は以下に示す。
外積項に呈示される全ての残基の存在(特異的に同定された位置での残基の各々2つ以上の特異的なタイプ)が、このポリペプチドの全体的な活性に影響する。この影響は、多くの異なる方法で明らかになり得る。例えば、あるポリペプチドに単独で存在する残基が、活性に対して負の影響を有し得る場合、各々の個々の残基が相互作用するが、それらの各々がこのポリペプチドに一緒に存在する場合、その全体的な効果は正である。この反対が、他の場合には真であり得る。さらに、相乗効果が生じ得、ここでは個々の残基単独の各々が活性に対して比較的限られた影響を有するが、それらの全てが存在する場合、活性に対する影響は、全ての個々の残基の累積効果よりも大きい。
非線形モデルは配列における相互作用する可変残基のあらゆる可能性のある組み合わせについての外積項を含むことが可能である。しかし、これは、物理的な現実性を示さない、なぜなら、可変残基のあるサブセットのみがお互いと実際に相互作用するからである。さらに、これは、このモデルを作成するために用いられる特定のポリペプチドの発現であるウソの結果を与え、このポリペプチド内の本当の相互作用を示さないモデルを生じる「オーバーフィッティング(overfitting)」を生じる。物理的な現実性を示し、オーバーフィッティングを避けるモデルについての外積項の正確な数は、Kという値によって示される。例えば、K=1である場合、外積相互作用項の数はNに等しい。
一般には、多すぎるのではなく少なすぎる外積項を有することの方が、より好ましいかもしれないことに注意のこと。非線形モデルに含まれる比較的小さい外積項が、実際には、活性に対して最大の影響を有するものであるならば、小さすぎるものを有するほうが明らかに好ましい。明らかなはずであるように、非線形モデルを構築するには、活性に対して有意な影響を有する真の構造的な相互作用を示す外積相互作用項を同定することが重要である。これは、種々の方法で達成され得る。これらとしては、以下が挙げられる:候補の外積項(最大の回帰係数を有する項で開始して、小さい回帰係数を有する項に進行する)が、項の追加がもはや統計学的に有意でなくなる時点(F検定またはいくつかの他の適切な統計的検定によって測定される場合)まで最初の線形のみのモデル1に加えられるフォワード・アディション(forward addition);全ての可能性のある外積項を開始時に追加して、除去最小重要性残留項(the least important remaining term)が統計的に有意である時点まで(最小回帰係数を有する項で開始して、最大回帰係数を有する項に進行する)1つを取り除く、リバース・エリミネーション(reverse elimination)。以下に示される1例は、有用な非線形項を同定するための遺伝的アルゴリズムの使用を包含する。
一般には、このような相互作用項を含む非線形モデルを生成するアプローチは、線形モデルを生成するために上記されたアプローチと同じである。言い換えれば、トレーニングセットは、あるモデルに対してデータを「適合する、あてはめる、フィットする(fit)」ために使用される。しかし、1つ以上の非線形項は、好ましくは、上記で考察される外積項が、このモデルの形に追加される。さらに、得られた非線形モデルは、上記の線形モデルと同様、ポリペプチドの全体的活性に対する種々の残基の重要性をランク付けするために使用され得る。種々の技術は、非線形式によって予測されるとおり可変残基の最高の組み合わせを同定し得る。不幸にも、線形の場合とは異なり、相加的モデルの単純な検査によってこれを達成することはしばしば不可能である。残基をランキングするためのアプローチが下に記載される。
わずか2つの残基によって生じる相互作用に限定される場合でさえ、可変残基について非常に多数の可能性のある外積項が存在することに注意のこと。さらなる相互作用が生じる場合、非線形モデルについて考慮する潜在的な相互作用の数は、指数関数方式で増大する。このモデルが、3つ以上の残基を含む相互作用の可能性を含む場合、潜在的な項の数は、さらに急速にさえ増大する。
20の可変残基が存在しK=1である単純な場合(各々の可変残基は1つの他の可変残基と相互作用すると仮定する)、このモデルでは20の相互作用項(外積)が存在するはずである。少ない場合、このモデルは、相互作用を完全には描写せず(ただし、この相互作用のいくつかは、活性に対して有意な影響を有し得ない)、そして任意のさらに多いモデルおよびこのモデルがデータセットにオーバーフィットし得る。N*(N−1)/2または190個の相互作用の潜在的な対が存在する。この配列における20の相互作用を描写する20個の固有の対の組み合わせを見出すことは、重大な計算問題である。約5.48×1026個の可能性のある組み合わせが存在する。
多くの技術を使用して、関連の外積項を同定し得る。問題のサイズおよび利用可能な計算能力に依存して、全ての可能性のある組み合わせを探索して、それによってこのデータ(トレーニングセットの数)に最適にあてはまる1つのモデルを同定することが可能であり得る。しかし、しばしば、この問題は、利用可能なコンピューター・リソースには大きすぎて、そのため当業者は、効率的な検索アルゴリズムまたは近似式に頼らなければならない。言及されるとおり、1つの適切な検索技術は、遺伝的アルゴリズムである。
遺伝的なアルゴリズムでは、適切な適合度関数および適切な交配手順が規定される。この適合度関数は、どのモデル(外積項の組み合わせ)が「最も適合する(most fit)」(すなわち、最高の結果を与える可能性が高い)か、を決定するための基準を提供する。この交配手順によって、前の生成における首尾よい「親の(parental)」モデルから外積項の新規な組み合わせを導入するための機構が提供される。外積項の組み合わせを同定するための遺伝的アルゴリズムの1例は、図2を参照してここに記載される。このアルゴリズムは、そのいくつかは、他のよりも代表的な物理的実現性のさらに良好なジョブを行う、複数の可能性のあるモデルを含む第一世代で開始する。ブロック201を参照のこと。第一および各々の後続的世代は、ある「集団(population)」における多数のモデルとして呈示される。各々の「モデル(model)」は、線形項(全てのモデルにまたがって固定)および非線形外積項の組み合わせである。この「モデル(model)」は、この遺伝的アルゴリズムにおいて、個々の線形および非線形項についての係数を内因的に含まず、非線形項(例えば、外積項)の組み合わせの同定のみを含む。遺伝的アルゴリズムは、各々が非線形相互作用項の種々の組み合わせによって特徴付けられる、モデルの後ろに続く世代を通じた進行によって収束にむかって前進する。
ある世代における各々のモデルを用いて、ポリペプチドのトレーニングセット(公知の配列および関連の活性を有する)を適合させる。トレーニングセットを用いて、現在の世代の個々のモデルを適合させる。図2のブロック203、205、207および209を参照のこと。1実施例では、部分最小自乗技術または同様の回帰技術を用いて適合を行う。
得られたモデルの予測力(トレーニングデータセットに対する回帰によって得られる係数を含む)は、適合度関数として用いられる。予測力の詳細な評価を得るために、モデルの多くの異なる適合度が、所定のトレーニングセットについて提供され得る。ブロック205、207および209を参照のこと。各々の適合によって、検討中のモデルの線形および非線形項について係数値のそれ自体の固有のセットが得られる。1つのアプローチでは、「1つ除外(リーブ・ワン・アウト)(leave one out)」アプローチが使用され、このアプローチではトレーニングセットの1つを除く全メンバーを用いてこのモデルを適合させる。次いで、この1除外メンバーを用いて、モデルの得られた実例の予測力を試験する。このモデル実例(適合によって同定された係数値と一緒のモデル項)は、それを生成するために使用されるトレーニングセットメンバーの活性を予測するという良好なジョブを行うと期待される。しかし、トレーニングセットの利用されたメンバー以外からのポリペプチドの活性を予測するのはそれほどうまく行えないかもしれない。特異的な実施形態では、複数の「リーブ・ワン・アウト(1つ除外)」モデル実例を生成して、各々をそれがこの除外メンバーの活性を予測する能力について評価する。得られたセットの予測を組み合わせて、予測能力の総計の測定を得る(ブロック211を参照のこと)。1実施例では、この凝集測定は、現在のモデルの種々の1つ除外(リーブ・ワン・アウト)モデル実例についての予測剰余自乗和(predicted residual sum of squares)(PRESS)である。このPRESSは、事実上、遺伝的アルゴリズムの適合度関数である。
特定の生成における非線形の外積項(モデル)の各々の組み合わせをその予測力について評価した後(すなわち、決定213が、否定で回答される)、遺伝的アルゴリズムを収束についてチェックする。ブロック215を参照のこと。遺伝的アルゴリズムがまだ収束されていないと仮定すれば、現在の生成のモデルがランク付けされる。予測活性の最高のジョブを行うものは、保存されて、次の世代で用いられてもよい。ブロック217を参照のこと。例えば、10%というエリティズム・レート(elitism rate)を使用してもよい。換言すれば、モデルのトップ10%(適合度関数を用いて決定され、そして例えば、PRESSスコアによって測定されるとおり)を除外しておいて、次の世代のメンバーにする。次の世代におけるメンバーの残りの90%を、前の世代からの「親(parent)」と交配することによって得る。ブロック219、221および223を参照のこと。
「親(parents)」は、前の世代からランダムに選択されたモデルである。ブロック219を参照のこと。しかし、ランダム選択は代表的には、前の世代のさらに適合した数に向かって重み付けられる。例えば、親のモデルは、線形重み付け(例えば、別のモデルよりも1.2倍良好に行うモデルは、選択される可能性が20%大きい)、または幾何学的重み付け(すなわち、モデルの予測相違は、選択の確率を得るために力が向上される)を用いて選択され得る。
親のモデルのセットが選択された後、このようなモデルの対をマッチさせて(ブロック221)、1つの親からいくつかの非線形項を、そして他の親から他の非線形項を提供することによって子モデルを生成する。1つのアプローチでは、2つの親の非線形項(外積)を整列させて、各々の項は引き続いて、その子が親A由来の項を採用すべきであるか、または親B由来の項を採用すべきであるかを決定するとみなされる。1つの実行では、交配プロセスは、親Aで開始して、「クロス・オーバー(cross over)」事象が遭遇された最初の非線形項で生じるはずであるかどうかを無作為に決定する。もしそうであるならば、この項は親Bから採用される。もしそうでないならば、この項は、親Aから採用される。次の項は、連続して、クロス・オーバーなどについてみなされる。この項は、クロス・オーバー事象が生じるまでは検討中の前の項を提供する親に継続して由来する。その時点では、次の項は他の親から提供され、そして全ての継続項は、別のクロス・オーバー事象が生じるまでその親から与えられる。同じ非線形外積項が、子のモデルにおいて2つの異なる位置で選択されないことを確実にするために、種々の技術、例えば、部分的にマッチしたクロス・オーバー技術を使用してもよい。
各々の非線形項が考慮された後、子の「モデル」が次の世代のために規定される。次いで、別の2つの親を選択して、別の子モデルなどを作成する。最終的には、この方式で完全な世代が選択された後(ブロック223)、次の世代は評価のために準備され、次いでプロセス・コントロールがブロック203に戻り、ここで次の世代の数が上記のように評価される。
このプロセスは、収束まで世代ごとに継続し、すなわち、決定ブロック215は、否定で回答される。その時点で、トップにランクされたモデルは、全体的なベストのモデルとして現在の世代から選択される。ブロック225を参照のこと。収束は、多くの従来の技術によって試験され得る。一般には、これは、多数の連続する世代由来のベストのモデルの能力は感知できるほど変化しないということの決定を包含する。
この時点では、配列からの活性を予測するモデルにおいて非線形外積項を組み込む値を示すためにある例が呈示される。以下の非線形モデルを考慮するが、このモデルでは、この配列における各々の可変位置にわずか2つの残基選択肢しかないと仮定される。この例では、このタンパク質配列は、それぞれ、+1および−1を用いて、選択肢Aまたは選択肢Bに相当するダミー変数を用いることによって、コードされた配列にキャスティングされる。このモデルは、各々の残基選択を割り当てるためにいずれの数値的な値が用いられるかという恣意的な選択に影響されない。
Figure 2008503589
このコードスキームを考慮して、活性を有するタンパク質配列に関連付けるために用いられる線形モデルは、以下のとおり記載され得る:
Figure 2008503589
ここでyは、応答(活性)であり、cはn位置での残基選択のための回帰係数、xはn位置での残基選択(+1/−1)をコードするダミー変数、そしてcは応答の平均値である。この形態のモデルは、可変残基の間に相互作用がないと仮定する−各々の残基選択は、このタンパク質の全体的適合度に対して独立して寄与する。
この非線形モデルは、残基の間の相互作用を説明するための、ある特定の数(まだ決定されていない)の外積項を含む。
Figure 2008503589
ここでは、変数は、式(3)のものと同じであるが、ここでは、非線形項があり、例えば、c1,2は、変数位置1と2との間の相互作用についての回帰定数である。
線形および非線形のモデルの能力を評価するために、NKランドスケープ(Kauffman,1993)として公知の合成データ源を用いた。言及されるとおり、Nは、シミュレートされたタンパク質の可変位置の数であり、そしてKは、残基の間の上位性のカップリングである。合成のデータセットはインシリコでのみ生成された。
このデータセットを用いて、最初のトレーニングセットを生成し、ここではS=40の合成サンプル、N=20の可変位置、そしてK=1である(反復するためには、K=1について各々の可変位置は、1つの他の可変位置に対して機能的にカップリングされる)。無作為化されたタンパク質を生成するには、各々の可変位置は、+1または−1というダミー変数を含むという等しい確率を有した。残基間の相互作用(外積によって示される)および現実の活性は、合成トレーニングセットの各々のメンバーについて既知である。別のV=100のサンプルを、バリデーションにおける使用のために生成した。ここでも、残基間の相互作用および活性はまた、バリデーションセットの各々の数について既知である。
このトレーニングセットを用いて、上記の方法を用いる線形および非線形の両方のモデルを構築する。いくつかの非線形モデルを、(上記のような遺伝的アルゴリズムを用いて)外積項の選択によって作成し、そして他の非線形モデルは、このような項の選択なしに作成した。S=40というトレーニングセットサイズについては、線形モデルは、この測定されたそして予測された値を合理的に十分相関させ得るが、データに対してバリデートされた場合、トレーニングセットにみられない弱い相関が実証される(図3Aを参照のこと)。示されるとおり、黒塗りのデータポイントは、トレーニングセットにおける他の39個のデータポイントに基づいて線形モデルによって作成された相互検証予測を示しており、単一の提出データポイントを予測する。従って、黒塗りのデータポイントによって示される正確に40個のわずかに異なるモデルが存在する。白抜きのデータポイントは、そのどれもがオリジナルのトレーニングセットには見られなかった、40個のトレーニングサンプルから構築された単一のモデルによって作成され、そしてバリデーションサンプルVを予測するために用いられた予測を示す。次いで、バリデーションセットの使用によって、下記の非線形の場合について特に、モデルオーバーフィット問題を被り得る、相互検証されたトレーニングセットとは反対に、モデルの真の予測能力の良好な測定が得られる。
S=40についてのこの結果は、この線形モデルが非線形適合ランドスケープをモデル化するために用いられたことを考慮すれば、興味深い。この場合、線形モデルは、多くとも、所定の残基の選択についての適合のために平均寄与を捕獲し得る。これらの十分な平均寄与を一緒に考慮すれば、線形モデルは、測定された応答をおおまかに予測し得る。線形モデルのバリデーション結果は、トレーニングサイスがS=100まで増大された場合、わずかに優れていた(図3Bを参照のこと)。次いで、アンダーフィット・データに対する比較的単純なモデルの傾向はバイアスについて既知である。
わずかS=40のサンプルを用いて非線形モデルをトレーニングした(そして20の非線形外積項を上記のような遺伝的アルゴリズムを用いて選択した)場合、トレーニングセットメンバーとの相関は、優れていた(図3Cを参照のこと)。不幸にも、このモデルは、このバリエーションセットにおける測定された値とのその限られた相関によって証明されるとおり、トレーニングセットの外側の限られた予測力を含んだ。多くの潜在的な変数(可能性として210)を有する、この非線形モデル、および適切な外積項の同定を容易にする限られたトレーニングデータは、それがトレーニングされたデータセットを本質的に単に記憶できた。このデータをオーバーフィットさせるための高い複雑性モデルの傾向は、分散として公知である。偏り分散(bias−variance)トレードオフは、機械学習における基本的な問題に相当し、そして新規なまたは特徴付けられていない機械学習問題に対処する場合、それに取り組むためには、いくつかの形態のバリデーションが、ほとんどいつも必要である。満足なことに、より大きいロレーニングセット(S=100)については、この非線形モデルは、トレーニング予測、およびさらに重要なことには、バリデーション予測の両方について非常に十分に行った(図3Dを参照のこと)。このバリデーション予測は、ほとんどのデータポイントが、トレーニングセットをプロットするための黒丸の使用によって不明瞭であるほど良かった。
比較のために、図3Eおよび図3Fは、外積項の注意深い選択なしに調製された非線形モデルの能力を示す。図3Cおよび図3Dにおけるモデルと異なり、あらゆる可能性のある外積項を選択した(すなわち、N=20について190外積項)。理解されるとおり、バリデーションセット活性を予測する能力は、外積項の選択で得られる非線形モデルのものと比較して比較的乏しい。これはオーバーフィッティングの発現である。
(iii)モデル予測配列を改変することによって最適化されたタンパク質改変体ライブラリを作成する工程
単独の最高に予測されたタンパク質を簡単に合成するのではなく、各々の位置で残基選択における変化に対して最高のタンパク質の鋭敏な分析に基づいて、タンパク質のコンビナトリアルライブラリを生成し得る。所定の残基選択が、予測されたタンパク質について鋭敏であるほど、その予測された適合度変化は大きくなる。当業者は、これらの感度を最高から最低にランク付けし得、そして感度スコアを用いて、感受性に基づいてこれらの残基を取り込むことによって、引き続く回においてコンビナトリアルタンパク質ライブラリを作製する。線形モデルについては、感度は、このモデルにおける所定の残基項に関連する係数のサイズを単純に考慮することによって同定され得る。非線形モデルでは、これは、不可能である。代わりに、残基感度は、単独の残基が「ベスト」予測配列で変化される場合、活性における変化を算出するためのモデルを用いることによって決定され得る。
残基は、それらがランク付けされる順序で考慮される。検討中の各々の残基については、このプロセスは、その残基を「切り替える(toggle)」か否かを決定する。「切り替える」という用語は、最適化されたライブラリにおけるタンパク質改変体の配列における特定の位置への複数のアミノ酸残基タイプの導入をいう。例えば、セリンは、1つのタンパク質改変体において166位置で出現し得るが、フェニルアラニンは、同じライブラリにおいて別のタンパク質改変体における位置166で出現し得る。トレーニングデータセットにおけるタンパク質改変体配列の間で変化しないアミノ酸残基は代表的には、最適化されたライブラリにおいて固定されたままである。
最適化されたタンパク質改変体ライブラリは、全ての同定された「高(high)」ランクの回帰係数残基が固定され、そして残りの低いランクの回帰係数の残基が切り替えられるように設計され得る。この論理的根拠は、「ベスト(best)」予測タンパク質を囲む局所スペースを検索するべきであるということである。切り替えが導入される出発点「骨格(backbone)」は、あるモデルによって予測されるベストのタンパク質、またはスクリーニングされたライブラリ由来の既に確証された「ベストの」タンパク質であり得ることに注意のこと。
別のアプローチでは、少なくとも1つ以上、ただし同定された高ランクの回帰係数の残基の全てではないものが、最適化されたライブラリにおいて固定されて、その他が切り替えられてもよい。一回で多すぎる変化を組み込むことによって、他のアミノ酸残基の状況を劇的に変化させないことが所望される場合に、このアプローチが推奨される。ここでも、切り替えのための出発ポイントは、モデルによって予測される残基のベストのセットであっても、または既存のライブラリ由来のベストのバリデートされたタンパク質であってもよい。または、出発ポイントは十分にモデリングする「平均(average)」クローンであってもよい。この場合、重要性がより高いことが予測される残基を切り替えることが所望され得る。この論理的根拠は、当業者が、サンプリングから前に省かれた活性ヒルについての検索において大きいスペースを探索すべきであるということである。このタイプのライブラリは代表的には、初期の回ではさらに関連性である。なぜなら、引き続く回についてさらに洗練されたピクチャを生成するからである。
上記の方法論に対する代替は、どの残基を切り替えるかを決定するのにおける残基重要性(ランキング)を用いるための異なる手順を包含する。このような代替の1つでは、より高度にランク付けされた残基位置ほど切り替えについて積極的に好まれる。このアプローチで必要な情報としては、トレーニングセットからのベストのタンパク質の配列、PLSまたはPCR予想ベスト配列およびPLSまたはPCRモデルからの残基のランキングが挙げられる。「ベストの(best)」タンパク質とは、データセットにおけるウエットラボ(wet−lab)でバリデートされた「ベストの」クローンである(やはり十分にモデリングする最高の測定機能を有する、すなわち、相互検証(クロス確認)における予測値に比較的近くになる、クローン)。この方法は、このタンパク質由来の各々の残基と、所望の活性の最高値を有する「ベスト予測」配列由来の対応する残基とを比較する。最高のロードまたは回帰係数を有する残基が、「ベストの」クローンには存在しない場合、この方法は、引き続くライブラリの切り替え位置としてその位置を紹介する。この残基がベストのクローンに存在する場合、この方法は、切り替え位置としてこの位置を処置せず、そして次の位置を連続して動かす。このプロセスは種々の残基について繰り返されて、このライブラリが十分なサイズに生成されるまで、連続的な低いロード値を通じて動く。
保有するための回帰係数残基の数、および切り替える回帰係数残基の数は、変化してもよい。考慮する要因としては、所望のライブラリサイズ、回帰係数の間の相違の大きさ、および非線形性が存在すると考えられる程度が挙げられる−小さい(中性)の係数を有する残基を保持することは、進化のその後の回における重要な非線形性を明らかにすることができる。本発明の代表的な最適化されたタンパク質改変体ライブラリは、約2個のタンパク質改変体を含み、このNは、2つの残基間で切り替えられる位置の数に相当する。別の方法を言えば、各々のさらなる切り替えによって追加される多様性によって、ライブラリのサイズは2倍にされ、その結果10の切り替え位置によって、約1,000クローン(1,024)、13の位置は約10,000クローン(8,192)そして20の位置は約1,000,000クローン(1,048,576)が生じる。適切なサイズのライブラリは、スクリーニングのコストのような要因、ランドスケープの耐久性、スペースの好ましいサンプリングパーセンテージなどに依存する。ある場合には、比較的多数の荷電された残基によって、クローンの異常に大きい割合が非機能的であるライブラリが生じることが見出されている。従って、いくつかの適用では、切り替えるための残基数は約2〜約30の範囲、すなわち、ライブラリサイズは約4そして230〜約10クローンの範囲であることが推奨され得る。
実際には、当業者は、同時に種々の引き続く回のライブラリストラテジーを探究し得る。このときこのいくつかのストラテジーは、より攻撃的(より「有益な(beneficial)」残基を固定する)であって、他のストラテジーは、より保守的である(このスペースをより徹底的に探索することを期待してより「有益」でない残基を固定する)。
ほとんどの天然に存在するか、または他の首尾よいペプチドにおいて生じる、基または残基または「モチーフ(motifs)」を同定し保存することが所望され得る。例えば、天然に存在するペプチドにおいてIleは可変位置3で常に、可変位置11でValとカップリングされることが見出され得る。このような残基群は、ペプチドにおける保存活性に対して重要であり得ることが見出されている。それ故、1実施形態では、このような群の保存は、任意の切り替えストラテジーにおいて必要である。言い換えれば、わずかな受容された切り替えは、ベースタンパク質における特定の分類を保存する切り替えであるか、または活性タンパク質においてもまた見出される異なる分類を生成する切り替えである。後者の場合、2つ以上の残基を切り替えることが必要である。
種々のアプローチでは、現在最適化されたライブラリにおける、ウエット・ラボでバリデート確証した「ベストの」(または2〜3のベストのうちの1つ)タンパク質(すなわち、最高であるタンパク質、または2〜3の最高のうちの1つ、やはり十分にモデリングする機能を測定した、すなわち、相互検証(クロス確認)における予測値に比較的近くになる)は、変化の種々のスキームが組み込まれる骨格として機能し得る。別のアプローチでは、十分モデリングされ得ない現在のライブラリにおける、ウエット・ラボでバリデート(確証)した「ベストの」(または2〜3のベストのうちの1つ)タンパク質が、変化の種々のスキームが組み込まれる骨格として機能し得る。他のアプローチでは、所望の活性の最高値(または最高値の1つ)を有することが配列活性モデルによって予測される配列が、骨格として機能し得る。これらのアプローチでは、「次世代(next generation)」ライブラリ(そして可能性としては、対応するモデル)についてのデータセットは、ベストのタンパク質の1つまたは2〜3において残基を変化することによって得られる。1実施形態では、これらの変化は、骨格中における残基の系統的な変化を含む。ある場合には、この変化は、種々の変異誘発性、組み換えおよび/または部分列選択技術を含む。これらの各々は、インビトロ、インビボまたはインシリコで行われ得る。
最適の配列は線形モデルによって予測され、上記の検査によって同定されてもよいが、同じことは非線形モデルには当てはまらない。特定の残基が線形および外積項の両方で出現し、そして他の残基の多くの潜在的な組み合わせの状況における活性に対する全体的な影響は、困難な問題を示し得る。
非線形モデルについての外積項の選択と同様に、非線形モデルによって予測される最適の配列は、モデルを用いて全ての可能性のある配列を試験すること(十分なコンピューター・リソースを仮定する)、または遺伝的アルゴリズムのような検索アルゴリズムによって同定され得る。1つの例示的な遺伝的アルゴリズムが記載される。
このアルゴリズムでは、適合度関数は、単に、活性の非線形モデルの予測である。特定の実施例では、約5〜10%というエリティズム・レート(elitism rate)を使用する。交配のための親の選択は、線形の重み付けされた適合操作を包含する。この選択された親は、順序付けされたセットの残基を提供し、そして均一なクロス・オーバー(cross over)操作が使用される。ベストのコンピューター作成タンパク質は、少なくとも15世代の間改善がみられなかった後に拾い上げられる。
上記のように同定された、コンピューター進化されたタンパク質に含まれる情報は、実験室で新規なタンパク質を合成し、それらを物理的なアッセイに対して試験するために用いられ得る。現実的なウエット・ラボの適合度関数の正確なインシリコ呈示によって、研究者らは、この実験室においてスクリーニングするために必要な進化のサイクルの回数または改変体の数を減少させることが可能である。最適化されたタンパク質改変体ライブラリは、本明細書に記載される組み換え方法を用いて、あるいは、遺伝子合成法によって、続いて、インビボまたはインビトロの発現によって、生成され得る。最適化されたタンパク質改変体ライブラリを所望の活性についてスクリーニングした後、それらは配列決定され得る。図1の考察において上記されるとおり、最適化されたタンパク質改変体ライブラリからの活性および配列の情報は、別の配列活性モデルであって、それからさらに最適化されたライブラリが設計され得る配列活性モデルを、本明細書に記載の方法を用いて、生成するために使用され得る。1アプローチでは、この新規なライブラリ由来の全てのタンパク質をデータセットの一部として用いる。
(iv)代替的なモデリング選択肢
上記のアプローチに対する複数の他のバリエーションは、本発明の範囲内である。1例として、xij変数は、アミノ酸の物理的特性または化学的特性の提示であり、アミノ酸自体の正確な同一性ではない(ロイシン対バリン対プロリン、...)。このような特性の例としては、親油性、バルクおよび電気的特性(例えば、形式電荷、ファン・デル・ワールス表面積関連部分電荷など)が挙げられる。このアプローチを実行するために、アミノ酸残基に相当するxij値は、この特性から構築されたそれらの特性または主成分に関して呈示され得る。
別のバリエーションでは、xij変数は、アミノ酸残基ではなくヌクレオチドに相当する。この目標はタンパク質改変体ライブラリのタンパク質をコードする核酸配列を同定することである。アミノ酸ではなくヌクレオチドを用いることによって、当業者は、単なる特定の活性以外のパラメーターに対して最適化し得る。例えば、特定の宿主またはベクターにおけるタンパク質発現は、ヌクレオチド配列の関数であり得る。2つの異なるヌクレオチド配列が、1つのアミノ酸配列を有するタンパク質をコードしてもよいが、ヌクレオチド配列の1つは、より多い量のタンパク質を発現するか、そして/またはさらに活性な状態のタンパク質を発現する。アミノ酸配列ではなくヌクレオチド配列を用いることによって、本発明の方法は、発現特性を、例えば、特異的な活性と同様に最適化し得る。
特定の実施形態では、ヌクレオチド配列はコドンとして示される。モデルは、ヌクレオチド配列の原子単位としてコドンを使用し得、その結果この予測活性は、ヌクレオチド配列における種々のコドンの関数である。各々のコドンは全体的なヌクレオチド配列におけるその位置で一緒になって、配列活性モデルを生成するための独立変数として機能する。所定のアミノ酸についての異なるコドンは、所定の生物体において異なって発現することに注意のこと。さらに詳細には、各々の生物体は、所定のアミノ酸について、好ましいコドン、またはコドン頻度の分布を有する。独立変数としてコドンを用いることによって、本発明はこれらの優先度を説明する。従って、本発明は、発現改変体のライブラリを生成するために用いられ得る(例えば、「活性(activity)」とは、特定の宿主生物体からの発現レベルを包含する)。
特定の方法のアウトラインは、以下の操作を包含する:(a)タンパク質改変体のトレーニングセットを特徴付けるデータを受容する工程;(b)このデータから、ヌクレオチドタイプの関数として活性を予測する非線形の配列活性モデルを構築する工程、およびこのヌクレオチド配列における位置に対応させる工程;(c)配列活性モデルを用いて、所望の活性に対する影響順でヌクレオチド配列中の特定の位置でヌクレオチド配列中の位置および/またはヌクレオチドのタイプをランク付けする工程;および(d)このランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべき、ヌクレオチド配列における、1つ以上のヌクレオチドを同定する工程。示されたとおり、変化されるべきヌクレオチドは好ましくは、特定のアミノ酸をコードするコドンである。
上記のアプローチの他のバリエーションは、残基をランク付けするか、そうでなければそれらを重要性に関して特徴づけるための種々の技術の使用を包含する。線形モデルでは、回帰係数の大きさを用いて、残基をランク付けした。大きい規模を有する係数を有する残基(例えば、166Ile)は、高ランク残基とみられた。この特徴付けを用いて、タンパク質改変体の新しい最適化されたライブラリの生成において特定の残基を変化するか否かを決定する。非線形モデルに関しては、感度分析はさらに複雑であった。
PLSおよび他の技術は、特定の残基または残基位置をランク付けするために用いられ得る、回帰係数の大きさを上回る他の情報を提供する。PLSおよび主成分分析(Principle Component Analysis)(PCA)またはPCRのような技術は、主成分または潜在的ベクトルの形態で情報を提供する。これらは、本発明において使用されるタンパク質配列活性スペースのような多次元データセットを通じて最大バリエーションの方向またはベクトルを示す。これらの潜在的ベクトルは、種々の配列寸法の関数である。すなわち、トレーニングセットを構築するために用いられる改変体ライブラリのタンパク質配列を含む個々の残基または残基位置である。従って、潜在的ベクトルは、トレーニングセットにおける各々の残基位置からの寄与の合計を含む。いくつかの位置は、このベクトルの方向に対してさらに強力に寄与する。これらは、比較的大きい「ロード(loads)」、すなわちこのベクトルを記載するために用いられる係数によって、明らかになる。単純な例として、トレーニングセットは、トリペプチドからなってもよい。第一の潜在的ベクトルは代表的には、3つ全ての残基からの寄与を有する。
ベクトル1=a1(残基位置1)+a2(残基位置2)+a3(残基位置3)
この係数a1、a2およびa3はロードである。これらはデータセットにおけるバリエーションに対して残基位置を対応させるという重要性を反映するので、それらは、上記のように、「切り替え(toggling)」決定の目的のための個々の残基位置の重要性をランク付けするために用いられ得る。ロードは、回帰係数と同様に、各々の切り替え位置で残基をランク付けするために用いられ得る。種々のパラメーターがこれらのロードの重要性を記載する。このようなバリアブル・インポータンス・イン・プロジェクション(Variable Importance in Projection)(VIP)のいくつかは、トレーニングセットからとられた複数の潜在的ベクトルについてのロードからなる、ロード・マトリクス(load matrix)を利用する。PLSプロジェクション(PLS Projection)のためのバリアブル・インポータンス(Variable Importance)において、この変数(例えば、残基位置)の重要性は、VIP(プロジェクションにおける可変重要性)を算出することによって計算される。所定のPLS次元について、(VIN)ak は、ある変数のPLS重みの自乗(wakに、そのPLS次元によるy(従属変数、例えば、特定の関数)における説明可変性パーセントを掛けたものに等しい。(VIN)ak は、全てのPLS寸法(成分)にまたがって合計される。次いでVIPは、この合計を、PLSモデルによって説明されるyにおける総可変性パーセントで割って、このモデルにおける変数の数を掛けることによって算出される。1より大きい、大きいVIPを有する変数は、特定の関数(y)との相関について最も関係しており、従って、切り替え決定を行う目的のために最高にランク付けされる。
本発明の別の実施形態は、単に活性に対するその予測寄与の大きさによって残基をランク付けするのではなく、同様に、それらの予測寄与における信頼によってランク付けする技術を使用する。ある場合には、研究者らは、係数または主成分の偽の値を懸念する。
さらに統計学的に厳格なアプローチでは、このランキングは、大きさおよび分布の組み合わせに基づく。大きさおよび緊密な分布の両方を伴う係数によって最高のランキングが得られる。ある場合には、別のものよりも小さい1係数は、有するバリエーションが少ないせいで、より高いランキングを与えられ得る。従って、本発明のいくつかの実施形態は、大きさおよび標準の偏差または分散の両方に基づいて残基またはヌクレオチドをランク付けする。種々の技術を用いてこれを達成することができる。これらのうちの1つ、ブートストラップp値アプローチがここで記載されている。
ブートストラップ法を使用する方法の例は、図4に示される。ここで示すとおり、方法125は、ブロック127で開始し、ここでオリジナルのデータセットSが提供される。これは、上記のようなトレーニングセットであってもよい。例えば、これは、上記の方式のいずれか1つにおいて、出発配列の個々の残基を系統的に変化させることによって生成され得る。方法125の例では、このデータセットSは、分析における使用のためのMの異なるデータポイント(アミノ酸またはヌクレオチド配列から収集された活性および配列の情報)を有する。
データセットSから、種々のブートストラップセットBが作成される。これらの各々は、(全てがオリジナルのセットSから採用された)Mメンバーの新しいセットを作成するためのセットSからの、置換を伴う、サンプリングによって得られる。ブロック129を参照のこと。「置換を伴う(with replacement)」状態は、オリジナルのセットSに対するバリエーションを生じる。この新しいブートストラップセットBは、時に、Sからの複製サンプルを含む。そして、これはまた、Sにもともと含まれる特定のサンプルを欠いてもよい。
例えば、100配列のセットSを考慮する。この方法で用いられる各々のブートストラップセットBは、それ自体100の配列を含む。ブートストラップセットBは、オリジナルのセットSにおける100の配列由来の100のメンバーの配列の各々を無作為に選択することによって作成される。従って、いくつかの配列は2回以上選択され、そしてその他は全く選択されないことが可能である。
現在考慮中のブートストラップセットBを用いて、次にこの方法はあるモデルを構築する。ブロック131を参照のこと。このモデルは、PLS、PCR、SVM、遺伝的プログラミングなどを用いて、上記のように構築され得る。このモデルは、セットB由来の種々のサンプルに見出される残基またはヌクレオチドについてのランキングの係数または他の兆候を提供する。ブロック133に示されるとおり、これらの係数または他の兆候は、引き続く使用のために記録される。
次に、決定ブロック135では、この方法は、別のブートストラップセットが作成されるべきか否かを決定する。もし、イエスならば、この方法は、ブロック129に戻り、ここで新規なブートストラップBが上記のとおり作成される。もしノーならば、この方法は、下で考察されるブロック137に進行する。ブロック135での決定は、どれほど多くの異なるセットの係数値が、それらの値の分布を評価するのに用いられるべきであるか次第である。セットBの数は、正確な統計を得るのに十分でなければならない。1例として、100〜1000のブートストラップセットを調製して、分析する。これは、方法125のブロック129、131および133を通じた約100〜1000の通過として示される。
十分な数のブートストラップセットBが、上記のように調製されて分析された後、決定135は、否定で回答される。示されたとおり、次いでこの方法はブロック137に進行する。ある係数のこれらの平均および標準偏差(またはこのモデルによって生成される他の指標)は、係数値(例えば、それらのうち100〜1000、各々のブートストラップセット由来の1)を用いて、各々の残基またはヌクレオチド(コドンを含む)について計算される。この情報から、この方法は、t統計値を算出し、そして測定された値がゼロとは異なる信頼区間を決定し得る。t統計値から、信頼区間についてのp値を算出する。この場合、p値が小さいほど、測定された回帰係数がゼロとは異なる信頼は大きい。
p値は、多くの異なるタイプの特徴づけのうちの1つに過ぎないが、これは、残基重要性の係数または他の指標における統計的バリエーションを説明し得ることに注意のこと。例としては、回帰係数の95パーセント信頼区間を算出する工程、および95パーセント信頼区間がゼロの線と交差する、考慮のために任意の回帰係数を排除する工程が挙げられる。基本的に、標準偏差、分散または他のデータ分析の統計的に関連する測定を説明する任意の特徴づけが用いられ得る。このような特徴づけは好ましくはまた、係数の大きさを説明する。
大きい標準偏差は、種々の原因由来であり得る。1つの原因は、このデータセットにおける測定の乏しさである。別の原因は、オリジナルのデータセットにおける特定の残基またはヌクレオチドの呈示が限られていることである。この後者の場合、いくつかのブートストラップセットは、特定の残基の出現もヌクレオチドの出現も含まない。このような場合、その残基についての係数の値はゼロである。他のブートストラップセットは、残基またはヌクレオチドの少なくともいくつかの出現を含み、そして対応する係数のゼロでない値を与える。しかしゼロ値を与えるセットは、係数の標準偏差を比較的大きくさせる。これによって係数値の信頼が低下し、結果としてランクが低くなる。しかし、検討中の残基またはヌクレオチドに対して比較的小さいデータが存在するとすれば、これは予測されることである。
次に、ブロック139で、この方法は、より低い(ベスト)のp値から最高(最悪)のp値まで回帰係数(または他の指標)をランク付けする。このランキングは、回帰係数自体の絶対値と高度に相関しており、これは、この絶対値が大きいほど、標準偏差がゼロから除かれるという事実のせいである。従って、所定の標準偏差については、p値は、回帰係数が大きくなるにつれて小さくなる。しかし、絶対ランキングは、常に両方のp値と同じではなく、そして純粋な偏差法が、特に比較的少ないデータポイントの場合、セットSで開始するのに利用可能である。
最終的に、ブロック141で示されるとおり、この方法は、ブロック139の操作において観察されるランキングに基づいて特定の残基を固定および切り替える。これは本質的に、他の実施形態について上記されるランキングの同じ用途である。1アプローチでは、この方法は、ベストの残基(ここでは最低のp値を有する残基)を固定し、そしてその他(最高のp値を有する残基)を切り替える。
この方法125は、十分に機能することがインシリコで示されている。さらに、p値ランキングアプローチは通常は、単一または2〜3のインスタンス残基を取り扱い、p値は一般に、より高い(悪い)。なぜならブートストラッププロセスでは、もとのデータセットにしばしば出現しない残基は、ランダムに拾い上げられる可能性は低いからである。それらの係数が大きい場合でさえ、それらの可変性(標準偏差で測定)は、同様にかなり高い。本能的に、これは所望の結果である。なぜなら、十分呈示されていない残基(十分な頻度でみられていないか、または低い回帰係数を有するかのいずれか)は、次回のライブラリデザインにおける切り替えのための良好な候補であり得るからである。
(III.デジタル装置およびシステム)
明らかであるはずなように、本発明の実施形態は、1つ以上のコンピューターシステムに記憶されるか、またはそれを通じて移動される命令および/またはデータの制御下で作用するプロセスを使用する。本発明の実施形態はまた、これらの作業を行うための装置に関する。このような装置は、特別に設計されてもよいし、そして/または必要な目的のために構築されてもよく、あるいはコンピュータープログラムおよび/またはそのコンピューターに記憶されたデータ構造によって選択的に活性化されるかまたは再構成された一般的な目的のコンピューターであってもよい。本明細書に呈示されるプロセスは、いかなる特定のコンピューターにも他の装置にも本質的に関連しない。詳細には、種々の一般的目的の機械は、本明細書の教示に従って記載されるプログラムとともに用いられ得る。しかし、いくつかの場合には、必要な方法操作を行うための専門的な装置を構築することがさらに好都合であり得る。種々のこれらの機械についての特定の構造は、以下に示される説明から明らかである。
さらに、本発明の実施形態は、種々のコンピューター実行操作を行うためのプログラム命令および/またはデータ(データ構造を含む)を含む、コンピューター読み取り可能な媒体、またはコンピュータープログラム製品に関する。コンピューター読み取り可能な媒体の例としては、限定はしないが、磁気媒体、例えば、ハードディスク、フロッピー(登録商標)ディスク、磁気テープ;光学メディア、例えば、CD−ROMデバイスおよびホログラフィックデバイス;光磁気媒体;半導体記憶デバイス、およびプログラム命令を記憶して行うために特別に構成されているハードウェアデバイス、例えば、読み取り専用メモリデバイス(ROM)およびランダム・アクセス・メモリ(RAM)、および時には特定用途向け集積回路(ASIC)、プログラム可能論理回路(PLD)およびコンピューター読み取り可能な命令を送達するためのシグナル伝達媒体、例えば、ローカル・エリア・ネットワーク、広域ネットワーク、およびインターネットが挙げられる。本発明のデータおよびプログラム命令はまた、キャリア搬送波または他の移動媒体(例えば、可視光線、送電線、および/または電波)上で実現され得る。
プログラム命令の例としては、コンパイラによって生成されるような下層コード、およびインタープリターを用いてコンピューターによって実行され得る高レベルコードを含むファイルの両方が挙げられる。さらに、プログラム命令は、機械コード、ソースコードおよび本発明に従うコンピューター装置の操作を直接または間接的に制御する任意の他のコードを含む。このコードは、入力、出力、計算、条件制御、分岐、反復ループなどを同定し得る。
1実施例では、本発明の方法を実現するコードは、適切に構成されたコンピュータ・デバイスにロードされた場合、このデバイスが1つ以上の文字列上で遺伝的演算子を行うようにさせる、論理命令および/またはデータを含む固定媒体または伝達性プログラムコンポーネント中で実現される。図5は、例示的なデジタルデバイス500であって、媒体517、ネットワークポート519、ユーザ入力キーボード509、ユーザ入力511、または他の入力手段からの命令を読み取り得る論理的装置であることが理解されるべきである、デジタルデバイス500を示す。装置500はその後に、データスペースにおける統計的な操作を指示する命令を用いて、例えば、1つ以上のデータセットを構築し得る(例えば、データスペースの代表的な複数のメンバーを決定し得る)。本発明を実現し得る論理的装置の1タイプは、CPU507と、選択的なユーザ入力デバイスであるキーボード509と、GUIポインティング・デバイス511を含むコンピューターシステム500、ならびに末端成分、例えば、ディスクデバイス515およびモニター505(これは、GO改変文字列を示し、そしてこのような文字列のサブセットのユーザによる簡易化選択を提供する)におけるようなコンピューターシステムである。固定媒体517は必要に応じて、全体的システムをプログラムするために用いられ、そしてこれには、例えば、ディスク型の光学媒体または磁気メディアまたは他の電気記憶装置エレメントを挙げることができる。通信ポート519は、このシステムをプログラムするために用いられ得、そして任意のタイプの通信接続を示し得る。
本発明はまた、特定用途向け集積回路(ASIC)またはプログラム可能論理回路(PLD)の回路内で実現され得る。このような場合には、本発明は、ASICまたはPLDを作成するために用いられ得るコンピューター読み取り可能な記述言語で実現される。本発明はまた、PDA、ラップトップ・コンピューター・システム、ディスプレイ、画像処理装置などのような種々の他のデジタル装置の回路または論理プロセッサ内で実現され得る。
(IV.他の実施形態)
前述の発明は、明確さおよび理解の目的のためにある程度詳細に記載されてきたが、形式および詳細における種々の変化が、本発明の真の範囲から逸脱することなくなされ得ることがこの開示を読めば当業者には明らかである。例えば、上記の全ての技術および装置は、種々の組み合わせで用いられ得る。本出願に引用される全ての刊行物、特許、特許出願、または他の文献は、あたかも各々の個々の刊行物、特許、特許出願または他の文献が全ての目的のために参照によって援用されると個々に示されるかのように、同じ程度まで全ての目的のためにその全体が参照によって援用される。
図1は、1つ以上の世代のタンパク質改変体ライブラリを生成するために用いられ得る、バリエーションについて特定の残基を同定する工程を包含する、操作の順序を示すフローチャートである。 図2は、本発明の実施形態に従って、非線形外積項を選択するための遺伝的アルゴリズムを示すフローチャートである。 図3Aは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図3Bは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図3Cは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図3Dは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図3Eは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図3Fは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。 図4は、本発明の実施形態に従って、タンパク質改変体ライブラリを生成するブートストラップ・p値法(bootstrap p−value method)を示すフローチャートである。 図5は、例示的なデジタルデバイスの模式図である。

Claims (54)

  1. 所望の活性に影響するためのタンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するための方法であって、
    (a)タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程であって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供する工程と;
    (b)該データから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびあるタンパク質配列における位置に対応させる工程であって、
    該配列活性モデルが、1つ以上の非線形項を含み、各々が該タンパク質配列における2つ以上のアミノ酸残基の間の相互作用を示す工程と;
    (c)所望の活性に影響を与えるバリエーションについて特定の位置で1つ以上のアミノ酸残基を同定するために該配列活性モデルを用いる工程と;
    を包含する、方法。
  2. 前記非線形項の少なくとも1つが外積項であり、該外積項が1つの相互作用する残基の存在を示す1つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む、請求項1に記載の方法。
  3. 前記配列活性モデルが、前記少なくとも1つの外積項および1つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基の存在を示す、請求項2に記載の方法。
  4. 前記配列活性モデルを構築する工程が、可能性がある外積項の群から1つ以上の外積項を選択する工程を包含する、請求項2に記載の方法。
  5. 前記1つ以上の外積項を選択する工程が、種々の外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項4に記載の方法。
  6. 前記タンパク質可変体ライブラリにおけるタンパク質改変体が、系統的に改変された配列を有する、請求項1に記載の方法。
  7. 系統的に改変された配列を同定するためにDOEを行なう工程をさらに包含する、請求項6に記載の方法。
  8. さらに、
    (d)前記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである1つ以上のアミノ酸残基を同定する工程、
    を包含する、請求項1に記載の方法。
  9. 前記タンパク質改変体ライブラリが、天然に存在するタンパク質またはそれから誘導されるタンパク質を含む、請求項1に記載の方法。
  10. 前記天然に存在するタンパク質が、単一の遺伝子ファミリーのメンバーによってコードされるタンパク質を含む、請求項9に記載の方法。
  11. 前記タンパク質改変体ライブラリが、組み換えに基づく多様性生成機構を用いることによって得られるタンパク質を含む、請求項1に記載の方法。
  12. 前記配列活性モデルが回帰モデルである、請求項1に記載の方法。
  13. 前記配列活性モデルを用いて1つ以上のアミノ酸残基を同定する工程が、組み換えに基づく多様性生成機構における使用のための配列を同定する工程をさらに包含し、該配列が(c)において同定される1つ以上のアミノ酸残基においてバリエーションを含む、請求項1に記載の方法。
  14. 前記配列活性モデルを用いる工程が、所望の活性の最高値を有することが該モデルによって予測される配列を同定する工程を包含する、請求項1に記載の方法。
  15. 前記配列活性モデルを用いて1つ以上のアミノ酸残基を同定する工程が、該配列活性モデルを用いて所望の活性に対する影響順で残基位置をランク付けする工程を包含する、請求項1に記載の方法。
  16. 前記モデルを用いる工程が、遺伝的アルゴリズムにおいて適合度関数としてモデルを用いる工程を包含する、請求項1に記載の方法。
  17. 前記遺伝的アルゴリズムを使用して、前記所望の活性の最高値を有することがモデルによって予測される配列を選択する、請求項16に記載の方法。
  18. 前記配列活性モデルを用いて、特定の位置で1つ以上のアミノ酸残基を同定する工程が、新規なタンパク質改変体ライブラリを生成するのにおける使用のための1つ以上の配列を同定する工程を包含する、請求項1に記載の方法。
  19. 新規なタンパク質改変体ライブラリを生成するのにおける使用のための前記1つ以上の配列が、1つ以上の同定されたアミノ酸残基のバリエーションをコードするオリゴヌクレオチド配列である、請求項18に記載の方法。
  20. 前記オリゴヌクレオチド配列が、(i)天然に存在する親のタンパク質のなかで最高の活性を有する天然に存在する親タンパク質、または(ii)該最高の活性を有することが前記配列活性モデルによって予測される配列、のうちの少なくとも一部をコードする、請求項19に記載の方法。
  21. 新規なタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて新規な配列活性モデルを構築する工程をさらに包含する、請求項18に記載の方法。
  22. 前記(c)において同定される1つ以上のアミノ酸残基が、前記活性モデル用いて予測される参照配列、または前記タンパク質改変体ライブラリのメンバーを記述する参照配列において同定される、請求項1に記載の方法。
  23. タンパク質改変体ライブラリの前記トレーニングセットが、DNA断片化媒介性組み換えまたは合成オリゴヌクレオチド媒介性組み換えを、1つ以上の天然に存在する親タンパク質の全てまたは一部をコードする核酸上で行うことによって得られたタンパク質を含む、請求項1に記載の方法。
  24. プログラム命令が与えられる機械読み取り可能な媒体を備えるコンピュータープログラム製品であって、該プログラム命令は、所望の活性に影響するタンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するためのものであって、該命令が、
    (a)タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容するためのコードであって、
    該データが該トレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供するコードと;
    (b)該データから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築し、あるタンパク質配列における位置に対応させるためのコードであって、
    該配列活性モデルが1つ以上の非線形項を含み、各々が該タンパク質配列中の2つ以上のアミノ酸残基の間の相互作用を示すコードと;
    (c)該配列活性モデルを用いて、所望の活性に影響を与えるバリエーションについて特定の位置で1つ以上のアミノ酸残基を同定するためのコードと、
    を備える、コンピュータープログラム製品。
  25. 非線形項の少なくとも1つが外積項であって、1つの相互作用する残基の存在を示す1つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む、外積項である、請求項24に記載のコンピュータープログラム製品。
  26. 前記配列活性モデルが、前記少なくとも1つの外積項および1つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基の存在を示す、請求項25に記載のコンピュータープログラム製品。
  27. 前記配列活性モデルを構築するための前記コードが、可能性がある外積項の群から1つ以上の外積項を選択するためのコードを含む、請求項25に記載のコンピュータープログラム製品。
  28. 前記1つ以上の外積項を選択するためのコードが、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項27に記載のコンピュータープログラム製品。
  29. さらに、
    (d)前記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである1つ以上のアミノ酸残基を同定するためのコード、
    を包含する、請求項24に記載のコンピュータープログラム製品。
  30. 前記配列活性モデルが回帰モデルである、請求項24に記載のコンピュータープログラム製品。
  31. 前記配列活性モデルを用いて1つ以上のアミノ酸残基を同定するためのコードが、組み換えに基づく多様性生成機構における使用のための配列を同定するためのコードをさらに包含し、該配列が(c)において同定される1つ以上のアミノ酸残基においてバリエーションを含む、請求項24に記載のコンピュータープログラム製品。
  32. 前記配列活性モデルを用いるためのコードが、所望の活性の最高値を有することがモデルによって予測される配列を同定するためのコードを包含する、請求項24に記載のコンピュータープログラム製品。
  33. 前記配列活性モデルを用いて1つ以上のアミノ酸残基を同定するためのコードが、該配列活性モデルを用いて所望の活性に対する影響順で残基位置をランク付けするためのコードを包含する、請求項24に記載のコンピュータープログラム製品。
  34. 前記モデルを用いるためのコードが、遺伝的アルゴリズムにおいて適合度関数としてモデルを用いるためのコードを包含する、請求項24に記載のコンピュータープログラム製品。
  35. 前記遺伝的アルゴリズムを使用して、前記所望の活性の最高値を有することがモデルによって予測される配列を選択する、請求項34に記載の方法。
  36. 前記配列活性モデルを用いて、特定の位置で1つ以上のアミノ酸残基を同定するためのコードが、新規なタンパク質改変体ライブラリを生成するのにおける使用のための1つ以上の配列を同定するためのコードを包含する、請求項24に記載のコンピュータープログラム。
  37. 新規なタンパク質改変体ライブラリを生成するのにおける使用のための前記1つ以上の配列が、1つ以上の同定されたアミノ酸残基のバリエーションをコードするオリゴヌクレオチド配列である、請求項36に記載のコンピュータープログラム製品。
  38. 新規なタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて新規な配列活性モデルを構築するためのコードをさらに包含する、請求項36に記載のコンピュータープログラム製品。
  39. 新規なタンパク質改変体ライブラリの1つ以上のメンバーを生成のために選択するためのコードをさらに包含する、請求項36に記載のコンピュータープログラム製品。
  40. 前記(c)において前記コードによって同定される1つ以上のアミノ酸残基が、前記活性モデル用いて予測される参照配列、または前記タンパク質改変体ライブラリのメンバーを記述する参照配列において同定される、請求項24に記載のコンピュータープログラム製品。
  41. 所望の活性に影響するためにタンパク質改変体ライブラリをコードする核酸におけるバリエーションについてヌクレオチドを同定するための方法であって、該方法が、
    (a)タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程であって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性およびヌクレオチド配列の情報を提供する工程と;
    (b)該データから、ヌクレオチドタイプの関数として活性を予測する配列活性モデルを構築する工程、および該ヌクレオチド配列における位置に対応させる工程であって、
    該配列活性モデルが1つ以上の非線形項を含み、各々がタンパク質配列中の2つ以上のアミノ酸残基の間の相互作用を示す工程と;
    (c)該配列活性モデルを用いて、所望の活性に対する影響順で該ヌクレオチド配列中の特定の位置でヌクレオチド配列中の位置および/またはヌクレオチドのタイプをランク付けする工程と、
    (d)該ランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべきヌクレオチド配列において、1つ以上のヌクレオチドを同定する工程と、
    を包含する、方法。
  42. 改変されるべきヌクレオチドが特定のアミノ酸をコードするコドンである、請求項41に記載の方法。
  43. 少なくとも1つの非線形項が外積項であって、1つの相互作用する残基をコードするコドンの存在を示す1つの変数と、異なる相互作用する残基をコードする別のコドンの存在を示す別の変数との積を含む、外積項である、請求項42に記載の方法。
  44. 前記配列活性モデルが、前記少なくとも1つの外積項および1つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基をコードするコドンの存在を示す、請求項43に記載の方法。
  45. 前記配列活性モデルを構築するための工程が、可能性がある外積項の群から1つ以上の外積項を選択する工程を包含する、請求項43に記載の方法。
  46. 前記1つ以上の外積項を選択する工程が、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項45に記載の方法。
  47. 前記活性が、核酸の発現の関数である、請求項41に記載の方法。
  48. 機械読み取り可能な媒体を備えるコンピュータープログラム製品であって、この媒体に対して、所望の活性に影響するタンパク質改変体ライブラリをコードする核酸におけるバリエーションについてヌクレオチドを同定するためのプログラムコードが提供され、該プログラムコードが:
    (a)タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容するためのコードであって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性およびヌクレオチド配列の情報を提供するコードと;
    (b)該データから、ヌクレオチドタイプの関数として活性を予測する配列活性モデルを構築し、該ヌクレオチド配列における位置に対応させるためのコードであって、
    該配列活性モデルが1つ以上の非線形項を含み、各々がタンパク質配列中の2つ以上のアミノ酸残基の間の相互作用を示すコードと;
    (c)配列活性モデルを用いて、所望の活性に対する影響順で該ヌクレオチド配列中の特定の位置で該ヌクレオチド配列中の位置および/またはヌクレオチドのタイプをランク付けするためのコードと、
    (d)該ランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべきヌクレオチド配列において、1つ以上のヌクレオチドを同定するためのコードと、
    を含む、コンピュータープログラム製品。
  49. 改変されるべきヌクレオチドが特定のアミノ酸をコードするコドンである、請求項48に記載のコンピュータープログラム製品。
  50. 前記少なくとも1つの非線形項が外積項であって、該外積項は、1つの相互作用する残基をコードするコドンの存在を示す1つの変数と、異なる相互作用する残基をコードする別のコドンの存在を示す別の変数との積を含む外積項である、請求項49に記載のコンピュータープログラム製品。
  51. 前記配列活性モデルが、前記少なくとも1つの外積項および1つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基をコードするコドンの存在を示す、請求項50に記載のコンピュータープログラム製品。
  52. 前記配列活性モデルを構築するためのコードが、可能性がある外積項の群から1つ以上の外積項を選択するためのコードを含む、請求項50に記載のコンピュータープログラム製品。
  53. 前記1つ以上の外積項を選択するためのコードが、種々の外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行するためのコードを含む、請求項52に記載のコンピュータープログラム製品。
  54. 前記活性が、核酸の発現の関数である、請求項48に記載のコンピュータープログラム製品。
JP2007518248A 2004-06-22 2005-06-21 機能的生体分子を同定するための方法、システムおよびソフトウェア Pending JP2008503589A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/874,802 US20050084907A1 (en) 2002-03-01 2004-06-22 Methods, systems, and software for identifying functional biomolecules
PCT/US2005/022119 WO2006002267A1 (en) 2004-06-22 2005-06-21 Methods, systems, and software for identifying funtional biomolecules

Publications (1)

Publication Number Publication Date
JP2008503589A true JP2008503589A (ja) 2008-02-07

Family

ID=35159678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007518248A Pending JP2008503589A (ja) 2004-06-22 2005-06-21 機能的生体分子を同定するための方法、システムおよびソフトウェア

Country Status (5)

Country Link
US (10) US20050084907A1 (ja)
EP (1) EP1761879B1 (ja)
JP (1) JP2008503589A (ja)
DK (1) DK1761879T3 (ja)
WO (1) WO2006002267A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014139787A (ja) * 2013-01-21 2014-07-31 International Business Maschines Corporation 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
KR20150113167A (ko) * 2013-01-31 2015-10-07 코덱시스, 인코포레이티드 승법형 모델을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어

Families Citing this family (154)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5605793A (en) * 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US7024312B1 (en) * 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7430477B2 (en) 1999-10-12 2008-09-30 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
CA2396320A1 (en) * 2000-01-11 2001-07-19 Maxygen, Inc. Integrated systems and methods for diversity generation and screening
US20050084907A1 (en) * 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
DK2315145T3 (en) 2002-03-01 2016-01-25 Codexis Mayflower Holdings Llc Methods, systems, and software for identifying the functional biomolecules
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7517494B2 (en) * 2003-04-30 2009-04-14 Hewlett-Packard Development Company, L.P. Test tray and test system for determining response of a biological sample
US8005620B2 (en) * 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering
WO2005013090A2 (en) * 2003-08-01 2005-02-10 Dna Twopointo Inc. Systems and methods for biopolymer engineering
US7844926B1 (en) * 2006-01-31 2010-11-30 Oracle America, Inc. Specification window violation identification with application in semiconductor device design
US8639445B2 (en) * 2007-07-23 2014-01-28 Microsoft Corporation Identification of related residues in biomolecular sequences by multiple sequence alignment and phylogenetic analysis
EP2205727B1 (en) 2007-10-01 2015-06-24 Codexis, Inc. Ketoreductase polypeptides for the production of azetidinone
HUE034642T2 (en) 2008-02-12 2018-02-28 Codexis Inc A method for selecting an optimized diverse population of variants
US8768871B2 (en) * 2008-02-12 2014-07-01 Codexis, Inc. Method of generating an optimized, diverse population of variants
US8426178B2 (en) * 2008-08-27 2013-04-23 Codexis, Inc. Ketoreductase polypeptides for the production of a 3-aryl-3-hydroxypropanamine from a 3-aryl-3-ketopropanamine
US8288141B2 (en) * 2008-08-27 2012-10-16 Codexis, Inc. Ketoreductase polypeptides for the production of 3-aryl-3-hydroxypropanamine from a 3-aryl-3-ketopropanamine
WO2010027710A2 (en) * 2008-08-27 2010-03-11 Codexis, Inc. Ketoreductase polypeptides and uses thereof
EP2329014B1 (en) 2008-08-29 2014-10-22 Codexis, Inc. Ketoreductase polypeptides for the stereoselective production of (4s)-3[(5s)-5(4-fluorophenyl)-5-hydroxypentanoyl]-4-phenyl-1,3-oxazolidin-2-one
US8247192B2 (en) 2008-11-10 2012-08-21 Codexis, Inc. Penicillin-G acylases
US8329438B2 (en) 2008-12-25 2012-12-11 Codexis, Inc. Enone reductases
JP5707344B2 (ja) 2009-02-26 2015-04-30 コデクシス, インコーポレイテッド トランスアミナーゼ生体触媒
CA2752818A1 (en) 2009-02-26 2010-09-02 Codexis, Inc. Beta-glucosidase variant enzymes and related polynucleotides
WO2010107644A2 (en) 2009-03-17 2010-09-23 Codexis, Inc. Variant endoglucanases and related polynucleotides
CA2757040C (en) 2009-03-31 2016-02-09 Codexis, Inc. Improved endoglucanases
EP2443235A4 (en) 2009-06-16 2013-07-31 Codexis Inc ß-glucosidase VARIANTS
US8921079B2 (en) 2009-06-22 2014-12-30 Codexis, Inc. Transaminase reactions
US8614081B2 (en) 2009-07-23 2013-12-24 Codexis, Inc. Nitrilase biocatalysts
EP2467473B1 (en) 2009-08-19 2016-03-23 Codexis, Inc. Ketoreductase polypeptides for the preparation of phenylephrine
US8785170B2 (en) 2009-09-04 2014-07-22 Codexis, Inc. Variant CBH2 cellulases and related polynucleotides
US8900847B2 (en) 2009-09-30 2014-12-02 Codexis, Inc. Polynucleotides encoding recombinant C1 beta-glucosidase for production of sugars from cellulosic biomass
US8916366B2 (en) 2009-11-20 2014-12-23 Codexis, Inc. Multi-cellulase enzyme compositions for hydrolysis of cellulosic biomass
RU2012126131A (ru) 2009-11-25 2013-12-27 Кодексис, Инк. РЕКОМБИНАНТНЫЕ ВАРИАНТЫ β-ГЛЮКОЗИДАЗЫ ДЛЯ ПРОДУКЦИИ РАСТВОРИМЫХ САХАРОВ ИЗ ЦЕЛЛЮЛОЗНОЙ БИОМАССЫ
SI2510089T1 (sl) 2009-12-08 2015-12-31 Codexis, Inc. Sinteza prazolnih spojin
WO2013003290A1 (en) 2011-06-28 2013-01-03 Codexis, Inc. Protein variant generation by region shuffling
WO2011123576A2 (en) 2010-03-31 2011-10-06 Codexis, Inc. Production of monoterpenes
HUE026367T2 (en) 2010-05-04 2016-06-28 Codexis Inc Biocatalysts of ezetimibe synthesis
EP2569426A4 (en) 2010-05-14 2013-10-09 Codexis Inc ZELLBIOHYDROLASE VARIANTS
EP2576804B1 (en) 2010-05-28 2016-12-14 Codexis, Inc. Pentose fermentation by a recombinant microorganism
US8932836B2 (en) 2010-08-16 2015-01-13 Codexis, Inc. Biocatalysts and methods for the synthesis of (1R,2R)-2-(3,4-dimethoxyphenethoxy)cyclohexanamine
CA2807702C (en) 2010-08-20 2018-07-24 Codexis, Inc. Use of glycoside hydrolase 61 family proteins in processing of cellulose
WO2012024662A2 (en) 2010-08-20 2012-02-23 Codexis, Inc. Expression constructs comprising fungal promoters
BR112013010812A2 (pt) 2010-11-02 2016-07-12 Codexis Inc composições e métodos para produção de açúcares fermentáveis.
ES2604114T3 (es) 2010-11-02 2017-03-03 Codexis, Inc. Cepas de hongos mejoradas
EP2649187B1 (en) 2010-12-08 2017-11-22 Codexis, Inc. Biocatalysts and methods for the synthesis of armodafinil
WO2012088159A2 (en) 2010-12-21 2012-06-28 Codexis, Inc. Endoglucanase variants
US8663962B2 (en) 2011-03-30 2014-03-04 Codexis, Inc. Pentose fermentation by a recombinant microorganism
EP2697662B1 (en) 2011-04-13 2018-06-06 Codexis, Inc. Biocatalytic process for preparing eslicarbazepine and analogs thereof
WO2013003219A1 (en) 2011-06-30 2013-01-03 Codexis, Inc. Pentose fermentation by a recombinant microorganism
EP2748317B1 (en) 2011-08-22 2017-04-19 Codexis, Inc. Gh61 glycoside hydrolase protein variants and cofactors that enhance gh61 activity
WO2013028278A1 (en) 2011-08-23 2013-02-28 Codexis, Inc. Cellobiohydrolase variants
WO2013036861A1 (en) 2011-09-08 2013-03-14 Codexis, Inc Biocatalysts and methods for the synthesis of substituted lactams
US20130084608A1 (en) 2011-09-30 2013-04-04 Codexis, Inc. Fungal proteases
IN2014CN04470A (ja) 2011-11-18 2015-09-04 Codexis Inc
WO2013096244A1 (en) 2011-12-20 2013-06-27 Codexis, Inc. Endoglucanase 1b (eg1b) variants
EP2794884A4 (en) 2011-12-20 2015-09-16 Codexis Inc FAT ALCOHOL PRODUCED ACYL REDUCTASE (VARIANTS) AND METHOD OF USE THEREOF
US20130252280A1 (en) * 2012-03-07 2013-09-26 Genformatic, Llc Method and apparatus for identification of biomolecules
CN104508126B (zh) 2012-03-23 2017-06-30 科德克希思公司 用于合成色胺和色胺类似物的衍生物的生物催化剂和方法
US20150133698A1 (en) 2012-04-20 2015-05-14 Codexis, Inc. Production of fatty alcohols from engineered microorganisms
HUE042605T2 (hu) 2012-05-08 2019-07-29 Codexis Inc Biokatalizátorok és kémiai vegyületek hidroxilálására szolgáló eljárások
WO2013170050A1 (en) 2012-05-11 2013-11-14 Codexis, Inc. Engineered imine reductases and methods for the reductive amination of ketone and amine compounds
US8980578B2 (en) 2012-06-11 2015-03-17 Codexis, Inc. Fungal beta-xylosidase variants
US9650655B2 (en) 2012-07-20 2017-05-16 Codexis, Inc. Production of fatty alcohols from engineered microorganisms
US9506087B2 (en) 2012-08-07 2016-11-29 Codexis, Inc. Glucose and xylose co-utilization in E. coli
CN104955949A (zh) 2012-11-20 2015-09-30 科德克希思公司 通过重组微生物的戊糖发酵
US9512447B2 (en) 2012-12-14 2016-12-06 Codexis, Inc. Modified native beta-ketoacyl-ACP synthases and engineered microorganisms
WO2014099730A1 (en) 2012-12-21 2014-06-26 Codexis, Inc. Engineered biocatalysts and methods for synthesizing chiral amines
EP2946006B1 (en) 2013-01-18 2019-04-10 Codexis, Inc. Engineered biocatalysts useful for carbapenem synthesis
DK2961844T3 (da) 2013-02-28 2019-01-02 Codexis Inc Modificerede transaminasepolypeptider til industriel biokatalyse
US9670493B2 (en) 2013-03-14 2017-06-06 Codexis, Inc. Low-phosphate repressible promoter
DK2986722T3 (da) 2013-04-18 2019-05-13 Codexis Inc Manipulerede phenylalaninammoniak-lyasepolypeptider
KR102423377B1 (ko) 2013-08-05 2022-07-25 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
CA2923755C (en) 2013-09-27 2023-03-14 Codexis, Inc. Automated screening of enzyme variants
US20150134315A1 (en) 2013-09-27 2015-05-14 Codexis, Inc. Structure based predictive modeling
JP6643987B2 (ja) 2013-11-13 2020-02-12 コデクシス, インコーポレイテッド ケトン化合物およびアミン化合物の還元的アミノ化のための操作されたイミンレダクターゼおよび方法
EP3145536B1 (en) 2014-04-16 2021-10-27 Codexis, Inc. Engineered tyrosine ammonia lyase
EP3167052B1 (en) 2014-07-09 2020-01-01 Codexis, Inc. P450-bm3 variants with improved activity
US10273229B2 (en) 2014-08-28 2019-04-30 Codexis, Inc. N-substituted 4-aminoquinazoline derivatives and methods of use
WO2016033304A1 (en) 2014-08-28 2016-03-03 Codexis, Inc. Imidazoyl anilide derivatives and methods of use
JP6719463B2 (ja) 2014-11-25 2020-07-15 コデクシス, インコーポレイテッド ケトン化合物およびアミン化合物の還元的アミノ化のための操作されたイミンレダクターゼおよび方法
US9747636B2 (en) 2014-12-08 2017-08-29 Bank Of America Corporation Enhancing information security using an information passport dashboard
PT3237621T (pt) 2014-12-22 2023-07-20 Codexis Inc Variantes da alfa-galactosidase humana
CA2975852A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
ES2830725T3 (es) 2015-02-10 2021-06-04 Codexis Inc Polipéptidos cetoreductasa para la síntesis de compuestos quirales
WO2016172377A1 (en) 2015-04-21 2016-10-27 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
SG11201708356PA (en) 2015-05-07 2017-11-29 Codexis Inc Penicillin-g acylases
DK3319987T3 (da) 2015-07-07 2021-06-21 Codexis Inc Nye p450-bm3-varianter med forbedret aktivitet
CN108368482A (zh) 2015-09-18 2018-08-03 特韦斯特生物科学公司 寡核酸变体文库及其合成
KR20180058772A (ko) 2015-09-22 2018-06-01 트위스트 바이오사이언스 코포레이션 핵산 합성을 위한 가요성 기판
CN108603307A (zh) 2015-12-01 2018-09-28 特韦斯特生物科学公司 功能化表面及其制备
US10379502B2 (en) * 2016-04-11 2019-08-13 Accenture Global Solutions Limited Control system with machine learning time-series modeling
EP3452940A4 (en) 2016-05-04 2020-01-01 Deep Genomics Incorporated METHODS AND SYSTEMS FOR THE PRODUCTION OF AN EXTENDED EXERCISE DATA SET FOR MACHINE LEARNING WITH BIOLOGICAL SEQUENCES
CN109715793A (zh) 2016-05-05 2019-05-03 科德克希思公司 青霉素-g 酰化酶
CN109715817B (zh) 2016-06-09 2022-12-09 科德克希思公司 用于化合物的羟基化的生物催化剂和方法
SG11201810998WA (en) 2016-06-15 2019-01-30 Codexis Inc Engineered beta-glucosidases and glucosylation methods
JP6854340B2 (ja) 2016-08-22 2021-04-07 ツイスト バイオサイエンス コーポレーション デノボ合成された核酸ライブラリ
JP7316662B2 (ja) 2016-08-26 2023-07-28 コデクシス, インコーポレイテッド 操作されたイミンレダクターゼ、ならびにケトン化合物およびアミン化合物の還元的アミノ化のための方法
KR102217487B1 (ko) 2016-09-21 2021-02-23 트위스트 바이오사이언스 코포레이션 핵산 기반 데이터 저장
EA201991262A1 (ru) 2016-12-16 2020-04-07 Твист Байосайенс Корпорейшн Библиотеки вариантов иммунологического синапса и их синтез
JP7019202B2 (ja) 2017-01-05 2022-02-15 コデクシス, インコーポレイテッド ペニシリンgアシラーゼ
WO2018144675A1 (en) 2017-02-03 2018-08-09 Codexis, Inc. Engineered glycosyltransferases and steviol glycoside glucosylation methods
CA3051262A1 (en) 2017-02-13 2018-08-16 Codexis, Inc. Engineered phenylalanine ammonia lyase polypeptides
EP3586255A4 (en) 2017-02-22 2021-03-31 Twist Bioscience Corporation NUCLEIC ACID-BASED DATA STORAGE
WO2018170169A1 (en) * 2017-03-15 2018-09-20 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
CN117511890A (zh) 2017-04-27 2024-02-06 科德克希思公司 酮还原酶多肽及多核苷酸
CA3062550A1 (en) 2017-05-08 2018-11-15 Codexis, Inc. Engineered ligase variants
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
CA3066744A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
US11359183B2 (en) 2017-06-14 2022-06-14 Codexis, Inc. Engineered transaminase polypeptides for industrial biocatalysis
WO2019005337A1 (en) 2017-06-27 2019-01-03 Codexis, Inc. PENICILLIN G ACYLASES
US10738286B2 (en) 2017-06-30 2020-08-11 Codexis, Inc. T7 RNA polymerase variants
JP2020530266A (ja) 2017-06-30 2020-10-22 コデクシス, インコーポレイテッド T7 rnaポリメラーゼバリアント
CA3075505A1 (en) 2017-09-11 2019-03-14 Twist Bioscience Corporation Gpcr binding proteins and synthesis thereof
GB2583590A (en) 2017-10-20 2020-11-04 Twist Bioscience Corp Heated nanowells for polynucleotide synthesis
CA3080512A1 (en) 2017-11-07 2019-05-16 Codexis, Inc. Transglutaminase variants
JP2021506252A (ja) 2017-12-13 2021-02-22 コデクシス, インコーポレイテッド アミドカップリングのためのカルボキシエステラーゼポリペプチド
JP7191448B2 (ja) 2018-01-04 2022-12-19 ツイスト バイオサイエンス コーポレーション Dnaベースのデジタル情報ストレージ
AU2019270243A1 (en) 2018-05-18 2021-01-07 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
US10900055B2 (en) 2018-06-12 2021-01-26 Codexis, Inc. Engineered tyrosine ammonia lyase
EP3820502A4 (en) 2018-07-09 2022-07-20 Codexis, Inc. MODIFIED PURINE NUCLEOSIDE PHOSPHORYLASE ENZYME VARIANT
CN112673091A (zh) 2018-07-09 2021-04-16 科德克希思公司 工程化泛酸激酶变体酶
CN112673105A (zh) 2018-07-09 2021-04-16 科德克希思公司 工程化脱氧核糖磷酸醛缩酶
KR20210031933A (ko) 2018-07-09 2021-03-23 코덱시스, 인코포레이티드 조작된 포스포펜토뮤타제 변이체 효소
WO2020014049A1 (en) 2018-07-09 2020-01-16 Codexis, Inc. Engineered galactose oxidase variant enzymes
EP3820833A4 (en) 2018-07-12 2022-08-03 Codexis, Inc. MODIFIED AMMONIA-LYASE PHENYLALANINE POLYPEPTIDES
KR20210040408A (ko) 2018-07-30 2021-04-13 코덱시스, 인코포레이티드 조작된 글리코실트랜스퍼라제 및 스테비올 글리코시드 글루코실화 방법
SG11202103639SA (en) 2018-10-29 2021-05-28 Codexis Inc Engineered dna polymerase variants
SG11202105668PA (en) 2018-12-14 2021-06-29 Codexis Inc Engineered tyrosine ammonia lyase
BR112021011750A2 (pt) 2018-12-20 2021-08-31 Codexis, Inc. Alfa-galactosidase a recombinante e/ou fragmento de alfa-galactosidase a recombinante, composição, sequência de polinucleotídeo recombinante, vetor de expressão, célula hospedeira, métodos para produzir uma variante de alfa-galactosidase a e para tratar e/ou prevenir os sintomas da doença de fabry, composição farmacêutica, e, uso das composições
WO2020176678A1 (en) 2019-02-26 2020-09-03 Twist Bioscience Corporation Variant nucleic acid libraries for glp1 receptor
SG11202109283UA (en) 2019-02-26 2021-09-29 Twist Bioscience Corp Variant nucleic acid libraries for antibody optimization
MX2021012988A (es) * 2019-04-22 2022-03-04 Orbit Genomics Inc Metodos y sistemas de analisis de microsatelite.
JP2022533003A (ja) * 2019-04-30 2022-07-21 アムジエン・インコーポレーテツド バイオ医薬品生産における細胞株選択のためのデータ駆動予測モデリング
GB201906566D0 (en) * 2019-05-09 2019-06-26 Labgenius Ltd Methods and systems for protein engineering and production
CN114729342A (zh) 2019-06-21 2022-07-08 特韦斯特生物科学公司 基于条形码的核酸序列装配
KR20220106738A (ko) 2019-08-30 2022-07-29 코덱시스, 인코포레이티드 조작된 리파제 변이체
EP4004200A4 (en) * 2019-09-13 2023-08-02 The University of Chicago METHOD AND APPARATUS USING MACHINE LEARNING FOR EVOLUTIONARY DATA-DRIVEN DESIGN OF PROTEINS AND OTHER SEQUENCE-DEFINED BIOMOLECULES
CN110970098A (zh) * 2019-11-26 2020-04-07 重庆大学 一种功能多肽苦味预测方法
BR112022011760A2 (pt) 2019-12-20 2022-08-30 Codexis Inc Fragmento de alfa glicosidase ácida recombinante e/ou de alfa glicosidase ácida recombinante biologicamente ativa, alfa glicosidase ácida recombinante, composição, sequência polinucleotídica recombinante, vetor de expressão, vetor de expressão pdh, célula hospedeira, método para produzir uma variante de alfa glicosidase ácida recombinante, variante de alfa glicosidase ácida recombinante, composição farmacêutica para o tratamento da doença de pompe, composição farmacêutica, método para tratar e/ou prevenir os sintomas da doença de pompe em um indivíduo, e, uso das composições
EP4133064A2 (en) 2020-04-10 2023-02-15 Codexis, Inc. Engineered transaminase polypeptides
EP4204554A1 (en) 2020-08-28 2023-07-05 Codexis, Inc. Engineered protease variants
US11767519B2 (en) 2020-08-28 2023-09-26 Codexis, Inc. Engineered amylase variants
US20220165359A1 (en) 2020-11-23 2022-05-26 Peptilogics, Inc. Generating anti-infective design spaces for selecting drug candidates
US20220186231A1 (en) 2020-12-11 2022-06-16 Willow Biosciences, Inc. Recombinant acyl activating enzyme (aae) genes for enhanced biosynthesis of cannabinoids and cannabinoid precursors
WO2022133289A2 (en) 2020-12-18 2022-06-23 Codexis, Inc. Engineered uridine phosphorylase variant enzymes
US11439159B2 (en) 2021-03-22 2022-09-13 Shiru, Inc. System for identifying and developing individual naturally-occurring proteins as food ingredients by machine learning and database mining combined with empirical testing for a target food function
EP4314263A1 (en) 2021-04-02 2024-02-07 Codexis, Inc. Engineered adenylate kinase variant enzymes
EP4314262A1 (en) 2021-04-02 2024-02-07 Codexis, Inc. Engineered guanylate kinase variant enzymes
IL305928A (en) 2021-04-02 2023-11-01 Codexis Inc Transgenic enzymes of acetate kinase variant
IL305924A (en) 2021-04-02 2023-11-01 Codexis Inc Cyclic GMP-AMP synthase (CGAS) variant transgenic enzymes
WO2023010083A2 (en) 2021-07-30 2023-02-02 Willow Biosciences, Inc. Recombinant prenyltransferase polypeptides engineered for enhanced biosynthesis of cannabinoids
CA3227236A1 (en) 2021-08-19 2023-02-23 Trish Choudhary Recombinant olivetolic acid cyclase polypeptides engineered for enhanced biosynthesis of cannabinoids
WO2023069921A1 (en) 2021-10-19 2023-04-27 Epimeron Usa, Inc. Recombinant thca synthase polypeptides engineered for enhanced biosynthesis of cannabinoids
WO2024040020A1 (en) 2022-08-15 2024-02-22 Absci Corporation Quantitative affinity activity specific cell enrichment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003075129A2 (en) * 2002-03-01 2003-09-12 Maxygen, Inc. Methods, systems, and software for identifying functional bio-molecules
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6335160B1 (en) 1995-02-17 2002-01-01 Maxygen, Inc. Methods and compositions for polypeptide engineering
US6117679A (en) 1994-02-17 2000-09-12 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6537776B1 (en) * 1999-06-14 2003-03-25 Diversa Corporation Synthetic ligation reassembly in directed evolution
US7315786B2 (en) 1998-10-16 2008-01-01 Xencor Protein design automation for protein libraries
US20020048772A1 (en) 2000-02-10 2002-04-25 Dahiyat Bassil I. Protein design automation for protein libraries
US6376246B1 (en) 1999-02-05 2002-04-23 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
DE60044223D1 (de) 1999-01-19 2010-06-02 Maxygen Inc Durch oligonukleotide-vermittelte nukleinsäuren-rekombination
US7024312B1 (en) * 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
CA2293830C (en) * 1999-12-31 2008-07-29 Digital Security Controls Ltd. Photoelectric smoke detector and chamber therefor
DK1255826T3 (da) 2000-02-10 2006-01-30 Xencor Inc Automatisering af proteindesign for proteinbiblioteker
AU2001238397A1 (en) 2000-02-17 2001-08-27 California Institute Of Technology Computationally targeted evolutionary design
US20010051855A1 (en) 2000-02-17 2001-12-13 California Institute Of Technology Computationally targeted evolutionary design
US20030032059A1 (en) 2000-05-23 2003-02-13 Zhen-Gang Wang Gene recombination and hybrid protein development
AU2001263411A1 (en) * 2000-05-23 2001-12-03 California Institute Of Technology Gene recombination and hybrid protein development
EP1325457A4 (en) * 2000-10-10 2007-10-24 Genencor Int LIBRARIES RICH IN INFORMATION
US20030036854A1 (en) * 2001-02-06 2003-02-20 The Penn State Research Foundation Apparatus and method for designing proteins and protein libraries
US7747391B2 (en) * 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7991557B2 (en) 2004-06-19 2011-08-02 Genenews Corporation Computer system and methods for constructing biological classifiers and uses thereof
US20090312196A1 (en) 2008-06-13 2009-12-17 Codexis, Inc. Method of synthesizing polynucleotide variants
DK2885408T3 (da) * 2012-08-16 2023-04-11 Synthetic Genomics Inc Digital til biologisk konverter
DK3082056T4 (da) 2015-04-14 2022-05-02 Peaccel Fremgangsmåde og elektronisk system til forudsigelse af mindst en fitnessværdi af et protein, relateret computerprogramprodukt

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003075129A2 (en) * 2002-03-01 2003-09-12 Maxygen, Inc. Methods, systems, and software for identifying functional bio-molecules
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014139787A (ja) * 2013-01-21 2014-07-31 International Business Maschines Corporation 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
US10102333B2 (en) 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US10108775B2 (en) 2013-01-21 2018-10-23 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US11335434B2 (en) 2013-01-21 2022-05-17 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US11335433B2 (en) 2013-01-21 2022-05-17 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
KR20150113167A (ko) * 2013-01-31 2015-10-07 코덱시스, 인코포레이티드 승법형 모델을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어
JP2016504924A (ja) * 2013-01-31 2016-02-18 コデクシス, インコーポレイテッド 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア
JP2016511884A (ja) * 2013-01-31 2016-04-21 コデクシス, インコーポレイテッド 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア
US9665694B2 (en) 2013-01-31 2017-05-30 Codexis, Inc. Methods, systems, and software for identifying bio-molecules with interacting components
US9684771B2 (en) 2013-01-31 2017-06-20 Codexis, Inc. Methods, systems, and software for identifying bio-molecules using models of multiplicative form
JP2018161148A (ja) * 2013-01-31 2018-10-18 コデクシス, インコーポレイテッド 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア
KR102215219B1 (ko) * 2013-01-31 2021-02-16 코덱시스, 인코포레이티드 승법형 모델을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어

Also Published As

Publication number Publication date
US20150065357A1 (en) 2015-03-05
DK1761879T3 (da) 2013-09-30
US20100004135A1 (en) 2010-01-07
US20140249035A1 (en) 2014-09-04
US8762066B2 (en) 2014-06-24
WO2006002267A1 (en) 2006-01-05
US20080220990A1 (en) 2008-09-11
US9864833B2 (en) 2018-01-09
US10453554B2 (en) 2019-10-22
US7747393B2 (en) 2010-06-29
US20080147369A1 (en) 2008-06-19
US20050084907A1 (en) 2005-04-21
EP1761879A1 (en) 2007-03-14
US20100004136A1 (en) 2010-01-07
US20070239364A1 (en) 2007-10-11
EP1761879B1 (en) 2013-08-14
US20080132416A1 (en) 2008-06-05
US20100005047A1 (en) 2010-01-07

Similar Documents

Publication Publication Date Title
US10453554B2 (en) Methods, systems, and software for identifying functional bio-molecules
JP6655670B2 (ja) 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア
JP5319865B2 (ja) 機能的生体分子を同定する方法、システム、およびソフトウェア
US9996661B2 (en) Methods, systems, and software for identifying functional bio-molecules

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110419

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110518

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110720

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120208