JP2010088451A - Generation and selection of protein library in silico - Google Patents

Generation and selection of protein library in silico Download PDF

Info

Publication number
JP2010088451A
JP2010088451A JP2009284767A JP2009284767A JP2010088451A JP 2010088451 A JP2010088451 A JP 2010088451A JP 2009284767 A JP2009284767 A JP 2009284767A JP 2009284767 A JP2009284767 A JP 2009284767A JP 2010088451 A JP2010088451 A JP 2010088451A
Authority
JP
Japan
Prior art keywords
sequence
lead
library
amino acid
antibody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009284767A
Other languages
Japanese (ja)
Inventor
Peizhi Luo
ルオ,ペイチ
Mark Hsieh
シー,マーク
Pingyu Zhong
チォン,ピンギュ
Caili Wang
ワン,カイリ
Yicheng Cao
カオ,イチェン
Shengjiang Liu
リウ,シェンチアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Abmaxis Inc
Original Assignee
Abmaxis Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/153,176 external-priority patent/US20030022240A1/en
Priority claimed from US10/153,159 external-priority patent/US7117096B2/en
Application filed by Abmaxis Inc filed Critical Abmaxis Inc
Publication of JP2010088451A publication Critical patent/JP2010088451A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a methodology for efficiently generating and screening protein libraries for optimized proteins with desirable biological functions (such as improved binding affinity towards biologically and/or therapeutically important target molecules). <P>SOLUTION: The method for constructing a library of desired proteins comprises steps of: comparing a lead sequence with a plurality of tester protein sequences; selecting at least two peptide segments that have at least 15% sequence identity with the lead sequence from the plurality of tester protein sequences (the selected peptide segment forms a hit library); and forming the library of designed proteins by substituting the lead sequence with the hit library. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

発明の背景
関連出願の相互参照
本出願は、米国特許出願第10/153,159号(2002年5月20日出願、標題「抗体ライブラリーの構造ベースの選択と親和性成熟」)の一部継続出願であり、また特許出願第10/153,176号(2002年5月20日出願、標題「抗体ライブラリーのin silico(コンピューターによる)作成と親和性成熟」)の一部継続出願であり、これらのいずれも、米国特許出願第10/125,687号(2002年4月17日出願、標題「ヒト抗体ライブラリーの構造ベースの構築」の一部継続出願であり、この出願はまた、米国仮出願第60/284,407号(2001年4月17日出願、標題「ヒト抗体ライブラリーの構造ベースの構築」)の利益を請求する。これらの出願は、参照することにより本明細書に組み込まれる。
Background of the Invention
CROSS-REFERENCE TO RELATED APPLICATIONS This application U.S. Patent Application No. 10/153 and 159 (May 20, 2002 application, entitled "structure-based selection and affinity maturation of an antibody library") is a continuation-in-part application of, This is a continuation-in-part of patent application No. 10 / 153,176 (filed on May 20, 2002, titled “In silico (Computer-Based) Generation of Antibody Library and Affinity Maturation”). Patent application No. 10 / 125,687 (filed Apr. 17, 2002, continuation-in-part of the title “Structure-Based Construction of Human Antibody Library”, which is also a provisional application of US Provisional Application No. 60 / 284,407 ( Claims the benefit of the application entitled 17 April 2001, entitled “Structure-Based Construction of Human Antibody Libraries”, which are hereby incorporated by reference.

発明の分野
本発明は一般に、標的分子に対する結合親和性を有するタンパク質のコンピューター支援設計に関し、さらに詳しくは抗体の偏りのあるライブラリーのコンピューターによる予測と実験によるスクリーニングを組合せることによる、多様な配列と標的抗原に対する高親和性とを有する抗体(または免疫グロブリン)のスクリーニング法と同定法に関する。
FIELD OF THE INVENTION The present invention relates generally to computer-aided design of proteins with binding affinity for target molecules, and more particularly to diverse sequences by combining computer-predicted and experimental screening of antibody-biased libraries. And an antibody (or immunoglobulin) screening method and identification method having high affinity for a target antigen.

関連技術の説明
抗体は、脊椎動物で種々の内部および外部刺激(抗原)に応答して作成される。抗体はB細胞によってのみ合成され、数百万の型が産生され、それぞれが異なるアミノ酸配列と抗原に対する異なる結合部位とを有する。これらはまとめて免疫グロブリン(Igと省略される)と呼ばれ、血液中の最も多量なタンパク質成分の1つであり、総血漿タンパク質の20重量%を構成する。
Description of Related Art Antibodies are made in vertebrates in response to various internal and external stimuli (antigens). Antibodies are synthesized only by B cells, producing millions of types, each with a different amino acid sequence and a different binding site for an antigen. Collectively these are called immunoglobulins (abbreviated as Ig) and are one of the most abundant protein components in the blood and constitute 20% by weight of total plasma protein.

天然に存在する抗体分子は、2つの同一の「軽」(L)タンパク質鎖と2つの同一の「重」(H)タンパク質鎖からなり、すべてが水素結合と正確に位置するジスルフィド結合によりつながれている。Chothiaら(1985) J. Mol. Biol. 186:651-663;およびNovotnyとHaber (1985) Proc. Natl. Acad. Sci. USA 82:4592-4596。L鎖とH鎖のN末端ドメインは一緒に、各抗体の抗原認識部位を形成する。   Naturally occurring antibody molecules are composed of two identical “light” (L) protein chains and two identical “heavy” (H) protein chains, all linked by hydrogen sulfide and precisely located disulfide bonds. Yes. Chothia et al. (1985) J. Mol. Biol. 186: 651-663; and Novotny and Haber (1985) Proc. Natl. Acad. Sci. USA 82: 4592-4596. Together, the N-terminal domains of the L and H chains form the antigen recognition site for each antibody.

哺乳動物の免疫系はユニークな遺伝機構を進化させ、これは、別々の遺伝子セグメントを、これらが転写される前に結合することにより、極めて経済的にほとんど無数の異なる軽鎖と重鎖とを生成することを可能にする。各タイプのIg鎖(κ軽鎖、λ軽鎖、および重鎖)について、単一のペプチド鎖が最終的に合成される遺伝子セグメントの別々のプールがある。各プールは異なる染色体上に有り、通常Ig鎖のV領域をコードする多数の遺伝子セグメントと、C領域をコードする少数の遺伝子セグメントを含有する。B細胞の成長の間に、合成される2つのIg鎖のそれぞれについて完全なコード配列が、部位特異的遺伝子組換えにより組み立てられ、V領域の全コード配列とC領域のコード配列とを一緒にする。さらに軽鎖のV領域は、2つの遺伝子セグメント(V遺伝子セグメントと、短い結合もしくはJ遺伝子セグメント)から組み立てられたDNA配列によりコードされる。重鎖のV領域は、3つの遺伝子セグメント(V遺伝子セグメント、J遺伝子セグメント、および多様性もしくはDセグメント)から組み立てられたDNA配列によりコードされる。   The mammalian immune system has evolved a unique genetic mechanism that combines almost individual countless different light and heavy chains together by joining separate gene segments before they are transcribed. Allows to generate. For each type of Ig chain (kappa light chain, lambda light chain, and heavy chain), there is a separate pool of gene segments where a single peptide chain is ultimately synthesized. Each pool is on a different chromosome and usually contains a large number of gene segments encoding the V region of the Ig chain and a small number of gene segments encoding the C region. During B cell growth, the complete coding sequence for each of the two Ig chains synthesized is assembled by site-specific genetic recombination to bring together the entire coding sequence of the V region and the coding sequence of the C region. To do. In addition, the V region of the light chain is encoded by a DNA sequence assembled from two gene segments (V gene segment and short junction or J gene segment). The V region of the heavy chain is encoded by a DNA sequence assembled from three gene segments (V gene segment, J gene segment, and diversity or D segment).

Ig鎖をコードするのに利用できる遺伝したV、JおよびD遺伝子セグメントの数の多さは、それ自体が抗体の多様性に大きく寄与するが、これらのセグメントの組合せ結合がこの寄与を大きく上昇させる。さらに、遺伝子セグメントの不正確な結合、およびプレB細胞段階でV−D−Jセグメント結合中に導入される体細胞変異は、V領域の多様性を大きく上昇させる。   The large number of inherited V, J and D gene segments available to encode the Ig chain itself contributes greatly to antibody diversity, but the combined binding of these segments greatly increases this contribution. Let Furthermore, inaccurate binding of gene segments and somatic mutations introduced during VDJ segment binding at the pre-B cell stage greatly increase V region diversity.

抗原に対して免疫後、哺乳動物は親和性成熟として知られているプロセスを経験して、抗原に対する高親和性を有する抗体を産生させる。そのような抗原指令の体細胞高変異は、おそらく特異的に重鎖および軽鎖V領域コード配列中の点突然変異の蓄積により、および高親和性抗体を有するB細胞クローンの選択性拡張により、ある抗原に対する抗体応答を微調整する。   After immunization against an antigen, the mammal undergoes a process known as affinity maturation to produce antibodies with high affinity for the antigen. Such antigen-directed somatic hypermutations are probably due to the accumulation of point mutations specifically in the heavy and light chain V region coding sequences and due to the selective expansion of B cell clones with high affinity antibodies. Fine tune the antibody response to an antigen.

構造的には抗体の種々の機能は、不連続なタンパク質ドメイン(領域)に限定される。抗原を認識し結合する部位は、2つの重鎖と2つの軽鎖のN末端にある可変(VHとVL)領域内にある3つの超可変領域または相補性決定領域(CDR)からなる。定常ドメインは、抗原への抗体の結合に直接関与しないが、種々のエフェクター機能(例えば抗体依存性細胞障害への抗体の参加)に関与している。 Structurally, the various functions of antibodies are limited to discontinuous protein domains (regions). The site that recognizes and binds to the antigen consists of three hypervariable regions or complementarity determining regions (CDRs) within the variable (V H and V L ) regions at the N-terminus of the two heavy chains and the two light chains. . Constant domains are not directly involved in antibody binding to antigen, but are involved in various effector functions (eg, antibody participation in antibody-dependent cytotoxicity).

天然の軽鎖と重鎖のドメインは同じ一般的構造を有し、各ドメインは4つのフレームワーク領域を有し、その配列は3つのCDRにより連結され、ある程度保存されている。4つのフレームワーク領域は主にβシートコンフォメーションを取り、CDRはβシート構造を連結し、ある場合にはその一部を構成するループを形成する。各鎖のCDRは、フレームワーク領域により近傍に保持され、他の鎖のCDRとともに抗原結合部位の形成に寄与する。   Natural light and heavy chain domains have the same general structure, each domain has four framework regions, the sequences of which are linked by three CDRs and are conserved to some extent. The four framework regions mainly take a β-sheet conformation, and the CDR connects β-sheet structures, and in some cases forms a loop that forms part of it. The CDRs of each chain are held in the vicinity by the framework region and contribute to the formation of an antigen binding site together with the CDRs of other chains.

一般にすべての抗体は、特徴的な「免疫グロブリン折り畳み」を取る。具体的には抗原結合断片の可変ドメインと定常ドメインの両方(Fab、軽鎖のVLとCLおよび重鎖のVHとCH1からなる)が、2つのねじれた反対に平行のβシートからなり、これはβサンドイッチ構造を構成する。定常領域は、ギリシアの鍵のようなモチーフで配置された3重および4重のβシートを有し、可変領域はさらに2つの短いβ鎖を有し5重のβシートを作る。 In general, all antibodies adopt a characteristic “immunoglobulin fold”. Specifically, both the variable and constant domains of the antigen-binding fragment (Fab, consisting of V L and C L of light chain and V H and C H 1 of light chain) are two twisted opposite parallel β It consists of a sheet, which constitutes a β sandwich structure. The constant region has triple and quadruple β-sheets arranged in Greek key-like motifs, and the variable region further has two short β-strands to create a 5-fold β-sheet.

VLドメインとVHドメインは5重のβシートを介して相互作用して、半径が約8.4Åの9重のβ円筒を形成し、ドメイン境界の鎖は互いに約50°傾いている。ドメインの対合は、CDRループを近傍に持ってくる。CDR自体は、約25%のVL/VHドメイン境界を形成する。 The V L and V H domains interact through a five-fold β sheet to form a nine-fold β cylinder with a radius of about 8.4 mm, and the domain boundary chains are tilted about 50 ° from each other. Domain pairing brings a CDR loop in the vicinity. The CDR itself forms approximately 25% of the V L / V H domain boundary.

6つのCDR(軽鎖についてCDR-L1、-L2および-L3、および重鎖についてCDR-H1、-H2および-H3)は、β円筒フレームワーク上で支持されて抗原結合部位を形成する。その配列は免疫グロブリン構造の残りの部分と比較して超可変性であるが、ループの一部は比較的高度の配列と構造の保存を示す。特にCDR-L2とCDR-H1は、コンフォメーション中で高度に保存されている。   Six CDRs (CDR-L1, -L2 and -L3 for the light chain and CDR-H1, -H2 and -H3 for the heavy chain) are supported on the β cylindrical framework to form the antigen binding site. Its sequence is hypervariable compared to the rest of the immunoglobulin structure, but some of the loops show a relatively high degree of sequence and structural conservation. In particular, CDR-L2 and CDR-H1 are highly conserved in the conformation.

Chothiaと共同研究者は、保存された主要な残基の分析により、6つのCDRループのうちの5つ(CDR-H3以外のすべて)が分かれた限定された数の主鎖コンフォメーション(CDRの標準構造と呼ぶ)を取ることを証明した。ChotiaとLesk (1987) J. Mol. Biol. 196:901-917;Chothiaら (1989) Nature (ロンドン) 342:877;およびChothiaら (1998) J. Mol. Biol. 278:457-479。取られた構造は、パッキングに関与するCDRと接触するフレームワークの両方の、CDR長さといくつかの主要なアミノ酸残基の本体の両方に依存する。標準コンフォメーションは、構造決定基として作用するこれらの主要な残基のみの特異的パッキング、水素結合相互作用、および立体化学的制約により決定される。   Chothia and co-workers found that a limited number of main-chain conformations (CDRs) in which five of the six CDR loops (all except CDR-H3) were separated by analysis of the conserved key residues. It is proved to be called standard structure). Chotia and Lesk (1987) J. Mol. Biol. 196: 901-917; Chothia et al. (1989) Nature (London) 342: 877; and Chothia et al. (1998) J. Mol. Biol. 278: 457-479. The structure taken depends on both the CDR length and the body of some major amino acid residues, both in the framework that contacts the CDR involved in the packing. The standard conformation is determined by specific packing of only these major residues that act as structure determinants, hydrogen bonding interactions, and stereochemical constraints.

抗体の抗原結合部位の3次元構造をモデル化するための種々の方法が開発されている。X線結晶解析以外に、抗体−リガンド相互作用の原子的詳細を研究するためにコンピューターモデル構築とともに核磁気共鳴(NMR)分光学が使用されている。Dwekら (1975) Eur. J. Biochem. 53:25-39。Dwekと共同研究者はスピンラベルハプテンを使用して、ジニトロフェニルに対するMoPC315ミエローマタンパク質の結合部位を推定した。抗スピンラベルモノクローナル抗体(Anglisterら (1987) Biochem. 26:6958-6064)と抗2-フェニルオキサゾロンFv断片(McManusとRiechmann (1991) Biochem. 30:5851-5857)とを使用して同様の分析が行われている。   Various methods have been developed to model the three-dimensional structure of the antigen binding site of an antibody. In addition to X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy has been used with computer model construction to study atomic details of antibody-ligand interactions. Dwek et al. (1975) Eur. J. Biochem. 53: 25-39. Dwek and co-workers used a spin-label hapten to estimate the binding site of the MoPC315 myeloma protein for dinitrophenyl. Similar analysis using an anti-spin-labeled monoclonal antibody (Anglister et al. (1987) Biochem. 26: 6958-6064) and an anti-2-phenyloxazolone Fv fragment (McManus and Riechmann (1991) Biochem. 30: 5851-5857) Has been done.

抗体結合部位(または抗原結合部位)のコンピューターによる分析とモデル化は、標的抗体配列と、既存のデータベース(例えば、ブルークハーベンタンパク質データバンク(Brookhaven Protein Data Bank))中の既知の構造または構造モチーフを有する抗体とを比較する相同性分析に基づく。かかる相同性ベースのモデル化法を使用して、標的抗体の近似3次元構造が構築される。早期抗体モデル化は、同一の長さと異なる配列を有するCDRループが同様のコンフォメーションを取るかも知れないという推定に基づいていた。KabatとWu (1972) Proc. Natl. Acad. Sci. USA 69:960-964。典型的なセグメント一致アルゴリズムは以下の通りである:あるループ配列がある時、短い相同的骨格断片(例えば、トリペプチド)についてタンパク質データバンク(Protein Data Bank)を検索し、次にこれを集合させて、コンピューターで新しい結合部位モデルに作成する。   Computational analysis and modeling of antibody binding sites (or antigen binding sites) is based on the target antibody sequences and known structures or structural motifs in existing databases (eg, Brookhaven Protein Data Bank). Based on homology analysis comparing antibodies with Using such homology-based modeling methods, an approximate three-dimensional structure of the target antibody is constructed. Early antibody modeling was based on the assumption that CDR loops with the same length and different sequences may adopt similar conformations. Kabat and Wu (1972) Proc. Natl. Acad. Sci. USA 69: 960-964. A typical segment matching algorithm is as follows: when there is a loop sequence, search the Protein Data Bank for a short homologous backbone fragment (eg, a tripeptide) and then assemble it Create a new binding site model on your computer.

さらに最近は、抗体結合部位のコンピューターで行った構造モデル化に、標準ループ構想が取り込まれている。多くの一般的な型では標準構造構想は、(1) 標準位置以外での配列の変化はループコンフォメーションに無関係である、(2) 標準ループコンフォメーションは、基本的にループ−ループ相互作用に依存しない、および (3) 存在する標準モチーフの数が限定されており、これらは、現在既知である抗体結晶コンフォメーションのデータベース中に充分記載されている。この構想に基づきChothiaは、すべての6つのCDRループコンフォメーションがリゾチーム結合抗体D1.3中に有り、5つの標準ループコンフォメーションが他の4つの抗体中にあると予測した。Chothia (1989)、前述。相同性ベースのモデル化をコンフォメーション検索法と組合せて、抗体構造のCDRのモデル化を改良することも可能である。Martin, A.C.R. (1989) PNAS 86:9268-72。   More recently, standard loop concepts have been incorporated into computer-aided structural modeling of antibody binding sites. For many common types, the standard structure concept is (1) Sequence changes other than the standard position are independent of loop conformation, (2) Standard loop conformation is essentially independent of loop-loop interaction And (3) the number of standard motifs present is limited and these are well documented in the currently known antibody crystal conformation database. Based on this concept, Chothia predicted that all six CDR loop conformations were in the lysozyme binding antibody D1.3 and that five standard loop conformations were in the other four antibodies. Chothia (1989), supra. It is also possible to combine homology-based modeling with conformational search methods to improve CDR modeling of antibody structures. Martin, A.C.R. (1989) PNAS 86: 9268-72.

特異的抗体構造をモデル化する以外に、抗体の人工的(または合成)ライブラリーを作成して、これを特異的標的抗原に対してスクリーニングする試みが行われている。モジュラーコンセンサスフレームワークとトリヌクレオチドでランダム化したCDRとに基づいて、完全に合成のコンビナトリアル抗体ライブラリーが設計されている。Knappikら (2000) J. Mol. Biol. 296:57-86。この研究では、ヒト抗体のレパートリーが、構造、アミノ酸配列多様性、および生殖細胞系の使用の観点から分析された。種々の生殖細胞系ファミリーの95%をカバーする7つのVHと7つのVLを有するモジュラーコンセンサスフレームワーク配列が誘導され、大腸菌(E. coli)について最適化された。すべての49の組合せの遺伝子をファジミドベクター中にクローン化した後、ライブラリー中2×109 個のメンバーになる抗体ファージ表示ライブラリーのセットを作成した。 In addition to modeling specific antibody structures, attempts have been made to create artificial (or synthetic) libraries of antibodies and screen them against specific target antigens. A fully synthetic combinatorial antibody library has been designed based on a modular consensus framework and trinucleotide randomized CDRs. Knappik et al. (2000) J. Mol. Biol. 296: 57-86. In this study, the human antibody repertoire was analyzed in terms of structure, amino acid sequence diversity, and germline usage. Modular consensus framework sequences with 7 V H and 7 V L covering 95% of various germline families were derived and optimized for E. coli. After all 49 combinations of genes were cloned into the phagemid vector, a set of antibody phage display libraries were created that would be 2 × 10 9 members in the library.

ファージ表示(phage display)技術は、生物学的に機能性のタンパク質分子をその表面に発現し表示するバクテリオファージの能力を利用して、抗体断片の大きなライブラリーを作成するのに広く利用されている。抗体のコンビナトリアルライブラリーがバクテリオファージラムダ発現系で作成されており、これはバクテリオファージプラークとしてまたはリソゲンのコロニーとしてスクリーニングされる(Huseら (1989) Science 246:1275;CatonとKoprowski (1990) Proc. Natl. Acad. Sci. USA 87:6450;Mullinaxら (1990) Proc. Natl. Acad. Sci. USA 87:8095;Perssonら (1991) Proc. Natl. Acad. Sci. USA 2432)。バクテリオファージ抗体表示ライブラリーとラムダファージ発現ライブラリーの種々の例が記載されている(Kangら (1991) Proc. Natl. Acad. Sci. USA 88:4363;Clacksonら (1991) Nature 352:624;McCaffertyら (1990) Nature 348:552;Burtonら (1991) Proc. Natl. Acad. Sci. USA 88:10134;Hooggenboomら (1991) Nucleic Acids Res. 19:4133;Changら (1991) J. Immunol. 147:3610;Britlingら (1991) Gene 104:147;Marksら (1991) J. Mol. Biol. 222:581;Barbasら (1992) Proc. Natl. Acad. Sci. USA 89:4457;HawkinsとWinter (1992) J. Immunol. 22:867;Marksら (1992) Biotechnology 10:779;Marksら (1992) J. Biol. Chem. 267:16007;Lowmanら (1991) Biochemistry 30:10832;Lernerら (1992) Science 258:1313)。またRader, C.とBarbas, C.F. (1997)の総説「コンビナトリアル抗体ライブラリーのファージ表示」、Curr. Opin. Biotechnol. 8:503-508 も参照されたい。   Phage display technology is widely used to create large libraries of antibody fragments, taking advantage of the ability of bacteriophages to express and display biologically functional protein molecules on their surface. Yes. Combinatorial libraries of antibodies have been generated in a bacteriophage lambda expression system, which are screened as bacteriophage plaques or as lysogenic colonies (Huse et al. (1989) Science 246: 1275; Caton and Koprowski (1990) Proc. Natl. Acad. Sci. USA 87: 6450; Mullinax et al. (1990) Proc. Natl. Acad. Sci. USA 87: 8095; Persson et al. (1991) Proc. Natl. Acad. Sci. USA 2432). Various examples of bacteriophage antibody display libraries and lambda phage expression libraries have been described (Kang et al. (1991) Proc. Natl. Acad. Sci. USA 88: 4363; Clackson et al. (1991) Nature 352: 624; McCafferty et al. (1990) Nature 348: 552; Burton et al. (1991) Proc. Natl. Acad. Sci. USA 88: 10134; Hooggenboom et al. (1991) Nucleic Acids Res. 19: 4133; Chang et al. (1991) J. Immunol. 147: 3610; Britling et al. (1991) Gene 104: 147; Marks et al. (1991) J. Mol. Biol. 222: 581; Barbas et al. (1992) Proc. Natl. Acad. Sci. USA 89: 4457; Hawkins and Winter. (1992) J. Immunol. 22: 867; Marks et al. (1992) Biotechnology 10: 779; Marks et al. (1992) J. Biol. Chem. 267: 16007; Lowman et al. (1991) Biochemistry 30: 10832; Lerner et al. (1992). ) Science 258: 1313). See also the review by Rader, C. and Barbas, C.F. (1997) “Phage display of combinatorial antibody libraries”, Curr. Opin. Biotechnol. 8: 503-508.

一般にファージライブラリーは、VLやVHのような抗体断片をコードするランダムオリゴヌクレオチドのライブラリーまたはcDNAライブラリーを、M13またはfdファージの遺伝子3に挿入することにより作成される。各挿入遺伝子は、遺伝子3産物(ファージの小さいコートタンパク質)のN末端で発現される。その結果、多様なペプチドを含有するペプチドライブラリーを構築することができる。次にファージライブラリーは、固定化された目的の標的分子(例えば抗原)に対して親和性スクリーニングされ、特異的に結合したファージ粒子が回収され、大腸菌(Escherichia coli)宿主細胞中への感染により増幅される。典型的には、受容体のような目的の標的分子(例えば、ポリペプチド、炭水化物、糖タンパク質、核酸)が、共有結合によりクロマトグラフィー樹脂に固定化され、親和性クロマトグラフィーにより反応性ファージ粒子が濃縮されるか、および/またはプラークもしくはコロニーリフトのスクリーニングのために標識される。この方法はバイオパニングと呼ばれる。最後に高親和性ファージコロニーを増幅することができ、特異的ペプチド配列の推定のために配列決定することができる。 Generally phage library, a library or cDNA library of random oligonucleotides encoding antibody fragments such as V L and V H, are prepared by inserting the gene 3 of the M13 or fd phage. Each inserted gene is expressed at the N-terminus of the gene 3 product (small phage coat protein). As a result, a peptide library containing various peptides can be constructed. The phage library is then affinity screened for the target molecule of interest (eg, antigen), and the specifically bound phage particles are recovered and infected by infection into Escherichia coli host cells. Amplified. Typically, a target molecule of interest such as a receptor (eg, a polypeptide, carbohydrate, glycoprotein, nucleic acid) is immobilized to a chromatographic resin by covalent bonds, and reactive phage particles are obtained by affinity chromatography. Concentrated and / or labeled for plaque or colony lift screening. This method is called biopanning. Finally, high affinity phage colonies can be amplified and sequenced for estimation of specific peptide sequences.

コンピューターモデル化を使用して抗体をヒト化するための方法が、Queenらにより開発されている。US Patent No. 5,693,762。非ヒトドナー抗体(例えばマウスモノクローナル抗体)の構造は、コンピューターモデル化に基づいて予測され、フレームワーク中の主要なアミノ酸は、形を保持するのに、従ってCDRの結合特異性を保持するのに必要であると予測される。これらの少ない主要なマウスドナーアミノ酸は、ある規定のカテゴリー内の位置と性質に基づいて選択され、ドナーCDRとともにヒトアクセプター抗体フレームワーク中に代用される。例えばカテゴリー1:アミノ酸の位置は、Kabatらにより規定されるようにCDR中にある。KabatとWu (1972) Proc. Natl. Acad. Sci. USA 69:960-964。カテゴリー2:ヒトアクセプター免疫グロブリンのフレームワーク中のアミノ酸が一般的ではないなら、およびその位置のドナーアミノ酸がヒト配列に典型的なら、アクセプターではなくドナーアミノ酸が選択される。カテゴリー3:ヒト化免疫グロブリン鎖の1次配列中の3つのCDRの1つ以上に隣接する位置では、アクセプターアミノ酸ではなくドナーアミノ酸が選択される。これらの基準に基づき、ドナー抗体から個々のアミノ酸の一連の綿密な選択が行われる。生じるヒト化抗体は通常、約90%のヒト配列を含む。コンピューターモデル化により設計されたヒト化抗体が、抗原結合について試験される。結合親和性のような実験結果は、コンピューターモデル化プロセスにフィードバックされて、ヒト化抗体の構造が微調整される。再設計された抗体は次に、改良された生物学的機能について試験することができる。そのような反復性微調整プロセスは、手間がかかり予測が不可能である。   A method for humanizing antibodies using computer modeling has been developed by Queen et al. US Patent No. 5,693,762. The structure of the non-human donor antibody (eg mouse monoclonal antibody) is predicted based on computer modeling, and the major amino acids in the framework are necessary to retain the shape and thus retain the binding specificity of the CDR It is predicted that. These few major mouse donor amino acids are selected based on position and nature within certain defined categories and are substituted into the human acceptor antibody framework along with the donor CDRs. For example, category 1: amino acid positions are in the CDRs as defined by Kabat et al. Kabat and Wu (1972) Proc. Natl. Acad. Sci. USA 69: 960-964. Category 2: If the amino acid in the framework of the human acceptor immunoglobulin is not common, and if the donor amino acid at that position is typical of a human sequence, then the donor amino acid is selected rather than the acceptor. Category 3: A donor amino acid is selected instead of an acceptor amino acid at a position adjacent to one or more of the three CDRs in the primary sequence of a humanized immunoglobulin chain. Based on these criteria, a thorough selection of individual amino acids from the donor antibody is performed. The resulting humanized antibody typically contains about 90% human sequences. Humanized antibodies designed by computer modeling are tested for antigen binding. Experimental results such as binding affinity are fed back into the computer modeling process to fine-tune the structure of the humanized antibody. The redesigned antibody can then be tested for improved biological function. Such an iterative fine tuning process is laborious and unpredictable.

発明の要約
本発明は、好ましい生物学的機能(例えば、生物学的および/または治療的に重要な標的分子に対する改良された結合親和性)を有する最適化されたタンパク質について、タンパク質ライブラリーを効率的に作成しスクリーニングするための革新的方法を提供する。この方法は、すべての生物(特にヒト)のタンパク質配列の拡張し続けるデータベースを調べることにより、コンピューターで高速処理される。タンパク質の進化するデータを利用して、in vitroまたはin vivoでの機能性スクリーニングのためにタンパク質ライブラリーの構造と構造空間の両方が拡張される。本発明の方法を使用することにより、極めて多様なタンパク質配列と機能的に関連する構造のin silicoコンピューター評価に基づいて、抗体のようなタンパク質の拡張しているが機能的に偏りのあるライブラリーを構築することができる。
SUMMARY OF THE INVENTION The present invention makes protein libraries efficient for optimized proteins with favorable biological functions (eg, improved binding affinity for biologically and / or therapeutically important target molecules). Provide innovative ways to create and screen creatively. This method is computationally fast by examining an ever-expanding database of protein sequences of all living organisms (especially humans). Protein evolution data is used to expand both the structure and the structural space of protein libraries for functional screening in vitro or in vivo. By using the method of the present invention, an extended but functionally biased library of proteins such as antibodies based on in silico computer evaluation of structures that are functionally related to a wide variety of protein sequences Can be built.

本発明のある態様において、好ましい機能を有するタンパク質を設計し選択するための方法が提供される。この方法は、好ましくはリードタンパク質中の標的構造/機能モチーフもしくはドメインのアミノ酸配列(以後「リード配列」と呼ぶ)に基づくタンパク質配列のin silico選択により、コンピューターで行われる。リード配列は、タンパク質配列のデータベースを検索するために使用される。データベースの選択は、所望のモチーフの具体的な機能的要求に依存する。例えば、リードタンパク質が酵素で標的モチーフが酵素の活性部位を含むなら、特定の起源、生物、種のタンパク質/ペプチドまたはこれらの組合せのデータベースは、種々の検索基準を使用して検索されて、配列のヒットしたリストを与え、その各々はリードタンパク質中の標的モチーフを置換することができる。リードタンパク質の他のモチーフまたはドメインを設計するために、同様のアプローチが使用される。個々のモチーフ/ドメインの設計された配列を組合せて、設計されたタンパク質のライブラリーが作成される。さらにヒトへの応用(例えば治療薬または診断薬)用に、設計されたタンパク質の免疫原性を低下させるために、好ましくはヒト起源のタンパク質またはヒト化タンパク質のデータベースが検索されて、特に構造的または機能的に決定的に重要ではないリードタンパク質の部位から得られるモチーフについて、配列のヒットしたリストが得られる。設計されたタンパク質のライブラリーは、リードタンパク質に対して改良された生物学的機能を有するタンパク質を得るために、実験的に試験することができる。   In one embodiment of the invention, a method for designing and selecting a protein having a preferred function is provided. This method is preferably performed on a computer by in silico selection of protein sequences based on the amino acid sequence of the target structure / function motif or domain in the lead protein (hereinafter referred to as “lead sequence”). The lead sequence is used to search a database of protein sequences. The choice of database depends on the specific functional requirements of the desired motif. For example, if the lead protein is an enzyme and the target motif includes the active site of the enzyme, a database of proteins / peptides of a particular origin, organism, species, or combinations thereof can be searched using various search criteria to A list of hits, each of which can replace a target motif in the lead protein. A similar approach is used to design other motifs or domains of the lead protein. The designed sequences of individual motifs / domains are combined to create a library of designed proteins. In order to further reduce the immunogenicity of the engineered protein for human applications (eg therapeutics or diagnostics), preferably a database of proteins of human origin or humanized proteins is searched, especially structurally Alternatively, a hit list of sequences is obtained for motifs obtained from sites of the lead protein that are not functionally critical. The library of designed proteins can be tested experimentally to obtain proteins with improved biological function relative to the lead protein.

ある実施態様においてこの方法は以下の工程を含む:
リードタンパク質から得られるアミノ酸配列を提供し(アミノ酸配列はリード配列と呼ばれる);
リード配列を複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);そして
リード配列をヒットライブラリーで置換することにより、設計したタンパク質のライブラリーの形成する。
In certain embodiments, the method includes the following steps:
Providing an amino acid sequence obtained from the lead protein (the amino acid sequence is referred to as the lead sequence);
Comparing the lead sequence with a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 15% sequence identity with the lead sequence (the selected peptide segments are hit libraries) And the lead sequence is replaced with a hit library to form a library of designed proteins.

場合によりこの方法は、以下の工程をさらに含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成し;そして
ヒット変種ライブラリーから好ましい機能を有するタンパク質を選択する。
また場合によりこの方法は、以下の工程をさらに含む:
スコア化関数を使用して、ヒットライブラリーまたはヒット変種ライブラリーのメンバーが構造的に、リード配列またはリードタンパク質の3次元構造と適合するかどうかを決定し;そして
リード配列またはリードタンパク質とスコアが同等かまたはより優れたメンバーを選択する。
また場合によりこの方法は、以下の工程をさらに含む:
ヒットライブラリー、ヒット変種ライブラリーまたは上記の構造評価に基づき選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築し;
核酸ライブラリーを発現させて組換えタンパク質のライブラリーを作成し;そして
組換えタンパク質のライブラリーから所望の機能を有するタンパク質を選択する。
また場合によりこの方法は、以下の工程をさらに含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築し;
縮重核酸ライブラリーを発現させて組換えタンパク質のライブラリーを作成し;そして
組換えタンパク質のライブラリーから所望の機能を有するタンパク質を選択する。
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
The amino acid variants in the hit library are combined to generate a combination of hit variants that forms a hit variant library; and a protein with a preferred function is selected from the hit variant library.
Optionally, the method further comprises the following steps:
A scoring function is used to determine whether the members of the hit library or hit variant library are structurally compatible with the three-dimensional structure of the lead sequence or lead protein; Choose members that are equal or better.
Optionally, the method further comprises the following steps:
Constructing a hit library, a hit variant library or a nucleic acid library comprising a DNA segment encoding the amino acid sequence of a member selected based on the structural evaluation described above;
A nucleic acid library is expressed to create a library of recombinant proteins; and a protein having the desired function is selected from the library of recombinant proteins.
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting the amino acid position variant profile of the hit library into a nucleic acid position variant profile by back-translating the amino acid position variant into the corresponding gene codon;
Combining nucleic acid position variants in a combinatorial manner to construct a degenerate nucleic acid library of DNA segments;
A degenerate nucleic acid library is expressed to create a library of recombinant proteins; and a protein having a desired function is selected from the library of recombinant proteins.

場合により遺伝子コドンは、特定の生物(例えば、哺乳動物細胞、昆虫、植物、酵母、または細菌)の細胞中での発現に好適なものである。場合により遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、過度の実験的努力をすることなく実験でカバーできる多様性範囲内(例えば、1×107 未満、好ましくは1×106 未満)であるように、選択されるサイズを低下させることができるものである。 Optionally, gene codons are suitable for expression in cells of a particular organism (eg, mammalian cell, insect, plant, yeast, or bacterium). In some cases, the gene codon is within a diversity range that the diversity of the degenerate nucleic acid library of the DNA segment can be experimentally covered without undue experimental effort (eg, less than 1 × 10 7 , preferably 1 × 10 7 The selected size can be reduced to be less than 6 ).

リードタンパク質は、in vitroまたはin vivoでその機能(好ましくは生物学的機能)を改良または改変することが好ましいタンパク質である。リードタンパク質は、完全長タンパク質、オリゴペプチドもしくはペプチドでもよく、また非天然のタンパク質もしくはペプチドでもよい。場合によりリードタンパク質は、公知のタンパク質の断片またはドメイン(特に限定されないが、構造および/または機能性ドメイン、例えば酵素的ドメイン、結合ドメイン、およびより小さい断片もしくはモチーフ、例えばターン、らせんおよびループ)でもよい。さらにタンパク質変種、すなわち非天然に存在するタンパク質類似体構造を使用してもよい。   A lead protein is a protein that preferably improves or modifies its function (preferably biological function) in vitro or in vivo. The lead protein may be a full-length protein, oligopeptide or peptide, or may be a non-natural protein or peptide. Optionally, the lead protein may also be a known protein fragment or domain, including, but not limited to, structural and / or functional domains such as enzymatic domains, binding domains, and smaller fragments or motifs such as turns, helices and loops. Good. In addition, protein variants, ie non-naturally occurring protein analog structures, may be used.

リードタンパク質は好ましくは、産業界で、治療薬および/または診断薬として使用されるタンパク質である。リードタンパク質の種類は、リガンド、細胞表面受容体、抗原、抗体、サイトカイン、ホルモン、転写因子、シグナル伝達分子、細胞骨格タンパク質および酵素でもよい。   The lead protein is preferably a protein used in the industry as a therapeutic and / or diagnostic agent. Lead protein types may be ligands, cell surface receptors, antigens, antibodies, cytokines, hormones, transcription factors, signaling molecules, cytoskeletal proteins and enzymes.

具体的な酵素の種類には、特に限定されないが加水分解酵素、例えばプロテアーゼ、カーボヒドラーゼ、リパーゼ;イソメラーゼ、例えばラセマーゼ、エピメラーゼ、またはタウトメラーゼ;転移酵素、キナーゼ、酸化還元酵素、およびホスファターゼがある。酵素の具体的な例は、Swiss-Prot酵素データベースにリストがある。   Specific enzyme types include, but are not limited to, hydrolases such as proteases, carbohydrases, lipases; isomerases such as racemases, epimerases, or tautomerases; transferases, kinases, oxidoreductases, and phosphatases. Specific examples of enzymes are listed in the Swiss-Prot enzyme database.

リードタンパク質サイトカインの他の例には、特に限定されないが、IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-8、IL-10、IFN-β、IFN-γ、IFN-α-2a;IFN α-2b、TNF-α;CD40リガンド(chk)、ヒト肥満タンパク質リプチン、顆粒球マクロファージコロニー刺激因子(GMCSF)、骨形成蛋白質-7、毛様体神経栄養因子、顆粒球マクロファージコロニー刺激因子、単球化学誘引タンパク質1、マクロファージ遊走阻害因子、ヒトグリコシル化阻害因子、ヒトランテス(Rantes)、ヒトマクロファージ炎症性タンパク質1ベータ、ヒト成長ホルモン、白血病阻害因子、ヒト黒色腫増殖刺激活性、好中球活性化ペプチド-2、Cc-ケモカインMcp-3、血小板因子M2、好中球活性化ペプチド2、エオタキシン、間質細胞由来因子-1、インスリン、インスリン様増殖因子I、インスリン様増殖因子II、トランスフォーミング増殖因子B1、トランスフォーミング増殖因子B2、トランスフォーミング増殖因子B3、トランスフォーミング増殖因子A、血管内皮増殖因子(VEGF)、酸性繊維芽細胞増殖因子、塩基性繊維芽細胞増殖因子、内皮増殖因子、神経増殖因子、脳由来神経栄養因子、毛様体神経栄養因子、血小板由来増殖因子、ヒト肝細胞増殖因子、グリア細胞由来神経栄養因子、エリスロポエチン;凝固因子、特に限定されないが、TPAと第VIIa因子;受容体、特に限定されないが、ヒト組織因子の細胞外領域、Gp130のサイトカイン結合領域、G-CSF受容体、エリスロポエチン受容体、繊維芽細胞増殖因子受容体、TNF受容体、IL-1受容体、IL-1受容体/IL1ra複合体、IL4受容体、受容体α鎖、MHCクラスI、MHCクラスII、T細胞受容体、インスリン受容体、インスリン受容体チロシンキナーゼ、およびヒト成長ホルモン受容体がある。   Other examples of lead protein cytokines include, but are not limited to, IL-1, IL-2, IL-3, IL-4, IL-5, IL-6, IL-8, IL-10, IFN-β , IFN-γ, IFN-α-2a; IFN α-2b, TNF-α; CD40 ligand (chk), human obesity protein liptin, granulocyte-macrophage colony-stimulating factor (GMCSF), bone morphogenetic protein-7, ciliary body Neurotrophic factor, granulocyte macrophage colony stimulating factor, monocyte chemoattractant protein 1, macrophage migration inhibitory factor, human glycosylation inhibitor, human Lantes, human macrophage inflammatory protein 1 beta, human growth hormone, leukemia inhibitory factor, Human melanoma growth stimulating activity, neutrophil activating peptide-2, Cc-chemokine Mcp-3, platelet factor M2, neutrophil activating peptide 2, eotaxin, stromal cell-derived factor-1, insulin, insulin-like proliferation Factor I, insulin-like growth factor II , Transforming growth factor B1, transforming growth factor B2, transforming growth factor B3, transforming growth factor A, vascular endothelial growth factor (VEGF), acidic fibroblast growth factor, basic fibroblast growth factor, endothelial growth Factor, nerve growth factor, brain-derived neurotrophic factor, ciliary neurotrophic factor, platelet-derived growth factor, human hepatocyte growth factor, glial cell-derived neurotrophic factor, erythropoietin; coagulation factor, although not particularly limited, TPA and Factor VIIa; receptor, but not particularly limited, extracellular region of human tissue factor, cytokine binding region of Gp130, G-CSF receptor, erythropoietin receptor, fibroblast growth factor receptor, TNF receptor, IL-1 Receptor, IL-1 receptor / IL1ra complex, IL4 receptor, receptor α chain, MHC class I, MHC class II, T cell receptor, insulin receptor, insulin There are phosphorus receptor tyrosine kinases and human growth hormone receptors.

本発明のさらに別の態様において、リード構造鋳型に基づくタンパク質配列のin silico設計と選択のための方法が提供される。構造鋳型と実質的に同様の構造を有する異なる配列の集合が、配列同一性は低いが構造が類似であるリード配列の遠い相同体について、タンパク質構造のデータベースを検索するためのリード配列として使用される。この方法を使用して、多様なタンパク質配列のライブラリーが構築され、改良されたかまたは所望の機能を有するタンパク質変異体について、in vitroまたはin vivoで実験的にスクリーニングされる。   In yet another aspect of the invention, methods are provided for in silico design and selection of protein sequences based on lead structure templates. A set of different sequences with a structure that is substantially similar to the structural template is used as a lead sequence to search the protein structure database for distant homologues of the lead sequence that have low sequence identity but similar structure. The Using this method, a library of diverse protein sequences is constructed and screened experimentally in vitro or in vivo for protein variants with improved or desired functions.

本発明の具体的な態様において本発明の方法は、配列が多様で互いに機能的に関連する抗体を設計するのに使用される。設計された抗体の配列に基づき、非ヒト抗体の相補性決定領域(CDR)および/またはヒト化フレームワーク(FR)に多様な配列を含む抗体のライブラリーを、高速処理で構築することができる。この抗体ライブラリーは、新規または改良された機能について広範囲の標的分子に対してスクリーニングすることができる。
本発明のさらに別の態様において、リード抗体中の領域のアミノ酸配列に基づく抗体配列(以後「リード配列」と呼ぶ)のin silico選択のための方法が提供される。リード配列は、タンパク質配列のデータベースを検索するのに使用される。データベースの選択は、設計されたモチーフの特異的機能的要求に依存する。例えば、治療的応用のために可変鎖のフレームワーク領域を設計するために、いくつかの構造的に決定的に重要な部位を除いて、完全にヒトの免疫グロブリン配列およびヒトの生殖細胞系免疫グロブリン配列のような進化的に関連するタンパク質配列の集団を使用すべきである。これは、この高度に保存された領域(フレームワーク領域用)中にできるだけ少ない外来変異体を導入することにより、配列の起源を保持しながら免疫応答を低下させるであろう。一方、この高度に可変性の領域の抗原との結合親和性を改良するために、多様なデータベース(例えば、種々の種の免疫グロブリン配列またはジーンバンク(GenBank)中の無関係の配列)を使用してCDRを設計することができる。この方法を使用して、多様な抗体配列のライブラリーを構築し、改良されたかまたは所望の機能を有する抗体変異体について、in vitroまたはin vivoで実験的にスクリーニングすることができる。
In a specific embodiment of the invention, the methods of the invention are used to design antibodies that are diverse in sequence and are functionally related to each other. Based on the designed antibody sequence, a library of antibodies containing various sequences in the complementarity determining region (CDR) and / or humanized framework (FR) of a non-human antibody can be constructed at high speed. . This antibody library can be screened against a wide range of target molecules for new or improved functions.
In yet another aspect of the invention, a method is provided for in silico selection of an antibody sequence (hereinafter referred to as “lead sequence”) based on the amino acid sequence of a region in the lead antibody. The lead sequence is used to search a database of protein sequences. The choice of database depends on the specific functional requirements of the designed motif. For example, to design variable chain framework regions for therapeutic applications, except for some structurally critical sites, fully human immunoglobulin sequences and human germline immunity A population of evolutionarily related protein sequences such as globulin sequences should be used. This will reduce the immune response while preserving the origin of the sequence by introducing as few foreign variants as possible into this highly conserved region (for the framework region). On the other hand, to improve the binding affinity for antigens in this highly variable region, a variety of databases (eg, various species of immunoglobulin sequences or unrelated sequences in GenBank) are used. CDR can be designed. Using this method, a library of diverse antibody sequences can be constructed and experimentally screened in vitro or in vivo for antibody variants with improved or desired functions.

ある実施態様においてこの方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 15% sequence identity with the lead sequence (the selected peptide segment is a hit library Form).

この方法は以下の工程をさらに含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

場合により本発明は以下の工程をさらに含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the present invention further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into corresponding gene codons; and combinatorially combining nucleic acid position variants into a degenerate nucleic acid library of DNA segments Build up.

場合により、遺伝子コドンは細菌での発現に好適なものである。場合により、遺伝子コドンはDNAセグメントの縮重核酸ライブラリーの多様性が、過度の実験的努力をすることなく実験でカバーできる多様性範囲内(例えば、1×107 未満、好ましくは1×106 未満)であるように、選択されるサイズを低下させることができるものである。 In some cases, gene codons are suitable for expression in bacteria. In some cases, the gene codons are within a diversity range that allows the experiment to cover the diversity of a degenerate nucleic acid library of DNA segments without undue experimental effort (eg, less than 1 × 10 7 , preferably 1 × 10 7 The selected size can be reduced to be less than 6 ).

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDRとFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含む第1のアミノ酸配列を提供し(選択されたアミノ酸配列はCDRリード配列である);
CDRリード配列を複数のテスタータンパク質配列と比較し;そして
複数のCDRテスタータンパク質配列から、CDRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはCDRヒットライブラリーを形成する);
リード抗体のVHまたはVL領域中に1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列はFRリード配列である);
FRリード配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、FRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはFRヒットライブラリーを形成する);そして
CDRヒットライブラリーとFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identify the amino acid sequence in the CDR and FR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing a first amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a CDR lead sequence);
Comparing the CDR lead sequence with a plurality of tester protein sequences; and selecting from the plurality of CDR tester protein sequences at least two peptide segments having at least 15% sequence identity with the CDR lead sequence (the selected peptide segments are Forming a CDR hit library);
Select one FR in the VH or VL region of the lead antibody;
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the FR lead sequence);
Comparing the FR lead sequence to a plurality of FR tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the FR lead sequence (selected peptide segments Forms an FR hit library); and
A hit library is formed by combining the CDR hit library and the FR hit library.

この方法において、複数のCDRテスタータンパク質配列は、ヒトまたは非ヒト抗体のアミノ酸配列を含んでよい。
また本発明において複数のFRテスタータンパク質配列は、ヒト起源のアミノ酸配列、好ましくはヒトもしくはヒト化抗体(例えば、VHまたはVL中に少なくとも50%のヒト配列、好ましくは少なくとも70%のヒト配列、さらに好ましくは少なくとも90%のヒト配列、および最も好ましくは少なくとも95%のヒト配列)、さらに好ましくは完全にヒト抗体、および最も好ましくはヒト生殖細胞系抗体を含んでよい。
In this method, the plurality of CDR tester protein sequences may comprise the amino acid sequence of a human or non-human antibody.
Also in the present invention, the plurality of FR tester protein sequences are amino acid sequences of human origin, preferably human or humanized antibodies (eg, at least 50% human sequences, preferably at least 70% human sequences in VH or VL). More preferably at least 90% human sequences, and most preferably at least 95% human sequences), more preferably fully human antibodies, and most preferably human germline antibodies.

また本発明において、少なくとも1つの複数のCDRテスタータンパク質配列は、複数のFRテスタータンパク質配列とは異なる。   In the present invention, at least one of the plurality of CDR tester protein sequences is different from the plurality of FR tester protein sequences.

また本発明において、複数のCDRテスタータンパク質配列はヒトもしくは非ヒト抗体配列であり、複数のFRテスタータンパク質配列はヒト抗体配列、好ましくはヒト生殖細胞系抗体配列である。   Also in the present invention, the plurality of CDR tester protein sequences are human or non-human antibody sequences, and the plurality of FR tester protein sequences are human antibody sequences, preferably human germline antibody sequences.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

場合により本方法は以下の工程をさらに含む:
CDRヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、CDRヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the CDR hit library;
Converting the amino acid position variant profile of the CDR hit library into a nucleic acid position variant profile by back-translating the amino acid position variants into the corresponding gene codons; and combing the nucleic acid position variants in a combinatorial manner Build a rally.

場合により、遺伝子コドンは、細菌での発現に好適なものである。場合により遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、過度の実験的努力をすることなく実験でカバーできる多様性範囲内(例えば、1×107 未満、好ましくは1×106 未満)であるように、選択されるサイズを低下させることができるものである。 In some cases, the gene codon is suitable for expression in bacteria. In some cases, the gene codon is within a diversity range that the diversity of the degenerate nucleic acid library of the DNA segment can be experimentally covered without undue experimental effort (eg, less than 1 × 10 7 , preferably 1 × 10 7 The selected size can be reduced to be less than 6 ).

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列は第1のFRリード配列である);
第1のリードFR配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、第1のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはFRヒットライブラリーを形成する)。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the FR of the lead antibody;
Select one FR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the first FR lead sequence);
Comparing the first lead FR sequence to a plurality of FR tester protein sequences; and selecting at least two peptide segments from the plurality of FR tester protein sequences having at least 15% sequence identity with the first FR lead sequence (Selected peptide segments form an FR hit library).

この方法はさらに以下の工程を含む:
選択されたFRとは異なるFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列は第2のFRリード配列である);
第2のFRリード配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、第2のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントは第2のFRヒットライブラリーを形成する);そして
第1のFRヒットライブラリーと第2のFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
The method further includes the following steps:
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in a FR different from the selected FR (the selected amino acid sequence is the second FR lead sequence);
Comparing the second FR lead sequence with a plurality of FR tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the second FR lead sequence (The selected peptide segment forms a second FR hit library); and the first FR hit library and the second FR hit library are combined to form a hit library.

本発明においてリードCDR配列は、選択されるCDR中に少なくとも5つの連続的アミノ酸残基を含む。選択されるCDRは、リード抗体のVH CDR1、VH CDR2、VH CDR3、VL CDR1、VL CDR2、およびVL CDR3よりなる群から選択される。 In the present invention, the lead CDR sequence comprises at least 5 consecutive amino acid residues in the selected CDR. The selected CDR is selected from the group consisting of V H CDR1, V H CDR2, V H CDR3, V L CDR1, V L CDR2, and V L CDR3 of the lead antibody.

また本発明においてリードFR配列は、選択されるCDR中に少なくとも5つの連続的アミノ酸残基を含む。選択されるFRは、リード抗体のVH FR1、VH FR2、VH FR3、VH FR4、VL FR1、VL FR2、VL FR3、およびVL FR4よりなる群から選択される。 In the present invention, the lead FR sequence also contains at least 5 consecutive amino acid residues in the selected CDR. The selected FR is selected from the group consisting of the lead antibodies V H FR1, V H FR2, V H FR3, V H FR4, V L FR1, V L FR2, V L FR3, and V L FR4.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築する。
本発明の別の態様において、リード抗体中の領域のアミノ酸配列(すなわち「リード配列」)に基づく抗体配列のin silico選択のための方法が提供される。リード配列の構造は、同様の3D構造を有するセグメントのタンパク質構造のデータベースを検索するのに使用される。これらのセグメントは、配列プロフィール(本明細書において以後「リード配列プロフィール」と呼ぶ)を与えるように整列される。リード配列プロフィールは、低い配列同一性であるが構造が同様のリード配列の遠い相同体のタンパク質配列のデータベースを検索するのに使用される。この方法を使用して、多様な抗体配列のライブラリーを構築し、改良されたかまたは所望の機能を有する抗体変異体について、in vitroまたはin vivoで実験的にスクリーニングすることができる。
The method further includes the following steps:
A degenerate nucleic acid library containing a DNA segment encoding the amino acid sequence of the hit library is constructed.
In another aspect of the invention, a method is provided for in silico selection of antibody sequences based on the amino acid sequence of a region in the lead antibody (ie, “lead sequence”). The structure of the lead sequence is used to search a database of protein structures for segments with similar 3D structures. These segments are aligned to provide a sequence profile (hereinafter referred to as the “lead sequence profile”). The lead sequence profile is used to search a database of protein sequences of distant homologues of a low lead sequence identity but similar structure. Using this method, a library of diverse antibody sequences can be constructed and experimentally screened in vitro or in vivo for antibody variants with improved or desired functions.

ある実施態様においてこの方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列の3次元構造を提供し;
リード配列の構造に基づいてリード配列プロフィールを作成し;
リード配列プロフィールを複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Providing a three-dimensional structure of the lead sequence;
Creating a lead sequence profile based on the structure of the lead sequence;
Comparing the lead sequence profile to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments are hit live Forming a rally).

本発明においてリード配列の3次元構造は、X線結晶解析、核磁気共鳴(NMR)分光法、または理論的構造モデル化から得られる構造でもよい。   In the present invention, the three-dimensional structure of the lead array may be a structure obtained from X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy, or theoretical structure modeling.

本発明において、リード配列プロフィールを作成する工程は以下を含む:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションの差の自乗平均の平方根を決定し;
主鎖コンフォメーションの差の自乗平均の平方根が5Å未満、好ましくは4Å未満、さらに好ましくは3Å未満、および最も好ましくは2Å未満であるテスタータンパク質セグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
In the present invention, the step of creating a lead sequence profile includes the following:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the root mean square of the difference in the main chain conformation of the lead sequence and the tester protein segment;
Selecting a tester protein segment having a root mean square difference root mean square of less than 5, preferably less than 4, more preferably less than 3, and most preferably less than 2; and the amino acids of the selected tester protein segment The sequence is aligned with the lead sequence to create a lead sequence profile.

場合により複数のテスタータンパク質セグメントの構造は、タンパク質データバンクから検索される。
場合により、リード配列プロフィールを作成する工程は以下を含む:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションのZスコアを決定し;
Zスコアが2より大きい、好ましくは3より大きい、さらに好ましくは4より大きい、および最も好ましくは5より大きいテスタータンパク質セグメントのセグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
Optionally, the structure of the plurality of tester protein segments is retrieved from the protein data bank.
Optionally, the step of creating a lead sequence profile includes:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the Z-score of the main chain conformation of the lead sequence and tester protein segment;
Selecting a segment of the tester protein segment with a Z score greater than 2, preferably greater than 3, more preferably greater than 4, and most preferably greater than 5; and the amino acid sequence of the selected tester protein segment as the lead sequence Align to create a lead sequence profile.

場合によりリード配列プロフィールを作成する工程は、CE、MAPS、モンテカルロおよび3Dクラスタリングアルゴリズムよりなる群から選択されるアルゴリズムにより行われる。
本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
Optionally, the step of creating a lead sequence profile is performed by an algorithm selected from the group consisting of CE, MAPS, Monte Carlo, and 3D clustering algorithm.
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

場合により本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into the corresponding trinucleotide codons; and combining nucleic acid position variants in a combinatorial manner Build a rally.

上記の任意の方法はさらに以下の工程を含む:
核酸または縮重核酸ライブラリーのDNAセグメントを宿主生物細胞中に導入し;
ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;そして
106 M-1、好ましくは107 M-1、さらに好ましくは108 M-1、および最も好ましくは109 M-1より高い親和性で標的抗原に結合する組換え抗体を選択する。
Any of the above methods further includes the following steps:
Introducing a DNA segment of a nucleic acid or degenerate nucleic acid library into a host organism cell;
Expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell; and
Recombinant antibodies that bind to the target antigen with an affinity higher than 10 6 M −1 , preferably 10 7 M −1 , more preferably 10 8 M −1 , and most preferably 10 9 M −1 are selected.

本発明のさらに別の態様において、リード抗体の3D構造に基づく抗体配列のin silico選択のための方法が提供される。リード配列または使用されるリード抗体の特異的領域からの配列プロフィールは、配列同一性は低いが構造が類似のリード配列の遠い相同体について、タンパク質配列のデータベースを検索するのに使用される。これらの遠い相同体はヒットライブラリーを形成する。ヒットライブラリー中の配列は、リード抗体の3D構造(本明細書において以後「リード構造鋳型」と呼ぶ)との構造適合性について評価される。リード構造鋳型と構造的に適合性のあるヒットライブラリー中の配列が選択され、改良されたかまたは所望の機能を有する抗体変異体について、in vitroまたはin vivoで実験的にスクリーニングされる。   In yet another embodiment of the invention, a method is provided for in silico selection of antibody sequences based on the 3D structure of a lead antibody. The sequence profile from the lead sequence or the specific region of the lead antibody used is used to search the protein sequence database for distant homologues of the lead sequence with low sequence identity but similar structure. These distant homologues form a hit library. The sequences in the hit library are evaluated for structural compatibility with the 3D structure of the lead antibody (hereinafter referred to as the “lead structure template”). A sequence in the hit library that is structurally compatible with the lead structural template is selected and screened experimentally in vitro or in vivo for improved or desired antibody variants.

ある実施態様においてこの方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列プロフィールを複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
スコア化関数を使用して、ヒットライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒットライブラリーのメンバーを選択する。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structural template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence profile to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
A scoring function is used to determine whether the hit library members are structurally compatible with the lead structural template; and the hit library members with scores equal to or better than the lead sequence Select.

本発明においてスコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である。   In the present invention, the scoring function is an energy score selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. Function.

場合によりスコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールド、および他の知識ベースの統計的フォースフィールド(平均フィールド)および構造ベースの熱力学ポテンシャル関数よりなる群から選択されるフォースフィールドを含むものである。   In some cases, the scoring functions are Amber Forcefield (forcefiled), Charmm Forcefield, Discover cvff Forcefield, ECEPP Forcefield, GROMOS Forcefield, OPLS Forcefield, MMFF94 Forcefield, Tripos Forcefield, MM3 Forcefield, Dreiding Forcefield , And UNRES force fields, and other knowledge based statistical force fields (mean fields) and force fields selected from the group consisting of structure based thermodynamic potential functions.

また本発明において、ヒットライブラリーのメンバーを選択する工程は、
ΔEtotal = Evdw + Ebond + Eangel + Eelectrostatics + Esolvation
の式に基づいて計算されるリード配列より低いかまたは同等の総エネルギーを有するヒットライブラリーのメンバーを選択する。
In the present invention, the step of selecting members of the hit library includes:
ΔE total = E vdw + E bond + E angel + E electrostatics + E solvation
Select members of the hit library that have a total energy that is lower or equivalent to the lead sequence calculated based on the formula:

また本発明において、ヒットライブラリーのメンバーを選択する工程は、改良されたスコア化関数
ΔGb = ΔGMM + ΔGsol - TΔSSS
(式中、
ΔGMM = ΔGele + ΔGvdw (1)
ΔGsol = ΔGele-sol + ΔGASA (2))
を使用して、結合状態と非結合状態の差として計算されるリード配列より小さい結合フリーエネルギーを有するヒットライブラリーのメンバーを選択する。
In the present invention, the step of selecting members of the hit library includes an improved scoring function ΔG b = ΔG MM + ΔG sol −TΔS SS
(Where
ΔG MM = ΔG ele + ΔG vdw (1)
ΔG sol = ΔG ele-sol + ΔG ASA (2))
Is used to select members of the hit library that have a binding free energy less than the lead sequence calculated as the difference between bound and unbound states.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
場合により本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into the corresponding trinucleotide codons; and combining nucleic acid position variants in a combinatorial manner Build a rally.

本発明のさらに別の態様において、3D構造もしくはリード抗体の構造集合体、または複数の抗体の構造集合体(以後まとめてリード構造鋳型と呼ぶ)に基づき抗体配列のin silico選択のための方法が提供される。低い配列同一性であるが構造が類似のリード配列の遠い相同体のタンパク質配列のデータベースを検索するのに使用されるリード抗体の特異的領域からのリード配列または配列プロフィール。これらの遠い相同体はヒットライブラリーを形成する。ヒットライブラリーのアミノ酸位置変種プロフィール(AA-PVP)は、リード配列の各位置に現れるアミノ酸変種の頻度に基づき構築される。AA-PVPに基づき、低頻度変種の、カットオフがあるかまたは無いリード配列の各位置のアミノ酸変種をコンビナトリアル的に組合せることにより、ヒット変種ライブラリーが構築される。ヒット変種ライブラリー中の配列は、リード構造鋳型との構造適合性について評価に付される。リード構造鋳型と構造的に適合性のあるヒットライブラリー中の配列が選択され、改良されたかまたは所望の機能を有する抗体変異体についてin vitroまたはin vivoで実験的にスクリーニングされる。   In yet another embodiment of the present invention, there is provided a method for in silico selection of antibody sequences based on a 3D structure or a structural assembly of lead antibodies, or a structural assembly of a plurality of antibodies (hereinafter collectively referred to as lead structure templates). Provided. A lead sequence or sequence profile from a specific region of a lead antibody used to search a database of protein sequences of distant homologues of a lead sequence with low sequence identity but similar structure. These distant homologues form a hit library. The amino acid position variant profile (AA-PVP) of the hit library is constructed based on the frequency of amino acid variants that appear at each position of the lead sequence. Based on AA-PVP, a hit variant library is constructed by combinatorially combining amino acid variants at each position of the read sequence with or without low-frequency variants. The sequences in the hit variant library are subjected to evaluation for structural compatibility with the lead structural template. Sequences in the hit library that are structurally compatible with the lead structural template are selected and screened experimentally in vitro or in vivo for antibody variants with improved or desired function.

ある実施態様において、本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3D構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを作成し;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known 3D structure defined as a lead structure template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR of the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining the amino acid variants in the hit library to create a combination of hit variants that forms a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.

本方法において、ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む:
出現頻度が4回より大きい、好ましくは6回より大きい、さらに好ましくは8回より大きい、および最も好ましくは10回より大きいアミノ酸変種を選択し(カットオフの頻度の2%〜10%、好ましくは5%であり、カットオフ後に失われた場合は、リード配列からのアミノ酸の一部を含む);そして
ヒットライブラリー中の選択されたアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成する。
In this method, combining the amino acid variants in the hit library includes the following:
Select amino acid variants with an appearance frequency greater than 4, preferably greater than 6, more preferably greater than 8, and most preferably greater than 10 (2% to 10% of the cutoff frequency, preferably Hit variants that combine the selected amino acid variants in the hit library to form a hit variant library, including 5% if lost after cut-off, including some amino acids from the lead sequence); Generate a combination of

本方法においてスコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である。
場合によりスコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールド、および他の知識ベースの統計的フォースフィールド(平均フィールド)および構造ベースの熱力学ポテンシャル関数よりなる群から選択されるフォースフィールドを含むものである。
In the present method, the scoring function is an energy score selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. Function.
In some cases, the scoring functions are Amber forcefield (forcefiled), Charmm forcefield, Discover cvff forcefield, ECEPP forcefield, GROMOS forcefield, OPLS forcefield, MMFF94 forcefield, Tripos forcefield, MM3 forcefield, Dreiding forcefield , And UNRES force fields, and other knowledge based statistical force fields (mean fields) and force fields selected from the group consisting of structure based thermodynamic potential functions.

本方法はさらに以下の工程を含む:
ヒットライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
場合により本方法は以下の工程を含む:
ヒット変種ライブラリーの選択されたメンバーを少なくとも2つのサブヒット変種ライブラリーに分割し;
サブヒット変種ライブラリーを選択し;
選択されたサブヒット変種ライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、選択されたサブヒット変種ライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library is constructed that includes DNA segments that encode the amino acid sequences of selected members of the hit library.
Optionally, the method includes the following steps:
Splitting selected members of the hit variant library into at least two sub-hit variant libraries;
Select a sub-hit variant library;
Creating an amino acid position variant profile of the selected sub-hit variant library;
Converting the amino acid position variant profile of the selected sub-hit variant library into a nucleic acid position variant profile by back-translating the amino acid position variants into the corresponding trinucleotide codons; and combining the nucleic acid position variants in a combinatorial manner Construct a degenerate nucleic acid library.

ヒット変種ライブラリーを分解する工程は以下を含む:
リード配列と同等かまたはより優れたスコアを有するヒット変種ライブラリーの10〜30メンバーをランダムに選択する(選択されたメンバーはサブ変種ライブラリーを形成する)。
Degrading the hit variant library includes the following:
Randomly select 10-30 members of the hit variant library that have a score equal to or better than the lead sequence (the selected members form a subvariant library).

場合により、ヒット変種ライブラリーを分解する工程は以下を含む:
ヒット変種ライブラリーのアミノ酸位置変種プロフィールを作成して、ヒット変種プロフィールを得て;
ある距離のカットオフ(8Å〜4.5Å)以内のリード配列の構造体または構造集合体のCαもしくはCβまたは重い原子の接触地図に基づき、ヒット変種プロフィールをサブ変種プロフィールのセグメントに分解する。4.5Å、好ましくは5Å、さらに好ましくは6Å、および最も好ましくは8Å以内の構造モデルもしくはリード構造鋳型。
Optionally, decomposing the hit variant library includes the following:
Create an amino acid position variant profile of the hit variant library to obtain a hit variant profile;
The hit variant profile is broken down into sub-variant profile segments based on the Cα or Cβ or heavy atom contact map of the structure or assembly of lead sequences within a certain distance cutoff (8 Å to 4.5 Å). Structural model or lead structure template within 4.5 mm, preferably 5 mm, more preferably 6 mm, and most preferably 8 mm.

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
リード抗体以外のVHもしくはVL領域中の異なる配列を有する1つ以上の抗体の3D構造を提供し;
リード抗体と1つ以上の抗体の構造体とを組合せて構造集合体を形成し(構造集合体はリード構造鋳型として定義される);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
Providing a 3D structure of one or more antibodies having different sequences in the VH or VL regions other than the lead antibody;
Combining the lead antibody with one or more antibody structures to form a structure assembly (a structure assembly is defined as a lead structure template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining amino acid variants in the hit library to generate a combination of hit variants that form a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.

[ルートVII.図2Bに示す配列から構造から機能空間へのリード配列を使用する連続的工程を請求する]   [Route VII. Claim a continuous process using the structure to functional space lead sequence from the sequence shown in FIG. 2B]

具体的な実施態様において本方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列を複数のテスタータンパク質配列と比較し;
f) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
g) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
h) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
i) スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
j) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
k) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
l) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程j)〜l)を繰り返し;
m) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
n) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
o) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
p) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜o)を繰り返す。
In a specific embodiment, the method includes the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) compare the lead sequence to multiple tester protein sequences;
f) selecting at least two peptide segments having at least 10% sequence identity with the lead sequence from a plurality of tester protein sequences (the selected peptide segments form a hit library);
g) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
h) combining the amino acid variants in the hit library to generate a combination of hit variants that forms a hit variant library;
i) using a scoring function to determine whether members of the hit variant library are structurally compatible with the lead structure template;
j) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
k) constructing a degenerate nucleic acid library comprising a DNA segment encoding the amino acid sequence of a selected member of the hit variant library;
l) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step j) to l) until the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
m) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
n) expressing a DNA segment in the host cell so that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
o) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
p) If no recombinant antibody is found that binds to the target antigen with an affinity higher than 10 6 M −1 , repeat steps e) to o).

別の具体的な実施態様において本方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列の1つ以上のアミノ酸残基を1つ以上の異なるアミノ酸残基で置換してリード配列を変異させて、リード配列変異体ライブラリーを作成し;
f) 第1のスコア化関数を使用して、リード配列変異体ライブラリーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
g) リード配列と同等であるかまたはよりすぐれたスコアのリード配列変異体を選択し;
h) リード配列を複数のテスタータンパク質配列と比較し;
i) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
j) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
k) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種の組合せを生成させ;
l) 選択された配列変異体をヒット変種の組合せと組合せて、ヒット変種ライブラリーを産生させ;
m) 第2のスコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
n) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
o) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
p) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程n)〜p)を繰り返し;
q) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
r) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
s) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
t) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜s)を繰り返す。
In another specific embodiment, the method comprises the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structure template);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) mutating the lead sequence by substituting one or more amino acid residues of the lead sequence with one or more different amino acid residues to create a lead sequence variant library;
f) using a first scoring function to determine if the lead sequence variant library is structurally compatible with the lead structural template;
g) select a lead sequence variant with a score equal to or better than the lead sequence;
h) comparing the lead sequence to multiple tester protein sequences;
i) selecting at least two peptide segments having a sequence identity of at least 10% with the lead sequence from the plurality of tester protein sequences (the selected peptide segments form a hit library);
j) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
k) combining amino acid variants in a hit library to generate a combination of hit variants;
l) combining a selected sequence variant with a combination of hit variants to produce a hit variant library;
m) Use a second scoring function to determine whether members of the hit variant library are structurally compatible with the lead structural template;
n) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
o) constructing a degenerate nucleic acid library comprising DNA segments encoding the amino acid sequences of selected members of the hit variant library;
p) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step n) ~p) to the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
q) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
r) expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
s) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
t) If a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 is not found, repeat steps e) to s).

本発明のさらに別の態様において、リード抗体に基づく変異抗体のライブラリーを構築するためのコンピューターによる方法が提供される。ある実施態様において本方法は以下を含む:
入力としてリード抗体のCDR領域中の少なくとも3つの連続的アミノ酸残基を含むアミノ酸配列を取り(アミノ酸配列はリード配列である);
コンピューターが実行できるロジックを使用してリード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し;そして
出力として、ヒットライブラリーを形成する選択されたペプチドを作成する。
上記の任意の方法において、リード配列の長さは好ましくは5〜100aa、さらに好ましくは6〜80aa、および最も好ましくは8〜50aaである。
In yet another aspect of the invention, a computerized method for constructing a library of mutant antibodies based on lead antibodies is provided. In certain embodiments, the method includes:
Taking as input an amino acid sequence comprising at least three consecutive amino acid residues in the CDR region of the lead antibody (the amino acid sequence is the lead sequence);
Compare the lead sequence to multiple tester protein sequences using computer-implementable logic;
From the plurality of tester protein sequences, select at least two peptide segments having at least 15% sequence identity with the lead sequence; and, as an output, create selected peptides that form a hit library.
In any of the above methods, the length of the lead sequence is preferably 5 to 100 aa, more preferably 6 to 80 aa, and most preferably 8 to 50 aa.

上記の任意の方法において、CDR中のアミノ酸配列を同定する工程は、Kabat基準またはチョチア(Chothia)基準を使用して行われる。
また上記の任意の方法において、リード配列は、リード抗体のVHもしくはVL、CDR1、CDR2もしくはCDR3、またはCDRとFRの組合せ(例えば、CDR1-FR2、FR2-CDR2-FR3)内の特定の領域、および完全長VHもしくはVL配列からのアミノ酸配列を含む。リード配列は好ましくは、選択されたCDR中に少なくとも6つの連続的アミノ酸残基、さらに好ましくは選択されたCDR中に少なくとも7つの連続的アミノ酸残基、およびまた好ましくは選択されたCDR中にすべてのアミノ酸残基を含む。
In any of the above methods, the step of identifying the amino acid sequence in the CDR is performed using Kabat criteria or Chothia criteria.
In any of the above methods, the lead sequence may be a specific sequence within the VH or VL of the lead antibody, CDR1, CDR2 or CDR3, or a combination of CDR and FR (eg, CDR1-FR2, FR2-CDR2-FR3). Region, and the amino acid sequence from the full length VH or VL sequence. The lead sequence is preferably at least 6 consecutive amino acid residues in the selected CDR, more preferably at least 7 consecutive amino acid residues in the selected CDR, and also preferably all in the selected CDR Of amino acid residues.

また上記の任意の方法において、リード配列は、選択されたCDRにすぐ隣接する少なくとも1つのアミノ酸残基をさらに含む。
また上記の任意の方法において、リード配列は、選択されたCDRにフランキングする少なくとも1つのFRをさらに含む。
Also in any of the above methods, the lead sequence further comprises at least one amino acid residue immediately adjacent to the selected CDR.
Also in any of the above methods, the lead sequence further comprises at least one FR that flanks the selected CDR.

また上記の任意の方法において、リード配列は、選択されたCDRのC末端またはN末端に隣接する1つ以上のCDRもしくはFRをさらに含む。   Also in any of the above methods, the lead sequence further comprises one or more CDRs or FRs adjacent to the C-terminus or N-terminus of the selected CDR.

また上記の任意の方法において、リード構造鋳型は、完全に組み立てられたリード抗体の3D構造体、またはリード抗体の重鎖もしくは軽鎖可変領域(例えば、CDR、FRおよびこれらの組合せ)である。   Also in any of the above methods, the lead structure template is a fully assembled lead antibody 3D structure, or a heavy or light chain variable region of a lead antibody (eg, CDR, FR and combinations thereof).

また上記の任意の方法において、複数のテスタータンパク質配列は、特にフレームワーク領域の、好ましくは抗体配列、さらに好ましくはヒト抗体配列、最も好ましくはヒト生殖細胞系抗体配列(Vデータベース)を含む。   Also in any of the above methods, the plurality of tester protein sequences comprises, in particular, a framework region, preferably an antibody sequence, more preferably a human antibody sequence, most preferably a human germline antibody sequence (V database).

また上記の任意の方法において、複数のテスタータンパク質配列は、抗体のCDRについてNIHもしくはSwiss-ProtデータベースのまたはKabatデータベースのジーンバンクから検索される。
また上記の任意の方法において、リード配列を複数のテスタータンパク質配列と比較する工程は、BLAST、PSI-BLAST、プロフィールHMM、およびCOBLATHよりなる群から選択されるアルゴリズムにより行われる。
Also in any of the above methods, a plurality of tester protein sequences are retrieved from a gene bank of the NIH or Swiss-Prot database or Kabat database for antibody CDRs.
In any of the above methods, the step of comparing the lead sequence with a plurality of tester protein sequences is performed by an algorithm selected from the group consisting of BLAST, PSI-BLAST, profile HMM, and COBLATH.

また上記の任意の方法において、ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、好ましくは少なくとも25%、好ましくは少なくとも35%、および最も好ましくは少なくとも45%である。
また上記の任意の方法において、方法は以下の工程をさらに含む:
核酸もしくは縮重核酸ライブラリーによりコードされるヒットライブラリーのアミノ酸配列を含有する組換え抗体を宿主生物の細胞中に導入し;そして
106 M-1、好ましくは107 M-1、さらに好ましくは108 M-1、および最も好ましくは109 M-1より高い親和性で標的抗原に結合する組換え抗体を選択する。
Also in any of the above methods, the sequence identity between the selected peptide segment in the hit library and the lead sequence is preferably at least 25%, preferably at least 35%, and most preferably at least 45%.
Also in any of the above methods, the method further comprises the following steps:
Introducing a recombinant antibody containing the amino acid sequence of the hit library encoded by the nucleic acid or degenerate nucleic acid library into the cells of the host organism; and
Recombinant antibodies that bind to the target antigen with an affinity higher than 10 6 M −1 , preferably 10 7 M −1 , more preferably 10 8 M −1 , and most preferably 10 9 M −1 are selected.

組換え抗体は、完全に組み立てられた抗体、Fab断片、Fv断片、または1本鎖抗体でもよい。
宿主生物は、移動された外来遺伝子配列を発現することができる任意の生物またはその細胞株を含み、特に限定されないが酵母、植物、昆虫および哺乳動物がある。
The recombinant antibody may be a fully assembled antibody, Fab fragment, Fv fragment, or single chain antibody.
Host organisms include any organism or cell line thereof that can express a transferred foreign gene sequence, including but not limited to yeast, plants, insects and mammals.

組換え抗体は、完全に組み立てられた抗体、Fab断片、Fv断片、または1本鎖抗体でもよい。例えば組換え抗体は、細菌細胞で発現され、ファージ粒子の表面に表示される。ファージ粒子上に表示される組換え抗体は、VHとVLにより形成される2本鎖ヘテロダイマーでもよい。VHおよびVL鎖のヘテロダイマー化は、それぞれVHとVL鎖に融合した2つの非抗体ポリペプチド鎖の間で形成されたヘテロダイマーにより促進される。例えばこれらの2つの非抗体ポリペプチドは、それぞれヘテロダイマー受容体GABAB R1(GR1)とR2(GR2)から得られる。 The recombinant antibody may be a fully assembled antibody, Fab fragment, Fv fragment, or single chain antibody. For example, recombinant antibodies are expressed in bacterial cells and displayed on the surface of phage particles. The recombinant antibody displayed on the phage particle may be a double-stranded heterodimer formed by VH and VL . Heterodimerization of VH and VL chains is facilitated by heterodimers formed between two non-antibody polypeptide chains fused to VH and VL chains, respectively. For example, these two non-antibody polypeptides are derived from the heterodimeric receptors GABA B R1 (GR1) and R2 (GR2), respectively.

あるいは、ファージ粒子上に表示される組換え抗体は、ペプチドリンカーで連結されたVHとVLを含有する1本鎖抗体でもよい。ファージ粒子の表面上の1本鎖抗体の表示は、1本鎖抗体とGR1との融合体とファージpIIIキャプシドタンパク質とGR2との融合体とで形成されるヘテロダイマーにより促進される。 Alternatively, the recombinant antibody displayed on the phage particle may be a single chain antibody containing VH and VL linked by a peptide linker. The display of single chain antibodies on the surface of the phage particles is facilitated by heterodimers formed by a fusion of the single chain antibody and GR1 and a fusion of the phage pIII capsid protein and GR2.

それに対してスクリーニングされる標的抗原は、小分子や巨大分子(例えば、タンパク質、ペプチド、核酸およびポリ炭水化物)がある。
本発明のさらに別の態様において、コンピューターで読める媒体が提供される。コンピューター媒体には、リード抗体に基づく変異抗体のライブラリーを構築するためのロジックがあり、このロジックは以下を含む:
入力として、リード抗体のCDR中に少なくとも3つの連続的アミノ酸残基を含むアミノ酸配列を含み(アミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し;そして
出力として、ヒットライブラリーを形成する選択されたペプチドセグメントを作成する、ロジック。
Target antigens screened against them include small molecules and macromolecules (eg, proteins, peptides, nucleic acids and polycarbohydrates).
In yet another aspect of the invention, a computer readable medium is provided. Computer media has logic to construct a library of mutant antibodies based on lead antibodies, which includes the following:
As an input, comprising an amino acid sequence comprising at least three consecutive amino acid residues in the CDR of the lead antibody (the amino acid sequence is the lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Logic that selects, from a plurality of tester protein sequences, at least two peptide segments having at least 15% sequence identity with the lead sequence; and, as an output, creates selected peptide segments that form a hit library.

本発明のさらに別の態様において、106 M-1より高い結合親和性でヒト血管内皮増殖因子(VEGF)に結合することができるモノクローナル抗体が提供される。このモノクローナル抗体は、完全に組み立てられた抗体、Fab断片、Fv断片、1本鎖抗体(scFv)でもよい。 In yet another aspect of the invention, monoclonal antibodies are provided that are capable of binding to human vascular endothelial growth factor (VEGF) with a binding affinity higher than 10 6 M −1 . This monoclonal antibody may be a fully assembled antibody, Fab fragment, Fv fragment, single chain antibody (scFv).

ある実施態様においてモノクローナル抗体の重鎖CDR3は、配列番号36〜48および63〜125よりなる群から選択されるアミノ酸配列を含む。
別の実施態様においてモノクローナル抗体の重鎖CDR1は、配列番号19〜30よりなる群から選択されるアミノ酸配列を含む。
In certain embodiments, the heavy chain CDR3 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 36-48 and 63-125.
In another embodiment, the heavy chain CDR1 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 19-30.

さらに別の実施態様においてモノクローナル抗体の重鎖CDR2は、配列番号31〜35よりなる群から選択されるアミノ酸配列を含む。
場合によりモノクローナル抗体の重鎖CDR3は、配列番号36〜48および63〜125よりなる群から選択されるアミノ酸配列を含み、かつモノクローナル抗体の重鎖CDR1は、配列番号19〜30よりなる群から選択されるアミノ酸配列を含む。
In yet another embodiment, the heavy chain CDR2 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 31-35.
Optionally, the heavy chain CDR3 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 36-48 and 63-125, and the heavy chain CDR1 of the monoclonal antibody is selected from the group consisting of SEQ ID NOs: 19-30 Amino acid sequence.

また場合によりモノクローナル抗体の重鎖CDR3は、配列番号36〜48および63〜125よりなる群から選択されるアミノ酸配列を含み、かつモノクローナル抗体の重鎖CDR2は、配列番号31〜35よりなる群から選択されるアミノ酸配列を含む。   In some cases, the heavy chain CDR3 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 36 to 48 and 63 to 125, and the heavy chain CDR2 of the monoclonal antibody is from a group consisting of SEQ ID NOs: 31 to 35. Contains a selected amino acid sequence.

また場合によりモノクローナル抗体の重鎖CDR1は、配列番号19〜30よりなる群から選択されるアミノ酸配列を含み、かつモノクローナル抗体の重鎖CDR2は、配列番号31〜35よりなる群から選択されるアミノ酸配列を含む。   In some cases, the heavy chain CDR1 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 19 to 30, and the heavy chain CDR2 of the monoclonal antibody is an amino acid selected from the group consisting of SEQ ID NOs: 31 to 35 Contains an array.

別の実施態様において、VEGFに対するモノクローナル抗体の重鎖可変領域(VH)は配列番号126のアミノ酸配列を含み、VEGFに対するモノクローナル抗体の軽鎖可変領域(VL)は配列番号127のアミノ酸配列を含む。 In another embodiment, the heavy chain variable region (V H ) of a monoclonal antibody against VEGF comprises the amino acid sequence of SEQ ID NO: 126, and the light chain variable region (V L ) of the monoclonal antibody against VEGF comprises the amino acid sequence of SEQ ID NO: 127. Including.

さらに別の実施態様において、VEGFに対するモノクローナル抗体の重鎖可変領域(VH)は配列番号126、128、129、130、および131のアミノ酸配列を含み、VEGFに対するモノクローナル抗体の軽鎖可変領域(VL)は配列番号127のアミノ酸配列を含む。 In yet another embodiment, the heavy chain variable region (V H ) of a monoclonal antibody against VEGF comprises the amino acid sequence of SEQ ID NOs: 126, 128, 129, 130, and 131, and the light chain variable region (V V) of the monoclonal antibody against VEGF. L ) comprises the amino acid sequence of SEQ ID NO: 127.

本発明の方法を使用して設計される抗体は、特に限定されないが、癌、自己免疫疾患(例えば、多発性硬化症、リウマチ様関節炎、全身性エリテマトーデス、I型糖尿病、および重症筋無力症)、移植片対宿主反応病、心血管疾患、ウイルス感染(例えば、HIV、肝炎ウイルス、および単純ヘルペスウイルス)、細菌感染、アレルギー、II型糖尿病、血液疾患(例えば、貧血)を含む種々の疾患の診断または治療に使用される。抗体はまた、診断的もしくは治療的残基に結合した結合体として、または化学療法剤もしくは生物製剤と組合せて、使用することができる。抗体はまた、多様な投与経路による投与用に調製される。例えば抗体は、経口、局所的、非経口、腹腔内、静脈内、動脈内、経皮的、鼻内、吸入、膣、眼内、局所的送達(例えば化学的またはステント)、皮下、脂肪組織内、関節内、またはくも膜下投与される。   Antibodies designed using the methods of the invention are not particularly limited, but include cancer, autoimmune diseases (eg, multiple sclerosis, rheumatoid arthritis, systemic lupus erythematosus, type I diabetes, and myasthenia gravis). Of various diseases, including graft versus host reaction disease, cardiovascular disease, viral infection (eg, HIV, hepatitis virus, and herpes simplex virus), bacterial infection, allergy, type II diabetes, blood disease (eg, anemia) Used for diagnosis or treatment. The antibodies can also be used as conjugates bound to diagnostic or therapeutic residues, or in combination with chemotherapeutic agents or biologics. The antibodies are also prepared for administration by a variety of administration routes. For example, antibodies can be oral, topical, parenteral, intraperitoneal, intravenous, intraarterial, transdermal, intranasal, inhalation, vaginal, intraocular, topical delivery (eg chemical or stent), subcutaneous, adipose tissue Administered intra-, intra-articularly or intrathecally.

上記の任意の実施態様において、設計されるタンパク質(例えば抗体)は、合成されるか、または特に限定されないが細菌、酵母、植物、昆虫および哺乳動物を含む任意の生物の細胞中で発現される。細胞の具体的な種類には、特に限定されないが、ドロソフィラ、メラノガスター(Drosophila melanogaster)細胞、サッカロミセスセレビッシェ(Saccharomyces cerevisiae)や他の酵母、大腸菌(E. coli)、枯草菌(Bacillus subtilis)、SF9細胞、C129細胞、293細胞、ノイロスポラ(Neurospora)、BHK、CHO、COSおよびHeLa細胞、繊維芽細胞、神経鞘腫細胞株、不死化哺乳動物骨髄性細胞およびリンパ性細胞株、Jurkat細胞、肥満細胞、および他の内分泌細胞や外分泌細胞、および神経細胞がある。哺乳動物細胞の例には、特に限定されないが、すべての種類の腫瘍細胞(特に黒色腫、骨髄性白血病、肺、乳房、卵巣、結腸、腎臓、前立腺、膵臓および睾丸の癌)、心筋細胞、内皮細胞、上皮細胞、リンパ球(T細胞およびB細胞)、肥満細胞、好酸球、血管間質細胞、肝細胞、白血球(単核リンパ球を含む)、幹細胞(例えば造血幹細胞)、神経細胞、皮膚細胞、肺細胞、腎臓細胞、肝臓細胞、および心臓細胞幹細胞、破骨細胞、軟骨細胞や他の結合組織細胞、ケラチン細胞、メラノサイト、肝臓細胞、腎臓細胞、および脂肪細胞がある。   In any of the above embodiments, the designed protein (eg, antibody) is synthesized or expressed in the cells of any organism, including but not limited to bacteria, yeast, plants, insects and mammals. . Specific types of cells are not particularly limited, but include Drosophila, Drosophila melanogaster cells, Saccharomyces cerevisiae and other yeasts, E. coli, Bacillus subtilis SF9 cells, C129 cells, 293 cells, Neurospora, BHK, CHO, COS and HeLa cells, fibroblasts, schwannoma cell lines, immortalized mammalian myeloid and lymphoid cell lines, Jurkat cells, There are mast cells, and other endocrine and exocrine cells, and nerve cells. Examples of mammalian cells include, but are not limited to, all types of tumor cells (especially melanoma, myeloid leukemia, lung, breast, ovary, colon, kidney, prostate, pancreas and testicular cancer), cardiomyocytes, Endothelial cells, epithelial cells, lymphocytes (T cells and B cells), mast cells, eosinophils, vascular stromal cells, hepatocytes, leukocytes (including mononuclear lymphocytes), stem cells (eg hematopoietic stem cells), nerve cells There are skin cells, lung cells, kidney cells, liver cells, and cardiac cell stem cells, osteoclasts, chondrocytes and other connective tissue cells, keratinocytes, melanocytes, liver cells, kidney cells, and adipocytes.

好ましくは、設計されるタンパク質は、当業者に公知の方法に従って、発現後に精製または単離される。精製法の例には、電気泳動法、分子的方法、免疫学的方法、およびクロマトグラフィー法(イオン交換クロマトグラフィー、疎水性クロマトグラフィー、親和性クロマトグラフィー、逆相HPLCクロマトグラフィー、およびクロマトフォーカシングを含む)がある。必要な精製の程度は、設計されるタンパク質の用途により変動する。ある場合には、精製の必要が無い。   Preferably, the designed protein is purified or isolated after expression according to methods known to those skilled in the art. Examples of purification methods include electrophoresis, molecular methods, immunological methods, and chromatographic methods (ion exchange chromatography, hydrophobic chromatography, affinity chromatography, reverse phase HPLC chromatography, and chromatofocusing). Included). The degree of purification required will vary depending on the intended use of the protein. In some cases, there is no need for purification.

また上記の任意の実施態様において、設計されるタンパク質は、所望の機能、好ましくは生物学的機能(例えば、既知の結合パートナーへの結合)、生理学的活性、安定性プロフィール(pH、熱的、緩衝液条件)、基質特異性、免疫原性、毒性などについてスクリーニングすることができる。   Also in any of the above embodiments, the designed protein has a desired function, preferably biological function (eg, binding to a known binding partner), physiological activity, stability profile (pH, thermal, (Buffer conditions), substrate specificity, immunogenicity, toxicity, etc. can be screened.

細胞ベースのアッセイを使用するスクリーニングにおいて、設計されるタンパク質は、好ましくは検出可能におよび/または測定可能に改変された細胞の表現型に基づき選択される。表現型変化の例には、特に限定されないが、大きな物理的変化、例えば細胞形態、細胞増殖、細胞生存能力、基質もしくは他の細胞への接着、および細胞密度;1つ以上のRNA、タンパク質、脂質、ホルモン、サイトカインまたは他の分子の発現の変化;1つ以上のRNA、タンパク質、脂質、ホルモン、サイトカインまたは他の分子の平衡状態(すなわち半減期)の変化;1つ以上のRNA、タンパク質、脂質、ホルモン、サイトカインまたは他の分子の生物活性または比活性の変化;イオン、サイトカイン、ホルモン、増殖因子、または他の分子の分泌の変化;細胞膜電位、偏光性、完全性または輸送の変化;ウイルスや細菌病原体の感染性、感受性、潜伏性、接着性、および取り込みの変化、がある。
上記の任意の実施態様において、設計されるタンパク質(例えば抗体)は、合成されるか、またはタグタンパク質もしくはペプチドとの融合タンパク質として発現される。タグタンパク質またはペプチドは、設計されるタンパク質を同定、単離、シグナル化、柔軟性の上昇、分解の上昇、分泌、移動、または細胞内保持の上昇、またはその発現の増強をするのに使用される。
In screening using cell-based assays, the designed protein is preferably selected based on the phenotype of the cell that has been detectably and / or measurably altered. Examples of phenotypic changes include, but are not limited to, large physical changes such as cell morphology, cell proliferation, cell viability, adhesion to substrates or other cells, and cell density; one or more RNAs, proteins, Changes in the expression of lipids, hormones, cytokines or other molecules; changes in the equilibrium (ie, half-life) of one or more RNAs, proteins, lipids, hormones, cytokines or other molecules; one or more RNAs, proteins, Changes in biological or specific activity of lipids, hormones, cytokines or other molecules; changes in secretion of ions, cytokines, hormones, growth factors, or other molecules; changes in cell membrane potential, polarization, integrity or transport; viruses And changes in infectivity, susceptibility, latency, adhesion, and uptake of bacterial pathogens.
In any of the above embodiments, the engineered protein (eg, antibody) is synthesized or expressed as a fusion protein with a tag protein or peptide. A tag protein or peptide is used to identify, isolate, signal, increase flexibility, increase degradation, secretion, migration, increase intracellular retention, or enhance expression of the engineered protein. The

所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの実施態様を例示する。図1A-D中のリードは、リード配列であるか、または複数の構造に基づく整列からの配列プロフィールである。ヒットライブラリー、ヒット変種ライブラリーIとIIは、定義の部分で定義される。Four embodiments of methods that can be used in the present invention to select for proteins having the desired function are illustrated. The leads in FIGS. 1A-D are lead sequences or sequence profiles from an alignment based on multiple structures. Hit libraries and hit variant libraries I and II are defined in the definition part. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの実施態様を例示する。図1A-D中のリードは、リード配列であるか、または複数の構造に基づく整列からの配列プロフィールである。ヒットライブラリー、ヒット変種ライブラリーIとIIは、定義の部分で定義される。Four embodiments of methods that can be used in the present invention to select for proteins having the desired function are illustrated. The leads in FIGS. 1A-D are lead sequences or sequence profiles from an alignment based on multiple structures. Hit libraries and hit variant libraries I and II are defined in the definition part. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの実施態様を例示する。図1A-D中のリードは、リード配列であるか、または複数の構造に基づく整列からの配列プロフィールである。ヒットライブラリー、ヒット変種ライブラリーIとIIは、定義の部分で定義される。Four embodiments of methods that can be used in the present invention to select for proteins having the desired function are illustrated. The leads in FIGS. 1A-D are lead sequences or sequence profiles from an alignment based on multiple structures. Hit libraries and hit variant libraries I and II are defined in the definition part. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの実施態様を例示する。図1A-D中のリードは、リード配列であるか、または複数の構造に基づく整列からの配列プロフィールである。ヒットライブラリー、ヒット変種ライブラリーIとIIは、定義の部分で定義される。Four embodiments of methods that can be used in the present invention to select for proteins having the desired function are illustrated. The leads in FIGS. 1A-D are lead sequences or sequence profiles from an alignment based on multiple structures. Hit libraries and hit variant libraries I and II are defined in the definition part. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの可能な実施態様を例示する。ここでリードは、構造体または構造モデルまたは構造集合体またはプロフィール(多重重なり構造体)を意味し、次に、リード構造体または構造集合体からの対応する配列または配列プロフィールは、構造ベースのスクリーニングに基づきヒット配列ライブラリーについてすべての可能な配列またはランダム組合せをスクリーニングするのに使用することができる。生じるヒット変種ライブラリーは、直接実験によるスクリーニングについて使用されるか、または対応するリード配列もしくは配列プロフィールから得られる配列ヒットプロフィールと比較することができる(図2A〜Cを参照)。構造鋳型は、実験的測定および/またはモデル化からの構造体、構造集合体(2つより大きい構造体)を意味する。Four possible embodiments of the method that can be used in the present invention to select for proteins with the desired function are illustrated. Here, lead means a structure or structural model or structure assembly or profile (multiple overlapping structure), and then the corresponding sequence or sequence profile from the lead structure or structure assembly is structure-based screening. Can be used to screen all possible sequences or random combinations for hit sequence libraries. The resulting hit variant library can be used for direct experimental screening or compared to a sequence hit profile obtained from the corresponding lead sequence or sequence profile (see FIGS. 2A-C). Structural template refers to a structure, an assembly of structures (greater than two structures) from experimental measurements and / or modeling. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの可能な実施態様を例示する。ここでリードは、構造体または構造モデルまたは構造集合体またはプロフィール(多重重なり構造体)を意味し、次に、リード構造体または構造集合体からの対応する配列または配列プロフィールは、構造ベースのスクリーニングに基づきヒット配列ライブラリーについてすべての可能な配列またはランダム組合せをスクリーニングするのに使用することができる。生じるヒット変種ライブラリーは、直接実験によるスクリーニングについて使用されるか、または対応するリード配列もしくは配列プロフィールから得られる配列ヒットプロフィールと比較することができる(図2A〜Cを参照)。構造鋳型は、実験的測定および/またはモデル化からの構造体、構造集合体(2つより大きい構造体)を意味する。Four possible embodiments of the method that can be used in the present invention to select for proteins with the desired function are illustrated. Here, lead means a structure or structural model or structure assembly or profile (multiple overlapping structure), and then the corresponding sequence or sequence profile from the lead structure or structure assembly is structure-based screening. Can be used to screen all possible sequences or random combinations for hit sequence libraries. The resulting hit variant library can be used for direct experimental screening or compared to a sequence hit profile obtained from the corresponding lead sequence or sequence profile (see FIGS. 2A-C). Structural template refers to a structure, an assembly of structures (greater than two structures) from experimental measurements and / or modeling. 所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの可能な実施態様を例示する。ここでリードは、構造体または構造モデルまたは構造集合体またはプロフィール(多重重なり構造体)を意味し、次に、リード構造体または構造集合体からの対応する配列または配列プロフィールは、構造ベースのスクリーニングに基づきヒット配列ライブラリーについてすべての可能な配列またはランダム組合せをスクリーニングするのに使用することができる。生じるヒット変種ライブラリーは、直接実験によるスクリーニングについて使用されるか、または対応するリード配列もしくは配列プロフィールから得られる配列ヒットプロフィールと比較することができる(図2A〜Cを参照)。構造鋳型は、実験的測定および/またはモデル化からの構造体、構造集合体(2つより大きい構造体)を意味する。Four possible embodiments of the method that can be used in the present invention to select for proteins with the desired function are illustrated. Here, lead means a structure or structural model or structure assembly or profile (multiple overlapping structure), and then the corresponding sequence or sequence profile from the lead structure or structure assembly is structure-based screening. Can be used to screen all possible sequences or random combinations for hit sequence libraries. The resulting hit variant library can be used for direct experimental screening or compared to a sequence hit profile obtained from the corresponding lead sequence or sequence profile (see FIGS. 2A-C). Structural template refers to a structure, an assembly of structures (greater than two structures) from experimental measurements and / or modeling.

所望の機能を有するタンパク質について選択するために本発明で使用することができる方法の4つの可能な実施態様を例示する。ここでリードは、構造体または構造モデルまたは構造集合体またはプロフィール(多重重なり構造体)を意味し、次に、リード構造体または構造集合体からの対応する配列または配列プロフィールは、構造ベースのスクリーニングに基づきヒット配列ライブラリーについてすべての可能な配列またはランダム組合せをスクリーニングするのに使用することができる。生じるヒット変種ライブラリーは、直接実験によるスクリーニングについて使用されるか、または対応するリード配列もしくは配列プロフィールから得られる配列ヒットプロフィールと比較することができる(図2A〜Cを参照)。構造鋳型は、実験的測定および/またはモデル化からの構造体、構造集合体(2つより大きい構造体)を意味する。Four possible embodiments of the method that can be used in the present invention to select for proteins with the desired function are illustrated. Here, lead means a structure or structural model or structure assembly or profile (multiple overlapping structure), and then the corresponding sequence or sequence profile from the lead structure or structure assembly is structure-based screening. Can be used to screen all possible sequences or random combinations for hit sequence libraries. The resulting hit variant library can be used for direct experimental screening or compared to a sequence hit profile obtained from the corresponding lead sequence or sequence profile (see FIGS. 2A-C). Structural template refers to a structure, an assembly of structures (greater than two structures) from experimental measurements and / or modeling. 本発明により提供されるin silicoタンパク質進化系の模式図である。配列、構造および機能空間を介して、リード構造から/リード配列プロフィールまたはリード配列/リード配列プロフィールから候補配列への移動可能な経路を例示するために、配列、構造および機能空間の三角関係が示される。 配列空間において、リード配列またはプロフィールは、進化的に関連する配列の特異的データベースを検索するのに使用される。リード構造の構造整列に基づく配列プロフィールは、リード配列の遠い相同体を検索するのに使用することができる。ヒットライブラリーの変種プロフィールは、アミノ酸配列の位置頻度とエントロピーを説明する。進化的に好適な変種プロフィールを与えるために、変種プロフィールはフィルターにかけらされ、再度プロフィール化される。この操作は、関連する配列データベース上で種々の検索法を用いて繰り返される。 構造空間において、in silico変種プロフィールは、ランダムまたは進化的にプールされた配列ライブラリーの構造ベースのスクリーニングを使用して作成される。変種プロフィールはフィルターにかけられ改良されて、構造的に好適な変種プロフィールを与える。この方法は、より優れたスコア化関数と代表的構造集合体を用いて、繰り返され改良される。 進化にまたは構造に基づくアプローチを使用して作成される変種プロフィールを、逐次(2B:配列から構造から機能空間へ;2C:構造から配列から機能空間へ)に、または平行(配列特異的から機能空間へ、および構造空間から機能空間へ)して使用して、アミノ酸の全体的変種プロフィールまたはライブラリーを与えることができる。生じるアミノ酸の変種ライブラリーは、好適なまたは最適化されたコドンを使用して核酸ライブラリー中に逆翻訳される。この操作を異なるフィルター化および分割法を用いて繰り返して、ライブラリーサイズを実験的に管理可能な範囲に調整することができる。 機能空間中の機能性変異体について選択するために、合成された核酸ライブラリーは、形質転換によりベクター中に導入され、例えばファージ粒子上に機能的に発現もしくは表示される。固定化抗原に対する選択と濃縮のラウンドが行われる。所望の候補が実験的に選択されるまで、方法の全体または一部を繰り返し、改良することができる。1 is a schematic diagram of an in silico protein evolution system provided by the present invention. A triangular relationship between sequences, structures, and functional space is shown to illustrate the path of movement from a lead structure / lead sequence profile or from a lead sequence / lead sequence profile to a candidate sequence through the sequence, structure, and functional space. It is. In sequence space, a lead sequence or profile is used to search a specific database of evolutionarily related sequences. A sequence profile based on the structural alignment of the lead structure can be used to search for distant homologues of the lead sequence. The hit library variant profile explains the location frequency and entropy of the amino acid sequence. The variant profile is filtered and re-profiled to give an evolutionarily suitable variant profile. This operation is repeated using various search methods on the relevant sequence database. In structural space, in silico variant profiles are generated using structure-based screening of random or evolutionarily pooled sequence libraries. The variant profile is filtered and modified to give a structurally suitable variant profile. This method is iteratively improved with better scoring functions and representative structure aggregates. Variant profiles created using evolutionary or structure based approaches can be generated sequentially (2B: sequence to structure to functional space; 2C: structure to sequence to functional space) or parallel (sequence specific to functional Can be used in space and from structural space to functional space to give an overall variant profile or library of amino acids. The resulting amino acid variant library is back-translated into the nucleic acid library using suitable or optimized codons. This operation can be repeated using different filtering and partitioning methods to adjust the library size to an experimentally manageable range. In order to select for functional variants in the functional space, the synthesized nucleic acid library is introduced into the vector by transformation, eg, functionally expressed or displayed on phage particles. A round of selection and enrichment for immobilized antigen is performed. All or part of the method can be repeated and refined until the desired candidate is experimentally selected. 抗体ライブラリー設計のために本発明で提供される方法の実施態様の模式図。逐次的方法は、まず「配列」から「構造」へ、そして「機能」空間へ移動する。設計はリード配列からまたは配列プロフィールから開始する(構造ベースの整列からの多重整列配列)。配列データベースを検索することによりヒットライブラリーが作成される。あるカットオフでヒットライブラリーにより得られるヒットプロフィールは、ヒット変種ライブラリーを与える。ヒットライブラリーまたはヒット変種ライブラリーは、鋳型構造としてリード構造または構造集合体を使用して、コンピューターでスクリーニングされる。得られる配列ライブラリーは、鋳型構造または構造集合体との適合性に基づきランク付けされる。リード配列より優れたまたは同等のスコアを有する配列が選択され、プロフィール化されて核酸(NA)ライブラリーが作成される。in silicoのNAライブラリーサイズが評価され、ライブラリーサイズが許容されるなら、オリゴヌクレオチド合成に移る。そうでない場合は、ヒット変種ライブラリーを小さいセグメントに再分割し、小さいNAライブラリーが作成される。機能空間では、核酸ライブラリーは実験的にスクリーニングされ、陽性の配列がライブラリー改良のために計算サイクルに戻される。強い陽性クローンを、さらなる評価と治療法開発候補に移される。実験によるスクリーニングでヒットするものが無い場合は、標的システムのためにリードまたはその新しいリードプロフィールが選択され、操作が繰り返される。Schematic representation of an embodiment of the method provided in the present invention for antibody library design. The sequential method moves first from “array” to “structure” and then to “functional” space. Design starts with a lead sequence or from a sequence profile (multiple aligned sequences from structure-based alignments). A hit library is created by searching the sequence database. A hit profile obtained with a hit library at a certain cut-off gives a hit variant library. A hit library or hit variant library is screened in a computer using the lead structure or assembly of structures as the template structure. The resulting sequence library is ranked based on compatibility with the template structure or structure aggregate. Sequences with scores that are superior or equivalent to the lead sequence are selected and profiled to create a nucleic acid (NA) library. If the in silico NA library size is assessed and the library size is acceptable, move on to oligonucleotide synthesis. Otherwise, the hit variant library is subdivided into smaller segments, creating a smaller NA library. In functional space, nucleic acid libraries are screened experimentally and positive sequences are returned to the computational cycle for library improvement. Strong positive clones are transferred to candidates for further evaluation and treatment development. If no experimental screening hits, the lead or its new lead profile is selected for the target system and the operation is repeated.

抗体ライブラリー設計のために本発明で提供される方法の実施態様の模式図。代替逐次的方法は、まず「構造」から「配列」へ、そして「機能」空間へ移動する。設計はリード構造からまたは構造集合体から開始する。標的位置でのランダム変異の組合せが、構造鋳型とのその適合性についてコンピューターでスクリーニングされる。リード配列より優れたまたは同等のスコアを有する配列の変種プロフィールが作成される。この変種プロフィールは、配列データベースを検索することにより与えられるものと比較および/または組合わされる。配列と構造空間に示すコンセンサス頻度に基づいて新規変異体が含有されるかまたは排除されて、核酸ライブラリーが作成される。操作の残りの部分は、図2Bに記載のものと同様である。このアプローチは、進化的配列情報に依存することなく、構造ベースのコンピュータースクリーニングにより新規変異体を見つけることの重要性を強調する。データベースの検索からの配列プロフィールは、スコア化関数の正確性ならびに使用される試験アルゴリズムに依存するコンピュータースクリーニングから得られる変種プロフィールを評価することを助けるであろう。Schematic representation of an embodiment of the method provided in the present invention for antibody library design. An alternative sequential method moves first from “structure” to “array” and then to “functional” space. The design starts with a lead structure or a structure assembly. Combinations of random mutations at the target location are screened computationally for their compatibility with the structural template. A variant profile of the sequence with a score better or equal to the lead sequence is created. This variant profile is compared and / or combined with that provided by searching a sequence database. New variants are included or excluded based on the consensus frequency shown in the sequence and structure space to create a nucleic acid library. The rest of the operation is similar to that described in FIG. 2B. This approach emphasizes the importance of finding new variants by structure-based computer screening without relying on evolutionary sequence information. Sequence profiles from database searches will help evaluate variant profiles obtained from computer screening depending on the accuracy of the scoring function as well as the test algorithm used. 構造整列に基づく単一のリードまたはリードプロフィールを使用する、データベース検索によるin silicoのヒットライブラリー構築法を例示する。この検索結果は分類され、重複配列(バックグランドが異なっていても)が除去されて、ヒットライブラリー中のユニークな配列のリストが作成される。リード配列/配列プロフィール、配列検索法、および種々のデータベースの影響が、図4〜6に示される。Figure 3 illustrates in silico hit library construction by database search using a single lead or lead profile based on structural alignment. The search results are classified and duplicate sequences (even with different backgrounds) are removed to create a list of unique sequences in the hit library. The effects of the lead sequence / sequence profile, sequence search methods, and various databases are shown in FIGS. アミノ酸の進化的位置選択を分析するのに使用されるヒットライブラリーからの変種プロフィールに基づく、ヒット変種ライブラリーIの構築法を例示する。各位置のアミノ酸変種の頻度、変動エントロピー、およびエネルギースコアに基づいてフィルター化することにより、改良された変種プロフィールが得られる。改良された変種プロフィールから、ヒット変種ライブラリーIIがコンビナトリアル的に算出される。2 illustrates the construction of hit variant library I based on variant profiles from hit libraries used to analyze amino acid evolutionary position selection. Filtering based on the frequency, variation entropy, and energy score of the amino acid variant at each position yields an improved variant profile. From the improved variant profile, a hit variant library II is calculated combinatorially. ヒット変種ライブラリーIIの構造的にスクリーニングされたものを作成するための、ヒット変種ライブラリーIまたはIIの構造的評価と選択のための方法を例示する。リード構造鋳型に適用されるヒット変種ライブラリーIまたはIIをスコア化およびランク付けするために、コンピューター選択は単純かつカスタムエネルギー関数を使用する。各配列について、骨格依存性ロタマーライブラリーを使用して側鎖が作成され、側鎖と骨格は鋳型バックグランドに対してエネルギーが最小にされて局所的ひずみを緩和する。鋳型構造中のヒット変種ライブラリーIまたはIIの一致が、単純かつカスタムエネルギー関数を使用してスコア化されランク付けされる。核酸(NA)ライブラリーへの翻訳のための新しいヒット変種ライブラリーIIを構築するのに、「最適」配列のいくつかの集合が選択される。選択基準には、配列集合、構造的考慮または機能的考慮を含む。実験的に管理可能な限界内で核酸ライブラリーを作成するために、アミノ酸配列の集合が再プロフィール化される(図6)。2 illustrates a method for structural evaluation and selection of hit variant library I or II to generate a structurally screened version of hit variant library II. Computer scoring uses a simple and custom energy function to score and rank the hit variant library I or II applied to the lead structure template. For each sequence, side chains are created using a backbone-dependent rotamer library, and the side chains and backbone are minimized in energy relative to the template background to mitigate local strain. Matches of hit variant library I or II in the template structure are scored and ranked using a simple and custom energy function. To construct a new hit variant library II for translation into a nucleic acid (NA) library, several sets of “optimal” sequences are selected. Selection criteria include sequence set, structural considerations or functional considerations. To create a nucleic acid library within experimentally manageable limits, a collection of amino acid sequences is re-profiled (Figure 6).

ヒット変種ライブラリーIIから逆翻訳により核酸(NA)ライブラリーを構築するための方法を例示する。アミノ酸の核酸への逆翻訳は、好適なコドン使用を最適化しながら、核酸ライブラリーのサイズを実験的に管理できる限界内に維持するためである。核酸ライブラリーのサイズが計算され、実験限界内に維持されるか、またはヒット変種プロフィールは、変種の数を低下させることにより修飾されるかより短いセグメント中に分割される。分割は、構造が相関したセグメントまたは一連の重複した連続的相関セグメントを使用して行われる。The method for constructing a nucleic acid (NA) library by reverse translation from hit variant library II is illustrated. The reverse translation of amino acids into nucleic acids is to maintain the size of the nucleic acid library within experimentally manageable limits while optimizing the preferred codon usage. The size of the nucleic acid library is calculated and maintained within experimental limits, or the hit variant profile is modified by reducing the number of variants or divided into shorter segments. The division is performed using a structure correlated segment or a series of overlapping consecutive correlated segments. 一致背景(fitness landscape)のいくつかの領域でライブラリーを試験する方策の概略である。より大きな機能空間を試験するようにコンビナトリアルアミノ酸またはその縮重核酸ライブラリーを設計することができるなら、選択されたペプチド配列の一致背景は、より大きな一致背景をカバーするように拡張することができる。設計されたライブラリーからの戦略的試験は、重複と多様性の拡張につながり、これは機能空間の一致背景の大きな進化的ジャンプを含むことができる。Fig. 2 is a schematic of a strategy for testing a library in several areas of fitness landscape. If the combinatorial amino acid or its degenerate nucleic acid library can be designed to test a larger functional space, the matching background of the selected peptide sequence can be extended to cover the larger matching background. . Strategic testing from designed libraries leads to duplication and diversity expansion, which can include large evolutionary jumps in functional space matching background. 抗体操作のための典型的なライブラリープラスミドのモジュラー要素を示す。フレームワークとCDR配列のライブラリーを、それぞれまたはコンビナトリアル的に繰り返して設計される。FR=フレームワーク領域。CDR=相補性決定領域。RE=制限酵素部位。The modular elements of a typical library plasmid for antibody manipulation are shown. A framework and a library of CDR sequences are designed either repeatedly or combinatorially. FR = Framework area. CDR = complementarity determining region. RE = restriction enzyme site.

図9Aは、VH CDR中の親VEGF抗体と成熟抗VEGF抗体との配列比較である。「c」は、X線構造中で抗原−抗体複合体の原子が4.5Å以内で接触することを示す。太字は、VH CDR(CDR1とCDR3)中の親抗抗体と成熟抗抗体の間のアミノ酸の差を強調する。VH CDRの番号付けは、Kabatの規則と逐次的スキームに従う(100、100aなどより100、101)。 図9Bは、隣接領域を有するVH CDR3中の親抗VEGF抗体と成熟抗VEGF抗体との配列比較である。親抗体からの配列(配列番号5)は、データベースの検索に使用されるリード配列である。VH CDRの番号付けは、Kabatとここでも使用される逐次的スキームである。FIG. 9A is a sequence comparison of a parent VEGF antibody and a mature anti-VEGF antibody in a V H CDR. “C” indicates that the atoms of the antigen-antibody complex are contacted within 4.5 mm in the X-ray structure. Bold highlights amino acid differences between parent and mature anti-antibodies in V H CDRs (CDR1 and CDR3). V H CDR numbering follows Kabat's rules and sequential scheme (100, 100a, etc. 100, 101). FIG. 9B is a sequence comparison of a parent anti-VEGF antibody and a mature anti-VEGF antibody in V H CDR3 with flanking regions. The sequence from the parent antibody (SEQ ID NO: 5) is the lead sequence used for database searches. V H CDR numbering is a sequential scheme used again with Kabat. 親抗VEGF抗体のVH CDR3のリード配列に対するその配列同一性(%で)に対して、ヒットライブラリーの頻度の分布を示す。リード配列は図9Bに示し、プロフィールHMM(HAMMER2.1.1)を使用してKabatデータベースを検索した(Johnson, GとWu, TT(2001)Nucleic Acids Research 29:205-206)。The frequency distribution of the hit library is shown relative to its sequence identity (in%) relative to the V H CDR3 lead sequence of the parent anti-VEGF antibody. The lead sequence is shown in FIG. 9B and the Kabat database was searched using the profile HMM (HAMMER 2.1.1) (Johnson, G and Wu, TT (2001) Nucleic Acids Research 29: 205-206). 図10Aのデータベース検索から得られるヒットライブラリーの系統発生的多様性を示すために、図10Aに示すヒットライブラリーの配列の系統樹を例示する。In order to show the phylogenetic diversity of the hit library obtained from the database search of FIG. 10A, the phylogenetic tree of the hit library sequence shown in FIG. 10A is illustrated. 親抗VEGF抗体のVH CDR3のリード配列に基づいて作成したヒットライブラリーの107の配列の変種プロフィールを示す。上の部分は、リード配列の各位置の20個のアミノ酸のアミノ酸頻度を記載する表を示す。下の変種プロフィールは、アミノ酸位置の多様性を示す。アミノ酸多様性(図の左下に示す)の選択的制御の無いコンビナトリアルライブラリーの完全な記載には、1019のオーダーのライブラリーサイズが必要であろう。図の右下部分は、カットオフ頻度10を使用して得られたフィルターをかけた変種プロフィールを示す。ヒットリストの107個のメンバーのうちで10以下で存在するすべての位置アミノ酸は、フィルターをかけられる。このフィルターにかけた変種プロフィールは、さらにコンピューターでスクリーニングして、抗体構造のみが使用される場合は構造適合性のランキングオーダーを反映させ、または抗体と抗原との複合体構造が使用される場合は、抗原との結合親和性を反映させるようにすることができる。変種プロフィールは、図9Aに示すように、抗原と抗体との接触部位との相関を示さない。A variant profile of 107 sequences from a hit library generated based on the V H CDR3 read sequence of the parent anti-VEGF antibody is shown. The upper part shows a table listing the amino acid frequencies of the 20 amino acids at each position of the lead sequence. The lower variant profile shows the diversity of amino acid positions. A complete description of a combinatorial library without selective control of amino acid diversity (shown in the lower left of the figure) would require a library size on the order of 10 19 . The lower right part of the figure shows the filtered variant profile obtained using a cut-off frequency of 10. All position amino acids present in 10 or fewer of the 107 members of the hit list are filtered. This filtered variant profile can be further screened in a computer to reflect the structural compatibility ranking order if only antibody structures are used, or if antibody-antigen complex structures are used, The binding affinity with the antigen can be reflected. The variant profile does not show a correlation with the contact sites of antigen and antibody, as shown in FIG. 9A. CONGENで実施したAmber94フォースフィールドの総エネルギーのスコア化関数を使用して、VEGF抗原の非存在下(A)と存在下(B)での、それぞれ親(1bj1)抗体構造と成熟(1cz8)抗体構造中の抗VEGF抗体変種ライブラリーのスコアの典型的なプロットを示す。成熟(M)および親(P)配列のスコアは、矢印で示す。成熟配列のスコアは、両方の鋳型構造中で抗原の非存在下および存在下で、親配列より良好である。The parent (1bj1) antibody structure and mature (1cz8) antibody in the absence (A) and presence (B) of the VEGF antigen using the Amber94 Forcefield total energy scoring function performed at CONGEN, respectively. A typical plot of the score of the anti-VEGF antibody variant library in the structure is shown. The scores for mature (M) and parent (P) sequences are indicated by arrows. The score of the mature sequence is better than the parent sequence in both template structures in the absence and presence of antigen. 図12cは、抗原の存在下および非存在下での変種ライブラリーのスコアの相関を示す。FIG. 12c shows the correlation of variant library scores in the presence and absence of antigen. ここで使用される単純なスコア化関数はまた、成熟抗体(lcz8)の鋳型構造を使用してヒットライブラリー(図10と11)の改良されたスコア化関数と全体に相関したが、相関プロット中の一部の分散は、相関を改良するために単純なスコア化関数に、溶媒和などを含むいくつかの項を追加すべきであることを示唆する。The simple scoring function used here also correlated entirely with the improved scoring function of the hit library (Figures 10 and 11) using the mature antibody (lcz8) template structure, but the correlation plot Some of the variances suggest that some terms, including solvation, etc. should be added to a simple scoring function to improve the correlation. 図13Aは、本発明の方法が親配列または成熟配列とは異なる多様な機能的配列を選択できることを証明するために、実験によるスクリーニングのための抗VEGFVH CDR3ヒット変種ライブラリーのコンピューターによるスクリーニングからの上位10個の配列を選択することができることを示す。縮重核酸中のアミノ酸変種プロフィールと対応する変種ライブラリーを記載する。図の右上のエネルギー模式図は、コンピューターによるスクリーニングから選択された10個の配列の左から右へのエネルギー分布、その変種アミノ酸コンビナトリアルライブラリー、核酸コンビナトリアルライブラリー、およびin vitroの実験によるスクリーニングから選択された陽性クローンを示す。エネルギー模式図に示す配列プールのそれぞれに対応する配列ライブラリーは、矢印で示す。FIG. 13A shows from a computer screen of an anti-VEGF V H CDR3 hit variant library for experimental screening to demonstrate that the method of the invention can select diverse functional sequences that differ from the parental or mature sequence. It shows that the top 10 sequences of can be selected. Describes the amino acid variant profile in the degenerate nucleic acid and the corresponding variant library. The energy schematic in the upper right of the figure is selected from the left-to-right energy distribution of 10 sequences selected from computer screening, their variant amino acid combinatorial libraries, nucleic acid combinatorial libraries, and in vitro experimental screening. Positive clones are shown. Sequence libraries corresponding to each of the sequence pools shown in the energy schematic are indicated by arrows.

VH CDR1とCDR2の変種ライブラリーのコンピューターによるスクリーニングから選択された10個の配列、そのアミノ酸変種プロフィール、および抗VEGF抗体のVH CDR1とCDR2ライブラリーの縮重核酸中の対応する変種ライブラリーを示す。10 sequences selected from computer screening of V H CDR1 and CDR2 variant libraries, their amino acid variant profiles, and corresponding variant libraries in the degenerate nucleic acids of the V H CDR1 and CDR2 libraries of anti-VEGF antibodies Indicates. VH CDR1とCDR2の変種ライブラリーのコンピューターによるスクリーニングから選択された10個の配列、そのアミノ酸変種プロフィール、および抗VEGF抗体のVH CDR1とCDR2ライブラリーの縮重核酸中の対応する変種ライブラリーを示す。10 sequences selected from computer screening of V H CDR1 and CDR2 variant libraries, their amino acid variant profiles, and corresponding variant libraries in the degenerate nucleic acids of the V H CDR1 and CDR2 libraries of anti-VEGF antibodies Indicates. 設計された核酸ライブラリーによりコードされるVH CDR3(図13A)を用いて、機能的抗VEGF ccFv抗体のラウンド1とラウンド3の選択で同定されたELISA陽性クローンのUV読み値を示す。下の数字は、96ウェル(8×12)ELISAプレート中の列番号を示す。影の異なるバーは、異なる列を示す。Shown are UV readings of ELISA positive clones identified in round 1 and round 3 selection of functional anti-VEGF ccFv antibodies using V H CDR3 (FIG. 13A) encoded by the designed nucleic acid library. The lower number indicates the column number in the 96 well (8 × 12) ELISA plate. Different shaded bars indicate different columns. 図13Aに示す核酸ライブラリーのファージ表示を介して、ラウンド1とラウンド3の選択からの陽性クローンのVH CDR3配列を示す。親および成熟抗VEGF抗体のVH CDR3(図9AとB)とは異なる多くの多様な配列が、いくつかの位置で大きな変動で選択されることが明らかである。The V H CDR3 sequences of positive clones from round 1 and round 3 selections are shown via phage display of the nucleic acid library shown in FIG. 13A. It is clear that many diverse sequences that differ from the parent and mature anti-VEGF antibody V H CDR3 (FIGS. 9A and B) are selected with great variation at several positions. スクリーニングした配列の多様性を示す陽性クローンの系統樹を例示する。図14AとBに示すVH CDR3からの選択された陽性クローンの配列同一性は、N末端CAKとC末端WG残基(図9Bを参照)を含めて親VH CDR3配列に対して57〜73%の範囲であった。The phylogenetic tree of the positive clone which shows the diversity of the screened sequence is illustrated. The sequence identity of selected positive clones from the V H CDR3 shown in FIGS. 14A and B is 57-57 relative to the parent V H CDR3 sequence, including the N-terminal CAK and C-terminal WG residues (see FIG. 9B). It was in the range of 73%. 第1のラウンドと第3のラウンドのスクリーニングされた配列の起源を3群に分類したものを示すパイチャートである:設計されたアミノ酸配列、設計された配列からのコンビナトリアルアミノ酸配列、および合成された縮重核酸ライブラリーによりコードされる新規コンビナトリアルアミノ酸配列。A:3つのライブラリーの陽性クローンから実験的に選択された配列の分布を有する、in vitroでの第1ラウンドのスクリーニングからのVH CDR3クローン。Pie charts showing the origin of the first and third round screened sequences classified into 3 groups: designed amino acid sequences, combinatorial amino acid sequences from designed sequences, and synthesized A novel combinatorial amino acid sequence encoded by a degenerate nucleic acid library. A: V H CDR3 clones from the first round of screening in vitro with a distribution of sequences experimentally selected from three library positive clones. B:3つのライブラリーの陽性クローンから実験的に選択された配列の分布を有する、in vitroでの第3ラウンドのスクリーニングからのVH CDR3クローン。配列分析のために各ラウンドからほんのわずかの陽性クローンのみしか選択されないため、図は、設計された配列からの選択された配列、そのコンビナトリアルアミノ酸、および核酸ライブラリーの大まかなパーセントを示すためにのみ使用される。B: V H CDR3 clone from a third round of screening in vitro with a distribution of sequences experimentally selected from three library positive clones. Since only a few positive clones are selected from each round for sequence analysis, the figure is only to show the selected sequence from the designed sequence, its combinatorial amino acids, and a rough percentage of the nucleic acid library used. 図13A〜Cに示す縮重核酸のVH CDR1、CDR2、およびCDR3ライブラリーからの実験的に選択されたアミノ酸配列を記載する表である。14 is a table that describes experimentally selected amino acid sequences from the V H CDR1, CDR2, and CDR3 libraries of the degenerate nucleic acids shown in FIGS. 13A-C. 図16Bは、それぞれ抗VEGF VH CDR1、2および3の対応する親配列に対する、VH CDR1、CDR2およびCDR3ライブラリーからの選択された配列の配列同一性の分布を示す。対応する親配列とは異なる機能的な多様な配列を選択できることが明らかである。FIG. 16B shows the distribution of sequence identity of selected sequences from the V H CDR1, CDR2 and CDR3 libraries against the corresponding parental sequences of anti-VEGF V H CDR1, 2 and 3, respectively. It is clear that a variety of functional sequences different from the corresponding parent sequence can be selected.

4つの異なるライブラリー(設計されたアミノ酸配列、設計された配列のアミノ酸変種のコンビナトリアルライブラリー、およびユニークなアミノ酸配列をコードする縮重核酸ライブラリーと完全な縮重核酸ライブラリー)の間の図による関係と、Xで示す実験的に選択された陽性クローンの分布を示す。最も内側(斜線を付けた)円は、例えばヒット変種ライブラリーのエネルギースコアに基づいて選択した設計されたアミノ酸配列ライブラリーを示す。影を付けた円は、ヒット変種ライブラリーのコンピューターによるスクリーニングから選択された配列のコンビナトリアルアミノ酸ライブラリーを示す。第3の(斜線を付けた)円は、ユニークなコンビナトリアルアミノ酸ライブラリーをコードするコンビナトリアルアミノ酸ライブラリーである。最も外側の円は、アミノ酸ライブラリーの逆翻訳から得られたすべてのアミノ酸配列の縮重核酸ライブラリーを示す。最も外側の円対第3の(斜線を付けた)円の相対的サイズは、コドン使用のような他の要因を考慮して、アミノ酸から核酸配列への逆翻訳法の効率に依存する。「X」は、実験的に選択された配列を示す。例えば、第3のラウンドからの抗VEGF VH CDR3ライブラリーをここに示す(図17B中の表を参照)。異なるライブラリー中の分布は、選択条件、ライブラリー設計の有効性、選択されたクローン対ライブラリーの相対的サイズ、または配列決定したクローンの数などに依存する。Diagram between four different libraries (designed amino acid sequences, combinatorial libraries of amino acid variants of the designed sequences, and degenerate and fully degenerate nucleic acid libraries that encode unique amino acid sequences) And the distribution of experimentally selected positive clones indicated by X. The innermost (hatched) circle indicates the designed amino acid sequence library selected, for example, based on the hit variant library energy score. Shaded circles indicate a combinatorial amino acid library of sequences selected from computer screening of hit variant libraries. The third (hatched) circle is a combinatorial amino acid library that encodes a unique combinatorial amino acid library. The outermost circle represents a degenerate nucleic acid library of all amino acid sequences obtained from back translation of the amino acid library. The relative size of the outermost circle versus the third (hatched) circle depends on the efficiency of the reverse translation method from amino acid to nucleic acid sequence, taking into account other factors such as codon usage. “X” indicates an experimentally selected sequence. For example, the anti-VEGF V H CDR3 library from the third round is shown here (see table in FIG. 17B). Distribution in different libraries depends on selection conditions, the effectiveness of the library design, the relative size of the selected clones versus the library, or the number of clones sequenced.

4つのライブラリー(図17A)の間の関係と、抗VEGF VH CDR1、2、および3ライブラリーの陽性クローンの実験的に選択された配列の分布とを示す表を示す。「AA_Seq/Comb」欄は、コンピューターによるスクリーニングで選択されたアミノ酸配列の数(設計されたライブラリーI)と、選択された配列の組換え配列の数(変種ライブラリーII)とを示す。「NN_seqs/peptide seq」欄は、縮重核酸ライブラリーの核酸配列、および縮重核酸ライブラリーによりコードされるユニークなアミノ酸配列の数を示す。「exp_seq」欄は、陽性クローンからの実験的に選択されたユニークな配列の数を示す。「選択された配列の分布」欄は、設計されたアミノ酸配列、アミノ酸変種のそのコンビナトリアルライブラリー、およびユニークなペプチド配列をコードする縮重核酸のライブラリーの数を示す。A table showing the relationship between the four libraries (FIG. 17A) and the distribution of experimentally selected sequences of positive clones of the anti-VEGF V H CDR1, 2, and 3 libraries is shown. The column “AA_Seq / Comb” indicates the number of amino acid sequences selected by computer screening (designed library I) and the number of recombinant sequences of the selected sequence (variant library II). The “NN_seqs / peptide seq” column indicates the number of nucleic acid sequences of the degenerate nucleic acid library and the unique amino acid sequences encoded by the degenerate nucleic acid library. The “exp_seq” column indicates the number of unique sequences experimentally selected from positive clones. The “Distribution of Selected Sequences” column indicates the number of designed amino acid sequences, their combinatorial libraries of amino acid variants, and libraries of degenerate nucleic acids that encode unique peptide sequences. 左から右へ、操作の種々の段階での抗VEGF VH CDR3の配列一致スコアの進化を示す:リード配列、ヒットライブラリー、ヒット変種ライブラリーI、コンピューターによるスクリーニングから選択された配列(影を付けたバンド)、選択された配列のコンビナトリアルライブラリー(ヒット変種ライブラリーII)、コンビナトリアルアミノ酸配列をコードするコンビナトリアル核酸ライブラリー、および実験的に選択された配列。リード配列は、配列のデータベースから進化的ヒットライブラリーを同定するのに使用された。ヒットライブラリーの多様性に基づいて、in silicoコンビナトリアルライブラリーを設計した。リードより良いスコアを有するコンピューターによりスクリーニングした配列のサブセットを、コンビナトリアルアミノ酸ライブラリーを作成するのに使用した。多様性を拡張するために縮重核酸合成方策を使用して、コンビナトリアルアミノ酸ライブラリーをコードする縮重核酸ライブラリーを作成した。ライブラリーの実験によるスクリーニングにより、改良された機能を有する可能性のある配列が得られた。From left to right, the evolution of the sequence match score of anti-VEGF V H CDR3 at various stages of manipulation is shown: sequences selected from lead sequence, hit library, hit variant library I, computer screen (shadowed) Band), combinatorial library of selected sequences (hit variant library II), combinatorial nucleic acid library encoding combinatorial amino acid sequences, and experimentally selected sequences. The lead sequence was used to identify an evolutionary hit library from a sequence database. An in silico combinatorial library was designed based on the diversity of hit libraries. A subset of sequences screened by computers with better scores than reads were used to create a combinatorial amino acid library. Using a degenerate nucleic acid synthesis strategy to expand diversity, a degenerate nucleic acid library encoding a combinatorial amino acid library was created. Screening the library with experiments yielded sequences that may have improved function. 構造ベースの多重配列整列から作成されたリードプロフィールを示す。リード配列の構造モチーフは、ある範囲のカットオフ内で同様の構造についてタンパク質構造データベース(PDBデータバンク)を検索するのに使用される。VH CDR3のCα原子を使用して、5つの構造が重ねられる。各構造とVH CDR3構造モチーフ(青く着色)の間の自乗平均の平方根(RMSD)は約2Åである。対応する多重配列整列を、そのPDB IDおよび対応する色とともに、その右に示す。Figure 3 shows a lead profile generated from a structure-based multiple sequence alignment. The structural motif of the lead sequence is used to search the protein structure database (PDB databank) for similar structures within a range of cutoffs. Five structures are overlaid using the Cα atom of V H CDR3. The root mean square (RMSD) between each structure and the V H CDR3 structural motif (colored blue) is about 2 mm. The corresponding multiple sequence alignment is shown to the right along with its PDB ID and the corresponding color. 親抗VEGF抗体のVH CDR3のリード配列プロフィールに基づいて作成されるヒットライブラリーの251個のユニークな配列の変種プロフィールを示す。上の部分は、リード配列の各位置での20個のアミノ酸のアミノ酸頻度を記載する表を示す。図の下の部分は、頻度の5%カットオフまたはこの場合12を使用して得られた、フィルターにかけた変種プロフィールを示す。ヒットリストの251個のメンバーのうちで12回またはそれ以下で存在するすべての位置固体アミノ酸を除去する。このフィルターにかけた変種プロフィールは、構造集合体を使用してさらにコンピューターによりスクリーニングすることができる。FIG. 5 shows a variant profile of 251 unique sequences of a hit library generated based on the read sequence profile of the V H CDR3 of the parent anti-VEGF antibody. The upper part shows a table listing the amino acid frequencies of 20 amino acids at each position of the lead sequence. The lower part of the figure shows the filtered variant profile obtained using a 5% cut-off of frequency or 12 in this case. Remove all positional solid amino acids present in 12 or fewer of the 251 members of the hit list. This filtered variant profile can be further screened computationally using the structural assembly. 親VH CDR3配列(図9B)に対するヒットライブラリーからの配列の分布を示す。円は、36%までの配列同一性は、HMM検索の単一の親配列を使用して同定することができることを示す。三角は、〜20%までのさらに低い配列同一性は、構造ベースの多重配列整列からのリード配列プロフィールを使用して、見いだすことができることを示す。ここで使用される配列検索法は、リード配列に対して遠い相同性(20%の低さ)の多様なヒットを見いだすことができる。Shown is the distribution of sequences from the hit library against the parent V H CDR3 sequence (FIG. 9B). Circles indicate that up to 36% sequence identity can be identified using a single parent sequence for HMM searches. Triangles indicate that even lower sequence identities up to ~ 20% can be found using lead sequence profiles from structure-based multiple sequence alignments. The sequence search method used here can find diverse hits with distant homology (20% lower) to the lead sequence. 配列、構造および機能空間の共通部分内にある焦点を当てたライブラリーを作成する一般的方策を示す。図19A〜Cに示すように、ヒット配列の多様性は、構造ベースの多重整列を使用して増強される。配列と構造空間の両方で多様性を拡張することができ、すべての3つの空間の共通部分で良好なヒットを同定することができる。Demonstrates a general strategy for creating a focused library within the intersection of sequence, structure and functional space. As shown in FIGS. 19A-C, hit sequence diversity is enhanced using structure-based multiple alignment. Diversity can be expanded in both sequence and structure space, and good hits can be identified at the intersection of all three spaces.

種々の抗原結合単位(Abu)配向を示す模式図である。本発明の方法で使用される2つの新規表示システムに注目されたい:ccFvシステム、GR1とGR2の間にジスルフィド結合を有するヘテロダイマー性のコイルドコイル安定化Fv、およびGMCTシステム、アダプター介在scFv表示システム。It is a schematic diagram which shows various antigen binding unit (Abu) orientation. Note two novel display systems used in the method of the present invention: ccFv system, heterodimeric coiled-coil stabilized Fv with disulfide bond between GR1 and GR2, and GMCT system, adapter-mediated scFv display system. 対象ccFv Abuを構築するのに使用されたGABAb 受容体1と2のヌクレオチドおよびアミノ酸配列を示す。コイルドコイル配列は、ヒトGABAb-R1とGABAb-R2受容体から得られる。GABAb 受容体からのコーディングアミノ酸配列を太字で示す。柔軟性のあるGlyGlyGlyGlyスペーサーを、R1とR2ヘテロダイマー化配列のアミノ末端に付加して、機能的Fvヘテロダイマー形成を促進させた。ヘテロダイマーをさらに安定化するために、我々は、ValGlyGlyGlyスペーサーを導入して、ジスルフィド結合によりヘテロダイマーコイルドコイル対を固定させた。GGGGスペーサーのN末端の追加のSerArgコード配列は、VHとVL断片のカルボキシ末端にそれぞれGR1とGR2ドメインの融合のためのXbaI部位またはXhoI部位を提供する。The nucleotide and amino acid sequences of GABAb receptors 1 and 2 used to construct the subject ccFv Abu are shown. Coiled-coil sequences are obtained from a human GABA b -R1 and GABA b -R2 receptors. The coding amino acid sequence from the GABA b receptor is shown in bold. A flexible GlyGlyGlyGly spacer was added to the amino terminus of the R1 and R2 heterodimerization sequences to promote functional Fv heterodimer formation. To further stabilize the heterodimer, we introduced a ValGlyGlyGly spacer to immobilize the heterodimeric coiled-coil pair by disulfide bonds. An additional SerArg coding sequence at the N-terminus of the GGGG spacer provides an XbaI or XhoI site for fusion of the GR1 and GR2 domains, respectively, at the carboxy terminus of the V H and VL fragments. 抗VEGF ccFv抗体AM2のそれぞれヌクレオチド配列とアミノ酸配列を示す。The nucleotide sequence and amino acid sequence of the anti-VEGF ccFv antibody AM2 are shown. 抗VEGF ccFv抗体AM2のそれぞれヌクレオチド配列とアミノ酸配列を示す。The nucleotide sequence and amino acid sequence of the anti-VEGF ccFv antibody AM2 are shown. ファジミドベクターpABMD12の模式図である。FIG. 3 is a schematic diagram of a fazimide vector pABMD12. pABMD12ベクターの配列を示す。The sequence of the pABMD12 vector is shown. 固定化VEGF抗原へのファージ表示AM2 ccFvとscFvの結合能力の比較を示す。結果は、ファージ粒子上でccFvを組み立て表示することができることを示す。A comparison of the ability of phage-displayed AM2 ccFv and scFv to bind to immobilized VEGF antigen is shown. The results show that ccFv can be assembled and displayed on phage particles. モデルライブラリーパニングからのAM2-ccFvを使用したELISAの結果を示す。結果は、モデルライブラリーのパニングにおいてAM2-ccFv抗体を表示するファージの濃縮を示す。Results of ELISA using AM2-ccFv from model library panning are shown. The results show enrichment of phage displaying AM2-ccFv antibody in the panning of the model library. 試験配列はモデルライブラリーから選択することができることを示す1/107 モデルライブラリーパニングからのPCR結果を示す。Test sequences shows the PCR results from 1/10 7 model library panning indicating that can be selected from the model library. ライブラリーパニングからのファージを使用したELISAの骨格を示す。結果は、VH CDR1、CDR2ライブラリーからVEGF結合ファージが選択されたことを示す(VH CDR3について図14Aを参照)。The ELISA backbone using phage from library panning is shown. The results show that VEGF-binding phages were selected from the V H CDR1 and CDR2 libraries (see FIG. 14A for V H CDR3). (図16Aと同じ)設計された抗VEGF VH CDR1、CDR2、およびCDR3ライブラリーをコードする実験的に選択されたクローンのアミノ酸配列を記載する表である。FIG. 16 is a table describing the amino acid sequences of experimentally selected clones encoding designed anti-VEGF V H CDR1, CDR2, and CDR3 libraries (same as FIG. 16A). 複合抗VEGF VH CDR3ライブラリーの配列ライブラリーを示す。ライブラリーサイズは大きすぎて、1つまたは数個の縮重核酸ライブラリーによりカバーできないため、変種プロフィールは、図28Aに示す変種プロフィールを有する3つのセグメントに分解される。セグメントは、図28Aの右側に示す8Å内のCα原子の接触地図に基づいて分解される。図28Aはまた、抗VEGF VH CDR3のリボン模式図ならびに8Å以内のCα原子の接触距離を示す。このアプローチは、構造のトポロジーに基づいて大きな変種プロフィールを小さいセグメントに分解する一般的方法を提供する。1次配列中に離れた共変体(例えば、ループ内で近接したN末端残基とC末端残基)を捕捉するための配列のセグメント化に、トポロジー的特徴からの構造の制約のみが必要なため、低分解構造または構造モデルがこの目的に役立つ。Figure 2 shows a sequence library of a composite anti-VEGF V H CDR3 library. Because the library size is too large to be covered by one or several degenerate nucleic acid libraries, the variant profile is broken down into three segments with the variant profile shown in FIG. 28A. The segment is decomposed based on the contact map of the Cα atoms in 8Å shown on the right side of FIG. 28A. FIG. 28A also shows the ribbon schematic of anti-VEGF V H CDR3 and the contact distance of Cα atoms within 8 cm. This approach provides a general way to decompose large variant profiles into smaller segments based on the structural topology. Segmentation of sequences to capture distant covariants in the primary sequence (eg, N- and C-terminal residues close together in the loop) requires only structural constraints from topological features Thus, low resolution structures or structural models serve this purpose. 図28Bは、結合した変種(1〜3)を含有し得るN末端とC末端をカバーする。ライブラリーと最後に合成された縮重オリゴヌクレオチドのコンビナトリアルサイズとともに、アミノ酸ライブラリーと核酸ライブラリーの両方の変種プロフィールが記載される。FIG. 28B covers the N-terminus and C-terminus, which may contain bound variants (1-3). The variant profiles of both the amino acid library and the nucleic acid library are described, along with the combinatorial size of the library and the last synthesized degenerate oligonucleotide. 図28Cはセグメント(4)を含有する。すべての3つのセグメントは、106未満のサイズの核酸ライブラリーによりカバーされる:図28B中の(1〜3)は3つの縮重核酸ライブラリーにより標的とされ、図28C〜D中の(4)と(5)は、別の縮重核酸ライブラリーにより標的とされる。FIG. 28C contains segment (4). All three segments are covered by a nucleic acid library of size less than 10 6 : (1-3) in FIG. 28B is targeted by three degenerate nucleic acid libraries, and in FIGS. 28C-D ( 4) and (5) are targeted by another degenerate nucleic acid library.

図28Dは別のセグメント(5)を含有する。すべての3つのセグメントは、106未満のサイズの核酸ライブラリーによりカバーされる:図28B中の(1〜3)は3つの縮重核酸ライブラリーにより標的とされ、図28C〜D中の(4)と(5)は、別の縮重核酸ライブラリーにより標的とされる。FIG. 28D contains another segment (5). All three segments are covered by a nucleic acid library of size less than 10 6 : (1-3) in FIG. 28B is targeted by three degenerate nucleic acid libraries, and in FIGS. 28C-D ( 4) and (5) are targeted by another degenerate nucleic acid library. ccFvライブラリーL14をパニングするために、ならびに各パニングからの濃縮因子のために、使用される操作と条件を要約する。L14ライブラリーは、図28B〜Dに示すすべての5つの縮重オリゴヌクレオチドを一緒にプールして、図28A〜D中で構築される。Summarize the procedures and conditions used to pan the ccFv library L14, as well as for the enrichment factors from each panning. The L14 library is constructed in FIGS. 28A-D, pooling together all five degenerate oligonucleotides shown in FIGS. 28B-D. ccFv表示プラットフォームを使用してライブラリーL14の5と7をパニングすることにより選択されるVH CDR3変種のアミノ酸配列を示す。5のパニング後に、すべての変種が101位に位置することを注目されたい。2つの変種のみ(S101RとS101T)が、ラウンド7後に選択される。The amino acid sequences of V H CDR3 variants selected by panning libraries L14 5 and 7 using the ccFv display platform are shown. Note that after 5 pannings, all variants are in position 101. Only two variants (S101R and S101T) are selected after round 7. VH CDR3についてのライブラリーL14のパニングからのHR(H97, S010R)ファージの濃縮を示す。ラウンド0、5、および7でのHRと親抗体WT(図9Bも参照)の濃縮を強調してある。HR (H97, S010R) phage enrichment from panning of library L14 for V H CDR3. The enrichment of HR and parent antibody WT (see also FIG. 9B) in rounds 0, 5, and 7 is highlighted. 1本鎖抗体ライブラリーのための新規コイルドコイルドメイン相互作用介在表示(CDIM)アダプター指令表示システムの簡単な模式図を示す。大腸菌(E. coli)中の発現ベクターpGDH1単独の形質転換感染は、細菌周辺腔中のGR1と融合した可溶性タンパク質の発現と産生を可能にする。GR2と融合した遺伝子操作されたコートタンパク質および他のファージタンパク質を発現するUltraHelperファージベクターによる同じ細菌の重感染は、細菌周辺腔中のファージ粒子の合成後に、繊維性ファージの表面上の抗体断片(または他のタンパク質)の表示を可能にする。1 shows a simple schematic diagram of a novel coiled-coil domain interaction mediated display (CDIM) adapter command display system for single chain antibody libraries. Transgenic infection of the expression vector pGDH1 alone in E. coli allows the expression and production of soluble proteins fused with GR1 in the peribacterium space. Superinfection of the same bacteria with an UltraHelper phage vector expressing a genetically engineered coat protein fused with GR2 and other phage proteins, followed by the synthesis of phage particles in the peribacterium space, followed by antibody fragments on the surface of filamentous phage ( Or display other proteins). 図33A は、GMCT-UltraHelperファージプラスミドの地図を示す。この構築体は、KO7kpnファージベクター中のアダプターGR2とmycタンパク質に融合した遺伝子操作された遺伝子IIIの追加のコピーをコードするヌクレオチド配列と、WT遺伝子III配列に隣接するリボゾーム結合配列OmpAリーダー配列とを含有する。FIG. 33A shows a map of the GMCT-UltraHelper phage plasmid. This construct comprises a nucleotide sequence encoding an additional copy of genetically engineered gene III fused to adapter GR2 and myc protein in the KO7kpn phage vector, and a ribosome binding sequence OmpA leader sequence adjacent to the WT gene III sequence. contains. 図33Bは、ヌクレオチドとアミノ酸配列レベルでGMCT-UltraHelperファージを産生するために、KO7Kpnの遺伝子的に修飾した領域を示す。FIG. 33B shows the genetically modified region of KO7Kpn to produce GMCT-UltraHelper phage at the nucleotide and amino acid sequence level. pABMX14のタンパク質発現ベクター地図(A)と完全なヌクレオチド配列(B)を示し、これは、抗生物質選択のためのアンピシリン耐性遺伝子(Amp)、プラスミド複製開始点(ColE1 ori)、f1ファージ複製開始点(f1 ori)、lacプロモーター/lacO1制御タンパク質発現カセット(plac-RBS-pelB-GR1-DH)、および制限エンドヌクレアーゼ部位を含む。NcoI/XbaIまたはNcoI/NotIまたはXbaI/NotI制限部位は、目的のタンパク質をコードするヌクレオチド配列を挿入するのに使用することができる。Shows protein expression vector map (A) and complete nucleotide sequence (B) of pABMX14, which includes the ampicillin resistance gene (Amp), plasmid origin of replication (ColE1 ori), f1 phage origin of replication for antibiotic selection (F1 ori), a lac promoter / lacO1 regulatory protein expression cassette (plac-RBS-pelB-GR1-DH), and a restriction endonuclease site. NcoI / XbaI or NcoI / NotI or XbaI / NotI restriction sites can be used to insert nucleotide sequences encoding the protein of interest. pABMX14のタンパク質発現ベクター地図(A)と完全なヌクレオチド配列(B)を示し、これは、抗生物質選択のためのアンピシリン耐性遺伝子(Amp)、プラスミド複製開始点(ColE1 ori)、f1ファージ複製開始点(f1 ori)、lacプロモーター/lacO1制御タンパク質発現カセット(plac-RBS-pelB-GR1-DH)、および制限エンドヌクレアーゼ部位を含む。NcoI/XbaIまたはNcoI/NotIまたはXbaI/NotI制限部位は、目的のタンパク質をコードするヌクレオチド配列を挿入するのに使用することができる。Shows protein expression vector map (A) and complete nucleotide sequence (B) of pABMX14, which includes the ampicillin resistance gene (Amp), plasmid origin of replication (ColE1 ori), f1 phage origin of replication for antibiotic selection (F1 ori), a lac promoter / lacO1 regulatory protein expression cassette (plac-RBS-pelB-GR1-DH), and a restriction endonuclease site. NcoI / XbaI or NcoI / NotI or XbaI / NotI restriction sites can be used to insert nucleotide sequences encoding the protein of interest. 図35Aは、各ラウンドの濃縮因子(A)とともに、scFvライブラリーL17をパニングするのに使用される操作と条件とを要約する。VH CDR3領域中のL17ライブラリーの配列は、L14と全く同じである(図28A〜Dを参照)。図35Bは、パニングプロセスのフローチャートを示す。FIG. 35A summarizes the procedures and conditions used to pan the scFv library L17 along with each round of enrichment factor (A). The sequence of the L17 library in the V H CDR3 region is exactly the same as L14 (see FIGS. 28A-D). FIG. 35B shows a flowchart of the panning process.

アダプター介在ファージ表示系(phage display system)を使用して、それぞれ2つの平行工程4と5からのオフレートパニングによりライブラリーL17から選択されたVH CDR3変種のアミノ酸配列を示す。オフレートパニング4では、配列は97および/または101位に位置する変種(Kabat命名法では100a)を用いて選択された。オフレートパニング5では、配列は、101(100a)および/または102(100b)および/または103(100c)に位置する変種を用いて選択された。成熟配列中の2つの重要な変異体YS(H97Y-S101)とHT(H97-101TまたはH97-S100aT)は、パニング4とパニング5から別々に選択された。これらの2つの位置での変種の組合せは、VH CDR3中の成熟配列H97YとS100aTを与えるかも知れない(図9B)。しかしこの組合せは、分解したセグメント中では意識的に避けられる(図28A〜Dを参照)。HR(H97-S100aR)は再度、成熟配列(図9B)であるHT(H97-S100aT)より高い頻度(3/1)で証明され、これは図30のパニング7の同様の観察結果(7/3)と一致する。The amino acid sequences of V H CDR3 variants selected from library L17 by off-rate panning from two parallel steps 4 and 5, respectively, using an adapter-mediated phage display system are shown. For off-rate panning 4, sequences were selected using a variant located at position 97 and / or 101 (100a in Kabat nomenclature). For off-rate panning 5, sequences were selected using variants located at 101 (100a) and / or 102 (100b) and / or 103 (100c). Two important mutants YS (H97Y-S101) and HT (H97-101T or H97-S100aT) in the mature sequence were selected separately from panning 4 and panning 5. The combination of variants at these two positions may give the mature sequences H97Y and S100aT in V H CDR3 (FIG. 9B). However, this combination is consciously avoided in the disassembled segment (see FIGS. 28A-D). HR (H97-S100aR) was again proven at a higher frequency (3/1) than the mature sequence (Figure 9B) HT (H97-S100aT), which is similar to Panning 7 in Figure 30 (7 / Match 3). BIAcoreバイオセンサーを使用してデザイナーライブラリーからのccFv表示フォーマットを介して選択された抗VEGF抗体のVH CDR3(FR123)を含有する4つの抗体の親和性データを示す。精製された抗体が、25℃でCM5バイオチップ上に固定化されたその抗原(VEGF)に結合する時、SPR単位(y軸)対時間(x軸)の変化を測定することにより、測定が行われる。オンレートとオフレートの変化の両方を、1:1ラングミュア結合モデルを使用してデータフィッティングから求めた。X50はccFvフォーマット中にあり、図22Aと22Bに示すVHとVLの親配列を含有する。X63は、VH CDR3中にH97YとS101TをKdが6.3倍改良されて含有し(図9Bを参照)、残りはX50と同じである。X64は、VH CDR3中にS101R変異体を、参照X50に対して2.5倍改良されて含有する;この改良はほとんどオンレート上昇に由来する。X65はH97YとS101Rとを含有し、同じ条件下でccFvフォーマットを使用してX50に対して10倍の改良を示し、これは、親和性成熟VH CDR3配列の最も多く報告されている変異体組合せX63(H97YとS101T)より結合親和性が強い(Chenら、前述(1999)、J. Mol. Biol. 293:865-881参照)。Affinity data for four antibodies containing the anti-VEGF antibody VH CDR3 (FR123) selected via the ccFv display format from a designer library using a BIAcore biosensor. By measuring the change in SPR units (y-axis) versus time (x-axis) when the purified antibody binds to its antigen (VEGF) immobilized on a CM5 biochip at 25 ° C, the measurement is Done. Both on-rate and off-rate changes were determined from data fitting using a 1: 1 Langmuir coupling model. X50 is in the ccFv format and contains the VH and VL parental sequences shown in FIGS. 22A and 22B. X63 contains H97Y and S101T in VH CDR3 with a Kd improvement of 6.3 times (see FIG. 9B), the rest being the same as X50. X64 contains the S101R variant in VH CDR3 with a 2.5-fold improvement over reference X50; this improvement is mostly due to increased on-rate. X65 contains H97Y and S101R and shows a 10-fold improvement over X50 using the ccFv format under the same conditions, which is the most reported variant combination of affinity matured VH CDR3 sequences It has stronger binding affinity than X63 (H97Y and S101T) (see Chen et al., Supra (1999), J. Mol. Biol. 293: 865-881). 図38A は、Kabat命名法に基づき定義された重鎖可変領域のフレームワーク領域FR123を、比較のために報告された(Bacaら、前述、1997)ヒト化について使用されるランダムライブラリーとともに示す。A4.6.1に示されるマウス抗VEGF VHフレームワークFR123配列を、図9Bに示す。ここで親および参照フレームワークfr123として使用されるヒト化抗体(以後「ヒト化抗VEGF抗体」と呼ぶ)は、文献に報告されている(Prestaら、前述、1997)。FR123の上記配列番号は、Kabat命名法(kabataa)に基づき、その連続的順序はCDR中のアミノ酸を含む。FIG. 38A shows the heavy chain variable region framework region FR123 defined based on Kabat nomenclature, with a random library used for humanization reported for comparison (Baca et al., Supra, 1997). The mouse anti-VEGF VH framework FR123 sequence shown in A4.6.1 is shown in FIG. 9B. Humanized antibodies (hereinafter referred to as “humanized anti-VEGF antibodies”) used here as parent and reference framework fr123 have been reported in the literature (Presta et al., Supra, 1997). The above SEQ ID NO of FR123 is based on Kabat nomenclature (kabataa) and its sequential order includes amino acids in the CDR. 図38Bは、マウス抗VEGF抗体のVH FR123のリード配列に基づくヒトVH生殖細胞系配列を使用して作成したヒットライブラリーの変種プロフィールを示す。下の変種プロフィールは、アミノ酸の位置多様性を示す。図の下の部分は、それぞれカットオフ頻度5と13とを使用して得られたフィルターにかけた変種プロフィールを示す。ヒットリストのメンバーのうちで5回またはそれ以下(13回またはそれ以下)出現するすべての位置アミノ酸は、フィルターにかけられる。FIG. 38B shows a variant profile of a hit library generated using human VH germline sequences based on the lead sequence of mouse anti-VEGF antibody VH FR123. The lower variant profile shows the positional diversity of amino acids. The lower part of the figure shows the filtered variant profile obtained using cut-off frequencies 5 and 13, respectively. All position amino acids that occur 5 times or less (13 or less) of the members of the hit list are filtered. 図38B(続き)は、ヒットライブラリーの再度プロフィール化した変種プロフィールは、カットオフ無しでマウス抗VEGF抗体のVH FR123のリード配列に基づきヒトVH生殖細胞系配列を使用して作成されたが、各位置の変種は、総エネルギーまたはファンデアワールスエネルギーを使用して、抗体構造との構造適合性に基づいてランク付けされることを示す。このランキングは、低出現頻度のいくつかのアミノ酸が、最適化のために維持されるフレームワークの足場を安定化するのに構造的に重要であることを強調する。FIG. 38B (continued), where the re-profiled variant profile of the hit library was generated using the human VH germline sequence based on the VH FR123 lead sequence of the mouse anti-VEGF antibody without cut-off, Each position variant is shown to be ranked based on its structural compatibility with the antibody structure using total energy or van der Waals energy. This ranking emphasizes that some low-occurrence amino acids are structurally important in stabilizing the framework scaffolds that are maintained for optimization. 図38Cは、カットオフ19で、フィルターにかけた変種プロフィールを有するマウス抗VEGF抗体のVH FR123のリード配列に基づいてKabat由来のヒトVH配列を使用して作成したヒットライブラリーの変種プロフィールを示す。マウスVH FR123配列は参照として、連続番号をつけた位置で点線で記載されている。アミノ酸のすべての変種を、点線の下に記載する。変種中の点は、参照中と同じアミノ酸を示す。FIG. 38C shows the variant profile of a hit library generated using the human VH sequence from Kabat based on the lead sequence of the mouse anti-VEGF antibody VH FR123 with a cut variant 19 and a filtered variant profile. The mouse VH FR123 sequence is indicated by the dotted line at the position numbered consecutively for reference. All variants of amino acids are listed under the dotted line. Points in the variants indicate the same amino acids as in the reference.

図38Dは、カットオフ5でヒトVH生殖細胞系配列からのフィルターにかけた変種プロフィールを使用したデザイナーライブラリーを示す(図38Bを参照)。FR123に付けた上記配列番号は、Kabat命名法(kabataa)とCDR中のアミノ酸を含む連続順序に基づく。フィルターにかけた変種プロフィールはさらに、コンピューターによりスクリーニングされて、抗体構造のみが使用される場合の、構造適合性のランキングオーダーを反映する。カットオフ5でフィルターにかけた変種プロフィールからは欠失している2つのアミノ酸F70(F69)とL72(L71)は、構造ベースのスコア付けに基づいてこれらの位置で最も好適なアミノ酸の仲間であるため、これらもまた含まれた。構造ベースのスクリーニングからの上の100位にランクされる配列について最終的に提出されたライブラリーはまた、F70(F69)、L72(L71)、S77(S76)およびK98(K94)(カッコ内の数字は、Kabat命名法に基づく配列番号を示す)を含み、なぜならRのような一部のアミノ酸は、VH CDR3親和性成熟中のK94Rについてすでに考察されているように、L72(L71)とK98(K94)についての計算で過度に予測されるためである。FIG. 38D shows a designer library using a filtered variant profile from human VH germline sequence with cutoff 5 (see FIG. 38B). The above SEQ ID No. attached to FR123 is based on Kabat nomenclature (kabataa) and sequential order including amino acids in the CDR. The filtered variant profile is further screened by computer to reflect the structural compatibility ranking order when only antibody structures are used. Two amino acids F70 (F69) and L72 (L71), which are missing from the variant profile filtered at cutoff 5, are the most preferred amino acid companions at these positions based on structure-based scoring Therefore, these were also included. Libraries finally submitted for the top 100 ranked sequences from structure-based screening are also F70 (F69), L72 (L71), S77 (S76) and K98 (K94) (in parentheses) Numbers indicate SEQ ID NOs based on Kabat nomenclature) because some amino acids such as R have L72 (L71) and K98 as already discussed for K94R during VH CDR3 affinity maturation. This is because the calculation for (K94) is overestimated. 図39Aは、VEGF抗原の非存在下(最も左の列)と存在下(真ん中の列)で鋳型構造として1bj1(上のパネル)と1cz8(下のパネル)を使用して、列1中に比較的密な青のストリップ中ヒトVH生殖細胞系配列を使用したマウス抗VEGFのVHフレームワークfr123ヒット配列のスコア付け図の分布をx軸に示し、一緒に、列0中に比較的疎な青のストリップ中のマウスとヒトフレームワークfr123(Prestaら、前述を参照)配列と広く使用されているヒトVH生殖細胞系DP47をx軸に示す。抗原の存在下および非存在下での配列のスコアは相関(最も右の列)しており、これらは抗原との接触が最小であるため、フレームワーク最適化のほとんどに充分なフレームワーク最適化の抗体構造を示す。コンビナトリアル配列ライブラリーのスコア付け図は示していない。Figure 39A shows in column 1 using 1bj1 (upper panel) and 1cz8 (lower panel) as template structures in the absence (leftmost column) and presence (middle column) of VEGF antigen. The distribution of scoring diagrams of mouse anti-VEGF VH framework fr123 hit sequences using human VH germline sequences in a relatively dense blue strip is shown on the x-axis, together with relatively sparse in column 0 The mouse and human framework fr123 (Presta et al., See above) sequence in the blue strip and the widely used human VH germline DP47 are shown on the x-axis. Sequence scores in the presence and absence of antigen are correlated (rightmost column), and because they have minimal contact with antigen, framework optimization is sufficient for most framework optimizations The antibody structure of is shown. The scoring diagram of the combinatorial sequence library is not shown. 図39Bは、報告された(Prestaら、前述、1997とChenら、前述、1999参照)マウスVH FR123、ヒト化VH FR123、およびランク上位の200のデザイナー配列とヒトVH3生殖細胞系(DP47と呼ぶ広く使用されているVHヒト生殖細胞系を含む)について、ライブラリー中の配列と参照マウスVH FR123配列との差に基づくランキングスコアを左のパネルに、系統発生的距離をx軸(これらの連結する距離(図14Cも参照))に示す。ヒト生殖細胞系の1つの変種プロフィール(AA-PVP)の構造ベースのスクリーニングからの上の200のランクの配列は、系統発生的分析(赤丸)でヒトVH3生殖細胞系ファミリーと集合し、一方リードマウス抗体フレームワークは、その系統発生的距離が、1bj1(Prestaら、前述)から設計(ヒト生殖細胞系VH配列のみが含まれる)されヒト化された配列より遺伝的に遠いが、系統発生的距離は、F89(F69)およびK98(K94)のような比較的低い発生頻度を有するアミノ酸を含めることにより、わずかに変化するであろう(図42CとD)。y軸は、ほとんどの設計されたフレームワークVH fr123は、マウス参照およびヒト化フレームワークVH fr123(DP47に近い)と比較して、構造との良好な構造適合性を有することを示す。これらは、その使用したデータベースにより部分的に定義されるように、ここに記載の本発明の方法のフレームワーク最適化のヒト様特徴を支持する。FIG. 39B reported (see Presta et al., Supra, 1997 and Chen et al., Supra, 1999) mouse VH FR123, humanized VH FR123, and the top 200 designer sequences and human VH3 germline (referred to as DP47). For the widely used VH human germline, the left panel shows the ranking score based on the difference between the sequence in the library and the reference mouse VH FR123 sequence, and the phylogenetic distance on the x-axis (the linkage of these) Distance (see also Fig. 14C)). The top 200 ranked sequences from a structure-based screen of one human germline variant profile (AA-PVP) assemble with the human VH3 germline family in a phylogenetic analysis (red circles), while leading The mouse antibody framework is phylogenetic, although its phylogenetic distance is genetically distant from the humanized sequence designed from 1bj1 (Presta et al., Supra) (contains only human germline VH sequences). The distance will vary slightly by including amino acids with relatively low incidence such as F89 (F69) and K98 (K94) (FIGS. 42C and D). The y-axis shows that most designed framework VH fr123 has good structural compatibility with the structure compared to the mouse reference and humanized framework VH fr123 (close to DP47). These support the human-like features of framework optimization of the methods of the invention described herein, as defined in part by the database used. ライブラリー組み立てに使用される重複オリゴ、抗VEGFの重鎖可変領域(VH)ライブラリーの核酸およびアミノ酸配列を示す。DNA配列の縮重位置を、それぞれS(CまたはG)、R(AまたはG)、M(AまたはC)、Y(CまたはT)、K(GまたはT)、W(AまたはT)により示される;そして、コードされる対応するアミノ酸残基は、「X」と記載される。CDR領域は太字で表される。HindIIIとStyIは、それぞれライブラリーの上流および下流クローニング部位である。The nucleic acid and amino acid sequences of overlapping oligos, anti-VEGF heavy chain variable region (VH) libraries used for library assembly are shown. The degenerate positions of DNA sequences are S (C or G), R (A or G), M (A or C), Y (C or T), K (G or T), W (A or T), respectively. And the corresponding amino acid residue encoded is described as “X”. CDR regions are shown in bold. HindIII and StyI are the upstream and downstream cloning sites of the library, respectively. ライブラリー組み立てに使用される重複オリゴ、抗VEGFの重鎖可変領域(VH)ライブラリーの核酸およびアミノ酸配列を示す。DNA配列の縮重位置を、それぞれS(CまたはG)、R(AまたはG)、M(AまたはC)、Y(CまたはT)、K(GまたはT)、W(AまたはT)により示される;そして、コードされる対応するアミノ酸残基は、「X」と記載される。CDR領域は太字で表される。HindIIIとStyIは、それぞれライブラリーの上流および下流クローニング部位である。The nucleic acid and amino acid sequences of overlapping oligos, anti-VEGF heavy chain variable region (VH) libraries used for library assembly are shown. The degenerate positions of DNA sequences are S (C or G), R (A or G), M (A or C), Y (C or T), K (G or T), W (A or T), respectively. And the corresponding amino acid residue encoded is described as “X”. CDR regions are shown in bold. HindIII and StyI are the upstream and downstream cloning sites of the library, respectively.

抗VEGF VHのファージ表示ライブラリーのパニングの要約。P1〜P8は、パニングの第1ラウンド〜第8ラウンドを示す。コーティングのためのVEGF濃度とライブラリーのファージの量(入力)は、パニングの進行とともに減少した。すべての洗浄条件は、PBST中の10回の簡単な洗浄で始まり、結合ファージの溶出が起きる前に、PBS中の10回の簡単な洗浄で終わった。すべての場合にインキュベーションは37℃で2時間行った。第8回目のパニングでは、インキュベーション中でライブラリーを競合ファージと5の比率で混合した。Panning summary of phage display library of anti-VEGF VH. P1 to P8 indicate the first to eighth rounds of panning. The VEGF concentration for coating and the amount of phage in the library (input) decreased with the progress of panning. All wash conditions began with 10 simple washes in PBST and ended with 10 simple washes in PBS before elution of bound phage occurred. In all cases the incubation was carried out at 37 ° C. for 2 hours. In the eighth round of panning, the library was mixed with competitor phage in a ratio of 5 during the incubation. 抗VEGF VHのファージ表示ライブラリーのパニングからのヒットクローンの完全長配列。配列決定データは、ファージ表示ライブラリーのそれぞれ第7回および第8回のパニングから単離された。採用したCDR領域の配列(CDR1、2および3)は、本文に記載のようにライブラリー構築中のマウス抗VEGF抗体配列(図9Bを参照)中と同じままであった。ヒット率は、記載のパニング段階における特定のクローンの発生率である。Full length sequence of hit clones from panning of phage display library of anti-VEGF VH. Sequencing data was isolated from the 7th and 8th panning of the phage display library, respectively. The sequence of the CDR regions employed (CDR1, 2 and 3) remained the same as in the mouse anti-VEGF antibody sequence (see FIG. 9B) during library construction as described in the text. The hit rate is the incidence of a particular clone at the described panning stage. 抗VEGF VHのファージ表示ライブラリーのパニングの要約。文字は、特定の位置のアミノ酸残基を示す(文字の後ろの数字により示され、これは、逐次的およびKabat命名法の両方で図38Aにより例示されるように、抗VEGFの重鎖の可変領域のアミノ酸配列の線形の順序に基づく)。抗VEGF VHの公表されたマウス配列とその対応するヒト化体を、それぞれ左の第1と第2の列に示し、ヒト免疫グロブリンファミリーIIIの同じ位置の優勢な残基と整列させて示す。配列決定データは、それぞれファージ表示ライブラリーの5番目、6番目、7番目、および8番目のパニングから単離したクローンから得られた。文字の前の数字は、試験中の特定の残基のヒット率(%で)を示す(* PCRのエラーにより生じる)。Panning summary of phage display library of anti-VEGF VH. The letter indicates the amino acid residue at a particular position (indicated by the number after the letter, which is variable in the heavy chain of anti-VEGF as illustrated by Figure 38A in both sequential and Kabat nomenclature. Based on the linear order of the amino acid sequence of the region). The published mouse sequence of anti-VEGF VH and its corresponding humanized form are shown in the left first and second columns, respectively, aligned with the dominant residues at the same position of human immunoglobulin family III. Sequencing data was obtained from clones isolated from the 5th, 6th, 7th, and 8th pannings of the phage display library, respectively. The number before the letter indicates the hit rate (in%) for the particular residue under test (* caused by PCR error). 抗VEGFのファージ表示ライブラリーのパニングからの上のヒットVH配列の系統発生的分析を、注釈したように、ヒト生殖細胞系VH3ファミリー、マウス抗VEGF VHフレームワークFR123およびヒト化VHフレームワークfr123とともに示す。図42Cに示すように、ヒト生殖細胞系VH3ファミリーは、予測されたように系統発生的距離で集合する。選択された最適化されたVHフレームワークはまた、ヒト化VH配列(注釈に記載のように)と集合し、これはヒト生殖細胞系VH3ファミリーと系統発生的距離が非常に近く、一方マウスVHフレームワークは、最適化されたVHフレームワークおよびヒト生殖細胞系からはかなり遠い、これは、本発明の方法が設計において、最適化した抗体の完全にヒトの配列またはヒト様配列を有するフレームワークを、ヒト様と構造鋳型もしくは集合構造体もしくは構造平均からの鋳型との適合性の間の微妙なバランスに依存して最適化したという結論を支持する。Phylogenetic analysis of the above hit VH sequences from panning of anti-VEGF phage display library, as annotated, along with human germline VH3 family, mouse anti-VEGF VH framework FR123 and humanized VH framework fr123 Show. As shown in FIG. 42C, the human germline VH3 family assembles at a phylogenetic distance as expected. The selected optimized VH framework also assembles with the humanized VH sequence (as noted in the annotation), which is very close to the phylogenetic distance from the human germline VH3 family, while the mouse VH The framework is far from the optimized VH framework and the human germline, which is a framework that has fully human or human-like sequences of antibodies that the method of the invention has optimized in design. We support the conclusion that was optimized depending on the delicate balance between human-like and structural template or assembly structure or compatibility with template from structure average. 図42Dは、いくつかのよく性状解析された配列D36、D40およびD42と関連配列について注釈付きで、別の樹の見解でこれらの配列の系統発生的距離を示す。D36は、ヒトであるか、または系統発生的距離で報告されたヒト化配列より少し良好である。FIG. 42D is annotated for some well-characterized sequences D36, D40 and D42 and related sequences and shows the phylogenetic distance of these sequences in a different tree view. D36 is human or slightly better than the humanized sequence reported at phylogenetic distance. ccFvファージ表示系(phage display system)(上記図23〜25の説明を参照)を使用して、デザイナーVH最適化ライブラリーから選択された抗VEGF抗体の最適化VHフレームワーク(FR123)の配列を示す。元々のマウス抗体VH FR123とマウス抗体からの同じCDRを有するヒト化配列(Prestaら、前述)とともに、D36、D40およびD42のVH fr123。下のパネルの点は、アミノ酸が参照と同じであることを示す(マウスVHフレームワーク fr123)。Using the ccFv phage display system (see description of FIGS. 23-25 above), the sequence of the optimized VH framework (FR123) of the anti-VEGF antibody selected from the designer VH optimized library Show. VH fr123 of D36, D40 and D42 together with the original murine antibody VH FR123 and a humanized sequence (Presta et al., Supra) with the same CDRs from the murine antibody. The dots in the bottom panel indicate that the amino acids are the same as the reference (mouse VH framework fr123).

BIAcoreバイオセンサー(図43A参照、およびその配列について図43Bを参照)を使用してデザイナーライブラリーから選択された抗VEGF抗体の5つの抗体、親抗体(X50)、および最適化したフレームワーク(D36、D40、D41およびD42)の親和性データを示す。精製抗体が、25℃でCM5バイオチップ上に固定化されたその抗原(VEGF)に結合する時、SPR単位(y軸)対時間(x軸)の変化を測定することにより、測定が行われる。オンレートとオフレートの変化の両方を、1:1ラングミュア結合モデルを使用してデータフィッティングから求めた。2つのヒト化フレームワークD36とD40は、フレームワーク最適化の結合親和性(ccFvフォーマットで)が、親/参照抗VEGF抗体配列よりほぼ4倍高く(文献に報告されたヒト化抗VEGF抗体フレームワークについては図22AとBを参照(Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferara N (1997) Cancer Res. 57:4593-4599))、D42は参照抗体とほぼ同じである。報告されたヒト化抗VEGF抗体(図22AとB)は対応するマウス抗体よりほぼ2倍弱いため、これらの2つのヒト化抗体は、ヒト化により対応するマウス抗体よりほぼ2倍高い結合親和性を有するはずである。Five antibodies of the anti-VEGF antibody, parent antibody (X50), and optimized framework (D36) selected from the designer library using the BIAcore biosensor (see Figure 43A and see Figure 43B for its sequence) , D40, D41 and D42) are shown. When the purified antibody binds to its antigen (VEGF) immobilized on a CM5 biochip at 25 ° C, the measurement is performed by measuring the change in SPR units (y-axis) versus time (x-axis). . Both on-rate and off-rate changes were determined from data fitting using a 1: 1 Langmuir coupling model. The two humanized frameworks D36 and D40 have framework-optimized binding affinity (in ccFv format) almost 4 times higher than the parent / reference anti-VEGF antibody sequences (humanized anti-VEGF antibody frames reported in the literature) See Figures 22A and B for workpieces (Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferara N (1997) Cancer Res. 57: 4593-4599)), D42 Is almost the same as the reference antibody. Since the reported humanized anti-VEGF antibodies (FIGS. 22A and B) are almost 2-fold weaker than the corresponding mouse antibodies, these two humanized antibodies have a binding affinity almost 2-fold higher than the corresponding mouse antibodies upon humanization. Should have. 最適化VHフレームワーク(D36とD40)の安定性の上昇を示す。y軸は、抗体の割合は、親X50と最適化フレームワーク(D36とD40)について精製抗体を4、37および42℃で17時間インキュベートした後に、25℃でBIAcoreを使用して固定化したVEGF抗原への結合が活性なままであることを示す。これは、最適化フレームワークが、報告された(Prestaら、前述、1997)ヒト化VHフレームワークより高い安定性を有することを示す。Shows increased stability of optimized VH frameworks (D36 and D40). The y-axis represents the proportion of antibody immobilized VEGF using BIAcore at 25 ° C after incubation for 17 hours at 4, 37 and 42 ° C with purified antibody for parental X50 and optimized framework (D36 and D40) Shows that binding to the antigen remains active. This indicates that the optimized framework has a higher stability than the reported humanized VH framework (Presta et al., Supra, 1997). 最適化VHフレームワークの発現の改良を示す。最適化フレームワーク(D36、D40およびD42)はまた、SDS-PAGE/クマシーブルー染色により検出される収率発現で示されるように、親/野生型抗体(X50)と比較して、発現が改良されていることを示す。Shows improved expression of optimized VH framework. The optimized framework (D36, D40 and D42) also improved expression compared to the parent / wild-type antibody (X50) as shown by the yield expression detected by SDS-PAGE / Coomassie blue staining Indicates that ヒトVEGFに対する選択された抗体のVHとVLのアミノ酸配列を示す。The VH and VL amino acid sequences of selected antibodies against human VEGF are shown.

定義
構造クラスター:自乗平均の平方根(RMSD)のいくつかの経験的に選択されたカットオフ値(例えば、整列した残基のCα原子の)と統計的有意性(Zスコア)に基づき、ファミリーに集めた一群の構造。これらの値は、目的の構造の間で全体に比較後、経験的に決定される。構造クラスターを検索するのにいくつかのプログラムを使用することができる。CE(コンビナトリアル伸長)アルゴリズム(Shindyalov IN, Bourne PE (1998) Protein Engineering 11:739-747)については、使用される基準はRMSD<2ÅかつZスコア>4である。MAPS(タンパク質構造の多重整列(Multiple Alignment of Protein Structures))は、複数のタンパク質構造の比較のための自動プログラムである。このプログラムは、共通の構造類似性の3Dモデルを自動的に重ね合わせ、すべての構造中でどの残基が構造的に同等であるかを検出し、残基対残基整列を提供する。構造が同等の残基は、すべてのタンパク質の主鎖と側鎖原子のおよその位置に従って定義される。構造類似性に従って、プログラムは構造多様性のスコアを計算し、これは系統樹を構築するのに使用することができる(Lu, G (1998) 「タンパク質構造の多重整列のためのアプローチ」)。構造集合において、ファミリー内の構造鋳型の分布、および構造ファミリー内の配列もしくは配列プロフィールへの制約に関する共通の情報を理解するために、構造クラスター内のメンバーが分析される。
Definitions Structural clusters: based on several empirically selected cutoff values (eg, of Cα atoms of aligned residues) and statistical significance (Z score) of root mean square (RMSD) A group of structures collected. These values are determined empirically after an overall comparison between the target structures. Several programs can be used to search the structural cluster. For the CE (combinatorial extension) algorithm (Shindyalov IN, Bourne PE (1998) Protein Engineering 11: 739-747), the criterion used is RMSD <2Å and Z score> 4. MAPS (Multiple Alignment of Protein Structures) is an automated program for comparing multiple protein structures. The program automatically superimposes 3D models of common structural similarity, detects which residues are structurally equivalent in all structures, and provides residue-to-residue alignment. Residues of equivalent structure are defined according to the approximate position of the main chain and side chain atoms of all proteins. According to structural similarity, the program calculates a structural diversity score, which can be used to construct a phylogenetic tree (Lu, G (1998) “Approach for multiple alignment of protein structures”). In a structural set, members within a structural cluster are analyzed to understand common information regarding the distribution of structural templates within the family and constraints on sequences or sequence profiles within the structural family.

集合構造体:NMR(核磁気共鳴)による構造測定において、単一の構造より構造の集合(おそらく数個のメンバー)(そのすべてがNMRデータに一致し、良好な立体構造を保持する)が、タンパク質データバンク(Protein Data Bank)に保存されていることは公知である。この集合のモデル間の比較により、タンパク質コンフォメーションがNMRの制約によりいかに測定されるかについてのある程度の情報が得られる。NMRで測定される集合構造体に対応するすべての配列が同じ配列を有することを指摘したい(可変コンフォメーションを有する1つのタンパク質)。構造集合体はさらに、配列および/または長さの変動があるが、これらの構造(例えばNMR測定からまたは分子動力学シミュレーションから)以外に同様の主鎖コンフォメーションを有し、同じ配列であるが自然の形の変動のために構造が異なるものを有する。   Aggregate structure: In a structure measurement by NMR (nuclear magnetic resonance), a collection of structures (possibly several members) rather than a single structure (all of which match the NMR data and retain good conformation) It is known that it is stored in a protein data bank. Comparison between models in this set provides some information about how protein conformation is measured due to NMR constraints. It should be pointed out that all sequences corresponding to the aggregate structure measured by NMR have the same sequence (one protein with variable conformation). Structural aggregates also have sequence and / or length variations, but have similar backbone conformations other than these structures (eg, from NMR measurements or from molecular dynamics simulations) and are of the same sequence Some have different structures due to natural shape variations.

集合配列:標的タンパク質のある性質(例えば、安定性または結合親和性)を統計的に規定する配列の集団。   Aggregated sequence: A collection of sequences that statistically define certain properties (eg, stability or binding affinity) of a target protein.

集合平均または代表的構造:構造クラスター内のすべてのメンバーが同じ長さのアミノ酸を有するなら、すべての構造の主鎖原子中の原子の位置は平均化され、次に平均モデルは、NMR測定された平均構造と同様に、正常な結合距離と角度(「抑制最小化」)に従うように調整される。構造クラスター内のすべてのメンバーのアミノ酸の長さが異なるなら、クラスター内のすべての他のメンバーの平均的特徴を代表するメンバーが、代表的構造として選択されるであろう。   Aggregate average or representative structure: if all members in a structural cluster have the same length of amino acids, the positions of the atoms in the main chain atoms of all structures are averaged, and then the average model is measured by NMR As with the average structure, it is adjusted to follow normal bond distances and angles (“inhibition minimization”). If the amino acid lengths of all members in the structural cluster are different, a member that is representative of the average characteristics of all other members in the cluster will be selected as the representative structure.

標準構造:超可変領域の通常存在する主鎖コンフォメーション。   Standard structure: The normal backbone conformation of the hypervariable region.

構造レパートリー:あるクラスのタンパク質が占めるすべての構造の集まり、例えば抗体フレームワークおよびCDRについて観察されるモジュラー構造や標準構造。
配列レパートリー:タンパク質ファミリーの配列の集まり。
Structural repertoire: A collection of all structures occupied by a class of proteins, such as the modular and standard structures observed for antibody frameworks and CDRs.
Sequence repertoire: A collection of sequences from a protein family.

機能性レパートリー:例えば抗体について、種々の抗原に結合できる多様な機能的CDRと関係する、タンパク質が示すすべての機能の集まり。   Functional repertoire: A collection of all the functions a protein exhibits, for example for antibodies, associated with a variety of functional CDRs that can bind to different antigens.

生殖細胞系遺伝子セグメント:生殖細胞系からの遺伝子を意味する(そこからこれらが生成される半数体生殖体および二倍体細胞)。生殖細胞系DNAは、単一の免疫グロブリン重鎖または軽鎖をコードする複数の遺伝子セグメントを含有する。これらの遺伝子セグメントは生殖細胞中で運搬されるが、機能的遺伝子に準備されるまで、重鎖や軽鎖に転写も翻訳もすることができない。骨髄中でのB細胞分化中に、これらの遺伝子セグメントは、108を超える特異性を与えることができる動的遺伝子系によりランダムにシャフルされる。これらの遺伝子セグメント配列のほとんどは、生殖細胞系データベースから入手できる。V遺伝子データベースと呼ぶ可変重鎖および軽鎖は、配列相同性に基づいてサブファミリーに分類される。   Germline gene segment: refers to genes from the germline (the haploid germ and diploid cells from which they are generated). Germline DNA contains multiple gene segments that encode a single immunoglobulin heavy or light chain. These gene segments are carried in germ cells, but cannot be transcribed or translated into heavy and light chains until they are prepared into functional genes. During B cell differentiation in the bone marrow, these gene segments are randomly shuffled by a dynamic gene system that can provide more than 108 specificities. Most of these gene segment sequences are available from germline databases. Variable heavy and light chains, referred to as V gene databases, are classified into subfamilies based on sequence homology.

再整列された免疫グロブリン配列:B細胞分化と成熟プロセス中に生殖細胞系遺伝子セグメントを転写および翻訳することにより生成する重鎖と軽鎖中の機能的免疫グロブリン遺伝子配列。ここで使用される再整列された免疫グロブリン配列のほとんどは、Kabat-Wuデータベースからのものである。   Realigned immunoglobulin sequences: functional immunoglobulin gene sequences in the heavy and light chains that are generated by transcription and translation of germline gene segments during the B cell differentiation and maturation process. Most of the rearranged immunoglobulin sequences used here are from the Kabat-Wu database.

BLAST:対の配列解析のための基礎的局所的整列検索ツール(Basic Local Alignment Search Tool)。BLASTは、2つの配列の間の類似性を検出するのに位置非依存性のスコア化パラメータを用いる発見的アルゴリズムを使用し、デフォールトパラメータは、Expectが10、Word Size 3,Scoring matrix BLOSUM62、exostenceのGap costs 11、extension 1で使用した。   BLAST: Basic Local Alignment Search Tool for paired sequence analysis. BLAST uses a heuristic algorithm that uses position-independent scoring parameters to detect similarities between two sequences. The default parameters are Expect 10, Word Size 3, Scoring matrix BLOSUM62, exostence. Used in Gap costs 11, extension 1.

PSI-BLAST:位置特異的繰り返しBLASTすなわちPSI-BLASTプログラムは、あるラウンドの検索で見つかった配列を使用して、次のラウンドの検索のためのスコアモデルを構築する繰り返し検索を行う。PSI-BLASTでは、アルゴリズムは特定のスコアマトリックスに関係していない。従来、A×A置換マトリックスを使用して行われている(ここでAはアルファベットサイズである)。代わりにPSI-BLASTは、QxAマトリックスを使用し、ここでQは問題の配列の長さである;各点で文字のコストは、問題の配列に対する位置と対象配列中の文字に依存する。2つのPSI-BLASTパラメータが調整される;pseudocount定数デフォールトは、10から7に変更されており、PSI-BLASTモデルに一致分を含めるためのE値閾値は、0.001から0.002に変更されている。   PSI-BLAST: A position-specific repeated BLAST or PSI-BLAST program uses a sequence found in one round of search to perform an iterated search that builds a score model for the next round of search. In PSI-BLAST, the algorithm is not related to a specific score matrix. Traditionally, this is done using an A × A substitution matrix (where A is the alphabet size). Instead, PSI-BLAST uses a QxA matrix, where Q is the length of the sequence in question; at each point the cost of the letter depends on the position relative to the sequence in question and the letter in the subject sequence. Two PSI-BLAST parameters are adjusted; the pseudocount constant default has been changed from 10 to 7, and the E value threshold for including matches in the PSI-BLAST model has been changed from 0.001 to 0.002.

エネルギー背景:ピークと谷が分子の集合状態を規定するエネルギー分布。エネルギー背景は、折り畳みプロセスの完全な説明ならびに局所的構造状態の説明を与えることができ、共通の最適化もしくは最小化構造は、局所的エネルギー最小内の多くの可能な状態の集まりから単一の構造種のみを説明する。   Energy background: An energy distribution whose peaks and valleys define the molecular state of aggregation. The energy background can give a complete description of the folding process as well as a description of the local structure state, and a common optimization or minimization structure can be derived from a collection of many possible states within the local energy minimum. Only the structural species will be described.

一致/一致スコア:分子の実験的に観察可能な性質(例えば、安定性、活性および親和性)の尺度。   Match / match score: a measure of the experimentally observable properties (eg, stability, activity and affinity) of a molecule.

一致背景(fitness landscape):分子の他の固有のパラメータ(例えば配列)により規定される一致スコアの分布。   Fitness landscape: A distribution of match scores defined by other intrinsic parameters of the molecule (eg, sequence).

配列空間:配列レパートリーを参照。
構造空間:構造レパートリーを参照。
機能空間:機能性レパートリーを参照。
Sequence space: See sequence repertoire.
Structural space: see structural repertoire.
Functional space: see functional repertoire.

リード配列:配列データベースを検索するのに使用される配列。
変種プロフィール/配列プロフィール/位置変種プロフィール(PVP):あるセットのペプチド配列についての各位置のアミノ酸エントロピーの記載。これは、アミノ酸(AA-PVP)または核酸(NA-PVP)の範囲と頻度の両方を含む。
Lead sequence: A sequence used to search a sequence database.
Variant Profile / Sequence Profile / Position Variant Profile (PVP): A description of the amino acid entropy at each position for a set of peptide sequences. This includes both the range and frequency of amino acids (AA-PVP) or nucleic acids (NA-PVP).

ヒットライブラリー/ヒットリスト:リード配列または配列プロフィールを使用して配列データベースを検索することにより見つかる配列の集まり。   Hit library / hit list: A collection of sequences found by searching a sequence database using a lead sequence or sequence profile.

ヒット変種ライブラリー/ライブラリーI:ヒットライブラリーの変種プロフィールのコンビナトリアル算出から得られるin silicoアミノ酸配列ライブラリー。   Hit variant library / library I: An in silico amino acid sequence library obtained from combinatorial calculation of variant profiles of hit libraries.

ヒット変種ライブラリーII/ライブラリーII/設計されたアミノ酸ライブラリー/改良されたアミノ酸ライブラリー:再プロフィール化または具体的設計の結果としてヒット変種ライブラリーIから得られるin silicoアミノ酸配列ライブラリー。変種の再プロフィール化は以下により行われる:1) 特定のカットオフ値または主要なアミノ酸残基を含有する配列のウィンドウを用いて、配列クラスターベースのエネルギーランキングを選択することにより、2) 機能的スクリーニングにより同定される特定の位置残基を含めることにより、および/または 3) 当業者がかかる測定をするのに利用できる任意の他の方法を使用して、残基または配列クラスターを含めるかまたは排除することにより。   Hit Variant Library II / Library II / Designed Amino Acid Library / Improved Amino Acid Library: An in silico amino acid sequence library obtained from Hit Variant Library I as a result of reprofile or specific design. Variant re-profiling is done by: 1) By selecting sequence cluster-based energy ranking using a sequence window containing specific cut-off values or major amino acid residues, 2) functional By including residues at specific positions identified by screening, and / or 3) using any other method available to those skilled in the art to make such measurements, or including residues or sequence clusters By eliminating.

ヒット変種ライブラリーIII/ライブラリーIII:機能的スクリーニングのために縮重オリゴヌクレオチドライブラリー(後述)によりin vitroで発現されるアミノ酸配列ライブラリー。ライブラリーIIIは、逆翻訳、最適化コドン使用、ヌクレオチドレベルでの組換え、および生じるコンビナトリアル核酸ライブラリーの発現のために、ライブラリーIIの配列空間を拡張する。   Hit variant library III / library III: an amino acid sequence library expressed in vitro by a degenerate oligonucleotide library (described below) for functional screening. Library III expands the sequence space of Library II for reverse translation, optimized codon usage, recombination at the nucleotide level, and expression of the resulting combinatorial nucleic acid library.

縮重核酸/オリゴヌクレオチドライブラリー:設計されたアミノ酸ライブラリー(上記ライブラリーII)に対応するアミノ酸変種プロフィールを標的とするのに使用される混合オリゴヌクレオチドのライブラリー。これは、最適化したコドンを使用してライブラリーIIのアミノ酸位置変種プロフィールから逆翻訳される対応する核酸位置変種プロフィールのコンビナトリアル算出から得られる。   Degenerate nucleic acid / oligonucleotide library: A library of mixed oligonucleotides used to target amino acid variant profiles corresponding to a designed amino acid library (Library II above). This is obtained from combinatorial calculations of the corresponding nucleic acid position variant profiles that are back-translated from the amino acid position variant profiles in Library II using optimized codons.

コンビナトリアルアミノ酸/ペプチドライブラリー:アミノ酸位置変種プロフィールの完全なコンビナトリアル算出から作成されるライブラリー。ライブラリーIとライブラリーIIはそのようなライブラリーである。   Combinatorial amino acid / peptide library: A library created from a complete combinatorial calculation of amino acid position variant profiles. Library I and library II are such libraries.

コンビナトリアル核酸/オリゴヌクレオチドライブラリー:核酸位置変種プロフィールの完全なコンビナトリアル算出から作成されるライブラリー。   Combinatorial nucleic acid / oligonucleotide library: A library created from a complete combinatorial calculation of nucleic acid position variant profiles.

DNAシャフリング:オリゴヌクレオチド断片化と相同的組換えの多重繰り返しにより親配列の混合物から組換えオリゴヌクレオチドを作成する方法(Stemmer WP(1994) Nature 370:389-391)。   DNA shuffling: A method in which recombinant oligonucleotides are made from a mixture of parental sequences by multiple repetitions of oligonucleotide fragmentation and homologous recombination (Stemmer WP (1994) Nature 370: 389-391).

in silico合理的ライブラリー設計:所望の一致を有するものを同定するために配列および構造空間中の試料集合を効率的に定義するために、進化、構造および機能データを取り込むデジタルアミノ酸もしくは核酸ライブラリーを設計する方法。   In silico rational library design: a digital amino acid or nucleic acid library that captures evolutionary, structural and functional data to efficiently define a collection of samples in sequence and structure space to identify those with the desired match How to design.

プロフィール陰れマルコフモデル(Profile Hidden Markov Model)(プロフィールHMM):タンパク質の配列プロフィールに基づく配列ファミリーの1次構造コンセンサスの統計モデル。これは、アミノ酸の、および挿入と欠失を開き伸長するための位置特異的スコアを使用して、多重配列整列のコンセンサスの統計的記載に基づく遠い配列相同体を検出する。多重配列整列は、多重配列整列プログラム、例えばClustalWまたは構造集合が与える構造ベースの多重配列整列により、与えられる。   Profile Hidden Markov Model (Profile HMM): A statistical model of primary structural consensus of sequence families based on the sequence profile of proteins. This detects distant sequence homologues based on statistical descriptions of consensus of multiple sequence alignments, using amino acid and position specific scores to open and extend insertions and deletions. Multiple sequence alignment is provided by multiple sequence alignment programs such as ClustalW or structure-based multiple sequence alignment provided by structure sets.

スレッディング:配列ならびに局所的パラメータ(例えば2次構造や溶媒暴露)を取り込むスコア化関数を使用して、構造鋳型候補のライブラリーにタンパク質の配列をつなぐことにより、タンパク質の折り畳みを割り当てる方法。スレッディングプロセスは、アミノ酸配列の2次構造の予測と問題の配列の各残基の溶媒の接近し安さとから出発する。予測される構造の生じる1次元(1D)プロフィールは、既知の3D構造のライブラリーの各メンバーにつながれる。各配列−構造対の最適スレッディングは、動的プログラミングを使用して得られる。全体的な最適配列−構造対は、問題の配列の予測される3D構造を構成する。   Threading: A method of assigning protein folds by connecting a sequence of proteins to a library of candidate structural templates using a scoring function that captures the sequence as well as local parameters (eg secondary structure and solvent exposure). The threading process starts with the prediction of the secondary structure of the amino acid sequence and the solvent accessibility of each residue in the sequence in question. The resulting one-dimensional (1D) profile of the predicted structure is linked to each member of the library of known 3D structures. Optimal threading for each sequence-structure pair is obtained using dynamic programming. The overall optimal sequence-structure pair constitutes the predicted 3D structure of the sequence in question.

逆スレッディング:ある標的構造および/または構造クラスターにつなぐことにより、配列データベースから最適配列について検索する方法。種々のスコア化関数を使用して、種々の長さのタンパク質配列を含むライブラリーから最適配列について選択する。   Reverse threading: A method of searching for optimal sequences from sequence databases by connecting to certain target structures and / or structure clusters. Various scoring functions are used to select for optimal sequences from libraries containing protein sequences of various lengths.

側鎖ロタマー:側鎖の二面角またはカイ角で定義されるアミノ酸側鎖のコンフォメーション。   Side chain rotamer: Amino acid side chain conformation defined by the dihedral angle or chi angle of the side chain.

ロタマーライブラリー:タンパク質構造データベース中の側鎖コンフォメーションの分析から得られるすべてのアミノ酸について、骨格二面角ファイとファイ(骨格依存性ロタマーライブラリーと呼ぶ)または骨格に非依存性の二面角(骨格非依存性ロタマーライブラリーと呼ぶ)に基づく、側鎖ロタマーの分布。   Rotamer library: Skeletal dihedral phi and phi (called backbone-dependent rotamer library) or backbone-independent dihedral angles for all amino acids obtained from side chain conformation analysis in protein structure databases Side chain rotamer distribution based on (called backbone independent rotamer library).

Dunbrack RLとKarplus M (1993) JMB 230:543-574を参照。   See Dunbrack RL and Karplus M (1993) JMB 230: 543-574.

発明の詳細な説明
本発明は、改良された生物学的機能、例えば生物学的および/または治療的に重要な標的分子に対する改良された結合親和性を有する、最適化されたタンパク質について、タンパク質ライブラリーを効率的に作成しスクリーニングするシステムと方法を提供する。この方法は、すべての生物、特にヒトのタンパク質配列の拡大し続けるデータベースを調べることにより、コンピューターにより高速に処理される。自然からの進化的配列のデータベース調査と、天然の配列の構造が関連する変種のコンピューターによる設計とを組合せて、本発明の方法は、タンパク質ライブラリーのコンピューターによる設計と機能的スクリーニングにおいて、他の方法からの明確な飛躍である。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to protein live for optimized proteins with improved biological function, eg improved binding affinity for biologically and / or therapeutically important target molecules. Provide systems and methods for efficiently creating and screening rallies. This method is processed at high speed by a computer by examining an ever-growing database of protein sequences of all organisms, especially humans. Combining a database search of evolutionary sequences from nature with the computational design of variants that are related to the structure of the native sequence, the method of the present invention can be used in other methods in the computational design and functional screening of protein libraries. A clear leap from the method.

この革新的方法を使用することにより、抗体のようなタンパク質の偏りのあるライブラリーを、極端に多様なタンパク質配列と機能的に関連する構造のコンピューターによる評価に基づき、in silicoで構築することができる。in silicoのライブラリー構築とスクリーニングのこの集合ベースの統計的方法は、in vitroまたはin vivoスクリーニングが事実上達成できなかった目標である、タンパク質配列と構造空間の一致とエネルギー背景の分布を効率的に作成する。in silicoスクリーニング後に、選択されたタンパク質をコードする配列に基づく拡張された核酸ライブラリーが構築され、発現系に導入され、in vitroまたはin vivoで改良されたかまたは新規機能を有するタンパク質についてスクリーニングされる。   By using this innovative method, it is possible to construct a library of proteins, such as antibodies, in silico based on computational evaluation of structures that are functionally related to extremely diverse protein sequences. it can. This set-based statistical method of in silico library construction and screening efficiently matches protein sequence and structural space and distribution of energy background, a goal that in vitro or in vivo screening has virtually failed to achieve To create. After in silico screening, an expanded nucleic acid library based on the sequence encoding the selected protein is constructed and introduced into the expression system and screened for proteins that have been improved or have novel functions in vitro or in vivo .

図1は、本発明の方法の種々の実施態様を概説する一連のフローチャートである。既知の配列および/または構造を用いるリードタンパク質に基づき、タンパク質のライブラリーを構築し、図1に示す少なくとも4つの経路(経路I〜IV)後に、所望の機能を有する候補についてスクリーニングすることができる。   FIG. 1 is a series of flowcharts outlining various embodiments of the method of the present invention. Based on lead proteins using known sequences and / or structures, a library of proteins can be constructed and screened for candidates with the desired function after at least four pathways (routes I-IV) shown in FIG. .

ある実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
この方法は以下の工程をさらに含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 15% sequence identity with the lead sequence (the selected peptide segment is a hit library Form).
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

図1Aの経路Iは、この実施態様を模式的に示す。この実施態様において、既知の配列と構造を有するリードタンパク質(例えば抗体)が提供される。リードタンパク質の選択されたセグメント(以後「リード配列」と呼ぶ)との程度の異なる同一性について、タンパク質配列の豊富なプール(例えば、ヒト抗体レパートリー)がスクリーニングされる。このスクリーニングから、陰れマルコフモデルすなわちHMMのような配列整列法を使用して、異なる程度の相同性を有するタンパク質配列のリストが選択される(以後「ヒットライブラリー」と呼ぶ)。次にヒットライブラリーのアミノ酸配列をリード配列に対してプロフィール化して、リード配列の各位置のアミノ酸残基の変動を証明する。後述のセクション7に詳述されるように、プロフィール化配列の一部またはすべてが選択され、in vitroまたはin vivoの機能的スクリーニングについて核酸のライブラリーに逆翻訳する。   Route I in FIG. 1A schematically illustrates this embodiment. In this embodiment, a lead protein (eg, antibody) having a known sequence and structure is provided. A rich pool of protein sequences (eg, a human antibody repertoire) is screened for varying degrees of identity with selected segments of the lead protein (hereinafter referred to as “lead sequences”). From this screen, a list of protein sequences with different degrees of homology is selected using a shaded Markov model or sequence alignment method such as HMM (hereinafter referred to as a “hit library”). The amino acid sequence of the hit library is then profiled against the lead sequence to demonstrate the variation of amino acid residues at each position of the lead sequence. As detailed in Section 7 below, some or all of the profiled sequences are selected and back-translated into a library of nucleic acids for functional screening in vitro or in vivo.

場合により本発明は以下の工程をさらに含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the present invention further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into corresponding gene codons; and combinatorially combining nucleic acid position variants into a degenerate nucleic acid library of DNA segments Build up.

図1Bの経路IIは、この実施態様を模式的に示す。この実施態様において、ヒットライブラリーのアミノ酸配列をリード配列に対してプロフィール化した後、各残基位置のアミノ酸(またアミノ酸位置変種プロフィールまたはAA-PVPとも呼ぶ)の頻度に基づきコンビナトリアルライブラリー(以後「ヒット変種ライブラリーI」または「ライブラリーI」と呼ぶ)を構築する。このアプローチを使用して、ヒット変種ライブラリーIは実質的にヒットライブラリーより大きい。より高頻度で観察されるもの(進化的選択を示す)に基づいて、AA-PVPを修飾(例えばフィルターにかけ)して各位置について好適な変異体に偏らせることにより、低下した変種プロフィールが生成し、そのコンビナトリアル算出によりヒット変種ライブラリーIIが得られる。ヒット変種ライブラリーIIプロフィールは、in vitroまたはin vivoでの機能的スクリーニングのために、核酸のライブラリーに逆翻訳される。   Route II of FIG. 1B schematically illustrates this embodiment. In this embodiment, after the amino acid sequence of the hit library is profiled to the lead sequence, a combinatorial library (hereinafter referred to as the amino acid position variant profile or AA-PVP) is used based on the frequency of amino acids at each residue position (also referred to as amino acid position variant profile or AA-PVP). (Called "Hit Variant Library I" or "Library I"). Using this approach, the hit variant library I is substantially larger than the hit library. Based on what is observed more frequently (indicating evolutionary selection), AA-PVP can be modified (eg, filtered) to bias the preferred variant at each position, resulting in a reduced variant profile Then, the hit variant library II is obtained by the combinatorial calculation. The hit variant library II profile is back-translated into a library of nucleic acids for functional screening in vitro or in vivo.

場合により、遺伝子コドンは、細菌での発現に好適なものである。場合により遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、過度の実験的努力をすることなく実験でカバーできる多様性範囲内(例えば、好ましくは1×107 未満、より好ましくは1×106 未満)であるように、選択されるサイズを低下させることができるものである。 In some cases, the gene codon is suitable for expression in bacteria. In some cases, the gene codon is within a diversity range that the diversity of the degenerate nucleic acid library of the DNA segment can be experimentally covered without undue experimental effort (eg, preferably less than 1 × 10 7 , more preferably The selected size can be reduced to be less than 1 × 10 6 ).

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDRとFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含む第1のアミノ酸配列を提供し(選択されたアミノ酸配列はCDRリード配列である);
CDRリード配列を複数のテスタータンパク質配列と比較し;そして
複数のCDRテスタータンパク質配列から、CDRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはCDRヒットライブラリーを形成する);
リード抗体のVHまたはVL領域中に1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列はFRリード配列である);
FRリード配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、FRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはFRヒットライブラリーを形成する);そして
CDRヒットライブラリーとFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identify the amino acid sequence in the CDR and FR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing a first amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a CDR lead sequence);
Comparing the CDR lead sequence with a plurality of tester protein sequences; and selecting from the plurality of CDR tester protein sequences at least two peptide segments having at least 15% sequence identity with the CDR lead sequence (the selected peptide segments are Forming a CDR hit library);
Select one FR in the VH or VL region of the lead antibody;
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the FR lead sequence);
Comparing the FR lead sequence to a plurality of FR tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the FR lead sequence (selected peptide segments Forms an FR hit library); and
A hit library is formed by combining the CDR hit library and the FR hit library.

この方法において、複数のCDRテスタータンパク質配列は、ヒトまたは非ヒト抗体のアミノ酸配列を含んでよい。   In this method, the plurality of CDR tester protein sequences may comprise the amino acid sequence of a human or non-human antibody.

また本発明において複数のFRテスタータンパク質配列は、ヒト起源のアミノ酸配列、好ましくはヒトもしくはヒト化抗体(例えば、VHまたはVL中に少なくとも50%のヒト配列、好ましくは少なくとも70%のヒト配列、さらに好ましくは少なくとも90%のヒト配列、および最も好ましくは少なくとも95%のヒト配列)、さらに好ましくは完全にヒト抗体、および最も好ましくはヒト生殖細胞系抗体を含んでよい。 Also in the present invention, the plurality of FR tester protein sequences are amino acid sequences of human origin, preferably human or humanized antibodies (eg, at least 50% human sequences, preferably at least 70% human sequences in VH or VL). More preferably at least 90% human sequences, and most preferably at least 95% human sequences), more preferably fully human antibodies, and most preferably human germline antibodies.

また本発明において、少なくとも1つの複数のCDRテスタータンパク質配列は、複数のFRテスタータンパク質配列とは異なる。   In the present invention, at least one of the plurality of CDR tester protein sequences is different from the plurality of FR tester protein sequences.

また本発明において、複数のCDRテスタータンパク質配列はヒトもしくは非ヒト抗体配列であり、複数のCDRテスタータンパク質配列はヒト抗体配列、好ましくはヒト生殖細胞系抗体配列である。   In the present invention, the plurality of CDR tester protein sequences are human or non-human antibody sequences, and the plurality of CDR tester protein sequences are human antibody sequences, preferably human germline antibody sequences.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
場合により本方法は以下の工程をさらに含む:
CDRヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、CDRヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the CDR hit library;
Converting the amino acid position variant profile of the CDR hit library into a nucleic acid position variant profile by back-translating the amino acid position variants into the corresponding gene codons; and combing the nucleic acid position variants in a combinatorial manner Build a rally.

場合により、遺伝子コドンは、細菌での発現に好適なものである。場合により遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、過度の実験的努力をすることなく実験でカバーできる多様性範囲内(例えば、1×107 未満、好ましくは1×106 未満)であるように、選択されるサイズを低下させることができるものである。 In some cases, the gene codon is suitable for expression in bacteria. In some cases, the gene codon is within a diversity range that the diversity of the degenerate nucleic acid library of the DNA segment can be experimentally covered without undue experimental effort (eg, less than 1 × 10 7 , preferably 1 × 10 7 The selected size can be reduced to be less than 6 ).

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列は第1のFRリード配列である);
第1のリードFR配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、第1のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはFRヒットライブラリーを形成する)。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the FR of the lead antibody;
Select one FR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the first FR lead sequence);
Comparing the first lead FR sequence to a plurality of FR tester protein sequences; and selecting at least two peptide segments from the plurality of FR tester protein sequences having at least 15% sequence identity with the first FR lead sequence (Selected peptide segments form an FR hit library).

この方法はさらに以下の工程を含む:
選択されたFRとは異なるFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列は第2のFRリード配列である);
第2のFRリード配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、第2のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントは第2のFRヒットライブラリーを形成する);そして
第1のFRヒットライブラリーと第2のFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
The method further includes the following steps:
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in a FR different from the selected FR (the selected amino acid sequence is the second FR lead sequence);
Comparing the second FR lead sequence with a plurality of FR tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the second FR lead sequence (The selected peptide segment forms a second FR hit library); and the first FR hit library and the second FR hit library are combined to form a hit library.

本方法においてリードCDR配列は、選択されるCDR中に少なくとも5つの連続的アミノ酸残基を含む。選択されるCDRは、リード抗体のVH CDR1、VH CDR2、VH CDR3、VL CDR1、VL CDR2、およびVL CDR3よりなる群から選択される。 In this method, the lead CDR sequence comprises at least 5 consecutive amino acid residues in the selected CDR. The selected CDR is selected from the group consisting of V H CDR1, V H CDR2, V H CDR3, V L CDR1, V L CDR2, and V L CDR3 of the lead antibody.

また本発明においてリードFR配列は、選択されるCDR中に少なくとも5つの連続的アミノ酸残基を含む。選択されるFRは、リード抗体のVH FR1、VH FR2、VH FR3、VH FR4、VL FR1、VL FR2、VL FR3、およびVL FR4よりなる群から選択される。 In the present invention, the lead FR sequence also contains at least 5 consecutive amino acid residues in the selected CDR. The selected FR is selected from the group consisting of the lead antibodies V H FR1, V H FR2, V H FR3, V H FR4, V L FR1, V L FR2, V L FR3, and V L FR4.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築する。
The method further includes the following steps:
A degenerate nucleic acid library containing a DNA segment encoding the amino acid sequence of the hit library is constructed.

本発明の別の態様において、リード抗体中の領域のアミノ酸配列(すなわちリード配列)に基づく抗体配列のin silico選択のための方法が提供される。リード配列の構造は、同様の3D構造を有するセグメントのタンパク質構造のデータベースを検索するのに使用される。これらのセグメントは、配列プロフィール(本明細書において以後「リード配列プロフィール」と呼ぶ)を与えるように整列される。リード配列プロフィールは、低い配列同一性であるが構造が同様のリード配列の遠い相同体のタンパク質配列のデータベースを検索するのに使用される。この方法を使用して、多様な抗体配列のライブラリーを構築し、改良されたかまたは所望の機能を有する抗体変異体について、in vitroまたはin vivoで実験的にスクリーニングすることができる。   In another aspect of the invention, a method is provided for in silico selection of antibody sequences based on the amino acid sequence of a region in the lead antibody (ie, the lead sequence). The structure of the lead sequence is used to search a database of protein structures for segments with similar 3D structures. These segments are aligned to provide a sequence profile (hereinafter referred to as the “lead sequence profile”). The lead sequence profile is used to search a database of protein sequences of distant homologues of a low lead sequence identity but similar structure. Using this method, a library of diverse antibody sequences can be constructed and experimentally screened in vitro or in vivo for antibody variants with improved or desired functions.

ある実施態様においてこの方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列の3次元構造を提供し;
リード配列の構造に基づいてリード配列プロフィールを作成し;
リード配列プロフィールを複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Providing a three-dimensional structure of the lead sequence;
Creating a lead sequence profile based on the structure of the lead sequence;
Comparing the lead sequence profile to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments are hit live Forming a rally).

本発明においてリード配列の3次元構造は、X線結晶解析、核磁気共鳴(NMR)分光法、または理論的構造モデル化から得られる構造でもよい。   In the present invention, the three-dimensional structure of the lead array may be a structure obtained from X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy, or theoretical structure modeling.

本発明において、リード配列プロフィールを作成する工程は以下を含む:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションの差の自乗平均の平方根を決定し;
主鎖コンフォメーションの差の自乗平均の平方根が5Å未満、好ましくは4Å未満、さらに好ましくは3Å未満、および最も好ましくは2Å未満であるテスタータンパク質セグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
In the present invention, the step of creating a lead sequence profile includes the following:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the root mean square of the difference in the main chain conformation of the lead sequence and the tester protein segment;
Selecting a tester protein segment having a root mean square difference root mean square of less than 5, preferably less than 4, more preferably less than 3, and most preferably less than 2; and the amino acids of the selected tester protein segment The sequence is aligned with the lead sequence to create a lead sequence profile.

場合により複数のテスタータンパク質セグメントの構造は、タンパク質データバンクから検索される。
場合により、リード配列プロフィールを作成する工程は以下を含む:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションのZスコアを決定し;
Zスコアが2より大きい、好ましくは3より大きい、さらに好ましくは4より大きい、および最も好ましくは5より大きいテスタータンパク質セグメントのセグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
Optionally, the structure of the plurality of tester protein segments is retrieved from the protein data bank.
Optionally, the step of creating a lead sequence profile includes:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the Z-score of the main chain conformation of the lead sequence and tester protein segment;
Selecting a segment of the tester protein segment with a Z score greater than 2, preferably greater than 3, more preferably greater than 4, and most preferably greater than 5; and the amino acid sequence of the selected tester protein segment as the lead sequence Align to create a lead sequence profile.

場合によりリード配列プロフィールを作成する工程は、CE、MAPS、モンテカルロおよび3Dクラスタリングアルゴリズムよりなる群から選択されるアルゴリズムにより行われる。   Optionally, the step of creating a lead sequence profile is performed by an algorithm selected from the group consisting of CE, MAPS, Monte Carlo, and 3D clustering algorithm.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

場合により本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into the corresponding trinucleotide codons; and combining nucleic acid position variants in a combinatorial manner Build a rally.

上記の任意の方法はさらに以下の工程を含む:
核酸または縮重核酸ライブラリーのDNAセグメントを宿主生物細胞中に導入し;
ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;そして
106 M-1、好ましくは107 M-1、さらに好ましくは108 M-1、および最も好ましくは109 M-1より高い親和性で標的抗原に結合する組換え抗体を選択する。
Any of the above methods further includes the following steps:
Introducing a DNA segment of a nucleic acid or degenerate nucleic acid library into a host organism cell;
Expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell; and
Recombinant antibodies that bind to the target antigen with an affinity higher than 10 6 M −1 , preferably 10 7 M −1 , more preferably 10 8 M −1 , and most preferably 10 9 M −1 are selected.

ある実施態様においてこの方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列プロフィールを複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
スコア化関数を使用して、ヒットライブラリーのメンバーがリード配列プロフィールと構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒットライブラリーのメンバーを選択する。
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structural template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence profile to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
A scoring function is used to determine whether the hit library members are structurally compatible with the lead sequence profile; and hit library members with scores equal to or better than the lead sequence Select.

本発明においてスコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である。   In the present invention, the scoring function is an energy score selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. Function.

場合によりスコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールド、および他の知識ベースの統計的フォースフィールド(平均フィールド)および構造ベースの熱力学ポテンシャル関数よりなる群から選択されるフォースフィールドを含むものである。   In some cases, the scoring functions are Amber Forcefield (forcefiled), Charmm Forcefield, Discover cvff Forcefield, ECEPP Forcefield, GROMOS Forcefield, OPLS Forcefield, MMFF94 Forcefield, Tripos Forcefield, MM3 Forcefield, Dreiding Forcefield , And UNRES force fields, and other knowledge based statistical force fields (mean fields) and force fields selected from the group consisting of structure based thermodynamic potential functions.

また本発明において、ヒットライブラリーのメンバーを選択する工程は、
ΔEtotal = Evdw + Ebond + Eangel + Eelectrostatics + Esolvation
の式に基づいて計算されるリード配列より低いかまたは同等の総エネルギーを有するヒットライブラリーのメンバーを選択する。
In the present invention, the step of selecting members of the hit library includes:
ΔE total = E vdw + E bond + E angel + E electrostatics + E solvation
Select members of the hit library that have a total energy that is lower or equivalent to the lead sequence calculated based on the formula:

また本発明において、ヒットライブラリーのメンバーを選択する工程は、改良されたスコア化関数
ΔGb = ΔGMM + ΔGsol - TΔSSS
(式中、
ΔGMM = ΔGele + ΔGvdw (1)
ΔGsol = ΔGele-sol + ΔGASA (2))
を使用して、結合状態と非結合状態の差として計算されるリード配列より小さい結合フリーエネルギーを有するヒットライブラリーのメンバーを選択する。
In the present invention, the step of selecting members of the hit library includes an improved scoring function ΔG b = ΔG MM + ΔG sol −TΔS SS
(Where
ΔG MM = ΔG ele + ΔG vdw (1)
ΔG sol = ΔG ele-sol + ΔG ASA (2))
Is used to select members of the hit library that have a binding free energy less than the lead sequence calculated as the difference between bound and unbound states.

本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.

図1Cの経路IIIは、この実施態様を模式的に示す。この実施態様において、ロタマーデータベースからの側鎖を代用することによりリードタンパク質の3D構造中にヒットライブラリーの配列を構築し、リードタンパク質の3D構造(以後「リード構造鋳型」と呼ぶ)との構造適合性についてスコア化される。構造評価に基づいて、エネルギー関数のスコアに従ってランク付けすることにより、ヒットライブラリーが再プロフィール化される。所望のエネルギー関数を有するヒットライブラリーの配列の一部が選択され、in vitroまたはin vivoの機能的スクリーニングのために核酸のライブラリーに逆翻訳される。この実施態様において、アミノ酸配列コンビナトリアル工程は無い。   Route III in FIG. 1C schematically illustrates this embodiment. In this embodiment, the sequence of the hit library is constructed in the 3D structure of the lead protein by substituting side chains from the rotamer database, and the 3D structure of the lead protein (hereinafter referred to as “lead structure template”) Scored for structural compatibility. Based on the structure evaluation, the hit library is reprofiled by ranking according to the energy function score. A portion of the hit library sequence having the desired energy function is selected and back-translated into a library of nucleic acids for in vitro or in vivo functional screening. In this embodiment, there is no amino acid sequence combinatorial step.

場合により本方法はさらに以下の工程を含む:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
Optionally, the method further comprises the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into the corresponding trinucleotide codons; and combining nucleic acid position variants in a combinatorial manner Build a rally.

本発明のさらに別の態様において、本方法は以下の工程を含む:
ある実施態様において、本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3D構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを作成し;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
In yet another embodiment of the present invention, the method comprises the following steps:
In certain embodiments, the method includes the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known 3D structure defined as a lead structure template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR of the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining the amino acid variants in the hit library to create a combination of hit variants that forms a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.

本方法において、ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む:
出現頻度が4回より大きい、好ましくは6回より大きい、さらに好ましくは8回より大きい、および最も好ましくは10回より大きいアミノ酸変種を選択し(カットオフの頻度の2%〜10%、好ましくは5%であり、カットオフ後に失われた場合は、リード配列からのアミノ酸の一部を含む);そして
ヒットライブラリー中の選択されたアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成する。
In this method, combining the amino acid variants in the hit library includes the following:
Select amino acid variants with an appearance frequency greater than 4, preferably greater than 6, more preferably greater than 8, and most preferably greater than 10 (2% to 10% of the cutoff frequency, preferably Hit variants that combine the selected amino acid variants in the hit library to form a hit variant library, including 5% if lost after cut-off, including some amino acids from the lead sequence); Generate a combination of

本方法においてスコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である。   In the present method, the scoring function is an energy score selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. Function.

場合によりスコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールド、および他の知識ベースの統計的フォースフィールド(平均フィールド)および構造ベースの熱力学ポテンシャル関数よりなる群から選択されるフォースフィールドを含むものである。   In some cases, the scoring functions are Amber Forcefield (forcefiled), Charmm Forcefield, Discover cvff Forcefield, ECEPP Forcefield, GROMOS Forcefield, OPLS Forcefield, MMFF94 Forcefield, Tripos Forcefield, MM3 Forcefield, Dreiding Forcefield , And UNRES force fields, and other knowledge based statistical force fields (mean fields) and force fields selected from the group consisting of structure based thermodynamic potential functions.

本方法はさらに以下の工程を含む:
ヒットライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method further includes the following steps:
A nucleic acid library is constructed that includes DNA segments that encode the amino acid sequences of selected members of the hit library.

図1Dの経路IVは、この実施態様を模式的に示す。この実施態様において、ヒットライブラリーのアミノ酸配列をリード配列、ヒット変種のコンビナトリアルライブラリー、すなわち変種ライブラリーIに対してプロフィール化した後、ヒット変種ライブラリーIIが、各残基位置のアミノ酸の出現頻度に基づいて構築される(経路IIIのように)。ヒット変種ライブラリーIIの配列は、ロタマーデータベースからの側鎖を代用することにより、鋳型タンパク質の3D構造中に構築され、リード構造鋳型との構造適合性についてスコア化される。構造評価に基づき、エネルギー関数中のスコアに従ってランク付けすることにより、ヒット変種ライブラリーIIは再プロフィール化される。所望のエネルギー関数を有するヒットライブラリーIIの配列の一部が選択され、in vitroまたはin vivoの機能的スクリーニングのために核酸のライブラリーに逆翻訳される。当業者により決定される他の選択的因子に基づき、ライブラリーIIの変種プロフィールへの追加の修飾が適用される。すなわちライブラリーIIは、進化的、構造的、および/または機能的データに基づく所望のライブラリーである。   Route IV in FIG. 1D schematically illustrates this embodiment. In this embodiment, after profiling the amino acid sequence of the hit library against the lead sequence, a combinatorial library of hit variants, ie variant library I, the hit variant library II is responsible for the occurrence of the amino acid at each residue position. Constructed based on frequency (as in Route III). The sequence of hit variant library II is built into the 3D structure of the template protein by substituting side chains from the rotamer database and scored for structural compatibility with the lead structural template. Based on the structure evaluation, hit variant library II is reprofiled by ranking according to the score in the energy function. A portion of the hit library II sequence having the desired energy function is selected and back-translated into a library of nucleic acids for in vitro or in vivo functional screening. Additional modifications to the library II variant profile will be applied based on other selective factors determined by those skilled in the art. That is, Library II is a desired library based on evolutionary, structural, and / or functional data.

in silicoで作成される選択されたヒットリストまたはヒット変種ライブラリーIIの配列に基づいて、抗体の合成ライブラリーが実験室で構築され、標的抗原に対してスクリーニングされる。高速スクリーニングのために多様な生物学的アッセイを使用することができ、例えばファージ表示(SmithとScott (1993) Meth. Enzymol. 217:228-257)、リボゾーム表示(HanesとPluckthun (1997) Proc. Natl. Acad. Sci. USA 94:4937-4942)、酵母表示(Kiekeら、(1997) Protein Eng. 10:1303-1310)、および他の細胞外または細胞内発現系がある。   Based on the selected hit list or hit variant library II sequences generated in silico, a synthetic library of antibodies is constructed in the laboratory and screened against the target antigen. A variety of biological assays can be used for rapid screening such as phage display (Smith and Scott (1993) Meth. Enzymol. 217: 228-257), ribosome display (Hanes and Pluckthun (1997) Proc. Natl. Acad. Sci. USA 94: 4937-4942), yeast designation (Kieke et al. (1997) Protein Eng. 10: 1303-1310), and other extracellular or intracellular expression systems.

別の実施態様において本方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
リード抗体以外のVHもしくはVL領域中の異なる配列を有する1つ以上の抗体の3D構造を提供し;
リード抗体と1つ以上の抗体の構造体とを組合せて構造集合体を形成し(構造集合体はリード構造鋳型として定義される);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
In another embodiment, the method comprises the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
Providing a 3D structure of one or more antibodies having different sequences in the VH or VL regions other than the lead antibody;
Combining the lead antibody with one or more antibody structures to form a structure assembly (a structure assembly is defined as a lead structure template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining amino acid variants in the hit library to generate a combination of hit variants that form a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.

そのようなプロセス(すなわち、デジタル抗体ライブラリーのコンピューターによる予測と合成抗体ライブラリーの実験によるスクリーニング)は、選択された抗体の結合親和性を改良するために繰り返すことができる。第1ラウンドのスクリーニング後、選択された抗体の3次元構造をコンピューターでモデル化する。また、配列とコンフォメーション空間を拡大することにより構造を修飾し、これを標的抗原によるソフトドッキング(soft docking)に付して、第2世代のデジタル抗体ライブラリーを作成する。第2世代のデジタル抗体ライブラリーを次に実験的にスクリーニングして、第1世代の選択抗体より高い親和性を有する抗体を選択する。そのような修飾と抗原に対するスクリーニングの繰り返しプロセスは、脊椎動物における抗体成熟の自然のプロセスを模倣する。   Such processes (ie, computer prediction of digital antibody libraries and experimental screening of synthetic antibody libraries) can be repeated to improve the binding affinity of selected antibodies. After the first round of screening, the three-dimensional structure of the selected antibody is computer modeled. In addition, the structure is modified by expanding the sequence and conformation space, and this is subjected to soft docking with a target antigen to create a second generation digital antibody library. The second generation digital antibody library is then screened experimentally to select antibodies that have a higher affinity than the first generation selected antibody. Such an iterative process of modification and screening for antigen mimics the natural process of antibody maturation in vertebrates.

本発明の概念的フレームワークと実際的応用を、以下のセクションで詳細に説明する。   The conceptual framework and practical application of the present invention are described in detail in the following sections.

1. 本発明の概念的フレームワーク
本発明は、分子生物学、特にタンパク質折り畳みと設計の分野に長い間存在する問題に対する革新的解答を提供する。本発明者らが開発したアプローチは、タンパク質折り畳みと設計の最良のアイデアを組合せて、強力な統合システムとし、これは、高速処理と低コストで現実的応用のための新規タンパク質製剤を開発することができる。
本発明者らは、分子生物学における中心的課題は、タンパク質、RNAおよびDNA分子のようなバイオポリマーの機能性レパートリーを、その配列と構造で描写することであると考えている。バイオポリマーの機能性レパートリーは、進化の過程の選択的圧力と、種々の環境条件下でのバイオポリマーの折り畳みと安定性に対する部分的制約の複雑な相互作用により作成される。天然のバイオポリマーとランダムポリマーとの差は何か。天然に存在するバイオポリマーの機能、配列および構造空間の豊富な多様性を利用して、安定な構造と正しい生物学的機能を有する新規バイオポリマーを作成するための、最適の方策は何か。これらの問題に対する答は、分子設計と進化、特に結合活性と触媒活性が上昇した新規タンパク質の発見に特に重要である。
1. Conceptual framework of the present invention The present invention provides innovative solutions to problems that have long existed in the field of molecular biology, especially protein folding and design. The approach we have developed combines the best ideas of protein folding and design into a powerful integrated system that develops new protein formulations for high-speed processing and low-cost practical applications. Can do.
We believe that a central challenge in molecular biology is to describe the functional repertoire of biopolymers, such as proteins, RNA and DNA molecules, in their sequence and structure. The functional repertoire of biopolymers is created by a complex interaction of selective pressures during the evolution process and partial constraints on biopolymer folding and stability under various environmental conditions. What is the difference between natural biopolymers and random polymers? What is the best strategy to create new biopolymers with stable structure and correct biological function, utilizing the rich diversity of naturally occurring biopolymer functions, sequences and structural spaces? The answers to these questions are particularly important for molecular design and evolution, especially the discovery of new proteins with increased binding and catalytic activity.

本発明は、以下の3つの工程でこの問題に取り組む:1) タンパク質折り畳みと進化の基礎である一般的概念的フレームワークを考察し、本発明を理解するのに必要な基礎的知識を提供する;2) タンパク質折り畳みと設計およびこれらのアプローチに関連する問題に使用される現在の実験的および理論的方法を説明する;および3) タンパク質設計と工学の長年の問題の一部を解決するための本発明のアプローチを概説する。   The present invention addresses this problem in three steps: 1) Considers a general conceptual framework that is the basis for protein folding and evolution, and provides the basic knowledge necessary to understand the present invention. 2) Explain the current experimental and theoretical methods used for protein folding and design and the problems associated with these approaches; and 3) To solve some of the longstanding problems of protein design and engineering The approach of the present invention is outlined.

1) タンパク質折り畳みと進化
タンパク質は、多様な生物学的機能を行うための基本的な分子である。タンパク質は、その線形配列をユニークな3次元構造に折り畳むことにより、その生物学的機能を獲得する。配列からタンパク質構造を予測することは、未解決の問題である。しかし、特に中間体の集合と折り畳み経路の遷移状態の統計的解釈の出現により、タンパク質折り畳みの機構の理解に重要な進展がなされている。
1) Protein folding and evolution Proteins are the basic molecules for performing diverse biological functions. A protein acquires its biological function by folding its linear array into a unique three-dimensional structure. Predicting protein structure from sequence is an open question. However, significant progress has been made in understanding the mechanism of protein folding, especially with the advent of statistical interpretations of the assembly of intermediates and the transition states of the folding pathway.

溶液中のタンパク質コンフォメーションの動的性質は、実験的および理論的研究の両方で充分説明されている。タンパク質コンフォメーションの動的変動は、酵素活性におけるアロステリック制御(Monod, J., Wyman, J. および Changeux, J.P. (1965) J. Mol. Biol., 12:88-118)、タンパク質−タンパク質やタンパク質−核酸相互作用、およびコンフォメーションゲーティング(Zhou, H-X, Wlodek, S.T., McCammon, J.A. (1998) PNAS 95:9280-9283)のような生物学的機能の一部を実施するのに必須である。   The dynamic nature of protein conformation in solution is well explained in both experimental and theoretical studies. Dynamic changes in protein conformation are allosteric regulation of enzyme activity (Monod, J., Wyman, J. and Changeux, JP (1965) J. Mol. Biol., 12: 88-118), protein-protein and protein -Essential for carrying out some biological functions such as nucleic acid interactions and conformation gating (Zhou, HX, Wlodek, ST, McCammon, JA (1998) PNAS 95: 9280-9283) .

連続的集合アプローチは、静的X線構造と比較してバイオポリマーのより現実的な見解を与えるのみではなく、他の方法で説明するのは不可能な増加する実験的観察結果を説明するための一般的フレームワークを与えるため、連続的集合アプローチは、タンパク質折り畳み機構を説明するための古典的不連続状態アプローチより優れている(Hong Qian (2002) Protein Science 11:1-5)。この見解は、巨大分子の生物学的機能を理解するのに、エネルギー背景でコンフォメーション集合の連続的分布の統計的性質を使用する重要性を強調している(Baldwin RL (1995) 5:103-109 J. Biomol. NMR; Pande VJ など (1998) Curr. Opin. Struct. Biol. 8:68-79)。   The continuous assembly approach not only gives a more realistic view of biopolymers compared to static X-ray structures, but also explains the increasing experimental observations that are otherwise impossible to explain The continuous assembly approach is superior to the classical discontinuous approach to explain protein folding mechanisms (Hong Qian (2002) Protein Science 11: 1-5). This view emphasizes the importance of using the statistical nature of the continuous distribution of conformational sets in the energy context to understand the biological function of macromolecules (Baldwin RL (1995) 5: 103 -109 J. Biomol. NMR; Pande VJ et al. (1998) Curr. Opin. Struct. Biol. 8: 68-79).

ヘテロポリマーの凍結と設計を研究するために使用されるランダムエネルギーモデル(REM)は、タンパク質折り畳みと設計の優れた近似的物理的モデルとなる(Vijay S. Pande, Alexander Yu. Grosberg, および Toyoichi Tanhaka, Review of Modern Physics, Vol. 72, No. 1, 2000 およびその中の文献を参照)。ヘテロポリマーの凍結遷移の統計的性質に基づくタンパク質折り畳みと設計の単純なモデルの定量的研究により、多くのことがわかっている。連続的エネルギースペクトル中に分布した集合のコンフォメーション状態の間の相遷移は、あるセットの充分規定されたエネルギーウェルにあるいくつかの不連続な状態の伝統的見解と比較して、タンパク質の折り畳みと結合性のより現実的な説明を与える。REM背景は、ある指定された配列が動力学的に近づくことができ熱力学に安定なコンフォメーションに折り畳むための必要かつ充分な条件は、上の部分で連続的エネルギースペクトルを示し下の部分で顕著なエネルギー最小を示すエネルギー分布であることを示唆する(Vijay S. Pande, Alexander Yu. Grosberg, および Toyoichi Tanhaka, Review of Modern Physics, Vol. 72, No. 1, 2000 およびその中の文献;ShakhnovichとGutin, 1993 PNAS, 90:7195-7199を参照)。従って、指定の配列の基底状態とREM連続的エネルギースペクトルの底とのエネルギーギャップを拡大するように、配列を設計すべきである。エネルギーギャップは、配列の固有のコンフォメーションのエネルギーを低下させる(安定性のための正の設計)か、または配列の代替コンフォメーションのエネルギーを押し上げる(特異性のための負の設計)ことにより拡大される。   The random energy model (REM) used to study the freezing and design of heteropolymers is an excellent approximate physical model for protein folding and design (Vijay S. Pande, Alexander Yu. Grosberg, and Toyoichi Tanhaka) , Review of Modern Physics, Vol. 72, No. 1, 2000 and references therein). Much has been learned from quantitative studies of simple models of protein folding and design based on the statistical nature of the freezing transition of heteropolymers. The phase transitions between a set of conformational states distributed in a continuous energy spectrum are associated with protein folding compared to the traditional view of several discrete states in a set of well-defined energy wells. And give a more realistic explanation of connectivity. The REM background shows that the necessary and sufficient conditions for a given sequence to fold into a kinetically stable conformation show a continuous energy spectrum in the upper part and in the lower part. It suggests that the energy distribution shows a remarkable energy minimum (Vijay S. Pande, Alexander Yu. Grosberg, and Toyoichi Tanhaka, Review of Modern Physics, Vol. 72, No. 1, 2000 and references therein; Shakhnovich And Gutin, 1993 PNAS, 90: 7195-7199). Therefore, the array should be designed to widen the energy gap between the ground state of the specified array and the bottom of the REM continuous energy spectrum. The energy gap is widened by reducing the energy of the native conformation of the sequence (positive design for stability) or boosting the energy of the alternative conformation of the sequence (negative design for specificity) Is done.

タンパク質折り畳みのこの単純なモデルから得られる一般的規則は、最近の新規コンピューターによるタンパク質設計において厳密に守られた:アミノ酸の組成は変化しないが、エネルギーが最小にされる(Koehl P と Levitt M (1999) J Mol Biol 293:1161-1181)。ある構造に適合する配列の集合特性を規定することは、具体的な最適配列を見つけることより重要であると言われている(Koehl P と Levitt M (1999) J Mol Biol 293:1183-1193)。設計された配列の多重整列は、情報エントロピーにより測定される配列空間を規定し;この配列空間のサブセットは、自然界で観察される同じ構造整列から得られる配列空間とサイズが似ている(Koehl P と Levitt M (2001) PNAS 1-6)。この研究は、トポロジーと安定性がある折り畳みの配列空間を規定し、配列空間のサブセットは、機能的一致により規定することができることを示す。しかし、この方法は、アミノ酸の組成を変化させないことにより、各位置のアミノ酸の選択に大きすぎる制限を与える。   The general rules derived from this simple model of protein folding were strictly followed in protein design by recent new computers: amino acid composition does not change, but energy is minimized (Koehl P and Levitt M ( 1999) J Mol Biol 293: 1161-1181). It is said that defining the collective properties of sequences that conform to a certain structure is more important than finding specific optimal sequences (Koehl P and Levitt M (1999) J Mol Biol 293: 1183-1193) . Multiple alignments of designed sequences define the sequence space measured by information entropy; a subset of this sequence space is similar in size to that derived from the same structural alignment observed in nature (Koehl P And Levitt M (2001) PNAS 1-6). This study defines a folded sequence space that is topological and stable, and shows that a subset of the sequence space can be defined by functional agreement. However, this method places too large a limit on the choice of amino acids at each position by not changing the amino acid composition.

タンパク質進化の動的性質は、理論的および進化的生物学者により活発に研究されている(Maynard-Smith, J (1970) Nature, 225:563-564)。一致背景を測定する値に配列をマッピング(遺伝子型)することは、進化生物学の中心的課題である。遺伝子型と表現型の関係は定量的方法で一般的に分析するには複雑過ぎるが、この関係は配列(遺伝子型)と構造(表現型)の関係に単純化され、従ってこれを使用して配列の一致を、以下のようにあるバイオポリマーの形にスコア化することができる:
遺伝子型(配列) ← 一致スコア → 表現型(構造)
The dynamic nature of protein evolution has been actively studied by theoretical and evolutionary biologists (Maynard-Smith, J (1970) Nature, 225: 563-564). Mapping (genotype) sequences to values that measure congruent background is a central issue in evolutionary biology. The relationship between genotype and phenotype is generally too complex to analyze in a quantitative manner, but this relationship is simplified to the relationship between sequence (genotype) and structure (phenotype) and can therefore be used to Sequence matches can be scored into certain biopolymer forms as follows:
Genotype (sequence) ← Match score → Phenotype (structure)

自然界で観察されるタンパク質は、特異的機能を果たすという選択的圧力下で進化してきた。興味深いことに、機能的タンパク質の一致背景がマッピングされ、タンパク質折り畳み分野のような同様の手段を使用してシミュレートされている。一致背景は、タンパク質の機能的性質を増強する変異体集合を規定するために、配列空間中でマッピングされる。配列集合の統計的性質は、標的タンパク質の配列空間の中立ネットワークを説明するために使用されている(Stadler P F. Journal of Molecular Structure (Theochem) 463, 7-19 (1999); J Theor Biol 2001, 212:35-46)。   Proteins observed in nature have evolved under selective pressure to perform specific functions. Interestingly, the functional protein identity background is mapped and simulated using similar means such as the protein folding field. The matching background is mapped in sequence space to define a collection of variants that enhance the functional properties of the protein. Statistical properties of sequence sets have been used to describe neutral networks in the sequence space of target proteins (Stadler PF. Journal of Molecular Structure (Theochem) 463, 7-19 (1999); J Theor Biol 2001 , 212: 35-46).

背景理論には3つの基本的成分が埋め込まれている:配向のセット;各配向に割り当てられた一致関数;および距離を規定する配向の間の連結性または配向の間の関係。一致関数は、タンパク質の性質(例えば2つのタンパク質(受容体とリガンド;抗原と抗体)の間の結合親和性、酵素の触媒活性、または標的足場の構造的安定性)として広義に規定される。   The background theory embeds three basic components: a set of orientations; a matching function assigned to each orientation; and a relationship between orientations or orientations that define the distance. A matching function is broadly defined as the nature of a protein (eg, binding affinity between two proteins (receptor and ligand; antigen and antibody), catalytic activity of an enzyme, or structural stability of a target scaffold).

進化の観点から、天然のRNAおよびタンパク質の配列−構造関係のマッピングにより生じる一致背景は、部分的に相関する背景下で進化した配列空間の中立のネットワークの存在を予測し、新しい一致関数への一致進化への効率的な経路を提供する。これに対して、中立の隣接体(neighbor)無しで粗い一致背景で進化したランダム配列は、局所的最適条件に捕捉され、配列空間中の局所的集団に至る。天然の配列は、登山のプロセスで選択的圧力下で進化的最適化を受けてきた。配列改変による新しい一致関数への有効な経路は、ランダム変異ではなく空間空間中の中立のネットワークに従うことである(Stadler P F. Journal of Molecular Structure (Theochem) 463, 7-19 (1999); J Theor Biol 2001, 212:35-46; Aderonke Babajideなど(1997) Folding & Design 2:262-269)。点突然変異を介して一致背景を検索すること対タンパク質空間中の遺伝子組換えの相対的効率は、REMならびにヘテロポリマーベースのモデルを使用してシミュレートし、比較することができる(Bogarad L, Deem MW (1999) PNAS 96:2591-2595;Cui Y, Wong WH, Bornber-Bauer E, Chan HS (2002) 99:809-814)。   From an evolutionary point of view, the coincidence background generated by mapping the sequence-structure relationships of natural RNA and proteins predicts the existence of a neutral network of sequence space evolved under a partially correlated background, leading to a new coincidence function. Provides an efficient path to match evolution. In contrast, random sequences that have evolved with a coarse coincidence background without neutral neighbors are captured in the local optimum and lead to a local population in the sequence space. Natural sequences have undergone evolutionary optimization under selective pressure in the mountaineering process. An effective route to new matching functions by sequence modification is to follow a neutral network in space rather than random mutation (Stadler P F. Journal of Molecular Structure (Theochem) 463, 7-19 (1999); J Theor Biol 2001, 212: 35-46; Aderonke Babajide et al. (1997) Folding & Design 2: 262-269). Searching for matching backgrounds via point mutations versus the relative efficiency of genetic recombination in the protein space can be simulated and compared using REM as well as heteropolymer-based models (Bogarad L, Deem MW (1999) PNAS 96: 2591-2595; Cui Y, Wong WH, Bornber-Bauer E, Chan HS (2002) 99: 809-814).

単純化モデルを使用するタンパク質折り畳みと進化の上記理論的研究は、折り畳みと進化中のタンパク質構造と配列の集合状態の統計的性質についての情報を与えた。本発明者らは、分子生物学、スピンガラスの物理学、およびヘテロポリマーの物理学の概念を組合せる理論は、バイオポリマーの動的性質の統一されたフレームワークを与えると考えている。ここで問題は、タンパク質モデルに基づくそのような概念的フレームワークを、いかにして配列と構造空間の両方でタンパク質の機能的背景をマッピングする実際的アプローチに変換するかということである。   The above theoretical study of protein folding and evolution using a simplified model provided information about the statistical properties of protein structure and sequence aggregation during folding and evolution. We believe that the theory that combines the concepts of molecular biology, spin glass physics, and heteropolymer physics gives a unified framework of biopolymer dynamics. The question here is how to translate such a conceptual framework based on a protein model into a practical approach that maps the functional background of a protein in both sequence and structure space.

2) 当該分野のタンパク質配列設計の現代の実験的および理論的方法とそこに横たわる問題
タンパク質工学の主要な目標は、新規または改良された機能を有するタンパク質を作成することである。このために、所望の性質を有するタンパク質(主に酵素)を得るために2つのアプローチが使用されている:in vitro指令分子進化と構造ベースのコンピューターによる設計。in vitro指令進化のアプローチは、相同配列、ランダム突然変異誘発および遺伝子シャフリングを使用して、多様な配列ライブラリーを作成する。所望の性質を有する変異体は、高速スクリーニングにより選択され、再シャフリングされる。この方法は、所望のレベルの機能的増強が達成されるまで繰り返される。
2) Modern experimental and theoretical methods of protein sequence design in the field and the problems underlying them The main goal of protein engineering is to create proteins with new or improved functions. For this, two approaches have been used to obtain proteins (mainly enzymes) with the desired properties: in vitro directed molecular evolution and structure-based computational design. In vitro directed evolution approaches use homologous sequences, random mutagenesis and gene shuffling to create a diverse sequence library. Variants with the desired properties are selected and reshuffled by rapid screening. This method is repeated until the desired level of functional enhancement is achieved.

「スクリーニングしたものが得られる」という指令進化の最初の規則は、タンパク質ライブラリーの機能的一致の評価におけるスクリーニング法の重要性を強調している(Wintrode, P および Arnold, FH (2000) Adv Protein Chem. 55:161-226)。高速処理の酵素的スクリーニングの利用可能性と改良された感度が、指令進化のある程度の成功につながった。合理的工学と比較して、指令進化は、追加の情報(例えば、標的酵素の構造)をほとんどまたは全く必要とせず、規定の選択的圧力下で分子の大きなプールから生物活性についてスクリーニングすることができる。   The first rule of command evolution “getting screened” emphasizes the importance of screening methods in assessing functional identity of protein libraries (Wintrode, P and Arnold, FH (2000) Adv Protein Chem. 55: 161-226). The availability of high-throughput enzymatic screening and improved sensitivity have led to some success in directed evolution. Compared to rational engineering, directed evolution requires little or no additional information (eg, the structure of the target enzyme) and can be screened for biological activity from a large pool of molecules under a defined selective pressure. it can.

スクリーニング能への依存性は、作成されるコンビナトリアルライブラリーのサイズに上限を設け、従って試験される機能空間のサイズに上限が設けられる。エラーが起きやすいPCRを使用するランダム突然変異誘発は、多様なライブラリーを作成するには偏りのある不充分なプロセスであるため、1回のランダム変異による有意な機能的改良の可能性は小さく、多重同時ランダム変異については急速に低下する。また核酸レベルで単一のコドン位置でいくつかの変異体を同時に作成することは困難である。   The dependence on screening ability places an upper limit on the size of the combinatorial library that is created, and thus places an upper limit on the size of the functional space to be tested. Random mutagenesis using error-prone PCR is a biased and inadequate process for creating diverse libraries, so the potential for significant functional improvement from a single random mutation is small. It decreases rapidly for multiple simultaneous random mutations. In addition, it is difficult to simultaneously create several variants at a single codon position at the nucleic acid level.

さらに、高い相同性(>70%)を有する配列の相同的組換えへのDNAシャフリングの依存性は、生じるライブラリーがカバーできる配列空間を限定する。その結果、シャフリングとスクリーニングの各連続的繰り返しは、縮小する局所的配列空間中の試験につながる。これは、性質が増強された新しい相同配列を同定するのに効率的であるが、より大きな機能的改良を有する真に新規配列を同定するのに適切ではないかも知れない。   Furthermore, the dependence of DNA shuffling on homologous recombination of sequences with high homology (> 70%) limits the sequence space that the resulting library can cover. As a result, each successive iteration of shuffling and screening leads to a test in the shrinking local sequence space. This is efficient for identifying new homologous sequences with enhanced properties, but may not be appropriate for identifying truly novel sequences with greater functional improvements.

にもかかわらず、ランダム突然変異誘発を取り込むことにより、有効なアミノ酸置換が作成され同定される。有効な点突然変異の蓄積は、所望の性質を有する多くの重要な酵素を進化させスクリーニングするのにうまく使用されている。単純なランダム突然変異誘発方策以外に、DNAシャフリング(同じかまたは異なる種の複数の親からの遺伝子を組合せるファミリーシャフリングアプローチを含む)は、高度に改良された生体触媒を生成する(Ness J E Del Cardayre, SB Minshul, J & Stemmer, WPC (2000) Adv Protein Chem 55:261-292)。   Nevertheless, by incorporating random mutagenesis, effective amino acid substitutions are made and identified. Accumulation of effective point mutations has been successfully used to evolve and screen many important enzymes with the desired properties. In addition to simple random mutagenesis strategies, DNA shuffling (including a family shuffling approach that combines genes from multiple parents of the same or different species) produces a highly improved biocatalyst (Ness JE Del Cardayre, SB Minshul, J & Stemmer, WPC (2000) Adv Protein Chem 55: 261-292).

タンパク質折り畳みと密接に関連する問題として、逆折り畳み問題としてタンパク質設計が考慮されている(Drexler, KE (1981) PNAS 78:5f275-5278;Pabo, C. (1983) Nature 301:200)(標的構造を与える配列を見いだすこと)。標的足場を与えるタンパク質配列を設計することは、広範囲の応用のために改良された性質を有するタンパク質を操作するのに重要な工程であると見なされる。   As a problem closely related to protein folding, protein design is considered as a reverse folding problem (Drexler, KE (1981) PNAS 78: 5f275-5278; Pabo, C. (1983) Nature 301: 200) (target structure) Find an array that gives Designing protein sequences that provide a target scaffold is considered an important step in manipulating proteins with improved properties for a wide range of applications.

逆折り畳みプロトコールに関連する主要な課題は、剛性のあるタンパク質骨格を維持する必要性である。試験する必要のあるコンフォメーション空間は巨大であるため、現実的な理由のために、タンパク質の静的X線構造はいまだに、合理的な構造ベースのタンパク質またはドラッグデザインの出発点として使用されている。逆タンパク質折り畳みアプローチは、アミノ酸間の相互作用を記載する半経験的な全原子エネルギー機能に基づくタンパク質構造に適合する最適配列を計算しようとしている。未変性のタンパク質は、小さな変動を頑丈なコンフォメーション的適応により許容することが知られているが、剛性のあるタンパク質骨格のコンピューターによる基底状態は、タンパク質骨格または側鎖ロタマーの小さな変動を充分に許容できず、安定性の充分な尺度にならない。   A major challenge associated with reverse folding protocols is the need to maintain a rigid protein backbone. Because of the large conformational space that needs to be tested, for practical reasons, the static X-ray structure of proteins is still used as a starting point for rational structure-based protein or drug design . The reverse protein folding approach seeks to calculate an optimal sequence that fits the protein structure based on semi-empirical all-atom energy functions describing interactions between amino acids. Native proteins are known to tolerate small variations due to robust conformational adaptation, but the computational ground state of the rigid protein backbone is sufficient to allow small variations in the protein backbone or side chain rotamers. It is unacceptable and does not provide a sufficient measure of stability.

これらの課題に取り組むために、規則的な2次構造間の相対的配向を調整することにより、骨格のパラメータ表示に対するいくつかの試みがされている(Harbury, PB, Tidor B. & Kim, PS (1995) Protein Science 92, 8408-8412;Su A & Mayo SL (1997) Prot Sci. 6, 1701-1707;Harbury PB, Plecs JJ, Tidor B, Alber T, Kim PS (1998) Science 282, 1562-1467)。本発明者らは、局所的束縛を緩和するための簡単だが効率的な解答は、タンパク質ループ(不規則であり、その骨格移動は一般的にパラメータ化することが困難である)について本発明で証明されるようにタンパク質の任意の種類の構造についての、骨格と側鎖とを含むエネルギーの最小化であると考えている(Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30)。   To tackle these challenges, several attempts have been made to display skeletal parameters by adjusting the relative orientation between regular secondary structures (Harbury, PB, Tidor B. & Kim, PS (1995) Protein Science 92, 8408-8412; Su A & Mayo SL (1997) Prot Sci. 6, 1701-1707; Harbury PB, Plecs JJ, Tidor B, Alber T, Kim PS (1998) Science 282, 1562- 1467). We find that a simple but efficient solution to alleviate local constraints is the present invention for protein loops (which are irregular and whose backbone movements are generally difficult to parameterize). As evidenced, it is considered to be the minimization of energy including the backbone and side chains for any type of protein structure (Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30).

規則的な2次構造(後述)のようないくつかの場合は別にして、ほとんどのタンパク質設計方策は、コンフォメーション空間を検索するという膨大な作業を低減させるために、配列選択における逆折り畳みプロトコールに厳密に従う。固定された骨格の場合でさえ、タンパク質側鎖のロタマーライブラリーから組み立てたタンパク質を安定化させるのに種々の因子を取り込む経験的エネルギー機能に対する最良の解答を検索するために、強力な検索アルゴリズム(推計学的モンテカルロ法または遺伝的アルゴリズムおよび決定論的行き止まり排除を含む)が必要である(Ponder, J.W. & Richards, F.M. (1983) J. Mol. Biol. 193, 775-791; Hellinga, H.W., Richards, F.M. (1994) PNAS 91, 5803-5807; Desjarlais, J.R. & Handel, T.M. (1995) Prot Sci. 4, 2006-2018; Dahiyat, B.I. & Mayo, S.L. (1996) Prot. Sci. 5, 895-903)。   Apart from some cases, such as regular secondary structure (see below), most protein design strategies are defolding protocols in sequence selection to reduce the enormous task of searching the conformational space. Strictly follow. A powerful search algorithm (in order to find the best solution to the empirical energy function that incorporates various factors to stabilize proteins assembled from protein side chain rotamer libraries, even in the case of immobilized scaffolds ( Stochastic Monte Carlo methods or genetic algorithms and deterministic dead end exclusion are required (Ponder, JW & Richards, FM (1983) J. Mol. Biol. 193, 775-791; Hellinga, HW, Richards , FM (1994) PNAS 91, 5803-5807; Desjarlais, JR & Handel, TM (1995) Prot Sci. 4, 2006-2018; Dahiyat, BI & Mayo, SL (1996) Prot. Sci. 5, 895-903 ).

表面に露出したアミノ酸について、進化的圧力は、充填の制約が保存されたアミノ酸選択につながるコア領域より、配列選択を決定するのにより大きな役割を果たす。しかし、表面の物理的制約が小さいこと、高度に可変性の電荷および極性溶媒和相互作用は、露出した側鎖について困難な設計上の問題を提起する。立体的制約は、タンパク質のコア位置のアミノ酸を設計するのに主要な決定因子であるため、この制限はほとんどタンパク質設計法をタンパク質のコアに限定する。   For amino acids exposed on the surface, evolutionary pressure plays a greater role in determining sequence selection than in the core region where filling constraints lead to conserved amino acid selection. However, low surface physical constraints, highly variable charge and polar solvation interactions pose difficult design issues for exposed side chains. This limitation almost limits the protein design method to the protein core, since steric constraints are a major determinant in designing amino acids at the core position of the protein.

一部のアルゴリズムは、タンパク質を不連続な領域(例えば、コア、境界および表面残基)に分けて、タンパク質構造の異なる部位に対して異なるスコア化関数を持たせようとしている(Dahiyat, B.I. & Mayo, S.L. (1996) Prot. Sci. 5, 895-903)。しかし、タンパク質−タンパク質相互作用について、重要な残基はタンパク質の表面に位置し、タンパク質(最も困難かまたは不規則な構造のクラスのタンパク質)のループの上にある可能性が高い。タンパク質間の相互作用により、相互作用する残基の一部は埋まるか露出が半分になり、タンパク質の不連続な領域中の具体的なクラスの残基として相互作用をモデル化することを困難にしている。本発明者らは、タンパク質−タンパク質相互作用(例えば、抗体のCDRと抗原またはサイトカインとその受容体との相互作用)を仲介するのにタンパク質ループが広く関与しているが、当該分野で既存の方法は、良好な相同性モデルとデータベース情報とを組合せない限りは、フォースフィールドベースのアプローチのみを用いてもタンパク質のループ構造の相互作用を正確に予測することはできないであろうと考えている(van Vlijmen HW, Karplus M (1997) J Mol Biol 267, 975-1001)。   Some algorithms attempt to divide proteins into discrete regions (eg, cores, boundaries and surface residues) and have different scoring functions for different parts of the protein structure (Dahiyat, BI & Mayo, SL (1996) Prot. Sci. 5, 895-903). However, for protein-protein interactions, critical residues are likely located on the surface of the protein and above the loop of the protein (the most difficult or irregular structural class of proteins). Interactions between proteins can cause some of the interacting residues to be buried or halved, making it difficult to model the interaction as a specific class of residues in discontinuous regions of the protein. ing. Although we are widely involved in protein loops to mediate protein-protein interactions (eg, the interaction of antibody CDRs with antigens or cytokines and their receptors), The method believes that, unless a good homology model and database information are combined, it will not be possible to accurately predict protein loop structure interactions using only a force-field-based approach ( van Vlijmen HW, Karplus M (1997) J Mol Biol 267, 975-1001).

タンパク質折り畳みを予測するのに現在のフォースフィールドでは不充分であるため、タンパク質折り畳みと設計の永続的な問題は、タンパク質安定性に寄与することが知られているすべての因子を捕捉し、その予測が実験データと良く一致するエネルギー関数を開発することである。この操作がいかに精巧であっても、タンパク質の折り畳み状態と展開された状態の2つの大きな数の安定性の間の小さな差を計算することは、本質的に困難であり、誤差を招きやすい。目的の領域が、陽性残基と荷電残基を有する2つのタンパク質の間の境界(そのフォースフィールドパラメータは、正確な評価のために現在活発に研究中である)にある場合、この困難さは一層大きくなる。スコア化関数はまた、特定の試験系からの実験的フィードバックに過剰適合することがある。簡単に説明すると、タンパク質内のコアパッキングと比較して、極性および荷電残基が優勢なタンパク質の間の相互作用の正確な計算は、この分野ではいまだに困難な仕事である。本発明者は、タンパク質の疎水性コアをパッキングするのに非常に有効であることが証明されている側鎖プレーシングアルゴリズムは、この継続する問題に対して有効な解答とならない可能性があると考えている。   Because the current force field is insufficient to predict protein folding, the persistent problem of protein folding and design captures and predicts all factors known to contribute to protein stability. Is to develop an energy function that agrees well with experimental data. No matter how sophisticated this operation is, it is inherently difficult and error prone to calculate the small difference between two large numbers of stability in the protein's folded and unfolded states. If the region of interest is at the boundary between two proteins with positive and charged residues (the force field parameter is currently under active investigation for accurate assessment), this difficulty It gets bigger. The scoring function may also overfit the experimental feedback from a particular test system. Briefly, compared to core packing in proteins, accurate calculation of interactions between polar and charged residue dominant proteins is still a difficult task in this field. The inventor believes that the side chain placing algorithm that has proven very effective in packing the hydrophobic core of a protein may not be an effective answer to this continuing problem. thinking.

本発明者らは、逆折り畳みプロトコールにおいて固定骨格を使用することはまた、側鎖ロタマーの位置およびこれらの間の立体的反発を過剰制限することを強調しておく。そのような側鎖ロタマーに対する硬直的制限は非現実的である。実際のタンパク質は、コンフォメーション状態の改変集合を思わせる溶液中の動的変動により、側鎖変異またはロタマーを受け入れるであろう。規則的な2次構造要素の間のパラメータ表示は、タンパク質骨格の全体的折り畳みを進めるのに使用されていることに注目されたい(Harbury, PB, Tidor B. & Kim, PS (1995) ;Su & Mayo (1997) Prot Sci. ;Harbury PB, etc (1998) Science 282, 1562-1467)。しかし、規則的ではない2次構造要素(例えばループ)にそのようなアプローチを使用して、変動する集合状態を説明することはいまだに困難である。   We emphasize that the use of fixed scaffolds in the reverse folding protocol also over-limits the position of the side chain rotamers and the steric repulsion between them. Such rigid limitations on side chain rotamers are impractical. The actual protein will accept side chain mutations or rotamers due to dynamic variations in solution reminiscent of a modified set of conformational states. Note that the parametric representation between the regular secondary structural elements has been used to advance the overall folding of the protein backbone (Harbury, PB, Tidor B. & Kim, PS (1995); Su & Mayo (1997) Prot Sci .; Harbury PB, etc (1998) Science 282, 1562-1467). However, it is still difficult to use such an approach for non-regular secondary structural elements (eg loops) to account for the varying collective states.

コンピューター法による限界のために、せっかつな進化的タンパク質設計者達は、合理的構造ベースのアプローチを全く避けることを選択し、あるセットの強力な実験手段を発明した。しかし如何に強力でも、ランダム突然変異誘発により多様なライブラリーを作成し、これらを実験によりスクリーニングすることは、極めて非効率的である。一方、DNAシャフリングによる相同的遺伝子の組換えは、配列と構造空間の限定された試験を可能にするのみである。   Due to the limitations of computational methods, tedious evolutionary protein designers have chosen to avoid any rational structure-based approach and have invented a set of powerful experimental tools. However, no matter how powerful it is, it is extremely inefficient to create a diverse library by random mutagenesis and to screen them experimentally. On the other hand, recombination of homologous genes by DNA shuffling only allows limited testing of sequence and structural space.

本発明者らは、あらかじめ物理的制約の無いコンピューター法は、はるかに大きな配列空間を検索することができると考えている。さらに、合理的アプローチの主要な利点と主な推進力は、実験によるスクリーニングの前にすべての段階で配列を設計し制御できることである。これは、タンパク質設計者が、出発配列にほとんどまたは全く相同性を持たない新規配列の発見につながるかも知れないより大きな距離を試験するタンパク質配列空間で、より大きな実際的ジャンプをすることを可能にする。さらに、これらの「ジャンプ」の実際のサイズと方向は、新しいピークへの機能的背景に従うように実験的フィードバックに一致して制御することができる。この能力は、コンピューターの能力の増強と新規アルゴリズムおよび新しいソフトウェアツールの開発により、劇的にに上昇すると予測される。   The present inventors believe that a computer method without physical constraints in advance can search a much larger sequence space. Furthermore, the main advantage and main driving force of the rational approach is that the sequence can be designed and controlled at all stages prior to experimental screening. This allows protein designers to make larger practical jumps in protein sequence space that test larger distances that may lead to the discovery of new sequences with little or no homology to the starting sequence To do. Furthermore, the actual size and direction of these “jumps” can be controlled consistent with experimental feedback to follow the functional background to the new peak. This capability is expected to rise dramatically with the enhancement of computer capabilities and the development of new algorithms and new software tools.

明らかなことであるが、コンピューターの能力自体は、小さいが重要な構造変動が理解され捕捉されない限り、コンピューターによるタンパク質設計を、in vitroのタンパク質進化実験法より優れたものにするのではない。例えば、有効な変異は一般的に、触媒部位に局在化されるものではなく、変動するタンパク質骨格を有するタンパク質の大きな部分に分布していることが証明されている(Spiller B, Gershenson A, Arnold FH, Stevens R. (1999) PNAS 96, 12305-12310)。   Obviously, the computer's ability itself does not make computer protein design superior to in vitro protein evolution experiments unless small but important structural changes are understood and captured. For example, effective mutations are generally not localized at the catalytic site, but have been shown to be distributed in large parts of proteins with variable protein backbones (Spiller B, Gershenson A, Arnold FH, Stevens R. (1999) PNAS 96, 12305-12310).

現在の技術では、生物活性の実験によるスクリーニングがまだ、実験条件下で複雑な競合因子により制御される分子の生物学的機能を評価するために利用できる唯一の信頼できるアプローチである。コンピューター法ですべての詳細を同時に正確に捕捉し、広範な実験的試験をせずに答をピンポイントで見つけることは極めて困難である。さらに、ほとんどのスコア化関数は、活性または特異性ではなく安定性を計算できるのみである。   With current technology, experimental screening for biological activity is still the only reliable approach available to evaluate the biological function of molecules controlled by complex competitors under experimental conditions. It is extremely difficult to pinpoint the answers without capturing extensive details at the same time using computer methods and without extensive experimental testing. Furthermore, most scoring functions can only calculate stability, not activity or specificity.

進化的配列設計に光をあてる一部の統計ベースのアプローチが開発されている。タンパク質折り畳みにおいてランダムエネルギーモデルに似た単純化したモデルを使用して、BogaradとDeemは、低エネルギー構造を有する非相同的DNAセグメントのDNA交換は、DNAシャフリングによる相同的DNAの遺伝子組換えより、タンパク質空間の一致背景を検索するのにはるかに効率的であり、これは点突然変異より優れていることを証明した(Bogarad L, Deem MW (1999) PNAS 96, 2591-2595)。最近、ヘテロポリマーベースのモデルが、構造ベースの進化的アプローチで一致背景の配列−構造関係をうまくマッピングするのに使用されている(Cui Y, Wong WH, Bornberg-Bauer E, Chan HS (2002) 99, 809-814)。点突然変異は、進化的背景の分散性ウォーク(diffusive walks)につながることがわかっており、ここで、低下した一致性のバリアを介して交差が起きる。エネルギーまたは一致背景の平滑さはクロスオーバーと点突然変異率の比とともに、タンパク質配列と構造空間の試験におけるクロスオーバーの有効性を決定する。すなわち、本発明者らは、進化的配列設計は、点突然変異と相同的遺伝子組換えに限定すべきではないと考えている。   Some statistical-based approaches have been developed that shed light on evolutionary sequence design. Using a simplified model that resembles a random energy model in protein folding, Bogarad and Deem show that DNA exchange of non-homologous DNA segments with low energy structure is more than genetic recombination of homologous DNA by DNA shuffling. It was far more efficient in searching for protein space matching backgrounds, which proved superior to point mutations (Bogarad L, Deem MW (1999) PNAS 96, 2591-2595). Recently, heteropolymer-based models have been used to successfully map consensus background sequence-structure relationships in a structure-based evolutionary approach (Cui Y, Wong WH, Bornberg-Bauer E, Chan HS (2002) 99, 809-814). Point mutations have been found to lead to evolutionary background diffusive walks, where crossing occurs through a reduced identity barrier. The smoothness of the energy or matching background, along with the ratio of crossover and point mutation rate, determines the effectiveness of the crossover in protein sequence and structural space testing. That is, the inventors believe that evolutionary sequence design should not be limited to point mutations and homologous genetic recombination.

実験的フィードバックもまた、タンパク質の性質の予測される改良を示し、理論的予測と実験の間の一致を改良するのに必須である(Desjarlais, J.R. & Handel, T.M. (1995) Prot Sci. 4, 2006-2018; Dahiyat, B.I. & Mayo, S.L. (1996) Prot. Sci. 5, 895-903;Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30)。すなわち本発明者らは、実験的値とコンピューターによる値の一致が確認(Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30)されて、広く(異なる種類のタンパク質の種々の領域の極性および荷電残基を含む)証明されなければ、実験的ライブラリーは、コンピューターからの全体的最適化またはサブ最適化解答のまわりの配列に限定すべきではないと考えている。その代わり、リード配列と同等かまたは優れたスコアのエネルギー背景への広範囲の分散をカバーするような実験的ライブラリーを構築すべきである。   Experimental feedback also indicates a predicted improvement in protein properties and is essential to improve the agreement between theoretical predictions and experiments (Desjarlais, JR & Handel, TM (1995) Prot Sci. 4, 2006-2018; Dahiyat, BI & Mayo, SL (1996) Prot. Sci. 5, 895-903; Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30). That is, the present inventors have confirmed that experimental values and computer values agree (Keating AE, Malashkevich VN, Tidor B, Kim PS (2001) PNAS 98, 14825-30). Unless proven (including various regions of polar and charged residues), we believe that experimental libraries should not be limited to sequences around global optimization or sub-optimization solutions from computers. Instead, an experimental library should be constructed that covers a wide range of dispersal to an energy background that is as good or better than the lead sequence.

in vitro指令進化とコンピューターによる配列設計が収束し始めている。例えば構造ベースの新規設計された酵素は、通常あまり活性ではない(Benson, DE, Wisz, MS & Hellinga HW (2000) PNAS 97, 6292-6297; Bolon DN, Mayo SL (2001) PNAS 98, 14274-14279)。しかし異なる足場での配列のこれらの新規設計は出発点となり、活性改良のための指令進化を受ける(Altamirano, MM, Blackburn, JM, Aguayo C, Fersht AR (1000) Nature 403, 617-622)。逆に、構造ベースのコンピューターによる方法は、指令進化における検索空間を減少させるために、進化的設計で濃縮された点突然変異の可能な部位を同定するのに使用することができるが、これらの部位は、配列プロフィール化の部位とは異なることがわかっている(Voigt CA, Mayo S, Arnold, FH & Wang Z-G (2001) PNAS 98, 3778-3783)。   In vitro command evolution and computerized sequence design are beginning to converge. For example, newly designed enzymes based on structures are usually not very active (Benson, DE, Wisz, MS & Hellinga HW (2000) PNAS 97, 6292-6297; Bolon DN, Mayo SL (2001) PNAS 98, 14274- 14279). However, these new designs of sequences in different scaffolds are the starting point and undergo directed evolution for improved activity (Altamirano, MM, Blackburn, JM, Aguayo C, Fersht AR (1000) Nature 403, 617-622). Conversely, structure-based computational methods can be used to identify possible sites of point mutations enriched in evolutionary design to reduce the search space in directed evolution, but these The site is known to be different from that of sequence profiling (Voigt CA, Mayo S, Arnold, FH & Wang ZG (2001) PNAS 98, 3778-3783).

しかし本発明者らは、面倒な実験室作業の前に、指令進化の方策を分析し定量的に測定すべきであると考えている。増強のために可能な実験条件と可能な限界を最適化するために、DNAシャフリングをコンピューターでシミュレートするいくつかの工程が取られている(Moore, GL, Maranas CD, Lutz S, Benkovic S (2001) PNAS 98, 3226-3231)。種々のアプローチにより検索できる巨大なタンパク質空間があるために、各実験的またはコンピューターによるアプローチに固有の効率と限界を比較して、手元の具体的な問題の最適な経路を決定することが重要である。   However, the present inventors believe that the strategy for command evolution should be analyzed and quantitatively measured before tedious laboratory work. Several steps have been taken to computer simulate DNA shuffling in order to optimize possible experimental conditions and possible limits for augmentation (Moore, GL, Maranas CD, Lutz S, Benkovic S (2001) PNAS 98, 3226-3231). Because there is a huge protein space that can be searched by different approaches, it is important to determine the optimal path for the specific problem at hand by comparing the efficiencies and limitations inherent in each experimental or computational approach. is there.

本発明者らはまた、構造ベースのタンパク質設計について、問題の核心は非現実的過程を用いる複雑な問題に対する決定論的アプローチにあると考えている。タンパク質を安定化する相互作用は非常に複雑であることは公知である。設計に使用される静的構造は、他のタンパク質またはリガンドと相互作用するか変化することが観察される溶液中の動的変動の集合平均である。従って、標的関数に対する最適の解答を探す考えは、興味深い理論的課題であるが、実際の生物学的問題に対してはあまり関係もしくは現実的関係が無いかも知れない。エネルギー関数の欠陥または剛性のある骨格を使用する厳密な制限またはその両方は、設計問題に対する「最適解答」を汚染するであろう。すなわち再度本発明者らは、実験的ライブラリーが、計算で使用される過程やパラメータにより偏りがあるかも知れない計算からの全体的に最適のまたは最適以下の解答のまわりの配列に限定すべきではないと考えている。その代わり、好適な範囲(例えば、リード配列より優れているかまたは同等のスコア)をカバーする配列を、実験によるスクリーニングに使用すべきである。   We also believe that for structure-based protein design, the core of the problem is a deterministic approach to complex problems using unrealistic processes. It is known that the interactions that stabilize proteins are very complex. The static structure used in the design is the collective average of dynamic variations in solution that are observed to interact with or change with other proteins or ligands. Thus, the idea of finding the optimal solution for a target function is an interesting theoretical task, but may not be very relevant or realistic for actual biological problems. Strict limitations, or both, using energy function defects or rigid frameworks will contaminate the "optimal solution" to the design problem. That is, again, we should limit the experimental library to an array around a globally optimal or suboptimal answer from a calculation that may be biased by the process and parameters used in the calculation. I don't think so. Instead, sequences that cover a suitable range (eg, superior or equivalent score to the lead sequence) should be used for experimental screening.

進化的タンパク質設計について、生体触媒(例えば酵素)としてのタンパク質の設計への現在のアプローチはまだ、科学であるというより芸術である。しかしいくつかの方法は、充分頑強であり、市販の生体触媒設計の世間の問題を解決するのに直接応用できる。DNAシャフリングやランダム突然変異誘発によるDNA組換えは機能的スクリーニングのための多様なタンパク質ライブラリーを提供してきたが、ライブラリー作成のためのより効率的な方法を探索すべきであり、そのプロセスは、最終的なスクリーニング結果にのみ依存するより、予測可能で日常的なものとなるであろう。今までのところ、指令進化は、生体触媒の設計に最も良く応用されており、これは、化学反応を容易に検出できる酵素活性について高速スクリーニングをすることが簡単なためである。   For evolutionary protein design, the current approach to designing proteins as biocatalysts (eg enzymes) is still art rather than science. However, some methods are robust enough and can be applied directly to solve the public problem of commercial biocatalyst design. DNA recombination by DNA shuffling and random mutagenesis has provided a diverse protein library for functional screening, but more efficient methods for library creation should be explored and the process Will be predictable and routine rather than relying solely on the final screening results. So far, command evolution has been best applied to the design of biocatalysts because it is easy to perform high-speed screening for enzyme activity that can easily detect chemical reactions.

しかし本発明者らは、変異が全タンパク質配列に分布した指令進化により提供される予想外の解答はまた、薬理学的関係のあるいくつかのタンパク質を進化させる問題を提起すると考えている。治療的抗体設計において、いくつかの領域(例えばCDR、および以前は不活性のフレームワーク領域への修飾)に限定する必要のある変異は、タンパク質を免疫原性にする可能性がある。実験的シャフリング中のそのような好ましくない変異体は、逆クロス法により最小化または除去しなければならない;できれば、これらの免疫原性変異体の除去は、厳しい実験的試みにより得られる活性改良を無駄にすることが無いことを期待したい。   However, the inventors believe that the unexpected answer provided by directed evolution in which mutations are distributed across the entire protein sequence also raises the problem of evolving some pharmacologically related proteins. In therapeutic antibody design, mutations that need to be limited to a few regions (eg, modifications to CDRs and previously inactive framework regions) may render the protein immunogenic. Such undesired variants during experimental shuffling must be minimized or eliminated by the reverse cross method; if possible, removal of these immunogenic variants can result in improved activity resulting from rigorous experimental attempts. I hope you never waste.

合理的な構造ベースのタンパク質設計は、その開発で急速な進化をし、感動的な結果を与え始めた。数年にわたって、疎水性コアを再パッキング(Malakauskas, S.M. & Mayo, S.L. (1998) Nature Struct. Biol. 5, 470-475)することにより、および自然界では観察されない新規足場を発見(Harbury P.B. ら(1998) Science 282, 1462-1467)することにより、標的足場(Dahiyat, B.I. & Mayo, S.L. (1997) Science 278, 82-87)と顕著な改良された熱安定性とを有するタンパク質変種のコンピューターによる設計において、刺激的な進歩があった。生物活性と親和性設計について、この合理的アプローチを拡張して、結合部位に対するアロステリック作用を介して結合活性を調節できるオープン、アポ、およびクローズドリガンド結合状態の3つの異なるコンフォメーション状態で、結合部位の周りに残基を設計することにより結合親和性に影響を与えるという、ある興味深い進展がなされた(Marvin, J.S. & Hellinga H.W. (2001) Nat Struct Biol 8, 795-798)。しかし生物学的および医学的関心のあるほとんどのタンパク質について、そのような設計に必要な構造情報は、まだ利用できないかまたはそのような設計には不充分な低い分解能であるが、構造ゲノム計画は、加速的速度で構造情報を増加させると考えられる。   Rational structure-based protein design has evolved rapidly in its development and has begun to give inspiring results. Over the years, repacking the hydrophobic core (Malakauskas, SM & Mayo, SL (1998) Nature Struct. Biol. 5, 470-475) and discovering new scaffolds not observed in nature (Harbury PB et al. ( 1998) Science 282, 1462-1467) by computer of protein variants with target scaffold (Dahiyat, BI & Mayo, SL (1997) Science 278, 82-87) and significantly improved thermal stability There have been exciting advances in design. For biological activity and affinity design, this rational approach can be extended to bind sites in three different conformational states: open, apo, and closed ligand binding states that can modulate binding activity via allosteric action on the binding site. An interesting development has been made to influence binding affinity by designing residues around (Marvin, JS & Hellinga HW (2001) Nat Struct Biol 8, 795-798). However, for most proteins of biological and medical interest, the structural information necessary for such a design is not yet available or has a low resolution that is insufficiently low for such a design. It is thought to increase the structural information at an accelerating rate.

3) 本発明のアプローチ
本発明は、集合ベースの統計的方法を使用することにより、タンパク質配列と構造空間において一致およびエネルギー背景の分布を効率的にマッピングするための革新的アプローチを提供する。
3) Approach of the present invention The present invention provides an innovative approach to efficiently map the distribution of coincidence and energy background in protein space and structure space by using a set-based statistical method.

タンパク質折り畳みと設計の基礎となる原理の知識が不充分なため、タンパク質コンビナトリアルライブラリーへの集合ベースの統計的アプローチは、ある構造または構造ファミリーに適合し、リード配列より優れたスコアのエネルギー背景の分布をカバーする配列集合を設計しようとする。これは、設計されるある固定の構造への具体的な最適解答ではなく、配列または構造の分布であるため、これは統計的である。これは、具体的な配列または構造ではなく核酸ライブラリーにより標的とされる構造/配列集合であるため、これは集合ベースである。   Due to inadequate knowledge of the underlying principles of protein folding and design, a set-based statistical approach to protein combinatorial libraries fits a structure or family of structures and has an energy background that scores better than the lead sequence. Try to design an array set that covers the distribution. This is statistical because it is not a specific optimal solution to a fixed structure that is designed, but a distribution of sequences or structures. This is a collection-based because it is the structure / sequence collection targeted by the nucleic acid library, not the specific sequence or structure.

本発明者らは、配列空間中の異なる集合へのエネルギー分布関数の分割が、以後の実験法による有効な試験を可能にすると考えている。選択されたタンパク質配列の機能空間をマッピングするためのこの統計的アプローチは、上記の一致背景の点で実際の生物学的関心のあるタンパク質配列を選択する手段を提供する。単一の最適化配列またはサブ最適配列の群より集合の統計的性質を規定することにより、タンパク質設計者は、現在のコンピューター法に固有の限界により生じる偏りのある解答に捕捉されるか間違った方向に動くことを避ける可能性が高い。   The present inventors believe that the division of the energy distribution function into different sets in the sequence space allows for effective testing by subsequent experimental methods. This statistical approach for mapping the functional space of selected protein sequences provides a means of selecting the actual protein sequence of biological interest in terms of the above consensus background. By defining the statistical properties of a set from a single optimized sequence or a group of sub-optimal sequences, protein designers can be trapped or misled by biased solutions caused by limitations inherent in current computational methods It is likely to avoid moving in the direction.

本発明のアプローチは、タンパク質折り畳みの単純なモデルの理論的研究から得られた知識と、当該分野の既存の方法に関連する問題の本発明者らの理解に基づく進化とを組合せることにより開発されている。研究と実験を通して本発明者らは、特に抗体操作という刺激的な分野の、精製折り畳み、操作、および設計についての問題に対する現実的解答を開発した。   The approach of the present invention is developed by combining knowledge gained from theoretical studies of simple models of protein folding and evolution based on our understanding of problems associated with existing methods in the field. Has been. Through research and experimentation, the inventors have developed realistic solutions to the problem of purification folding, manipulation, and design, particularly in the exciting field of antibody manipulation.

図2Aは、本発明者らが開発したin silicoバイオポリマー進化システムを概説する。図2A〜Cに示すように、所望の機能を有する最終的候補配列への初期標的バイオポリマー(例えばタンパク質)からの経路は、生物学的重要性のある3つの空間を通過する:配列、構造および機能空間。   FIG. 2A outlines the in silico biopolymer evolution system developed by the inventors. As shown in FIGS. 2A-C, the pathway from the initial target biopolymer (eg protein) to the final candidate sequence with the desired function passes through three biologically important spaces: sequence, structure And functional space.

配列空間においては、進化的に関連する配列のデータベースを検索するためにリード配列が使用される。この検索は構造空間に応用されて、構造整列が使用されると、さらに離れた配列が得られる。ヒットライブラリーの変種プロフィールは、各位置のアミノ酸頻度と変種を記載する。   In sequence space, lead sequences are used to search a database of evolutionarily related sequences. This search is applied to the structure space, and if structure alignment is used, more distant sequences are obtained. The hit library variant profile lists the amino acid frequency and variant at each position.

構造空間においては、低下した変種プロフィールと分割(図1C、1Dおよび2A〜C)もしくは完全な配列ライブラリー、またはこれらのランダム組合せに基づく、in silicoでヒット変種ライブラリーが作成される(図1E〜H、2AおよびCを参照)。このヒット変種ライブラリーまたはランダム/完全な配列ライブラリーは、構造鋳型を使用してスコアが付けられ、好適な配列集合が選択され、再プロフィール化されてin silicoで拡張核酸(NA)ライブラリーが生成する。in silicoのNAライブラリーのサイズが評価され、ライブラリーサイズが許容されるなら、オリゴヌクレオチド合成に進む。そうでない場合は、ヒット変種ライブラリーは小さいセグメントに再分割され、生じるライブラリーの間で配列および構造相関を維持するために、重複配列を有する小さいNAライブラリーが生成される(実施例の欄と図28A〜Cを参照)。   In structural space, hit variant libraries are created in silico based on reduced variant profiles and partitioning (FIGS. 1C, 1D and 2A-C) or complete sequence libraries, or random combinations thereof (FIG. 1E). ~ H, 2A and C). This hit variant library or random / complete sequence library is scored using structural templates, a suitable set of sequences is selected, re-profiled, and an extended nucleic acid (NA) library is generated in silico. Generate. If the size of the in silico NA library is evaluated and the library size is acceptable, proceed to oligonucleotide synthesis. Otherwise, the hit variant library is subdivided into small segments and a small NA library with overlapping sequences is generated to maintain sequence and structural correlation between the resulting libraries (Example column). And see Figures 28A-C).

機能空間においてNAライブラリーは実験的にスクリーニングされる。陽性配列はコンピューターサイクルに戻して入力されてライブラリーが改良される。強い陽性クローンは、さらなる評価と治療薬開発の可能性に移される。実験によるスクリーニングにヒットするものがなければ、構造ベースのスコア化の新しいリード配列集合および/または変種プロフィールが標的システムのために選択され、プロセスが再度開始される。   The NA library is screened experimentally in the functional space. Positive sequences are entered back into the computer cycle to improve the library. Strong positive clones are moved to further evaluation and potential drug development. If none of the experimental screening hits, a new set of lead sequences and / or variant profiles for structure-based scoring are selected for the target system and the process is restarted.

図2Aの記載から明らかなように、コンピューターの分野の他の方法からの本明細書に記載のアプローチと進化的配列設計との重要な差異は、本発明が、両方の世界の最適なものを組合せて、一致背景を連続で検索し、構造空間をより効率的に検索することである。我々のアプローチは、タンパク質配列データベース中の進化的情報をタンパク質の物理的制約(例えば配列の3D構造との適合性)とを組合せる。タンパク質の生物学的機能は、配列空間中の進化的選択と構造空間中の物理的制約の両方を満足する配列の限定されたセットを試験することにより、コンピューターで評価することができる。   As is apparent from the description of FIG. 2A, the key difference between the approach described herein and other evolutionary sequence designs from other methods in the computer field is that the present invention makes the best of both worlds. In combination, the matching background is searched continuously, and the structure space is searched more efficiently. Our approach combines evolutionary information in a protein sequence database with protein physical constraints (eg, compatibility with the 3D structure of the sequence). The biological function of a protein can be assessed computationally by examining a limited set of sequences that satisfy both evolutionary selection in sequence space and physical constraints in structural space.

本発明の方法の特定の応用において、実験的およびコンピューター試験の両方のモデルシステムとして抗体が使用される。抗体は、研究、診断薬、および医学的応用に広く使用されている。抗体は良好な特異性と親和性で種々の標的に結合する。化学反応を触媒する触媒性抗体もまた、開発されている。   In certain applications of the methods of the invention, antibodies are used as model systems for both experimental and computer testing. Antibodies are widely used in research, diagnostics, and medical applications. Antibodies bind to various targets with good specificity and affinity. Catalytic antibodies that catalyze chemical reactions have also been developed.

より具体的な応用において、抗体超可変ループまたは相補性決定領域(CDR)ならびにフレームワーク領域(FR)が標的とされる。CDRは抗体抗原結合と特異性を決定し、フレームワーク領域は、CDRが生物学的機能のために正しく位置する足場を与える。抗体分子は、その分子構造のために操作によく適しており、CDRとフレームワーク領域は配列的かつ構造的に規定される。   In more specific applications, antibody hypervariable loops or complementarity determining regions (CDR) as well as framework regions (FR) are targeted. CDRs determine antibody antigen binding and specificity, and the framework regions provide a scaffold where the CDRs are correctly positioned for biological function. Antibody molecules are well suited for manipulation because of their molecular structure, and CDRs and framework regions are defined in a sequence and structure.

図1A(経路I)に概説されるように、発現されたタンパク質データベース中のポリペプチドセグメントは、最適化されるリード抗体の特異的領域(例えばVH CDR3)に対してコンピューターでスクリーニングされ、リード抗体と一致する配列パターンを有するものが選択される。選択された配列はヒットライブラリーを形成する。 As outlined in FIG. 1A (Route I), polypeptide segments in the expressed protein database are computer screened against a specific region of the lead antibody to be optimized (eg, V H CDR3) and read Those having a sequence pattern that matches the antibody are selected. The selected sequences form a hit library.

さらに図1B(経路II)に概説するように変種プロフィールは、ヒットライブラリー中の発生数とともに、ヒットライブラリーからの各配列位置でアミノ酸変種をリストすることにより作成することができる。このプロフィールのコンビナトリアル算出は、ヒット変種ライブラリーIを示す。この変種プロフィールは、リード配列または対応する位置の配列プロフィールからアミノ酸を含めることにより(ここでこれらは、ヒットライブラリーから喪失している)、またはあるカットオフ頻度より下のアミノ酸変種を排除することにより、またはその両方により編集される。生じる変種プロフィールは、ヒット変種ライブラリーII(指定されたライブラリー)を規定する。   As further outlined in FIG. 1B (Route II), a variant profile can be created by listing amino acid variants at each sequence position from the hit library, along with the number of occurrences in the hit library. The combinatorial calculation of this profile shows hit variant library I. This variant profile includes amino acids from the lead sequence or sequence profile at the corresponding position (where they are missing from the hit library) or exclude amino acid variants below a certain cutoff frequency Edited by or both. The resulting variant profile defines the hit variant library II (designated library).

図1Cと1Dに概説するように、ヒット変種ライブラリーIまたはIIの各メンバーは、リード鋳型構造またはモデル(利用できるなら)の対応する領域上に「移植」され、スコア化関数を使用して、3D構造の残りの部分と構造的に適合性のあるものについて選択される。場合によりヒット変種ライブラリーは標的抗原の存在下または非存在下で評価することができる。好ましいスコアを有する抗体が選択され、実験室で抗原への実際の結合親和性について実験的にスクリーニングされる。実施例の欄に記載のように、このアプローチを使用してヒト血管内皮増殖因子(VEGF)に対する多数の抗体が選択され、標的抗原VEGFに結合できることが証明される。これらの一部は、リード抗体より高い親和性を示す(図30と36)。   As outlined in FIGS. 1C and 1D, each member of the hit variant library I or II is “grafted” onto the corresponding region of the lead template structure or model (if available) and is scored using a scoring function. Selected for those that are structurally compatible with the rest of the 3D structure. Optionally, the hit variant library can be evaluated in the presence or absence of the target antigen. Antibodies with a favorable score are selected and screened experimentally for actual binding affinity to the antigen in the laboratory. As described in the Examples section, this approach is used to select a number of antibodies against human vascular endothelial growth factor (VEGF) and prove that they can bind to the target antigen VEGF. Some of these show higher affinity than lead antibodies (Figures 30 and 36).

後述の欄のさらなる開示でさらに明らかなように、本発明により提供されるアプローチは当該分野のものと概念的に区別できるのみでなく、抗体操作において多くの現実的利点を有する。   As will become more apparent in the further disclosure in the following section, the approach provided by the present invention is not only conceptually distinguishable from that in the art, but also has many practical advantages in antibody manipulation.

タンパク質データベースに集められた発現されたタンパク質配列を利用することにより、このアプローチは、in silicoで親和性成熟の自然のプロセスを有効に模倣するのみでなく、改良された結合親和性によりタンパク質の進化を劇的にに速めることができる。例えば、任意のセットのアミノ酸配列(特に限定されないが、種々の種からの免疫学的興味のある配列を含む)を使用して、CDR親和性成熟のためのリード配列に対するプロフィール化のライブラリー多様性を最大にすることができる。しかし、免疫原性の可能性を最小にするために、ヒト生殖細胞系および/またはヒト起源の配列は、ヒト化またはフレームワーク設計のフレームワーク領域のリード配列に対してプロフィール化するのに使用すべきである。すなわち、その応用、サイズおよび種(例えばヒト、マウスなど、または利用できるすべての種)の起源に基づくデータベースの選択は、設計タンパク質の柔軟性と制御を可能にする。   By utilizing expressed protein sequences collected in protein databases, this approach not only effectively mimics the natural process of affinity maturation in silico, but also evolves proteins with improved binding affinity. Can be dramatically accelerated. For example, using any set of amino acid sequences (including, but not limited to, sequences of immunological interest from various species), a variety of library profiles for lead sequences for CDR affinity maturation Sex can be maximized. However, to minimize the possibility of immunogenicity, sequences of human germline and / or human origin are used to profile against the lead sequence of framework regions of humanized or framework designs Should. That is, selection of a database based on its application, size and origin of species (eg, human, mouse, etc., or all available species) allows flexibility and control of the designed protein.

さらに、このアプローチは、複合体構造またはモデルが利用できるなら、標的分子(例えば、リード抗体の抗原)の存在下でタンパク質変異体のモデル化を随時含む。計算に抗体と抗原の相互作用を含めることにより、スクリーニングプロセスは、抗原指令プロセスとして親和性成熟の自然のプロセスをより密接に模倣し、計算された結合親和性は実験値とよく相関するかも知れない。   Further, this approach involves modeling protein variants from time to time in the presence of target molecules (eg, lead antibody antigens) if complex structures or models are available. By including the antibody-antigen interaction in the calculation, the screening process may more closely mimic the natural process of affinity maturation as an antigen-directed process, and the calculated binding affinity may correlate well with experimental values. Absent.

さらに本発明の方法は、抗体ライブラリーのコンピューターによる予測(これは、複合体構造または構造モデルが利用できるなら、特定の標的分子もしくは抗原に偏りがある)と、抗原に対する高結合親和性を有するものを選択するためのライブラリーの実験によるスクリーニングとを組合せる。そのようなプロセスは、選択された抗体の結合親和性を改良するために繰り返すことができる。鋳型として高親和性複合体構造が利用できるなら、ヒット変種ライブラリーをコンピューターによりプレスクリーニングしてライブラリーサイズを小さくし、リード抗体の各位置のアミノ酸の完全なランダム化により作成される伝統的なライブラリーと比較して、高度に焦点化を維持することができる。in silicoでのヒット変種ライブラリーの予測と構築により、タンパク質進化の全プロセスを速め、高速処理で抗体親和性成熟の自然のプロセスを有効に模倣することができる。   In addition, the methods of the present invention have computerized prediction of antibody libraries (which is biased for specific target molecules or antigens if complex structures or structural models are available) and have high binding affinity for antigens Combined with experimental screening of libraries to select ones. Such a process can be repeated to improve the binding affinity of the selected antibody. If high-affinity complex structures are available as templates, hit variant libraries are pre-screened by computers to reduce the library size and traditionally created by complete randomization of amino acids at each position of the lead antibody. Higher focus can be maintained compared to the library. Predicting and building hit variant libraries in silico can accelerate the entire process of protein evolution and effectively mimic the natural process of antibody affinity maturation at high speeds.

好適な実施態様においてリードタンパク質は抗体または免疫グロブリンであり、標的分子は鋳型抗体に結合する抗原である。リードタンパク質は任意のタンパク質であり、好ましくはX線結晶学または核磁気共鳴分光法により分解される既知の3次元構造を有するタンパク質である。あるいは、鋳型タンパク質の3D構造または構造集合体は、当該分野で公知のアルゴリズムを使用してコンピューターによるモデル化により提供される。   In a preferred embodiment, the lead protein is an antibody or an immunoglobulin and the target molecule is an antigen that binds to the template antibody. The lead protein is any protein, preferably a protein having a known three-dimensional structure that is resolved by X-ray crystallography or nuclear magnetic resonance spectroscopy. Alternatively, the 3D structure or assembly of template proteins is provided by computer modeling using algorithms known in the art.

4) 抗体選択と操作における本発明の方法と他の方法の比較
非常に多様なライブラリーからの抗体の選択は、広範囲の配列をカバーすることを可能にし、こうして最適配列を見つける機会を大きくする。しかし、例えばCDR中のリード抗体のランダム突然変異誘発から得られる抗体配列については、ランダム化したCDRの必ずしもすべての構造が、リード抗体の3D構造と適合性があるわけではない。ランダム突然変異誘発からのタンパク質配列とは反対に発現されたタンパク質配列を使用し、本発明の方法を使用して適合しない配列をフィルターにかけることにより、より少ない数の配列が選択される。その結果、スクリーニングされる抗体の配列空間は、変異抗体の親和性結合成熟と安定化に極めて関連する配列を失うことなく、サイズが低下する。
4) Comparison of the method of the invention with other methods in antibody selection and manipulation The selection of antibodies from a very diverse library makes it possible to cover a wide range of sequences, thus increasing the chance of finding the optimal sequence . However, for example, for antibody sequences obtained from random mutagenesis of a lead antibody in a CDR, not all structures of the randomized CDR are compatible with the 3D structure of the lead antibody. Using a protein sequence expressed opposite to the protein sequence from random mutagenesis and filtering incompatible sequences using the method of the invention, a smaller number of sequences are selected. As a result, the sequence space of the antibody being screened is reduced in size without losing sequences that are highly relevant to affinity binding maturation and stabilization of the mutant antibody.

これに対して、抗体ライブラリーを構築するための当該分野の現在の方法は、免疫ヒト抗体遺伝子プール、投薬経験の無いB細胞Igレパートリー、または特定の生殖細胞系配列からのcDNAライブラリーのin vitro単離を含む。BarbasとBurton (1996)、前述;De Haard ら (1999)、前述;およびGriffithsら (1994)、前述。これらのライブラリーは非常に大きく、抗体配列が極めて多様である。そのような従来的アプローチは、できるだけ大きくできるだけ多様な抗体のライブラリーを作成して、インビボで抗原に対する免疫学的応答を模倣しようとする。典型的には、これらの抗体の大きなライブラリーは、ファージ表面に表示され、標的分子への高結合親和性を有する抗体についてスクリーニングされる。そのような「大きな池で釣り」または「大きな干し草の山の中の針を見つける」アプローチは、配列レパートリーのサイズの単純な上昇が、高親和性で標的抗原に結合できる抗体をつり上げる可能性が高いが、不充分な試験、不充分な多様性および不確定のライブラリー組成のために非効率的であるという仮定に基づく。   In contrast, current methods in the art for constructing antibody libraries include immunohuman antibody gene pools, inexperienced B cell Ig repertoires, or in-vivo of cDNA libraries from specific germline sequences. Includes in vitro isolation. Barbas and Burton (1996), supra; De Haard et al. (1999), supra; and Griffiths et al. (1994), supra. These libraries are very large and the antibody sequences are very diverse. Such conventional approaches attempt to mimic an immunological response to an antigen in vivo by creating a library of as diverse a antibody as possible. Typically, large libraries of these antibodies are displayed on the phage surface and screened for antibodies with high binding affinity to the target molecule. Such “fishing in a large pond” or “finding needles in a large haystack” approach can result in a simple increase in the size of the sequence repertoire that lifts antibodies that can bind to the target antigen with high affinity. High, but based on the assumption that it is inefficient due to insufficient testing, insufficient diversity, and indeterminate library composition.

本発明者らは、そのような従来のアプローチに関連するいくつかの問題があると考えている。配列ライブラリーのサイズの単純な上昇は、機能的多様性の有効な上昇に必ずしも相関しないかも知れない。さらに、極めて大きな実験ライブラリーを作成することへの物理的限界のために、1011を超える多様性を有するライブラリーをin vitroで構築することは非常に困難かも知れない。実際に実験的にスクリーニングされるライブラリーは、理論的に予測されたサイズで配列レパートリーの一部のみを与える。さらに、極めて大きなライブラリーをin vitroで取り扱い操作することに関連する困難さと過小表示のために、ライブラリーのサイズを増加させるための試みで時間とお金が失われ、それでも機能的多様性が有意に増加しないという、当然の心配がある。 The inventors believe that there are several problems associated with such conventional approaches. A simple increase in the size of a sequence library may not necessarily correlate with an effective increase in functional diversity. Furthermore, because of the physical limitations to creating extremely large experimental libraries, it may be very difficult to construct libraries with diversity exceeding 10 11 in vitro. A library that is actually screened experimentally provides only a portion of the sequence repertoire with a theoretically predicted size. Furthermore, due to the difficulties and under-representation associated with handling and handling very large libraries in vitro, attempts to increase the size of the library lost time and money, yet functional diversity was significant. There is a natural concern that it will not increase.

当該分野に存在する他のアプローチは、人工的抗体ライブラリーをコンピューターにより設計し、次に細菌中で発現される合成抗体ライブラリーを構築することである。Knappikら、前述。人工的抗体ライブラリーは、生殖細胞系ファミリーに従って重鎖と軽鎖配列の各サブグループのコンセンサス配列に基づいて設計された。コンセンサスは、使用頻度に応じて自動的に加重値を与えられた。再整列した配列の集団に対して検索することにより、各コンセンサス配列の最も相同的な再整列配列を同定し、コンセンサスがこの最も近い再整列された配列と異なるすべての位置を調べた。さらに7つのVHおよび7つのVLコンセンサス配列についてモデルを作成し、その構造的性質について分析した。 Another approach that exists in the art is to engineer artificial antibody libraries and then construct synthetic antibody libraries that are expressed in bacteria. Knappik et al. Artificial antibody libraries were designed based on consensus sequences for each subgroup of heavy and light chain sequences according to the germline family. The consensus was automatically weighted according to usage frequency. By searching against a population of realigned sequences, the most homologous realigned sequence of each consensus sequence was identified, and all positions where the consensus differed from this closest realigned sequence were examined. In addition, models were created for 7 VH and 7 VL consensus sequences and analyzed for their structural properties.

しかし、選択された抗体の治療的応用に関する限り、そのようなアプローチについていくつかの問題がある。コンセンサス配列の定義は自由すぎて、規定されるそのような人工的配列が自然の機能的構造を代表しないかもしれないが、実験と構造分析はいくつかの好ましくないアミノ酸の組合せを排除する。コンセンサス配列は、再整列ヒト配列でよく使用されるヒト生殖細胞系配列を主にカバーするように設計されているが、これはコンセンサス配列ライブラリーを、進化の過程でこれまで接触してきた限定された数の抗原に向けるという偏りがあるかも知れない。これらのライブラリー構築法は主に、大きな抗体ライブラリーからリード抗体またはヒットを見つけることに焦点を当てているが、親和性成熟について、上記アプローチのほとんどはいまだに抗体親和性成熟について極めて限定されている。より古典的なアプローチ(例えば、CDR歩行、ランダム突然変異誘発、CDRの各位置での段階的飽和突然変異誘発など)が、抗体親和性成熟に使用されている。本発明は、親和性成熟の偏りのあるライブラリーを設計するようになっている。   However, as far as the therapeutic application of the selected antibody is concerned, there are several problems with such an approach. Although the definition of consensus sequence is too liberal, such artificial sequences as defined may not represent natural functional structures, but experimentation and structural analysis eliminate some unfavorable amino acid combinations. Consensus sequences are designed primarily to cover human germline sequences that are often used in realigned human sequences, but this is a limited consensus sequence library that has been contacted so far in the course of evolution. There may be a bias towards a specific number of antigens. These library construction methods primarily focus on finding lead antibodies or hits from large antibody libraries, but for affinity maturation, most of the above approaches are still very limited for antibody affinity maturation. Yes. More classical approaches (eg, CDR walking, random mutagenesis, stepwise saturation mutagenesis at each position of the CDR, etc.) have been used for antibody affinity maturation. The present invention is designed to design a library with an affinity maturation bias.

本発明者らは、異なる種からの構造をマッピングすることにより機能空間を試験することは、抗体ライブラリーの広範囲の機能的CDRをカバーし、これが結合できる抗原の範囲を拡張できると考えている。このアプローチは、新規抗原を標的とするための抗体ライブラリーの設計において非常に重要であろう。本発明の方法は典型的には、抗体または他の天然起源由来の構造的制約に依存する。本発明において、各ライブラリー配列をリード抗体の3D構造フレームワークにフィッティングすることにより、ヒトおよび他の種からのものを含む利用できるすべてのタンパク質(好ましくは抗体)の完全な配列空間を分析することができる。   We believe that examining the functional space by mapping structures from different species covers a wide range of functional CDRs of an antibody library and can extend the range of antigens that it can bind. . This approach will be very important in the design of antibody libraries to target novel antigens. The methods of the invention typically rely on structural constraints from antibodies or other natural sources. In the present invention, the complete sequence space of all available proteins (preferably antibodies), including those from humans and other species, is analyzed by fitting each library sequence to the 3D structural framework of the lead antibody. be able to.

この分析に基づき、生じる変異体抗体は、その配列が新規であるのみでなく、リード抗体より高い親和性を有する。後述の実施例の欄に示すように、本発明の方法を使用して多くの変異体抗体が選択され、リード抗VEGF抗体と同等かまたはより強い親和性でヒトVEGFに結合することが実験的に証明される。   Based on this analysis, the resulting mutant antibody is not only novel in sequence, but also has a higher affinity than the lead antibody. As shown in the Examples section below, a number of mutant antibodies are selected using the method of the present invention and experimentally shown to bind to human VEGF with an affinity equal to or stronger than lead anti-VEGF antibodies. Proven to.

2. 本発明のタンパク質設計方策を実施するのに使用される方法の詳細な説明
この方法は、配列、構造および機能空間の探索と、これらの間の関係の評価を含む(図1A〜D、1E〜H、2A〜C)。出発点は、利用可能なら、リード構造またはリード配列またはその両方である。方法は、機能的スクリーニングのために最適化された変種プロフィールを同定するために、配列空間と構造空間の両方を系統的に調べる。3つのモードの情報交換がある:i) 配列および/または構造空間中の情報の別々の評価と次に組合せ、ii) 配列から構造へ、または構造から配列へ、またはiii) 配列または構造単独からの連続的評価。配列設計は配列空間と構造空間で別々に調べられる(2つの別のサイクル)が、これらの2つの別々のサイクルからの変種プロフィールを比較し、組合せて、機能的スクリーニングにおける強力候補を産生する可能性のある良好なコンセンサス変種プロフィールを有する最適の全体的変種プロフィールに到達することができる。
2. Detailed Description of Methods Used to Implement the Protein Design Strategies of the Invention This method involves exploring sequences, structures and functional spaces and evaluating relationships between them (FIGS. 1A-D, 1E-H, 2A-C). The starting point is the lead structure and / or the lead sequence, if available. The method systematically examines both sequence space and structural space to identify variant profiles that are optimized for functional screening. There are three modes of information exchange: i) separate evaluation and then combination of information in the sequence and / or structure space, ii) sequence to structure, or structure to sequence, or iii) sequence or structure alone Continuous evaluation of. Sequence design is examined separately in sequence space and structure space (two separate cycles), but variant profiles from these two separate cycles can be compared and combined to produce strong candidates in functional screening An optimal overall variant profile with a good and good consensus variant profile can be reached.

標的配列を相同配列と比較する結果として、または既知の相同的構造の構造的整列により、配列プロフィールが得られるため、2つの出発点は機能的に相互に関連している。配列プロフィールはまた、機能的または構造的情報を示唆する変異データから得られる。同様に構造集合体は、分子動的シミュレーションにより作成されるが、既知の構造の配列整列からまたは相同的ベースのモデル化から得ることもできる。   The two starting points are functionally related to each other, either as a result of comparing the target sequence with a homologous sequence, or by a structural alignment of known homologous structures, resulting in a sequence profile. Sequence profiles are also obtained from mutation data that suggest functional or structural information. Similarly, structural aggregates are created by molecular dynamic simulation, but can also be obtained from sequence alignment of known structures or from homologous based modeling.

各サイクルで到達する変種プロフィールは、さらなる改良のために比較されているおよび/または他のサイクルに移されるため、配列と構造空間中の2つのフィルター化および改良サイクルは、フィルター化と評価工程でさらに関連している。配列由来の変種プロフィールについて、これは、変種プロフィールをランク付けし改良するために、構造空間中の既知の鋳型について構造的に評価される。逆に、構造由来の変種プロフィールは配列空間に移されて、これらが、ヒットもしくは変種ライブラリーの同じスーパーファミリーに属するかどうか、または最終的なライブラリーサイズを制御するための比較と分割のために評価することができる。   The variant profiles that arrive at each cycle are being compared for further refinement and / or transferred to other cycles, so the two filtering and refinement cycles in the sequence and structure space are in the filtering and evaluation process. More relevant. For sequence-derived variant profiles, this is structurally evaluated for known templates in the structure space to rank and improve variant profiles. Conversely, structure-derived variant profiles are moved into sequence space for comparison and partitioning to control whether they belong to the same superfamily of hit or variant libraries, or the final library size. Can be evaluated.

1) 配列空間
配列空間では、目標は、標的機能について最適化された変種プロフィールを決定することである。このサイクルは、データベース配列検索と配列プロフィールを使用した整列によるヒットライブラリーの同定で始まる。これは、単純なBLAST検索またはプロフィールHMMのような確率的アプローチである。ヒットライブラリー内の変動に基づき、配列がフィルター化され分割される。これは、各位置のアミノ酸頻度と分布を評価することにより行われる。通常各位置で最も高い頻度を有する残基ならびに標的配列からの残基が、変種プロフィール内に含まれる。変種の頻度の分布、または各位置で比較的より高くランク付けされるアミノ酸に依存するカットオフ値(それぞれ5%またはそれ以上)を、変種プロフィール内に含めることができる。
1) Sequence space In sequence space, the goal is to determine a variant profile that is optimized for the target function. This cycle begins with the identification of hit libraries by database sequence search and alignment using sequence profiles. This is a probabilistic approach like a simple BLAST search or profile HMM. Based on variation within the hit library, the sequence is filtered and partitioned. This is done by evaluating the amino acid frequency and distribution at each position. Residues that usually have the highest frequency at each position as well as residues from the target sequence are included in the variant profile. Variant frequency distributions, or cut-off values (5% or more, respectively) that depend on amino acids that are ranked relatively higher at each position can be included in the variant profile.

分割は、オリゴヌクレオチドライブラリーの最終的サイズに現実的な限界を設けるために必要かも知れない。分割は、オリゴヌクレオチドライブラリーのサイズを、種々の変種プロフィールセグメントの縮重核酸ライブラリーの機能として計算することにより決定される。すなわち、高度に可変の変種プロフィールは、生じるオリゴヌクレオチドライブラリーのサイズが、有効で効率的な実験的合成、形質転換およびスクリーニングについての限界内に設定できるように、分割することができる。   Partitioning may be necessary to place practical limits on the final size of the oligonucleotide library. Splitting is determined by calculating the size of the oligonucleotide library as a function of the degenerate nucleic acid library of various variant profile segments. That is, highly variable variant profiles can be resolved such that the size of the resulting oligonucleotide library can be set within the limits for effective and efficient experimental synthesis, transformation and screening.

別の分割スキームは、構造相関情報を使用することである。3次元で折り畳みするペプチドは順番に遠いセグメントと相互作用するため、分割のために構造的に相関する配列を割り当てるために構造鋳型またはモデルを使用することができる。例えばループの末端は相関するが、頂点自体は末端とあまり相互作用しない。そのような場合、変種プロフィールは少なくとも2つのプロフィールに分割される:1つは2つの末端のために、1つは頂点のために。   Another partitioning scheme is to use structural correlation information. Since peptides that fold in three dimensions interact with distant segments in order, structural templates or models can be used to assign structurally correlated sequences for partitioning. For example, the ends of the loop are correlated, but the vertices themselves do not interact much with the ends. In such cases, the variant profile is divided into at least two profiles: one for the two ends and one for the vertices.

変種プロフィールを高度に分割するのに、アプローチの片方または両方が使用される。分割する時、隣接セグメントの間である程度構造相関が維持されるように、セグメント間で少なくとも2つ、好ましくは3つ、またはそれ以上の残基重複があるべきである。機能的に最適化されたオリゴヌクレオチドライブラリーサイズを達成するために、アプローチの片方または両方が使用される。   One or both approaches are used to highly divide the variant profile. When splitting, there should be at least 2, preferably 3 or more residue overlaps between segments so that some structural correlation is maintained between adjacent segments. One or both approaches are used to achieve a functionally optimized oligonucleotide library size.

配列変種プロフィールがいったん決定されると、既知の構造鋳型または相同性ベースのモデルおよびスコア化関数(後述)を使用して、そのライブラリーがコンピューターによりスクリーニングされる。このランキングは、好ましくない変種をフィルター化により除去しながら好ましい変種を同定することにより変種プロフィールをフィルター化し減少させ、こうして同時に実験的ライブラリーのサイズを濃縮し減少させる。   Once the sequence variant profile is determined, the library is screened by computer using known structural templates or homology-based models and scoring functions (described below). This ranking filters and reduces the variant profile by identifying preferred variants while filtering out unwanted variants, thus simultaneously concentrating and reducing the size of the experimental library.

2) 構造空間
構造空間では、目標は、標的機能について最適化されている変種プロフィールを決定することであるが、1つの構造または構造の集合で出発して、次に構造の集合の平均に基づいて配列をスコア化する。このサイクルはあるセットの構造と、コンピューターによりスクリーニングできスコア化関数を使用して評価できる関連する配列に開始する。
2) Structure space In structure space, the goal is to determine the variant profile that is optimized for the target function, but start with one structure or set of structures and then based on the average of the set of structures To score the sequence. This cycle begins with a set of structures and related sequences that can be screened by a computer and evaluated using a scoring function.

すべての物理化学的変数を説明できる理論的理想的なスコア化関数について、エネルギースコアランク付けは、機能的ランク付けと完全に相関するであろう。これは可能ではないしコンピューターでも現実的ではなく、構造または配列が機能との相関が悪い不完全なスコア化関数を使用しなければならない。設計プロトコールの目標は、所望の機能を有するあるセットの可能な配列を同定することであるため、不完全だが配列と構造を機能と相関させるスコア化関数を使用することができる。   For a theoretical ideal scoring function that can account for all physicochemical variables, the energy score ranking will fully correlate with the functional ranking. This is not possible and not practical on a computer, and an incomplete scoring function must be used where the structure or sequence is poorly correlated with function. Since the goal of the design protocol is to identify a set of possible sequences that have the desired function, a scoring function that is incomplete but correlates sequence and structure with function can be used.

そのようなスコア化関数は、コンピューター項の任意の組合せを含み、機能的値を配列または構造の値と相関またはマッピングさせる。単純な例は、疎水性充填関数を脂肪族または芳香族側鎖の適切な密度を有する配列と相関させるファンデアワールスエネルギーである。別の例は、配列中の特定の位置の求核性側鎖基の存在と相関する酵素的加水分解活性である。   Such scoring functions include any combination of computer terms and correlate or map functional values to sequence or structure values. A simple example is the van der Waals energy that correlates the hydrophobic packing function with a sequence having the appropriate density of aliphatic or aromatic side chains. Another example is an enzymatic hydrolysis activity that correlates with the presence of a nucleophilic side chain group at a particular position in the sequence.

一般に、スコア化関数は、タンパク質の構造的安定性と機能に相関する一部またはすべての寄与項を含む熱力学的エネルギーの合計に基づくであろう。最も一般的には、これらは、静電的溶媒和エネルギー、非極性溶媒和エネルギーおよび側鎖と骨格エントロピーを含むであろう。MM-PBSAまたはMM-GBSAは、分子力学(MM)フォースフィールドを使用して計算された標準項を、ポアソン−ボルツマン(BP)式を解いて、または一般化ボーン(Born)(GB)近似を使用して計算された連続的溶媒モデルを用いる静電的溶媒和を含む溶媒和項、および表面積(SA)との比率に基づく溶媒がアクセスできる溶媒和項とを、コンフォメーションエントロピー(骨格と側鎖を含む)からの寄与とともに、組合せる方法である。実験的値と分子動的シミュレーションから得られる集合構造体に基づいてMM-PBSAで計算された値との間に良好な相関が報告されている(Wang, W, Donini O, Reyes CM, Kollman PA. (2001) Annu Rev Biophys Biomol Struct 30, 211-43)。MM-PBSAに基づくこの改良されたスコア化関数は、鋳型構造との適合性について配列ライブラリーをスキャンするのに使用したCONGENで行われたAmber94フォースフィールドの総エネルギーに基づいて単純なスコア化関数を評価するのに使用した(例えば、図12を参照)。ここで使用した単純なスコア化関数と、1つの鋳型構造(1cz8)を使用してリード配列のヒットライブラリーについて改良されたスコア化関数との比較(図12DとE)は、単純なスコア化関数が改良されたスコア化関数と相関することを示唆するが、相関地図中の有意な分散は、改良されたスコア化関数との一致を改良するために単純なスコア化関数にある改良ができることを示唆する。   In general, the scoring function will be based on the sum of thermodynamic energy, including some or all of the contribution terms that correlate with the structural stability and function of the protein. Most commonly, these will include electrostatic solvation energy, nonpolar solvation energy, and side chain and backbone entropy. MM-PBSA or MM-GBSA solves standard terms calculated using molecular mechanics (MM) force field, solves Poisson-Boltzmann (BP) equation, or generalized Born (GB) approximation. The solvation term, including electrostatic solvation using the continuous solvent model calculated using, and the solvation term accessible by the solvent based on its ratio to the surface area (SA), conformation entropy (skeleton and side With the contribution from (including chain). Good correlations have been reported between experimental values and values calculated by MM-PBSA based on aggregate structures obtained from molecular dynamic simulations (Wang, W, Donini O, Reyes CM, Kollman PA (2001) Annu Rev Biophys Biomol Struct 30, 211-43). This improved scoring function based on MM-PBSA is a simple scoring function based on the total energy of the Amber94 force field performed at CONGEN used to scan the sequence library for compatibility with the template structure Was used to evaluate (see, eg, FIG. 12). A comparison of the simple scoring function used here with the improved scoring function for the lead sequence hit library using one template structure (1cz8) (Figures 12D and E) Suggests that the function correlates with the improved scoring function, but that significant variance in the correlation map can be an improvement over a simple scoring function to improve matching with the improved scoring function To suggest.

タンパク質およびドラッグ設計で使用される他のスコア化関数と比較して、MM-PBSAまたはMM-GBSAはスコア化の良好な物理モデルであり、種々の問題を均一に扱うが、これは、システムの集合平均を計算するのに陽関数の水の分子動的シミュレーションから複数の軌道が必要なため、コンピューター的には高価である。この方法は、単純なスコア化法を超えて一部の困難な変異体を研究するのに有用であり、高速処理コンピューターによるスクリーニングで使用される方法を評価するための対照として役立つ。   Compared to other scoring functions used in protein and drug design, MM-PBSA or MM-GBSA is a better physical model for scoring and handles various problems equally, It is computationally expensive because it requires multiple orbits from the explicit molecular dynamics simulation of water to calculate the collective average. This method is useful for studying some difficult mutants beyond simple scoring methods and serves as a control to evaluate the methods used in high-speed computer screening.

3) 最適化変種プロフィール
設計プロトコールの最初の結果は、最適化変種プロフィールである。これは、配列と構造評価の両方の結果を具体化し、その結果進化的および構造的選択が設計中に取り込まれる。機能空間中の以後の工程は、このプロフィールを評価し改良することを目的とするが、必要であれば、以前の工程を修飾して、設計プロトコール中の種々の工程で、生じるライブラリーの循環濃縮が行われる。
3) Optimized variant profile The first result of the design protocol is the optimized variant profile. This embodies the results of both sequence and structure evaluation so that evolutionary and structural choices are incorporated into the design. Subsequent steps in the functional space aim to evaluate and improve this profile, but if necessary, modify the previous step to cycle through the resulting library at various steps in the design protocol. Concentration is performed.

好適な実施態様において本方法は以下を含む:
本方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列を複数のテスタータンパク質配列と比較し;
f) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
g) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
h) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
i) スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
j) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
k) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
l) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程j)〜l)を繰り返し;
m) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
n) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
o) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
p) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜o)を繰り返す。
In a preferred embodiment, the method comprises:
The method includes the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) compare the lead sequence to multiple tester protein sequences;
f) selecting at least two peptide segments having at least 10% sequence identity with the lead sequence from a plurality of tester protein sequences (the selected peptide segments form a hit library);
g) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
h) combining the amino acid variants in the hit library to generate a combination of hit variants that forms a hit variant library;
i) using a scoring function to determine whether members of the hit variant library are structurally compatible with the lead structure template;
j) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
k) constructing a degenerate nucleic acid library comprising a DNA segment encoding the amino acid sequence of a selected member of the hit variant library;
l) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step j) to l) until the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
m) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
n) expressing a DNA segment in the host cell so that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
o) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
p) If no recombinant antibody is found that binds to the target antigen with an affinity higher than 10 6 M −1 , repeat steps e) to o).

図2Bに示すように、本方法は、構造ベースの多重整列に基づく標的配列または配列プロフィールから出発し、進化的濃縮配列データベースに基づいて変種プロフィールについて検索し、次に構造鋳型または集合とのその適合性を評価し、次に実験的に標的化することができる配列集合を選択する。この方法は、我々の例で例示される。まずこれは、まだ理論的計算では捕捉されていない配列またはその組合せ中にコードされる進化的情報(発現、折り畳みを含む)を利用する。第2に、無関係の多くのランダム配列を除去した後、生じるライブラリーについて構造ベースのスクリーニングは、改良されたコンピューターによるスクリーニングを受ける。また集合構造体を使用してその一部に、MM-PBSAのような改良されたコンピューターによるスコア化を適用することができる。本発明者らは、この方法は、時間とコストを大幅に節約して、実験によるスクリーニングについて高度に改良された配列ライブラリーを与えると考えている。   As shown in FIG. 2B, the method starts with a target sequence or sequence profile based on structure-based multiple alignment, searches for a variant profile based on an evolutionary enriched sequence database, and then matches that with a structural template or assembly. Suitability is assessed and then a set of sequences that can be experimentally targeted is selected. This method is illustrated in our example. First, it makes use of evolutionary information (including expression, folding) encoded in sequences or combinations thereof that have not yet been captured by theoretical calculations. Second, after removing many irrelevant random sequences, structure-based screening for the resulting library is subjected to improved computer screening. Alternatively, improved computer scoring such as MM-PBSA can be applied to a portion of the aggregate structure. We believe that this method provides a highly improved sequence library for experimental screening, with significant time and cost savings.

図2Cは、本方法の他の実施態様を例示する。本方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列の1つ以上のアミノ酸残基を1つ以上の異なるアミノ酸残基で置換してリード配列を変異させて、リード配列変異体ライブラリーを作成し;
f) 第1のスコア化関数を使用して、リード配列変異体ライブラリーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
g) リード配列と同等であるかまたはよりすぐれたスコアのリード配列変異体を選択し;
h) リード配列を複数のテスタータンパク質配列と比較し;
i) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
j) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
k) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種の組合せを生成させ;
l) 選択された配列変異体をヒット変種の組合せと組合せて、ヒット変種ライブラリーを産生させ;
m) 第2のスコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
n) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
o) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
p) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程n)〜p)を繰り返し;
q) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
r) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
s) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
t) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜s)を繰り返す。
FIG. 2C illustrates another embodiment of the method. The method includes the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structure template);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) mutating the lead sequence by substituting one or more amino acid residues of the lead sequence with one or more different amino acid residues to create a lead sequence variant library;
f) using a first scoring function to determine if the lead sequence variant library is structurally compatible with the lead structural template;
g) select a lead sequence variant with a score equal to or better than the lead sequence;
h) comparing the lead sequence to multiple tester protein sequences;
i) selecting at least two peptide segments having a sequence identity of at least 10% with the lead sequence from the plurality of tester protein sequences (the selected peptide segments form a hit library);
j) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
k) combining amino acid variants in a hit library to generate a combination of hit variants;
l) combining a selected sequence variant with a combination of hit variants to produce a hit variant library;
m) Use a second scoring function to determine whether members of the hit variant library are structurally compatible with the lead structural template;
n) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
o) constructing a degenerate nucleic acid library comprising DNA segments encoding the amino acid sequences of selected members of the hit variant library;
p) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step n) ~p) to the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
q) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
r) expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
s) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
t) If a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 is not found, repeat steps e) to s).

4) 機能空間
機能空間では、目標は、最適化変種プロフィールから得られるライブラリーを発現しスクリーニングすることである。機能的サイクルを含む2つの成分がある。機能に直接影響を与えないかも知れないがタンパク質の発現に重要な操作成分は、オリゴヌクレオチドの最適化である。オリゴヌクレオチドライブラリーのサイズに対する現実的制限の決定は、変種の配列分割と再プロフィール化へのガイドとして使用される。
4) Functional space In functional space, the goal is to express and screen libraries derived from optimized variant profiles. There are two components that contain a functional cycle. An important engineering component for protein expression, which may not directly affect function, is oligonucleotide optimization. Determining realistic limits on the size of the oligonucleotide library is used as a guide to variant sequence resolution and reprofile.

他の成分は、すべての以前の工程の結果を直接反映する機能的スクリーニングであり、設計方策の最終的評価部分である。実験的機能的スクリーニングの結果は、ライブラリー候補がさらなる評価に移すことができるかまたは以前の工程からのライブラリーを濃縮および改良するのに使用することができるかを決定する。例えば、種々のレベルの機能を示す配列のセットは、変種プロフィールを狭めるために、または記載の位置で異なる残基に加重を付けるのに使用することができる。さらに、縮重オリゴヌクレオチド設計の使用による配列空間のジャンプは、新規の機能的変種の同定につながり、これは最適化変種プロフィールをさらに濃縮するのに使用することができる。あるいはアミノ酸の特定のセットの頻度は、機能的優先性または発現の優先性を反映することがある。後者の場合、低発現であるが良好な機能を示す配列は、機能を維持しながら発現レベルを改良するコドン使用の修飾を促進することがある。最も高頻度の変種のみを選択することはコンセンサスにのみ近づき、「平均」機能性配列に至る可能性があるため、いくつかの第2のまたは第3の「段」の変種、すなわち低い頻度で存在する変種を選択することが重要である。例外的変種が、自然には観察されていない組合せからくることがある。我々は、ガイドとして自然の進化的パターンを使用するが、自然には観察されていない組合せを捜しており、これは、これらが進化時間スケールでは好ましくないが我々が直ぐ応用するのに有用であるか、またはおそらく自然はこれらをまだ試していないためである。この意味で、ランダム変異体またはこれらの組合せの構造ベースのスクリーニングは、自然にはまだ観察されていないが構造的に好適な変異体を与える可能性があるが、これは、構造とポテンシャル関数の正確さならびにコンピューターの速度に厳しい要求を突きつける。   The other component is a functional screen that directly reflects the results of all previous steps and is the final evaluation part of the design strategy. The results of experimental functional screening determine whether library candidates can be transferred for further evaluation or can be used to enrich and refine libraries from previous steps. For example, a set of sequences exhibiting various levels of function can be used to narrow the variant profile or weight different residues at the described positions. Furthermore, sequence space jumps through the use of degenerate oligonucleotide designs lead to the identification of new functional variants, which can be used to further enrich the optimized variant profile. Alternatively, the frequency of a particular set of amino acids may reflect functional preference or expression preference. In the latter case, sequences that are low in expression but show good function may facilitate modification of codon usage to improve expression levels while maintaining function. Since selecting only the most frequent variants only approaches consensus and can lead to an “average” functional sequence, some second or third “stage” variants, ie less frequently It is important to select the variant that exists. Exceptional variants may come from combinations that are not observed in nature. We are using natural evolutionary patterns as a guide, but looking for combinations that are not observed in nature, which are useful on our immediate application, although these are not preferred on the evolution time scale Or perhaps nature hasn't tried these yet. In this sense, structure-based screening of random mutants or combinations thereof may give structurally favorable mutants that have not yet been observed in nature, but this Imposes strict requirements on accuracy and computer speed.

5) 繰り返し、改良、および濃縮
設計プロトコールは、評価される異なる空間に従って分割されるが、すべての操作サイクルは相互に関連し統合されて、情報を交換することができ、任意の空間を自由に循環して、最適化変種プロフィールに基づきライブラリーを連続的に改良および濃縮する。その結果、標的配列または構造から候補配列への経路は単一の経路ではなく、3つのサイクルの間の一連の振動であり、それぞれが最適化変種プロフィールの選択を改良する。
5) Repetition, refinement, and enrichment The design protocol is divided according to the different spaces to be evaluated, but all the operating cycles are interrelated and integrated, information can be exchanged and any space is freely Cycle to continuously improve and enrich the library based on the optimized variant profile. As a result, the path from the target sequence or structure to the candidate sequence is not a single path, but a series of oscillations between three cycles, each improving the selection of the optimized variant profile.

さらに、設計プロトコールの機能性評価と繰り返し性は、変種選択を改良するだけでなく、少なくとも調べた範囲の配列と構造についてスコア化関数の正確度を向上させる。予測が失敗したことは、適合性の無い鋳型であることを示す。これはまた、特定の寄与(例えば、機能的スクリーニングにおけるグリシン優先性における骨格エントロピー)は、より重く加重すべきであることを示す。特定の荷電残基(例えば、VH CDR3中のArg対Lys)は、特定のコンフォメーションを配向させる役割のために好ましいことがある(後述の欄を参照)。 Furthermore, the functionality evaluation and repeatability of the design protocol not only improves variant selection, but also improves the accuracy of the scoring function for at least the range and sequence of the examined range. The failure of the prediction indicates that the template is not compatible. This also indicates that certain contributions (eg, skeletal entropy in glycine preference in functional screening) should be weighted more heavily. Certain charged residues (eg, Arg vs. Lys in V H CDR3) may be preferred due to their role in orienting a particular conformation (see below).

6) スコアとランク付けによる配列の再プロフィール化
上記したように、ヒット変種ライブラリー中の配列は、抗原の存在下および非存在下でのリード抗体との構造的適合性に基づいて評価することができる。構造評価から得られるスコアとランク付けに従って、ヒット変種ライブラリー中の配列は再プロフィール化されて、機能的配列のための配列および構造空間の試験を最適化する。この工程は、リード配列よりスコアの良いヒット変種ライブラリーのサブ集団の選択と、最適化ライブラリーを作成するためのそれらの再プロフィール化とを含む。1つの選択肢は、リードよりスコアの良いすべての配列の再プロフィール化である。しかしこれは、実験によるスクリーニングのためのライブラリーが大きくなりすぎる。好適な方法は、ある低エネルギー窓またはいくつかのそのようなサブセット中の配列サブセットを選択することである(図7)、これは、後述の欄と図6に概説されるように、実験的核酸ライブラリーの最終的サイズを小さくするであろう。合理的選択と設計とを組合せると、この工程は、スコアの良い配列を有するライブラリーを濃縮するはずである。
6) Sequence re-profiling by scoring and ranking As noted above, sequences in the hit variant library should be evaluated based on structural compatibility with the lead antibody in the presence and absence of antigen. Can do. According to the scores and rankings obtained from the structure evaluation, the sequences in the hit variant library are reprofiled to optimize the sequence and structure space tests for functional sequences. This step involves selecting a subpopulation of hit variant libraries that score better than the lead sequence and re-profile them to create an optimized library. One option is to reprofile all sequences that score better than reads. However, this makes the library for experimental screening too large. A preferred method is to select a sequence subset within a low energy window or several such subsets (FIG. 7), which is experimental as outlined in the columns below and FIG. The final size of the nucleic acid library will be reduced. Combining rational selection and design, this process should enrich libraries with good-scoring sequences.

プロフィールの修飾と最適化は、物理的な核酸ライブラリーの最終的サイズを考慮しなければならない(図6)。1つの方策は、ヒット変種ライブラリーの最大スコアの10〜20%を再プロフィール化して、位置変種の数を、実験で容易に標的化できる限界内に制限することである(好ましくは縮重核酸ライブラリーについては<106)。同様に我々は、ある位置に所望のアミノ酸を含有する低エネルギー配列のセットを選択してもよい。 Profile modification and optimization must take into account the final size of the physical nucleic acid library (Figure 6). One strategy is to reprofile 10-20% of the maximum score of the hit variant library to limit the number of positional variants within limits that can be easily targeted in experiments (preferably degenerate nucleic acids). <10 6 for libraries. Similarly, we may select a set of low energy sequences containing the desired amino acid at a position.

7) 断片への配列の分割
サイズを制御する他の方策は、構造空間中の構造的に相関する断片と相関しない断片に基づいて、配列を分割することである。より小さい変種プロフィールを有するこれらの分割した配列は、いくつかの小さいライブラリーを作成するのに使用することができる。この説明は、第1近似として構造が離れたセグメントはしばしば無関係であり、その結果大きく分かれた変異は独立に処理することができるが、空間中で互いに結合する断片は、コンビナトリアル核酸ライブラリーにより同時に標的化すべきであるというものである。ループの場合は、ループの基部を形成する配列は一般にループの閉鎖に関連するが、頂部はしばしばループの基部とは相関しない。そのような場合、アミノ酸サブ変種プロフィールは3つのセグメントに分割され、第1と第3のセグメント(ループの基部)があるプロフィールとライブラリー設計に使用され、第2のセグメント(ループの頂部)は第2のプロフィールとライブラリー設計に使用される。生じるライブラリーの間の小レベルの構造的相関を維持するために、断片間に2または3つの位置重複があるはずである。同様に、より長いプロフィールは、配列と対応するライブラリーの長さにまたがるようにするために、重複セグメントの連鎖に分割することができる。CαまたはCβ距離マトリックスのような単純な基準を調べて、相関するセグメントを同定することができる(図28A)。場合により、より詳細な相互作用マトリックスをマッピングして、相互作用の数と種類を調べることができるが、基礎的原理は相関セグメントを同定するものと同じである。
7) Partitioning the sequence into fragments Another strategy to control the size is to partition the sequence based on fragments that do not correlate with structurally correlated fragments in the structure space. These split sequences with smaller variant profiles can be used to create several small libraries. This explanation suggests that, as a first approximation, dissociated segments are often irrelevant, so that large variations can be processed independently, but fragments that bind to each other in space are simultaneously analyzed by combinatorial nucleic acid libraries. It should be targeted. In the case of a loop, the sequence forming the base of the loop is generally associated with the closure of the loop, but the top is often uncorrelated with the base of the loop. In such a case, the amino acid subvariant profile is divided into three segments, the first and third segments (the base of the loop) are used for profile and library design, and the second segment (the top of the loop) is Used for second profile and library design. There should be 2 or 3 position overlaps between the fragments to maintain a small level of structural correlation between the resulting libraries. Similarly, longer profiles can be divided into overlapping segment chains in order to span the length of the library corresponding to the sequence. Simple criteria such as Cα or Cβ distance matrix can be examined to identify correlated segments (FIG. 28A). In some cases, a more detailed interaction matrix can be mapped to examine the number and type of interactions, but the basic principle is the same as identifying correlated segments.

生じる再プロフィール化は、観察された実験的または構造的基準に基づいてさらに修飾され増強される。これらには、追加の極性アミノ酸との既知の水素結合の種々の位置、大きな脂肪族または芳香族基とのファンデアワールス接触の大きい領域、またはグリシンによる柔軟性の上昇により利益を受ける領域がある。実験的フィードバックにおいて、以後の設計改良のための基礎として、早期スクリーニングからのアッセイ結果に基づいて変種を加えてもよい。より洗練された分析は、配列内のアミノ酸基の結合(例えば、塩結合または水素結合)を考慮してもよい。追加の設計上の制約には、溶媒がアクセスできるタンパク質の非極性基の表面積がある。   The resulting reprofile is further modified and enhanced based on observed experimental or structural criteria. These include various positions of known hydrogen bonds with additional polar amino acids, areas of high van der Waals contact with large aliphatic or aromatic groups, or areas that benefit from increased flexibility with glycine. . In experimental feedback, variants may be added based on assay results from early screening as a basis for subsequent design improvements. A more sophisticated analysis may take into account the bonding of amino acid groups within the sequence (eg, salt bonding or hydrogen bonding). An additional design constraint is the surface area of the nonpolar group of the protein that is accessible to the solvent.

修飾され最適化されたプロフィールにより、我々は、「ヒット変種ライブラリーII」とよぶ新しいアミノ酸配列ライブラリー、またはライブラリー群(ヒット変種ライブラリーIIA、IIB、IICなど)を作成し、これらを同じエネルギー関数を使用してスコア化する。変種組換えとプロフィール修飾は、カバーされる配列および構造空間に拡張されると考えられるため、エネルギー分布は元々のエネルギー窓の外に拡張するはずである(図7、13A、17A、および18)。   With a modified and optimized profile, we created a new amino acid sequence library, or library group (hit variant library IIA, IIB, IIC, etc.) called “Hit Variant Library II” Score using the energy function. Because variant recombination and profile modifications are thought to extend to the covered sequence and structural space, the energy distribution should extend outside the original energy window (FIGS. 7, 13A, 17A, and 18). .

本発明の方法の種々の実施態様を以下に詳細に説明する。   Various embodiments of the method of the present invention are described in detail below.

3. in silicoでのヒット抗体ライブラリーの構築
図1Aに例示されるようにヒットライブラリーは、リード抗体の領域からのリード配列に基づいてin silicoで構築することができる。タンパク質配列のデータベース(例えば、NIHのジーンバンク(GenBank)、または抗体のCDRのKabatのデータベース)からの配列を、リード配列との整列に基づいて、種々の配列整列アルゴリズムを使用して検索する。
3. Construction of Hit Antibody Library in Silico As illustrated in FIG. 1A, a hit library can be constructed in silico based on the lead sequence from the region of the lead antibody. Sequences from protein sequence databases (eg, NIH GenBank, or antibody CDR Kabat database) are searched using various sequence alignment algorithms based on alignment with the lead sequence.

図3は、ヒットライブラリーを構築するための方法の例を示し、これは、リード配列または配列プロフィールとの異なる同一性のタンパク質配列データベースの検索から始まる。リード配列プロフィールは、同じファミリーの構造モチーフ内で配列を整列させることにより作成される。このリード配列プロフィールは、リード配列への相同性の小さいヒットライブラリーについて配列データベースを検索するためのHMMを構築するのに使用することができる。このアプローチは、多様なヒット配列の豊富なプール(すなわちヒットライブラリー)を見つけて、データベースからのリード配列のすべての利用可能な変種が含まれることを確認するために行われる。   FIG. 3 shows an example of a method for constructing a hit library, which begins with a search of a protein sequence database of different identity with the lead sequence or sequence profile. Lead sequence profiles are created by aligning sequences within structural motifs of the same family. This lead sequence profile can be used to construct an HMM to search a sequence database for hit libraries with low homology to the lead sequence. This approach is performed to find a rich pool of diverse hit sequences (ie, a hit library) to ensure that all available variants of the read sequence from the database are included.

リード配列に対してスクリーニングされるデータベースは、好ましくは発現されたタンパク質配列(すべての生物の配列を含む)を含む。さらに好ましくは、このタンパク質配列は、哺乳動物(ヒトを含む)や、フレームワークを標的とするならげっ歯類に由来してもよい。場合によりタンパク質配列は、特定の種または同じ種の特定の手段からでもよい。例えばヒト免疫グロブリン配列データベースから採取されるタンパク質配列は、ポリペプチドセグメントのライブラリーを構築するのに使用することができる。完全なランダムなタンパク質配列を使用してライブラリーを構築する従来の方法と比較して、本発明のこのアプローチは、タンパク質の進化から得られる配列情報を利用し、こうして抗体生成と親和性成熟の自然のプロセスをより厳密に模倣する。   The database screened against the lead sequence preferably includes expressed protein sequences (including sequences from all organisms). More preferably, the protein sequence may be derived from mammals (including humans) or rodents that target the framework. Optionally, the protein sequence may be from a particular species or from a particular means of the same species. For example, protein sequences taken from a human immunoglobulin sequence database can be used to construct a library of polypeptide segments. Compared to the traditional method of constructing a library using fully random protein sequences, this approach of the present invention takes advantage of the sequence information obtained from the evolution of the protein, thus allowing antibody generation and affinity maturation. More closely mimics the natural process.

設計されるタンパク質の領域/ドメインに依存して、異なる進化的起源を有するタンパク質のデータベースが利用される。例えば、設計抗体のヒト免疫原性を低下させるために、ヒト起源の配列さらに好ましくは生殖細胞系配列が、設計目的に使用される。一方、CDR中の多様性を上昇させるために、広範囲のデータベースおよび/または構造ベースの設計法から広範な配列検索と選択が利用されて、構造および/または機能的多様性を上昇させる。そのような配列および構造ベースの選択により、配列のまれな組合せがCDRに見つかるが、フレームワーク領域中の配列はできるだけヒト配列ファミリーに近く維持される。   Depending on the region / domain of the protein being designed, a database of proteins with different evolutionary origins is utilized. For example, to reduce the human immunogenicity of a designed antibody, sequences of human origin, more preferably germline sequences, are used for design purposes. On the other hand, extensive sequence search and selection from a wide range of databases and / or structure-based design methods is utilized to increase structural and / or functional diversity to increase diversity in CDRs. With such sequence and structure-based selection, rare combinations of sequences are found in the CDRs, but the sequences in the framework regions are kept as close as possible to the human sequence family.

さらに、多様な種(ヒトまたは他の非ヒト種、特に限定されないが、マウス、ウサギなどを含む)の配列からのアミノ酸残基のいくつかの組合せが、ある領域(例えば、抗体中のCDRとフレームワークの境界)で好ましいことがある。このアプローチは、種々のモチーフの間で相対的配向を維持するかまたは最適化するために行われる。   In addition, some combinations of amino acid residues from the sequences of various species (including but not limited to human or other non-human species, such as mouse, rabbit, etc.) can be combined into certain regions (eg, CDRs in antibodies and May be preferred at framework boundaries). This approach is done to maintain or optimize the relative orientation between the various motifs.

多くの配列整列法を使用して、データベースからの配列を高〜低配列同一性の範囲のリード配列(またはリード配列プロフィール)と整列することができる。多くの配列ベースの整列プログラムが開発されており、特に限定されないが、Smith-Watermanアルゴリズム、Needleman-Wunschアルゴリズム、Fasta、Blast、Psi-Blast、Clustalxおよびプロフィール陰れマルコフモデルがある。   A number of sequence alignment methods can be used to align sequences from a database with a lead sequence (or lead sequence profile) ranging from high to low sequence identity. Many sequence-based alignment programs have been developed and include, but are not limited to, Smith-Waterman algorithm, Needleman-Wunsch algorithm, Fasta, Blast, Psi-Blast, Clustalx, and profile shadow Markov models.

場合により、密接に関連する配列(例えば、>50%の配列相同性)を検索するために、BLAST(基礎的局所的整列検索ツール(Basic Local Alignment Search Tool))のような単純な配列検索法を使用することができる。BLASTは、2つの配列間の類似性を検出するために位置非依存性スコア化パラメータ(例えば、BLOSUM62など)を用いる発見的アルゴリズムであり、日常的配列整列で広く使用されている(Altschul SF, Gish W, Miller W, Myers EW, Lipman Dj (1990) J Mol Biol 215, 403-410)。しかしBLAST分析は、あまりにも限定的過ぎてリード配列の離れた相同体を検出できない。リード配列の離れた相同体を検索するためには、配列整列のためのより進んだツールを使用することができる。   In some cases, a simple sequence search method such as BLAST (Basic Local Alignment Search Tool) to search closely related sequences (eg> 50% sequence homology) Can be used. BLAST is a heuristic algorithm that uses position-independent scoring parameters (such as BLOSUM62) to detect similarity between two sequences and is widely used in routine sequence alignment (Altschul SF, Gish W, Miller W, Myers EW, Lipman Dj (1990) J Mol Biol 215, 403-410). However, BLAST analysis is too limited to detect distant homologues of the lead sequence. To search for distant homologues of the lead sequence, more advanced tools for sequence alignment can be used.

プロフィールベースの配列整列法は、リード配列の変種の検索に使用され、例えばPSI-BLAST(位置特異的繰り返しBLAST)およびHMMなどがある。これらのプロフィールベースの配列整列法は、リード配列のより離れた相同体を検出することができる(Altshul, SF, Madden, TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Nucleic Acids Res 25, 3389-3402; Krogh, A, Brown M, Mian SI, Sjolander Km Haussler D (1994) J. Mol. Biol 235, 1501-1531)。   Profile-based sequence alignment methods are used to search for lead sequence variants, such as PSI-BLAST (position specific repeat BLAST) and HMM. These profile-based sequence alignment methods can detect distant homologues of the lead sequence (Altshul, SF, Madden, TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Nucleic Acids Res 25, 3389-3402; Krogh, A, Brown M, Mian SI, Sjolander Km Haussler D (1994) J. Mol. Biol 235, 1501-1531).

PSI-BLASTは、プロフィールベースの配列検索法に属する新世代BLASTプログラムである(Altshul, SF, Madden, TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Nucleic Acids Res 25, 3389-3402)。PSI-BLASTは、BLASTが作成した統計的に有意な整列を位置特異的マトリックスに自動的に組合せて、データベース中の配列整列をスコア化する。新たに検索された配列は位置特異的スコア化マトリックスに取り込まれて、データベース中の別のラウンドの配列検索を開始する。この方法は、ヒットするものが無くなるまでまたはあらかじめ設定した基準が満たされるまで繰り返される。PSI-BLASTはプロフィール陰れマルコフモデル(HMM)ほど高感度ではないが、あらかじめ作成したモチーフプロフィールが無い場合のその速度と操作の容易さにより、本発明で使用することができる。   PSI-BLAST is a new generation BLAST program belonging to the profile-based sequence search method (Altshul, SF, Madden, TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) Nucleic Acids Res 25, 3389-3402). PSI-BLAST automatically combines the statistically significant alignments created by BLAST into a position-specific matrix to score sequence alignments in the database. The newly searched sequence is incorporated into a position-specific scoring matrix to initiate another round of sequence search in the database. This method is repeated until there is no hit or until a preset criterion is met. PSI-BLAST is not as sensitive as a profile-shaded Markov model (HMM), but can be used in the present invention due to its speed and ease of operation in the absence of a pre-made motif profile.

プロフィール陰れマルコフモデルすなわちHMMは、ある配列または配列整列ファミリーの1次配列コンセンサスの統計的モデルである。配列ファミリーは、対応する多重配列および/または構造整列から生じる多重配列整列として定義される。HMMの基礎である正式な確率的ベースは、ベイズ確率論(Byaesian probability theory)を使用して、整列された配列のプロフィールに基づいてスコア化パラメータの設定をガイドすることを可能にする。この同じ特徴がまた、HMMが位置依存性スコアを使用して一環したアプローチを使用することを可能にして、アミノ酸とギャップの両方の整列をスコア化する。HMMのこれらの特徴は、これを古典的な発見的方法と比較して遠い相同体を検索するための強力な方法としている(Eddy S.R (1996) Curr Opin Struct. Biol 6, 361-365)。1次配列中のパターンは、パターン認識アルゴリズムにより検出することができ、従って標的配列(1つの配列のみが使用される時)または配列プロフィール(複数の配列整列が使用される時)に関連するより多くのメンバーを取り出すのに使用することができる。配列中の高次の相関、または3次元空間でのアミノ酸の相互作用を捕捉するためには、多重構造整列から生じる多重配列整列が、ヒットライブラリーを作成するために本発明で使用される好適な方法である。   Profile-shaded Markov model or HMM is a statistical model of the primary sequence consensus of a sequence or sequence alignment family. A sequence family is defined as a multiple sequence alignment resulting from a corresponding multiple sequence and / or structural alignment. The formal probabilistic base that is the basis of the HMM allows the use of Bayesian probability theory to guide the setting of scoring parameters based on the aligned sequence profile. This same feature also allows HMM to use a unified approach using position-dependent scores, scoring both amino acid and gap alignments. These features of HMM make it a powerful way to search distant homologues compared to classical heuristic methods (Eddy S.R (1996) Curr Opin Struct. Biol 6, 361-365). Patterns in the primary sequence can be detected by a pattern recognition algorithm, and thus more related to the target sequence (when only one sequence is used) or sequence profile (when multiple sequence alignments are used) Can be used to retrieve many members. In order to capture higher order correlations in sequences, or amino acid interactions in three dimensional space, multiple sequence alignments resulting from multiple structural alignments are preferably used in the present invention to create hit libraries. It is a simple method.

場合により、高度に多様なヒットライブラリーを検索するのに構造ベースの配列整列を使用してもよい。この方法は検出可能な配列相同性が無い場合に、種々の多重配列整列を比較するのに使用できる標準法であるためである(Sauder JM, Arthur JW, Dunbrack RL Jr (2000) Proteins 40, 6-22)。多重構造整列は、対応する多重配列整列を直接与える。あるいはこれらの密接に関連した構造は、多重配列整列プロフィールを作成するために配列スレッディングの構造鋳型として使用することができる(Jones DT (1999) J Mol Biol 1999, 797-815)。多重配列と構造整列とを組合せ方法が、既知のタンパク質配列の構造および機能的性質を説明することが報告されている(Al-Lazikani B, Sheinerman FB, Honig B (2001) PNAS 98, 14796-14801)。   In some cases, structure-based sequence alignment may be used to search a highly diverse hit library. This is because it is a standard method that can be used to compare various multiple sequence alignments in the absence of detectable sequence homology (Sauder JM, Arthur JW, Dunbrack RL Jr (2000) Proteins 40, 6 -twenty two). Multiple structural alignments directly provide corresponding multiple sequence alignments. Alternatively, these closely related structures can be used as structural templates for sequence threading to create multiple sequence alignment profiles (Jones DT (1999) J Mol Biol 1999, 797-815). It has been reported that a combination of multiple sequences and structural alignments explains the structural and functional properties of known protein sequences (Al-Lazikani B, Sheinerman FB, Honig B (2001) PNAS 98, 14796-14801). ).

また場合により、逆スレッディングプロセスを使用して高度に多様なヒットライブラリーを検索してもよい。逆スレッディングプロセスは、スレッディングプロセスの反対である。スレッディングは、配列側鎖相互作用ならびに局所的パラメータ(例えば2次構造および溶媒暴露)を取り込むスコア化関数を使用して、構造鋳型候補のライブラリーにその配列(すなわち、問題の配列)をスレッドする(通す)プロセスである。スレッディングプロセスは、問題の配列の抽出残基のアミノ酸配列の2次構造と溶媒のアクセスし易さの予測で始まる。予測された構造の生じる一次元(1D)プロフィールは、既知の3D構造のライブラリーの各メンバーにスレッドされる。各配列−構造対の最適スレッディングが、問題の予測された3D構造を構成する。   Also, in some cases, a highly diverse hit library may be searched using a reverse threading process. The reverse threading process is the opposite of the threading process. Threading uses a scoring function that captures sequence side chain interactions and local parameters (eg secondary structure and solvent exposure) to thread that sequence (ie, the sequence in question) into a library of structural template candidates. Process. The threading process begins with the prediction of the secondary structure of the amino acid sequence of the extracted residue of the sequence in question and the accessibility of the solvent. The resulting one-dimensional (1D) profile of the predicted structure is threaded to each member of a library of known 3D structures. The optimal threading of each sequence-structure pair constitutes the predicted 3D structure in question.

これに対して、逆スレッディングは、配列をある標的構造または標的構造の構造クラスター集合にスレッディングして、配列データベースから最適配列を検索するプロセスである。種々の長さのタンパク質配列を含むライブラリーから最適配列を選択するのに、種々のスコア化関数が使用される。   In contrast, reverse threading is the process of threading a sequence into a target structure or a set of structural clusters of target structures to retrieve the optimal sequence from a sequence database. Various scoring functions are used to select optimal sequences from libraries containing protein sequences of various lengths.

例えば、ヒト生殖細胞系免疫グロブリンデータベースからのアミノ酸配列をリード抗体の3D構造上にスレッドして、許容されるスコアを有する配列を検索することができる。選択された配列はヒットライブラリーを構成する。逆スレッディングプロセスは、スレッディングプロセスの反対であり、前者が標的構造鋳型に一致する最適配列を見つけようとするのに対して、後者は、標的構造プロフィールに一致する最適3D構造を見つける。
さらに、リード抗体について見つかる配列のヒットしたものの上のものは、リード抗体の3D構造と適合性のある最適な「コンセンサス」コンビナトリアル配列を選択するために、コンビナトリアルアプローチで各位置の多重アミノ酸を逆スレッディングすることによりプロフィール化される。コンセンサス配列を捜すこのプロセスは、Knappikら(2000)が記載した各位置の単純な配列平均を使用する方法とは異なる。本発明のコンセンサス配列は、各位置で可能なアミノ酸のすべての可能な組合せを使用して構造ベースの逆操作アプローチを使用して、検索された配列に基づいて作成され、構造鋳型とのその適合性をスコア化することにより最適化される。
For example, an amino acid sequence from a human germline immunoglobulin database can be threaded onto the 3D structure of a lead antibody to search for sequences with acceptable scores. The selected sequences constitute a hit library. The reverse threading process is the opposite of the threading process, where the former seeks to find the optimal sequence that matches the target structure template, while the latter finds the optimal 3D structure that matches the target structure profile.
In addition, above the sequence hits found for the lead antibody, reverse threading multiple amino acids at each position with a combinatorial approach to select the optimal “consensus” combinatorial sequence compatible with the 3D structure of the lead antibody. To be profiled. This process of searching for consensus sequences differs from the method using simple sequence averaging at each position described by Knappik et al. (2000). The consensus sequence of the present invention is created based on the searched sequence using a structure-based reverse manipulation approach using all possible combinations of amino acids possible at each position and its fit with the structural template. Optimized by scoring gender.

配列整列により使用される方法以外に、配列整列に使用される配列モチーフと対応するデータベースは、本発明の方法においても決定的に重要である。ここで使用される配列または配列プロフィールは、抗体領域についてタンパク質の機能の構造分析に基づいて定義される(例えば、抗原結合についてCDRモチーフ(CDR1、CDR2、およびCDR3)、抗体足場を支持するためにフレームワーク領域(FR1、FR2、FR3およびFR4)。例として、ジーンバンク(GenBank)とKabatデータベースを使用して、種々の種からの配列ヒットについて検索して、抗体のCDRに一致するヒットライブラリーの多様性を上昇させ、所望の抗体の結合親和性を最大にすることができる。一方、ヒトまたはヒト生殖細胞系配列データベースでさえ、好ましくは設計するがフレームワークの非ヒト起源の免疫原性エピトープを作成する機会を減少させるために、フレームワーク設計の配列ヒットについて検索するのに使用される。配列選択工程は、特に設計された抗体の最終的に治療的応用を考慮すると、設計の配列起源の最大の柔軟性と制御を可能にする。   In addition to the method used by sequence alignment, the database corresponding to the sequence motif used for sequence alignment is also critical in the method of the present invention. A sequence or sequence profile as used herein is defined based on structural analysis of protein function for antibody regions (eg, CDR motifs for antigen binding (CDR1, CDR2, and CDR3), to support antibody scaffolds Framework regions (FR1, FR2, FR3, and FR4), for example, using GeneBank and Kabat database to search for sequence hits from various species and hit libraries that match antibody CDRs While the human or human germline sequence database is preferably designed, the immunogenicity of the framework's non-human origin Used to search for sequence hits in the framework design to reduce the chance of creating epitopes. , Especially considering the final therapeutic applications of the antibody designed to permit control and maximum flexibility of the array origin of design.

重複配列を排除し再プロフィール化して、より正確なHMMまたはPSI-BLASTプロフィールを得ることにより、ヒットライブラリーをさらに改良することができる。実施例の欄に詳細に記載するように、N末端またはC末端でフランキングするいくつかの残基の有るかまたは無いヒト抗VEGF抗体のKabat分類(および構造モチーフ)に従って、VH CDR3をリード配列として使用した。HMMER 2.1.1ソフトウェアパッケージのユーティリティー(hmmbuild、hmmcalibrate、hmmsearch、hmmalign)をデフォールト設定(http://hmmer.wust1.eduhttp://hmmer.wust1.edu中のEddy S)で使用して、HMMモデルを構築し、合成されたランダム配列に対してHMMモデルを較正し、ヒット配列についてデータベースを検索し、それらを整列した。リード配列と同じ長さの1つのヒット配列が、整列と変種プロフィールのために使用される、整列された配列中の挿入または欠失はまた、整列位置で変種をプロフィール化するのに使用することができる。 The hit library can be further refined by eliminating duplicate sequences and re-profiling to obtain a more accurate HMM or PSI-BLAST profile. Read V H CDR3 according to the Kabat classification (and structural motif) of human anti-VEGF antibodies with or without some residues flanking at the N-terminus or C-terminus, as described in detail in the Examples section Used as an array. HMM model using HMMER 2.1.1 software package utilities (hmmbuild, hmmcalibrate, hmmsearch, hmmalign) with default settings (Eddy S in http: //hmmer.wust1.eduhttp: //hmmer.wust1.edu ) Was constructed, the HMM model was calibrated against the synthesized random sequences, the database was searched for hit sequences, and they were aligned. One hit sequence of the same length as the lead sequence is used for alignment and variant profiles. Insertions or deletions in the aligned sequence should also be used to profile variants at aligned positions. Can do.

図3に示すように、抗VEGF抗体のVH CDR3配列の1つのリード配列をHMMとして使用してKabatデータベースを検索すると、リード配列に対して40〜100%の範囲の配列同一性を有する108個のユニークな配列が見つかった(図10Aと19C)。このリード配列の多重整列配列プロフィールをHMMとして使用して同じKabatデータベースを検索すると、リード配列に対して15〜100%の範囲の配列同一性を有する251個のユニークな配列が見つかった(図19C)。これらの結果は、プロフィールHMMが、リード配列とは遠い相同性を有する配列を見つけることができることを示す。すなわち、多重構造整列から得られる配列プロフィールは、ヒットライブラリーの多様性を拡張するであろう。 As shown in FIG. 3, searching the Kabat database using one lead sequence of the V H CDR3 sequence of an anti-VEGF antibody as an HMM has a sequence identity in the range of 40-100% to the lead sequence. Unique sequences were found (Figures 10A and 19C). Searching the same Kabat database using the multiple aligned sequence profile of this lead sequence as an HMM found 251 unique sequences with sequence identity in the range of 15-100% to the lead sequence (FIG. 19C). ). These results indicate that the profile HMM can find sequences with homology far from the lead sequence. That is, the sequence profile obtained from the multiple structure alignment will extend the diversity of the hit library.

ヒットライブラリーの配列はまた、使用されるデータベースに依存する。例えば上記でKabatデータベースの代わりにGenpeptを使用すると、単一のリード配列をHMMとして使用した時または構造ベースの配列プロフィールをHMMとして使用した時、Kabatデータベース中のものとは異なるヒットが見つかった。   The sequence of the hit library also depends on the database used. For example, using Genpept instead of the Kabat database above, hits different from those in the Kabat database were found when using a single read sequence as the HMM or when using a structure-based sequence profile as the HMM.

データベースを検索して構築されたヒットライブラリー中の配列は、分析し(例えば、各アミノ酸残基の位置頻度に基づきプロフィール化することにより)、in vitroまたはin vivoで所望の機能についてスクリーニングするために直接使用することができる。図1Aの経路Iと図3を参照。   Sequences in hit libraries constructed by searching the database are analyzed (eg, by profiling based on the frequency of each amino acid residue) and screened for the desired function in vitro or in vivo Can be used directly. See path I in FIG. 1A and FIG.

場合により、ヒットライブラリー中の配列はプロフィール化され使用されてヒット変種ライブラリーIが構築され、これは次に、所望の機能についてin vitroまたはin vivoでスクリーニングされる。図1Bの経路IIと図4を参照。   Optionally, the sequences in the hit library are profiled and used to construct hit variant library I, which is then screened in vitro or in vivo for the desired function. See Path II in FIG. 1B and FIG.

また場合により、ヒットライブラリーは、逆スレッディングまたはフォースフィールドベースの完全原子提示のような方法を使用して、リード構造鋳型との適合性のスコア化に基づいてフィルターにかけられる。生じるスコアのランク付けに基づいて、所望の機能についてin vitroまたはin vivoでスクリーニングのためにヒット変種ライブラリーIIが選択される。図1Cの経路IIIと図5を参照。   Also, optionally, the hit library is filtered based on scoring compatibility with the lead structure template using methods such as reverse threading or force field-based full atom presentation. Based on the resulting score ranking, hit variant library II is selected for screening in vitro or in vivo for the desired function. See path III in FIG. 1C and FIG.

また場合により、ヒットライブラリーIは、スレッディングまたはフォースフィールドベースの完全原子提示のような方法を使用して、リード構造鋳型との適合性のスコア化に基づいてフィルターにかけられる。ヒットの相対的ランク付けに基づいて、所望の機能についてin vitroまたはin vivoでスクリーニングのためにヒット変種ライブラリーIIが選択される。図1Dの経路IVと図5を参照。   Also optionally, the hit library I is filtered based on scoring compatibility with lead structure templates using methods such as threading or force field based full atom presentation. Based on the relative ranking of hits, hit variant library II is selected for screening in vitro or in vivo for the desired function. See Path IV in FIG. 1D and FIG.

4. ヒット変種ライブラリーの構築
タンパク質の構造および配列空間中にコードされる豊富な多様性をさらに調べるために、配列整列に基づいて選択されたヒットは、変種プロフィールを作成するために配列の各アミノ酸位置でプロフィール化される。ヒット変種ライブラリーは、この変種プロフィールを使用してコンビナトリアル的に算出される。図4は、ヒット変種ライブラリーを構築するための方法の例である。ヒットライブラリー(すなわち、配列ヒットまたはフィルターにかけた配列ヒット)から作成される変種プロフィールは、ヒット配列中の各位置に現れるアミノ酸の頻度に基づいて記載される(図11と19B)。プロフィール化された変種は、コンビナトリアルライブラリーを構築するための優れた出発点となる。
4. Construction of a hit variant library To further investigate the abundance of diversity encoded in the protein structure and sequence space, hits selected based on sequence alignment are used to create a variant profile. Profiled at amino acid positions. Hit variant libraries are calculated combinatorially using this variant profile. FIG. 4 is an example of a method for constructing a hit variant library. Variant profiles generated from hit libraries (ie, sequence hits or filtered sequence hits) are described based on the frequency of amino acids appearing at each position in the hit sequence (FIGS. 11 and 19B). Profiled variants provide an excellent starting point for building combinatorial libraries.

このヒット変種ライブラリーのサイズを小さくするために、各位置のアミノ酸の頻度(例えば、5%またはそれ以上の頻度)または好適な変種に基づくいくつかのカットオフ値および/またはコンピューターによる結果を応用することができる(ヒットの総数の10%のカットオフについては図11の下の部分を参照;図19Bは5%を使用する)。各位置でのこれらの非常に好適なアミノ酸残基に基づく変種は、高親和性または他の所望の機能を有する配列を釣り上げるための組換え配列の優れたプールとなるはずである。   To reduce the size of this hit variant library, apply several cutoff values and / or computational results based on the frequency of amino acids at each position (eg 5% or more) or the preferred variant (See the lower part of FIG. 11 for a cut-off of 10% of the total number of hits; FIG. 19B uses 5%). Variants based on these highly suitable amino acid residues at each position should provide an excellent pool of recombinant sequences to lift sequences with high affinity or other desired functions.

各位置の変種の頻度に基づいて計算される情報配列エントロピーは、整列した配列中の残基の同一性が、アミノ酸残基のランダム分布からどの程度逸脱するかを測定するための定量的手段を提供する。タンパク質変種を含む配列の高度に可変性の突然変異誘発の確率を考慮するために、本発明では相対的エントロピーを使用することができる(Plaxo KW, Larson S, Ruczinski, Riddle DS, Thayer EC, Buchwitz B, Davidson AR, Baker D (2000) J Mol Biol 298, 303-312)。本発明者らは、相対的部位エントロピーが、発現されたタンパク質のデータベースからの真の進化的データに基づくため、コンピューターによるスクリーニングおよび実験によるスクリーニングの標的とすべき位置および変異体の良好なガイドとなると考えている。   Information sequence entropy calculated based on the frequency of variants at each position provides a quantitative means to measure how much the identity of the residues in the aligned sequences deviates from the random distribution of amino acid residues. provide. To account for the highly variable mutagenesis probability of sequences containing protein variants, the present invention can use relative entropy (Plaxo KW, Larson S, Ruczinski, Riddle DS, Thayer EC, Buchwitz B, Davidson AR, Baker D (2000) J Mol Biol 298, 303-312). Since the relative site entropy is based on true evolutionary data from the database of expressed proteins, we have a good guide to the locations and variants to be targeted for computational and experimental screening. I think it will be.

相対的部位エントロピーは、ヒット配列の構造と機能を維持しながら進化中に蓄積されたアミノ酸残基の各位置の多様性の尺度である。これらの部位は、コンピューターによるスクリーニングと実験によるスクリーニングとを組換えるために選択される。生じるコンビナトリアルヒット変種ライブラリーのサイズは、各位置のすべての20個のアミノ酸のランダムな組合せにより生成するものよりはるかに小さいため、より正確で詳細なコンピューターによるスクリーニングまたは直接的な実験によるスクリーニングを実施することができる。   Relative site entropy is a measure of the diversity of each position of amino acid residues accumulated during evolution while maintaining the structure and function of the hit sequence. These sites are selected to recombine computer screening and experimental screening. The resulting combinatorial hit variant library size is much smaller than that generated by a random combination of all 20 amino acids at each position, so more accurate and detailed computer screening or direct experimental screening can do.

本発明のヒットライブラリーにより生じる配列エントロピーは、当該分野の他の研究者らが、フォースフィールドベースのコンピューター法を使用して、アミノ酸置換に対する構造許容性を測定するのに使用した部位エントロピーとは無関係である(Voigt CA, Mayo SL, Arnold FH, Wang ZG (2001) PNAS 98, 3778-3783)。フォースフィールドベースの方法は進化によっては試験されていないいくつかの新規変異体を提供するであろうが、進化的配列から得られる部位エントロピー(すなわち、配列エントロピー)は、取り込まれた構造的、動力学的、発現および生物学的活性を含むすべての情報を用いて、各位置での変化と好適な変異体についてより有意な統計量を提供するはずである。これは、フォースフィールドベースの方法では充分に理解も予測もされていない抗体のループ領域のような困難な構造を標的化するのに重要かも知れないが、これらは、本発明のデータベースの方法を使用してある程度自信を持ってモデル化することができる。進化的情報に依存する相同性ベースの方法はいまだに、フォースフィールドベースのシミュレーションを用いて増強することができるループ構造をモデル化するための最も信頼できる方法の1つである。   The sequence entropy generated by the hit library of the present invention is the site entropy used by other researchers in the field to measure structure tolerance for amino acid substitutions using force field-based computational methods. Irrelevant (Voigt CA, Mayo SL, Arnold FH, Wang ZG (2001) PNAS 98, 3778-3783). Force field-based methods will provide some new variants that have not been tested by evolution, but site entropy derived from evolutionary sequences (ie, sequence entropy) depends on incorporated structural, dynamic All information, including biological, expression and biological activity should be used to provide more significant statistics for changes at each position and suitable variants. While this may be important for targeting difficult structures such as antibody loop regions that are not well understood or predicted by force field-based methods, they are Can be used and modeled with some confidence. Homology-based methods that rely on evolutionary information are still one of the most reliable methods for modeling loop structures that can be enhanced using force field-based simulation.

実施例の欄に詳細に記載されるように、抗VEGF抗体(リード抗体)の変種プロフィールはいくつかの異なるアプローチを使用して検索された。このリード抗体のVH CDR3の配列に基づき、Kabat、genpept、およびKabat、genpept、imgt、その他を組合せた非重複データベースからのヒットリストの変種プロフィールが記載される。この抗体からの親和性成熟した配列中に、他の研究者らが観察した重要な変異体はまた、本発明の方法を使用して検索した変種プロフィール中に高頻度で現れる。例えば、単一の最も重要な変異体は成熟配列中のY97(図9B)により置換されたリード配列中のH97であり、これはこの位置でアミノ酸変種がほとんど50%である(図11)。本発明の上記方法は、タンパク質設計と操作においていくつかの利点を有する。任意の組換えライブラリーにおいて、多様性は必ずしも、スクリーニングできる能力により限定されるのではなく、これは、多様性の割り当てと従って設計が機能的に関連するライブラリーの作成において重要な要因であることを意味する。本方法は、タンパク質、特に抗体のin silicoの合理的設計である。これは、ヒットライブラリーを形成するための発現されたタンパク質のデータベースからの機能的に類似の「天然の」ポリペプチド断片の選択で始まる。「天然に」存在するペプチド断片中の特異的位置変化の分析は、好適な残基と位置についての進化的データ(変種プロフィール)を与える。変種の決定的に重要な分析は、重要な残基と組合せを同定することができる。選択変種の低下したセットのコンビナトリアル算出により、機能的に関連する配列に注目するヒット変種ライブラリーが作成される。 As described in detail in the Examples section, the variant profile of anti-VEGF antibody (lead antibody) was searched using several different approaches. Based on the V H CDR3 sequence of this lead antibody, variant profiles of the hit list from Kabat, genpept, and non-redundant databases combining Kabat, genpept, imgt, etc. are described. In affinity matured sequences from this antibody, important variants observed by other investigators also appear frequently in variant profiles searched using the methods of the present invention. For example, the single most important variant is H97 in the lead sequence replaced by Y97 in the mature sequence (Figure 9B), which is almost 50% amino acid variant at this position (Figure 11). The above method of the present invention has several advantages in protein design and manipulation. In any recombinant library, diversity is not necessarily limited by the ability to be screened, but this is an important factor in creating a library in which diversity is assigned and thus the design is functionally related Means that. This method is an in silico rational design of proteins, especially antibodies. This begins with the selection of functionally similar “natural” polypeptide fragments from a database of expressed proteins to form a hit library. Analysis of specific position changes in “naturally occurring” peptide fragments gives evolutionary data (variant profiles) for preferred residues and positions. A critical analysis of the variants can identify key residues and combinations. Combinatorial calculation of a reduced set of selected variants creates a hit variant library that focuses on functionally related sequences.

変種プロフィールで開始して、本発明のin silico合理的ライブラリー設計は、機能的および構造データに基づくタンパク質断片の注目されたライブラリーを生成する。in silico組換えはある程度まで、相同配列のファミリーのDNAシャフリングと原理が似ている。しかし本発明のアプローチは、広く分布した配列相同性を有するタンパク質配列のファミリーにとって、非常に効率的な配列組換え法である。さらに本発明において、組換えはアミノ酸レベルで置き、そのメンバーがランダムに組換えされて設計されるライブラリーを作成するために具体的な機能性領域まで局在化することができる。これは、相同性要求により束縛されず、構造的または実験データに従って選択的に修飾することができる。例えば、ヒットライブラリー中の配列は、検索法と使用したデータベースに依存して、リード配列に対して100〜20、またはそれ以下の配列同一性を有する。比較すると、DNAシャフリングは、密接に関連する配列相同体の間のDNA組換えプロセスであり、組換えられた核酸配列間の配列相同性に厳しい要件があり;DNAシャフリングは、有効な変異体組換えを作成することは非効率的であり、実験的組換え中にランダム変異を受けやすい。   Starting with a variant profile, the in silico rational library design of the present invention generates a focused library of protein fragments based on functional and structural data. To some extent, in silico recombination is similar in principle to DNA shuffling of a family of homologous sequences. However, the approach of the present invention is a very efficient sequence recombination method for a family of protein sequences with widely distributed sequence homology. Furthermore, in the present invention, recombination can be placed at the amino acid level and localized to specific functional regions to create a library whose members are recombined randomly. This is not constrained by homology requirements and can be selectively modified according to structural or experimental data. For example, the sequences in the hit library have 100-20 or less sequence identity to the lead sequence, depending on the search method and the database used. In comparison, DNA shuffling is a process of DNA recombination between closely related sequence homologues and there are stringent requirements for sequence homology between recombined nucleic acid sequences; DNA shuffling is an effective mutation Creating somatic recombination is inefficient and subject to random mutations during experimental recombination.

5. 抗体変種ライブラリーの構造ベースの評価
上記したようにヒットライブラリーまたはヒットライブラリーからの変種プロフィールの組換えから得られるヒット変種ライブラリーは、リードタンパク質との構造的適合性に基づいて評価してもよい。抗体変種ライブラリーの構造ベースの評価のために本発明は、以下の問題を扱う:i) 抗体とタンパク質複合体を形成する抗原の存在下で、非標準ループのコンフォメーションを如何にモデル化するか;(ii) 抗体および/または抗原構造を最適に適合させるために、CDRループ骨格に側鎖を如何に置くか;(iii) 高親和性を有する安定な抗体−抗原複合体を形成させるために、CDRループを最適なフレームワークモデルと如何に組合せるか。実施法は以下に詳述される。
5. Structure-based evaluation of antibody variant libraries As described above, hit variant libraries obtained from recombination of hit libraries or variant profiles from hit libraries are evaluated based on structural compatibility with the lead protein. May be. For structure-based evaluation of antibody variant libraries, the present invention addresses the following issues: i) How to model the conformation of a non-standard loop in the presence of an antigen that forms a protein complex with an antibody. (Ii) how to place side chains in the CDR loop backbone to optimally match the antibody and / or antigen structure; (iii) to form a stable antibody-antigen complex with high affinity. And how to combine the CDR loop with the optimal framework model. The method of implementation is detailed below.

1) 抗体構造と構造モデル
リード抗体の構造鋳型は、X線またはNMR構造から直接取られるか、または後述の構造的コンピューターエンジンを使用してモデル化される。実施例の欄に示すように、抗VEGF抗体の構造鋳型はPDBデータベースから取られる(親抗体用に1BJ1、そして成熟抗体用に1CZ8)。両方の鋳型を抗原VEGFの存在下と非存在下で使用した。実施例に記載のスコア化は、抗原VEGFの存在下の1CZ8からである。
1) Antibody structure and structural model The structural template of the lead antibody is taken directly from the X-ray or NMR structure or modeled using the structural computer engine described below. As shown in the Examples section, the structural template for the anti-VEGF antibody is taken from the PDB database (1BJ1 for the parent antibody and 1CZ8 for the mature antibody). Both templates were used in the presence and absence of antigen VEGF. The scoring described in the examples is from 1CZ8 in the presence of the antigen VEGF.

2) リード抗体の構造鋳型に基づく評価
例として、既知の3D構造を有する抗体がリードタンパク質として機能する。代替法(例えば、相同性ベースのモデル化)を応用して、操作される標的タンパク質について妥当に規定された鋳型構造を作成できるため、充分規定された構造(例えばX線結晶学により得られるもの)のこの要件は絶対的ではない。ヒット変種ライブラリーの作成には、アミノ酸位置変種プロフィールの決定、修飾、および最適化が必要である。リード配列およびヒットライブラリーとヒット変種ライブラリー中の配列は、リード抗体の3D構造の点でスコア化され、これらの配列についてランク付け分布を得るためにスコア化される。実施例の欄のスコア化は経験的な全原子エネルギー関数に基づいているが、任意のコンピューターで扱えるスコア化または一致関数を応用して、これらの配列を構造的に評価できることに注意されたい。
2) Evaluation based on lead antibody structural template As an example, an antibody having a known 3D structure functions as a lead protein. Alternative methods (eg, homology-based modeling) can be applied to create a well-defined template structure for the target protein being manipulated, so that well-defined structures (eg those obtained by X-ray crystallography) ) This requirement is not absolute. Creation of a hit variant library requires the determination, modification, and optimization of amino acid position variant profiles. The lead sequences and the sequences in the hit and hit variant libraries are scored in terms of the 3D structure of the lead antibody and scored to obtain a ranking distribution for these sequences. Note that the scoring in the Examples column is based on an empirical total atomic energy function, but any sequence that can be handled by any computer can be applied to structurally evaluate these sequences.

図5は、リード、ヒットライブラリー、およびヒット変種ライブラリーからの配列の構造的評価の方法の例を示す。スコア化とランク付けについて、これらの配列は、骨格依存性/非依存性ロタマーライブラリーからの側鎖を代用することにより、リード構造鋳型中に構築される(Dunbrack RL Jr, Karplus M (1993) J Mol Biol 230:543-574)。置換されたセグメントの側鎖と骨格は次に、局所的ひずみを緩和するために局所的にエネルギーが最小化される。各構造は、リード構造鋳型中の配列の相対的安定性を測定するカスタムエネルギー関数を使用してスコア化される。   FIG. 5 shows an example of a method for structural evaluation of sequences from reads, hit libraries, and hit variant libraries. For scoring and ranking, these sequences are built into the lead structure template by substituting side chains from the backbone-dependent / independent rotamer library (Dunbrack RL Jr, Karplus M (1993) J Mol Biol 230: 543-574). The side chains and backbone of the substituted segment are then locally minimized in energy to mitigate local strains. Each structure is scored using a custom energy function that measures the relative stability of the sequences in the lead structure template.

リード、ヒットライブラリーおよびヒット変種ライブラリーからの配列のエネルギーの比較は、種々の配列のリード構造鋳型との構造適合の程度を示す。多くの配列がリード配列より優れているかまたは悪いスコアを有する非常に広い分布を得ることは、妥当ではないことは無い。焦点は、具体的な配列(許容されるが)を同定することではなく、リード配列と同等かまたはより優れたスコアを有する配列または配列集合の集団を同定し、縮重核酸ライブラリーを使用して同時に標的化できる配列中の集合体の性質を共有することである。アミノ酸配列集合体は、単一の具体的な配列より良好なエピトープ認識の結合部位および配向と良好な構造的適合性を示す可能性がある配列空間である。統計的集合平均の周りに分布した配列集合体のコンビナトリアルライブラリーは、改良された親和性を有する良好な候補を見つける機会を上昇させるために、実験的に標的化すべきである。   Comparison of the energy of the sequences from the lead, hit library and hit variant library shows the degree of structural compatibility of the various sequences with the lead structural template. It is not unreasonable to obtain a very broad distribution with many sequences having better or worse scores than the lead sequence. The focus is not to identify a specific sequence (although it is acceptable), but to identify a population of sequences or a set of sequences that have a score equal to or better than the lead sequence and use a degenerate nucleic acid library Sharing the nature of aggregates in sequences that can be targeted simultaneously. Amino acid sequence aggregates are sequence spaces that may exhibit better structural compatibility with a binding site and orientation for better epitope recognition than a single specific sequence. A combinatorial library of sequence ensembles distributed around the statistical ensemble average should be targeted experimentally to increase the chances of finding good candidates with improved affinity.

3) そのリガンドの存在下でのリード構造鋳型に基づく評価
場合により、リード、ヒットライブラリーおよびヒット変種ライブラリーからの配列を、リガンドまたは抗原、例えばVEGFとの複合体中のリード抗VEGF抗体の存在下で、リード構造鋳型に基づいて評価することができる。このアプローチは、リードタンパク質とそのリガンドにより形成される複合体の構造が公知であるかまたは容易に確認できる時、有用である。
3) Evaluation based on lead structure template in the presence of its ligand. In the presence, it can be evaluated based on the lead structure template. This approach is useful when the structure of the complex formed by the lead protein and its ligand is known or can be easily identified.

抗原の存在下では、抗体と抗原との複合体形成の完全な熱力学的サイクルが計算に含まれる。特に結合部位における抗体のコンフォメーションは、好適な側鎖ロタマーとのその標準的ファミリーからの個々のCDRループコンフォメーションならびにCDRループ間の相互作用に基づいてモデル化される。広範囲のコンフォメーション(アミノ酸残基の側鎖のもの、および抗原結合部位のCDRループのものを含む)を試験することができ、抗体の主要なフレームワーク(または足場)に取り込まれる。抗原が存在すると、そのようなコンフォメーション的モデル化は、物理−化学的フォースフィールドならびに半経験的および知識ベースのパラメータを使用して、スコア化より高い物理的関連性、抗体産生の自然のプロセスのより良好な提示、および体内での成熟を確保する。   In the presence of antigen, the complete thermodynamic cycle of antibody-antigen complex formation is included in the calculation. In particular, antibody conformation at the binding site is modeled on the basis of individual CDR loop conformations from that standard family with suitable side chain rotamers as well as interactions between CDR loops. A wide range of conformations (including those in the side chains of amino acid residues, and those in the CDR loop of the antigen binding site) can be tested and incorporated into the main framework (or scaffold) of the antibody. In the presence of antigens, such conformational modeling uses physico-chemical force fields and semi-empirical and knowledge-based parameters to achieve higher physical relevance, a natural process of antibody production than scoring. Ensuring better presentation, and maturation in the body.

4) 抗原の存在下と非存在下での抗体配列のスコアの相関
抗原とその抗体の間で複合体構造を持ち、抗体ライブラリーを抗原に結合する良好な確率を有する配列に焦点を当てることが好ましい。残存ながら、生物医学的関心のある抗体について、抗体と抗原の複合体構造はまだ利用できない。
4) Correlation of antibody sequence scores in the presence and absence of antigen. Focus on sequences that have a complex structure between the antigen and its antibody and have a good probability of binding the antibody library to the antigen. Is preferred. For the remaining antibodies of biomedical interest, the antibody-antigen complex structure is not yet available.

本発明者らは、標的抗体足場を安定化するのに好適な多くの配列はまた、抗原への結合に直接関与するVH CDR3についてさえ、特異的な抗体−抗原複合体を安定化することができる選択された候補の1つであることを見いだした。相関分析は、抗原の存在下と非存在下で抗体配列のスコアに一般的な相関傾向があることを示す(図12C)。さらに、良好なスコアで選択された配列の大きな集団は、ここで使用される抗VEGFのVH CDR3のような結合モチーフの足場を安定化するのに好ましい。 We have identified that many sequences suitable for stabilizing the target antibody scaffold also stabilize specific antibody-antigen complexes, even for V H CDR3 that are directly involved in binding to the antigen. Has been found to be one of the selected candidates. Correlation analysis shows that there is a general correlation trend in antibody sequence scores in the presence and absence of antigen (FIG. 12C). Furthermore, a large population of sequences selected with a good score is preferred to stabilize a binding motif scaffold such as the anti-VEGF V H CDR3 used herein.

複雑な構造無しでも、抗体構造単独で、抗原の正しい結合部位を有しながら、標的足場を安定化する配列の集団を与えることができることに注意されたい。抗原結合によるコンフォメーション変化が観察されているが、コンフォメーション変化が多くの可能な解答のうちの唯一のものかまたは抗原−抗体相互作用の絶対的な必要性であるかは不明である。目標は、このコンフォメーションシフトを受けない限りは結合構造が必要条件ではなくなるように、機能性タンパク質を形成する可能性のある配列の集合を同定することである。結合および非結合状態での抗体の利用可能な構造に基づくと、これは好ましい仮定である。これらが同じファミリーの集合構造に属する限りは、ここで取ったアプローチ(19Aを参照)で、少なくとも一部の構造の変動が許される。   Note that even without complex structures, antibody structures alone can provide a population of sequences that stabilize the target scaffold while having the correct binding site for the antigen. Although conformational changes due to antigen binding have been observed, it is unclear whether conformational changes are the only one of many possible solutions or the absolute need for antigen-antibody interactions. The goal is to identify a set of sequences that can form a functional protein so that the binding structure is not a requirement unless it undergoes this conformational shift. This is a preferred assumption based on the available structure of the antibody in bound and unbound states. As long as they belong to the same family assembly structure, the approach taken here (see 19A) allows at least some structural variations.

あるいは、リード抗体の構造が利用可能ではないなら、鋳型をモデル化により作成してもよい。抗体構造または構造モチーフは、相同性モデル化を使用して比較的自信を持って構造モデルが作成されるタンパク質の最もよく知られている例の一部である。すなわち、リード構造鋳型を使用することなく、リード配列の配列ライブラリーを標的化することが可能である。実施例の欄に示すように、標的モチーフをカバーする配列ライブラリーのストレッチが合成でき、リード抗体の構造に依存することなく高親和性を有する抗体についてスクリーニングするのに使用することができる。   Alternatively, if the lead antibody structure is not available, the template may be created by modeling. Antibody structures or structural motifs are some of the best known examples of proteins for which structural models are relatively confidently created using homology modeling. That is, it is possible to target a sequence library of lead sequences without using a lead structure template. As shown in the Examples section, a stretch of sequence library covering the target motif can be synthesized and used to screen for antibodies with high affinity without depending on the structure of the lead antibody.

5) 構造的コンピューターエンジン
リード構造鋳型に対してライブラリーをモデル化し評価するのに多くのプログラムが利用できる。例えばこれらの目的に分子力学ソフトウェアが使用され、さらなる例には、特に限定されないが、CONGEN、SCWRL、UHBD、GENPOLおよびAMBERがある。
5) Structural computer engine Many programs are available to model and evaluate libraries against lead structural templates. For example, molecular mechanics software is used for these purposes, and further examples include, but are not limited to, CONGEN, SCWRL, UHBD, GENPOL, and AMBER.

CONGEN(CONformation GENerator)は、タンパク質のセグメントについてコンフォメーション検索を行うためのプログラムである(R.E. Bruccoleri (1993) Molecular Simulations 10, 151-174 (1993); R.E. Bruccoleri, E. Haber, J. Novotny, (1998) Nature 335, 564-568 (1988); R. Bruccoleri, M. Karplus. (1987) Biopolymers 26, 137-168)。これは、既知の構造中に決定されていないループまたはセグメントを構築(すなわち相同性モデル化)する必要がある場合の問題に最も適している。このプログラムは、CHARMMバージョン16の修正版であり、CHARMMバージョンのほとんどの機能を有する(Brooks BR, Bruccoleri BE, Olafson BD, States DJ, Swaminathan S, Karplus M. (1983) J. Comput. Chem. 4, 187-217)。   CONGEN (CONformation GENerator) is a program for performing conformational search on protein segments (RE Bruccoleri (1993) Molecular Simulations 10, 151-174 (1993); RE Bruccoleri, E. Haber, J. Novotny, ( 1998) Nature 335, 564-568 (1988); R. Bruccoleri, M. Karplus. (1987) Biopolymers 26, 137-168). This is best suited to the problem when it is necessary to build loops or segments that are not determined in a known structure (ie, homology modeling). This program is a modified version of CHARMM version 16 and has most of the functions of the CHARMM version (Brooks BR, Bruccoleri BE, Olafson BD, States DJ, Swaminathan S, Karplus M. (1983) J. Comput. Chem. 4 , 187-217).

使用される基礎エネルギー関数は、結合、角度、ねじれ角、特異角、ファンデアワールスおよび距離依存性誘電率を有する静電相互作用についての項を含み、CONGENを使用して測定できるAmber94フォースフィールドを使用する。(実施例の欄を参照)。   The fundamental energy function used includes terms for electrostatic interactions with binding, angle, torsional angle, singular angle, van der Waals and distance-dependent dielectric constant, and an Amber94 force field that can be measured using CONGEN. use. (See Example section).

CONGENプログラムは、最も低いエネルギーを有する天然に存在する構造に近いかまたはこれと対応する低エネルギーコンフォーマーを検索するために使用される(BruccoleriとKarplus (1987) Biopolymers 26:137-168; およびBruccoleriとNovotny (1992) Immunomethods 96-106)。正確なGibbs関数と短いループ配列があると、ループのすべての立体化学的に許容される構造を作成でき、そのエネルギーを計算することができる。低いエネルギーを有するものが選択される。   The CONGEN program is used to search for low energy conformers that are close to or correspond to the naturally occurring structure with the lowest energy (Bruccoleri and Karplus (1987) Biopolymers 26: 137-168; and Bruccoleri And Novotny (1992) Immunomethods 96-106). With an accurate Gibbs function and a short loop sequence, all the stereochemically acceptable structures of the loop can be created and its energy calculated. Those with low energy are selected.

このプログラムは、基礎的または改良スコア化関数を使用して、コンフォメーション検索と構造評価の両方を行うのに使用することができる。プログラムは、分子の他の性質(例えば溶媒がアクセスできる表面およびコンフォメーションエントロピー、ある立体的制約など)を計算することができる。これらの性質のそれぞれは後述の他の性質と組合せて、デジタルライブラリーをスコア化するのに使用することができる。   This program can be used to perform both conformational searching and structural evaluation using basic or improved scoring functions. The program can calculate other properties of the molecule, such as solvent accessible surface and conformational entropy, certain steric constraints, and the like. Each of these properties can be used in combination with other properties described below to score a digital library.

本発明において、VH CDR3以外の5つのCDR(VL CDR1、2、および3、およびVH CDR1、および2)の規定された標準構造。VH CDR3は、その長さとコンフォメーションが大きく変化することが知られているが、PDB(タンパク質データバンク(Protein Data Bank))データベースでより多くの抗体構造が利用できるようになっているため、そのコンフォメーションのモデル化が進展している。CONGENは、標準構造が利用できない場合に、ループ領域(例えば、VH CDR3)のコンフォメーションを作成して、鋳型配列の側鎖を標的アミノ酸の対応する側鎖ロタマーで置換するのに使用される。第3に、モデルはさらに構造モデルの立体的不一致とひずみを緩和するために、エネルギー最小化または分子動力学シミュレーションまたは他のプロトコールにより最適化することができる。 In the present invention, a defined standard structure of five CDRs (V L CDR1, 2, and 3, and V H CDR1, and 2) other than V H CDR3. V H CDR3 is known to vary greatly in length and conformation, but because more antibody structures are available in the PDB (Protein Data Bank) database, The modeling of the conformation is progressing. CONGEN is used to create a conformation of the loop region (eg, V H CDR3) and replace the side chain of the template sequence with the corresponding side chain rotamer of the target amino acid when the standard structure is not available . Third, the model can be further optimized by energy minimization or molecular dynamics simulation or other protocols to mitigate steric mismatch and strain of the structural model.

SCWRLは、側鎖配置プログラムであり、骨格依存性ロタマーライブラリーを使用して側鎖ロタマーやロタマーの組合せを作成することができる(Dunbrack RL Jr, Karplus M (1993) J Mol Biol 230:543-574;Bower, MJ, Cohen FE, Dunbrack RL (1997) J Mol Biol 267, 1268-1282)。このライブラリーは、カイ1-カイ2-カイ3-カイ4 値のリストと、あるファイ−プサイ値での残基の相対的確率を提供する。このプログラムはさらに、これらのコンフォメーションを調べて側鎖−骨格の不一致や側鎖−側鎖不一致を小さくすることができる。いったん立体的不一致が最小にされると、置換されたセグメントの側鎖と骨格はエネルギーを最小にして、CONGENを使用して局所的ひずみを緩和することができる(BruccoleriとKarplus (1987) Biopolymers 26:137-168)。   SCWRL is a side chain configuration program that can create side chain rotamers and combinations of rotamers using a backbone-dependent rotamer library (Dunbrack RL Jr, Karplus M (1993) J Mol Biol 230: 543- 574; Bower, MJ, Cohen FE, Dunbrack RL (1997) J Mol Biol 267, 1268-1282). This library provides a list of Cai 1 -Cai 2 -Cai 3 -Cai 4 values and the relative probabilities of residues at a certain Phai sai value. The program can also examine these conformations to reduce side chain-backbone mismatches or side chain-side chain mismatches. Once the steric mismatch is minimized, the side chains and backbone of the substituted segment can minimize energy and use CONGEN to mitigate local strain (Bruccoleri and Karplus (1987) Biopolymers 26 : 137-168).

抗体構造を構築するために特異的に開発されたいくつかの自動プログラムが、本発明の抗体の構造モデル化で使用される。ABGENプログラムは、抗体断片の構造モデルを得るための自動抗体構造作成アルゴリズムである。Mandalら(1996) Nature Biotech. 14:332-328。ABGENは、相同性ベースの足場技術を利用し、不変の厳密に保存された残基、既知のFabの構造モチーフ、超可変ループの標準的特徴、残基置換のねじれひずみ、および主要な残基間相互作用の使用を含む。具体的には、ABGENアルゴリズムは、2つの主要なモジュール(ABalignとABbuild)からなる。ABalignは、その構造が既知の抗体のすべてのV領域配列を有する抗体配列の整列を提供し、整列スコアを計算する。最も高いスコアのライブラリー配列は、試験配列に最もフィットすると考えられる。ABbuildは次に、この最適フィットモデル出力をABalignにより使用して、3次元構造を作成し、所望の抗体配列についてデカルト座標を提供する。   Several automated programs specifically developed to construct antibody structures are used in the structural modeling of the antibodies of the present invention. The ABGEN program is an automatic antibody structure creation algorithm for obtaining a structure model of an antibody fragment. Mandal et al. (1996) Nature Biotech. 14: 332-328. ABGEN utilizes homology-based scaffolding techniques, invariant strictly conserved residues, known Fab structural motifs, standard features of hypervariable loops, twist distortion of residue substitutions, and key residues Including the use of interactions. Specifically, the ABGEN algorithm consists of two main modules (ABalign and ABbuild). ABalign provides an alignment of antibody sequences with all V region sequences of antibodies whose structure is known and calculates the alignment score. The library sequence with the highest score is considered the best fit for the test sequence. ABbuild then uses this optimal fit model output by ABalign to create a three-dimensional structure and provide Cartesian coordinates for the desired antibody sequence.

WAM(Whitelegg NRJ とRees, AR (2000) Protein Engineering 13, 819-824)は、ABMの改良版であり、組合せアルゴリズム(Martin, ACR, Cheetham, JC, およびRees AR (1989) PNAS 86, 9268-9272)を使用して、X線PDBデータベースからのCDRループの標準コンフォメーションと、CONGENを使用して作成したループコンフォメーションとを使用して、CDRコンフォメーションをモデル化する。簡単に説明すると、抗体構造のモジュール性は、タンパク質相同性モデル化と構造予測の組合せを使用して、その構造をモデル化することを可能にする。   WAM (Whitelegg NRJ and Rees, AR (2000) Protein Engineering 13, 819-824) is an improved version of ABM, combining algorithms (Martin, ACR, Cheetham, JC, and Rees AR (1989) PNAS 86, 9268- 9272) to model a CDR conformation using a standard conformation of CDR loops from an X-ray PDB database and a loop conformation created using CONGEN. Briefly, the modularity of antibody structure allows the structure to be modeled using a combination of protein homology modeling and structure prediction.

好適な実施態様において以下の方法が、抗体構造をモデル化するために使用される。抗体は配列と構造の両方が最もよく保存されているタンパク質の1つであるため、抗体の相同性モデルは比較的簡単であるが、既存の標準構造または挿入もしくは欠失のある構造内でまだ決定されていないいくつかのCDRループを除く。しかしこれらのループは、相同性モデル化とコンフォメーション検索を組合せるアルゴリズムを使用してモデル化することができる(例えば、CONGENはそのような目的に使用することができる)。   In a preferred embodiment, the following method is used to model antibody structure. Since antibodies are one of the most conserved proteins, both in sequence and structure, antibody homology models are relatively simple, but are still within existing standard structures or structures with insertions or deletions. Exclude some CDR loops that have not been determined. However, these loops can be modeled using algorithms that combine homology modeling and conformational search (eg, CONGEN can be used for such purposes).

CDRの5つ(L1、2、3およびH1、2)について規定された標準構造が使用される。可変重鎖中のH3(すなわち、VH CDR3)は、その長さとコンフォメーションが大きく変動することが知られているが、より多くの抗体構造が利用できるようになるにつれてそのコンフォメーションのモデル化が進展している。モデル化法には、タンパク質構造予測法、例えばスレッディング、および比較モデル化があり、これは、類似性モデル化配列に基づいて未知の構造の配列を少なくとも1つの既知の構造と整列させる。この新規(de novo)または最初からの(ab initio)方法はまた、配列のみから構造を予測することを有望にしている。未知のループコンフォメーションは、標準構造が利用できない場合は、CONGENを使用して試験することができる(Bruccoleri, E. Haber, J. Novotny, (1998) Nature 355, 564-568)。あるいは最初からの(ab initio)方法(特に限定されないが、Rosetta ab initio法を含む)を使用して、モデル化された配列と任意の既知の構造との折り畳みレベルの類似性に依存せずに、抗体CDR構造を予測することができる(Bonneau R, Tsai J, Ruczinski I, Chivian D, Rohl C, StraussCE, Baker D (2001) proteins Suppl 5, 119-126)。最新の明確な溶媒分子動力学と不明確な溶媒フリーエネルギー計算を使用するより正確な方法を使用して、CONGENまたはRosseta ab initio法から作成したモデルから未変性様構造を改良し選択することができる(Lee MR, Tsai J, Baker D, Kollman PA (2001) J Mol Biol 313, 417-430)。 A standard structure defined for five of the CDRs (L1, 2, 3 and H1, 2) is used. H3 in the variable heavy chain (ie, V H CDR3) is known to vary greatly in length and conformation, but modeling its conformation as more antibody structures become available Is progressing. Modeling methods include protein structure prediction methods such as threading and comparative modeling, which aligns an unknown structure sequence with at least one known structure based on a similarity modeling sequence. This de novo or ab initio method also makes it promising to predict structure from sequences alone. Unknown loop conformations can be tested using CONGEN when standard structures are not available (Bruccoleri, E. Haber, J. Novotny, (1998) Nature 355, 564-568). Or use the ab initio method (including but not limited to Rosetta ab initio method) without depending on the folding level similarity between the modeled sequence and any known structure The antibody CDR structure can be predicted (Bonneau R, Tsai J, Ruczinski I, Chivian D, Rohl C, Strauss CE, Baker D (2001) proteins Suppl 5, 119-126). Improve and select native-like structures from models created from CONGEN or Rosseta ab initio methods, using more accurate methods using the latest explicit solvent molecular dynamics and indeterminate solvent-free energy calculations (Lee MR, Tsai J, Baker D, Kollman PA (2001) J Mol Biol 313, 417-430).

ここで使用されるX線構造(1BJ1および/または1CZ8)または上記のモデル化された構造を、後述の実験によるスクリーニングのための抗体ライブラリーを設計するための構造鋳型として使用することができる。   The X-ray structure used here (1BJ1 and / or 1CZ8) or the modeled structure described above can be used as a structural template for designing antibody libraries for screening by experiments described below.

6) 構造評価のためのスコア化関数
本発明のある実施態様において上記セクション3と4に記載の配列評価プロセスからの選択された配列の構造評価のために、コンピューターによる分析が使用される。この評価は、経験的かつパラメータ化したスコア化関数に基づき、以後の必要なin vitroスクリーニングの数を減少させることを目的とする。
6) Scoring function for structural evaluation In one embodiment of the present invention, computational analysis is used for structural evaluation of selected sequences from the sequence evaluation process described in Sections 3 and 4 above. This assessment is based on an empirical and parameterized scoring function and aims to reduce the number of subsequent in vitro screens required.

このアプローチは、既存の構造鋳型を使用して、作成されたすべてのアミノ酸ライブラリーをスコア化する。抗体−抗原相互作用を評価するための鋳型として既知の構造を使用することは以下を仮定している、(i) 抗体と抗原分子の構造は、結合および遊離の状態で大きく変化しない、(ii) CDR中の変異は、全体ならびに局所的構造を大きく変化させない、および(iii) CDR中の変異によるエネルギー作用は局在化されており、スコア化して変異と直接関連する機能を評価することができる。既知の構造を鋳型として有する利点は、これが、モデル化構造を使用するより困難なアプローチと比較して、設計改良の良好な出発点となることができる点である。これらの配列ヒットのエネルギー分布は、これらが如何にうまく、その標的との構造適合性の点で標的足場の一致関数をカバーしているかを明らかにするはずである。   This approach uses an existing structural template to score all created amino acid libraries. Using a known structure as a template for assessing antibody-antigen interaction assumes the following: (i) The structure of the antibody and antigen molecule does not change significantly in the bound and free state, (ii ) Mutations in CDRs do not significantly alter overall and local structure, and (iii) The energy effects of mutations in CDRs are localized and can be scored to evaluate functions directly associated with the mutation it can. The advantage of having a known structure as a template is that it can be a good starting point for design improvement compared to the more difficult approach using modeled structures. The energy distribution of these sequence hits should reveal how well they cover the matching function of the target scaffold in terms of structural compatibility with its target.

上記仮定は必ず、変異体の構造の不確実性のために誤差を招くため、変異体は構造を変化させたなら、精巧なスコア化関数でも有意義な予測ができない可能性がある。実施例の欄に示すように、抗VEGF抗体のモデル系において最初の計算で、一般的なしかしよく試験されたフォースフィールド(後述)を使用した。これは、一致背景の好適な領域を、実験的に実施した集合配列を試験することにより調べることができる場合、一般的に具体的な系に持ち込まれる偏りを避けることができる。しかし本発明は、構造評価のための精巧なスコア化関数の使用を排除しない。   The above assumptions always introduce errors due to the uncertainty in the structure of the mutant, so if the mutant changes its structure, a sophisticated scoring function may not be able to make a meaningful prediction. As shown in the Examples section, a general but well-tested force field (described below) was used in the first calculations in the model system for anti-VEGF antibodies. This can generally avoid bias introduced into a specific system if suitable regions of matching background can be examined by examining experimentally implemented collection sequences. However, the present invention does not exclude the use of sophisticated scoring functions for structure evaluation.

配列と構造との適合性をスコア化するために、多くのエネルギー関数を使用することができる。典型的には4種類のエネルギー関数を使用することができる:(1) 経験的物理的化学フォースフィールド、例えば単純なモデル化合物から得られる後述の標準的分子力学的フォースフィールド;(2) タンパク質構造から抽出される知識ベースの統計的フォースフィールド、いわゆる構造ベースの配列プロフィール化から得られる平均フォースの電位またはスレッディングスコア;(3) 実験的モデル系を使用してフォースフィールドパラメータをフィッティングすることによるパラメータ化フォースフィールド;(4) 各項につ種々の加重因子のある(1)〜(3)の1つまたはいくつかの項の組合せ。   A number of energy functions can be used to score the fitness between the sequence and the structure. Typically four types of energy functions can be used: (1) Empirical physical chemical force fields, eg standard molecular mechanical force fields described below from simple model compounds; (2) Protein structure Knowledge-based statistical force field extracted from the so-called structure-based sequence profiling potential or threading score of average force; (3) parameters by fitting force field parameters using an experimental model system (4) A combination of one or several terms from (1) to (3) with various weighting factors in each term.

以下は、スコア化関数に使用または取り込むすることができる一部の充分試験された物理的−化学的フォースフィールドである。例えばamber94は後述の実施例で配列−構造適合性をスコア化するためにCONGENで使用された。フォースフィールドには、特に限定されないが以下のフォースフィールドを含み、これらは当業者により広く使用されている:Amber 94 (Cornell, WD, Cieplak P, Bayly CI, Gould IR, Merz KM Jr, Ferguson DM, Spellmeyer DC. Fox T, Caldwell JW および Kollman PA. JACS (1995) 117, 5179-5197 (1995); CHARMM (Brooks, B.R., Bruccoleri, R.E., Olafson, B.D., States, D.J.. Swaminathan, S., Karplus, M. (1983) J. Comp. Chem. 4, 187-217.; MacKerell, A D ; Bashford, D; Bellott, M; Dunbrack, R L; Eva seck, J D; Field, M J; Fischer, S; Gao, J; Guo, H; Ha, S; JosephMcCarthy, D; Kuc nir. L; Kuczera, K; Lau, F T K; Mattos, C; Michnick, S; Ngo, T; Nguyen, D T; Pro hom, B; Reiher, W E; Roux, B; Schlenkrich, M; Smith, J C; Stote, R; Straub. J; Watanabe, M; WiorkiewiczKuczera, J; Yin, D; Karplus, M (1998) J. Phys. Chem., B 102, 3586-3617); Discover CVFF (Dauber-Osguthorpe, P.; Roberts. V. A.; Osguthorpe, D. J.; Wolff, J.; Genest, M.; Hagler, A. T. (1988) Proteins: Structure, Function and Genetics, 4, 31-47.); ECEPP (Momany, F. A., McGuire, R. F.. Burgess, A. W., & Scheraga, H. A., (1975) J. Phys. Chem. 79, 2361-2381.; Nemethy. G., Pottle, M. S., & Scheraga, H. A., (1983) J. Phys. Chem. 87, 1883-1887); GROMOS (Hermans. J., Berendsen, H. J. C., van Gunsteren, W. F., & Postma, J. P. M., (1984) Biopolymers 23, 1); MMFF94 (Halgren, T. A. (1992) J. Am. Chem. Soc. 114, 7827-7843.; Halgren, T. A. (1996) J. Comp. Chem 17, 490-519.; Halgren, T. A. (1996) J. Comp. Chem. 17, 520-552.; Halgren, T. A. (1996) J. Comp. Chem. 17, 553-586.; Halgren, T. A., および Nachbar, R. B. (1996) J. Comp. Chem. 17, 587-615.; Halgren, T. A. (1996) J. Comp. Chem. 17, 616-641.); OPLS (Jorgensen. W. L., & Tirado-Rives, J.,(1988) J. Am. Chem. Soc. 1lO, 1657-1666.; Damm, W., A. Frontera, J. Tirado-Rives および W. L Jorgensen (1997) J. Comp. Chem. 18, 1955-1970.); Tripos ,(Clark. M., Cramer 111, R. D., van Opdenhosch, N., (1989) Validation of the General Purpose Tripose 5.2 Force Field, J. Comp. Chem. 10, 982-1012.); MM3 (Lii, J-H., & Allinger, N. L. (1991) J. Comp. Chem. 12, 186-199). 例えば Dreiding (Mayo SL, Olafson BD, Goddard (1990) J Phy Chem 94, 8897-8909) 、またはタンパク質折り畳みまたはUNRES (United Residue Forcefield; Liwo ら、(1993) Protein Science 2, 1697-1714; Liwo ら、(1993) Protein Science 2, 1715-1731; Liwo ら、(1997) J. Comp. Chem. 18, 849-873; Liwo ら、(1997) J. Comp. Chem. 18:874-884; Liwo ら、(1998) J. Comp. Chem. 19:259-276.)のようなシミュレーションで使用した他の一般的フォースフィールドも使用される。   The following are some well-tested physical-chemical force fields that can be used or incorporated into the scoring function. For example, amber94 was used in CONGEN to score sequence-structure compatibility in the examples below. Force fields include, but are not limited to, the following force fields, which are widely used by those skilled in the art: Amber 94 (Cornell, WD, Cieplak P, Bayly CI, Gould IR, Merz KM Jr, Ferguson DM, Spellmeyer DC. Fox T, Caldwell JW and Kollman PA. JACS (1995) 117, 5179-5197 (1995); CHARMM (Brooks, BR, Bruccoleri, RE, Olafson, BD, States, DJ. Swaminathan, S., Karplus, M. (1983) J. Comp. Chem. 4, 187-217 .; MacKerell, AD; Bashford, D; Bellott, M; Dunbrack, RL; Eva seck, JD; Field, MJ; Fischer, S; Gao, J Guo, H; Ha, S; JosephMcCarthy, D; Kuc nir. L; Kuczera, K; Lau, FTK; Mattos, C; Michnick, S; Ngo, T; Nguyen, DT; Pro hom, B; Reiher, WE Roux, B; Schlenkrich, M; Smith, JC; Stote, R; Straub. J; Watanabe, M; WiorkiewiczKuczera, J; Yin, D; Karplus, M (1998) J. Phys. Chem., B 102, 3586 -3617); Discover CVFF (Dauber-Osguthorpe, P .; Roberts.VA; Osguthorpe, DJ; Wolff, J .; Genest, M .; Hagler, AT (1988) Proteins: Structure, Function and Genetics, 4, 31-47.); ECEPP (Momany, FA, McGuire, RF. Burgess, AW, & Scheraga, HA, (1975) J. Phys. Chem. 79, 2361-2381 .; Nemethy G., Pottle, MS, & Scheraga, HA, (1983) J. Phys. Chem. 87, 1883-1887); GROMOS (Hermans. J., Berendsen, HJC, van Gunsteren, WF, & Postma, JPM, (1984) Biopolymers 23, 1); MMFF94 (Halgren, TA (1992) J. Am. Chem. Soc. 114, 7827-7843 .; Halgren, TA (1996) J. Comp. Chem 17, 490-519 .; Halgren, TA (1996) J. Comp. Chem. 17, 520-552 .; Halgren, TA (1996) J. Comp. Chem. 17, 553-586 .; Halgren, TA, and Nachbar, RB (1996) J Comp. Chem. 17, 587-615 .; Halgren, TA (1996) J. Comp. Chem. 17, 616-641.); OPLS (Jorgensen. WL, & Tirado-Rives, J., (1988) J Am. Chem. Soc. 1lO, 1657-1666 .; Damm, W., A. Frontera, J. Tirado-Rives and W. L Jorgensen (1997) J. Comp. Chem. 18, 1955-1970.); Tripos, (Clark. M., Cramer 111, RD, van Opdenhosch, N., (1989) Validation of the General Purpose Tripose 5.2 F orce Field, J. Comp. Chem. 10, 982-1012.); MM3 (Lii, JH., & Allinger, NL (1991) J. Comp. Chem. 12, 186-199). For example, Dreiding (Mayo SL, Olafson BD, Goddard (1990) J Phy Chem 94, 8897-8909), or protein folding or UNRES (United Residue Forcefield; Liwo et al., (1993) Protein Science 2, 1697-1714; Liwo et al., (1993) Protein Science 2 , 1715-1731; Liwo et al., (1997) J. Comp. Chem. 18, 849-873; Liwo et al., (1997) J. Comp. Chem. 18: 874-884; Liwo et al., (1998) J. Comp Other general force fields used in simulations such as Chem. 19: 259-276.) Are also used.

タンパク質構造から得られる統計的電位も、配列とタンパク質構造の間の適合性を評価するのに使用することができる。これらの電位には、特に限定されないが、残基対電位がある(Miyazawa S, Jernigan R (1985) Macromolecules 18, 534-552; Jernrgan RL, Bahar, I (1996) Curr. Opin. Struc. Biol. 6, 195-209)。平均フォースの電位(Hendlich ら、(1990) J. Mol. Biol. 216, 167-180)は、タンパク質のコンフォメーション集合を計算するのに使用されている(Sippl M (1990) J Mol Biol. 213, 859-883)。しかし、これらのフォースフィールドのある程度の限界も考察される(Thomas PD, Dill KA (1996) J Mol Biol 257, 457-469; Ben-Naim A (1997) J Chem Phys 107, 3698-3706)。   Statistical potentials obtained from protein structures can also be used to assess the compatibility between sequences and protein structures. These potentials include, but are not limited to, residue pair potentials (Miyazawa S, Jernigan R (1985) Macromolecules 18, 534-552; Jernrgan RL, Bahar, I (1996) Curr. Opin. Struc. Biol. 6, 195-209). The mean force potential (Hendlich et al. (1990) J. Mol. Biol. 216, 167-180) has been used to calculate the conformational set of proteins (Sippl M (1990) J Mol Biol. 213). , 859-883). However, some limitations of these force fields are also considered (Thomas PD, Dill KA (1996) J Mol Biol 257, 457-469; Ben-Naim A (1997) J Chem Phys 107, 3698-3706).

配列と構造の間の適合性をスコア化する他の方法は、配列プロフィール化(Bowie JU, Luthy R, Eisenberg DA (1991) Science 253, 164-170)、またはスレッディングスコア(Jones DT, Taylor WR, Thornton JM (1992) Nature 358, 86-89; Bryant, SH, Lawrence, CE (1993) Proteins 16, 92-112; Rost B, Schneider R, Sander C (1997) J Mol Biol 270, 471-480; Xu Y, Xu D (2000) Proteins 40, 343-354)を使用することである。準化学近似またはボルツマン統計またはベイズの定理(Simons KT, Kooperberg C. Huang E, Baker D (1997) J Mol Biol 268, 209-225)に基づくこれらの統計的フォースフィールドは、配列と構造の一致またはタンパク質設計の配列の長所を評価するのに使用される(Dima RI. Banavar J R, Maritan A (2000) Protein Science 9, 812-819)。   Other methods for scoring fitness between sequences and structures are sequence profiling (Bowie JU, Luthy R, Eisenberg DA (1991) Science 253, 164-170), or threading scores (Jones DT, Taylor WR, Thornton JM (1992) Nature 358, 86-89; Bryant, SH, Lawrence, CE (1993) Proteins 16, 92-112; Rost B, Schneider R, Sander C (1997) J Mol Biol 270, 471-480; Xu Y, Xu D (2000) Proteins 40, 343-354). These statistical force fields based on quasichemical approximations or Boltzmann statistics or Bayes' theorem (Simons KT, Kooperberg C. Huang E, Baker D (1997) J Mol Biol 268, 209-225) It is used to evaluate the sequence advantages of protein design (Dima RI. Banavar JR, Maritan A (2000) Protein Science 9, 812-819).

さらに、タンパク質構造の熱力学安定性に関連する構造ベースの熱力学パラメータもまた、配列と構造の一致を評価するために使用される。構造ベースの熱力学的方法において、熱力学的量(例えば、熱容量、エンタルピー、エントロピー)は、タンパク質の構造に基づいて計算することができて、モデル化合物またはタンパク質熱量測定研究からの熱力学的データを使用して熱変性の温度依存性を説明することができる(Spolar RS, Livingstone JR, Record MT (1992) Biochemistry 31, 3947-3955; Spolar RS, Record MT (1994) Science 263, 777-784; Murphy KP, Freire E (1992) Adv Protein Chem 43, 313-361; Privalov PL, Makhatadze GI (1993) J Mol Biol 232, 660-679; Makhatadze GI, Privalov PL (1993) J Mol Biol 232, 639-659)。構造ベースの熱力学的パラメータを使用して、変異体配列と水素交換保護因子の構造安定性を集合ベースの統計的熱力学的アプローチを使用して計算することができる(Hilser VJ, Dowdy D, Oas TG. Freire E (1998) PNAS 95, 9903-9908)。タンパク質2次構造形成の統計的熱力学的モデルに関する熱力学的パラメータはまた、実験モデル系を使用して測定され、予測と実験データの間ですばらしい一致が得られている(Rohl CA, Baldwin RL (1998) Methods Enzymol 295, 1-26; Serrano L (2000) Adv Protein Chem 53, 49-85)。   In addition, structure-based thermodynamic parameters related to the thermodynamic stability of protein structures are also used to assess sequence and structure agreement. In structure-based thermodynamic methods, thermodynamic quantities (eg, heat capacity, enthalpy, entropy) can be calculated based on the structure of the protein, and thermodynamic data from model compounds or protein calorimetric studies. Can be used to explain the temperature dependence of heat denaturation (Spolar RS, Livingstone JR, Record MT (1992) Biochemistry 31, 3947-3955; Spolar RS, Record MT (1994) Science 263, 777-784; Murphy KP, Freire E (1992) Adv Protein Chem 43, 313-361; Privalov PL, Makhatadze GI (1993) J Mol Biol 232, 660-679; Makhatadze GI, Privalov PL (1993) J Mol Biol 232, 639-659 ). Using structure-based thermodynamic parameters, the structural stability of mutant sequences and hydrogen exchange protection factors can be calculated using a set-based statistical thermodynamic approach (Hilser VJ, Dowdy D, Oas TG. Freire E (1998) PNAS 95, 9903-9908). Thermodynamic parameters for statistical thermodynamic models of protein secondary structure formation have also been measured using experimental model systems, with excellent agreement between predictions and experimental data (Rohl CA, Baldwin RL (1998) Methods Enzymol 295, 1-26; Serrano L (2000) Adv Protein Chem 53, 49-85).

分子力学的フォースフィールドからの種々の項といくつかの特異的成分の組合せは、ほとんどタンパク質設計プログラムで使用されている。好適な実施態様においてフォースフィールドは、標準的分子力学フォースフィールド(例えば、Amber、Charmm、OPLS、cvff、ECEPP)からの1つまたはいくつかの項(例えば、vdw、水素結合、および静電相互作用)、および、タンパク質の安定性を制御すると考えられている1つまたはいくつかの項からなる。   The combination of various terms from the molecular dynamic force field and some specific components are mostly used in protein design programs. In preferred embodiments, the force field is one or several terms (eg, vdw, hydrogen bonds, and electrostatic interactions) from standard molecular mechanics force fields (eg, Amber, Charmm, OPLS, cvff, ECEPP). ) And one or several terms that are thought to control the stability of the protein.

スコア化関数を改良するために、追加のエネルギー項が後期工程で導入され、これは、実験結果からのずれと目的の特異的抗体−抗原相互作用の影響をより良く解決するためにスコア化関数を微調整することを可能にする。例えば、1つのエネルギー項は、アルギニン変異を不利にさせて、側鎖コンフォメーションの予測の不確実性による全体のスコアへの寄与を低下させ、アルギニンを好むこのスコア化関数の偏りを補償する。他のエネルギー項は、表面積計算に基づき、荷電および極性基をスコア化でき、その結果、露出された表面により、電荷の埋没に至る変異は不利にされる。   In order to improve the scoring function, an additional energy term was introduced in a later step, which is a scoring function to better resolve deviations from experimental results and the effects of the specific antibody-antigen interaction of interest. Makes it possible to tweak. For example, one energy term makes arginine mutations disadvantageous, reduces the contribution to the overall score due to the uncertainty in predicting side chain conformation, and compensates for this scoring function bias that favors arginine. Other energy terms can be scored for charged and polar groups based on surface area calculations, so that the exposed surface defeats mutations that lead to charge burial.

実際は、鋳型構造または構造集合体との配列の適合性をスコア化するのに使用できる多くのスコア化関数がある。改良されたスコア化関数は、いくつかの項(分子力学フォースフィールドを使用して計算される、静電相互作用およびファンデアワールス相互作用からの寄与ΔGMM、静電溶媒和および溶媒がアクセス可能な表面を含む溶媒和からの寄与ΔGsol、およびコンフォメーションエントロピーからの寄与を含む)からなる(Sharp KA. (1998) Proteins 33, 39-48; Novotny J. Bruccoleri RE, Davis M, Sharp KA (1997) J Mol Biol 268, 401-411)。   In fact, there are many scoring functions that can be used to score sequence suitability with a template structure or structure aggregate. The improved scoring function has several terms (contributed from electrostatic and van der Waals interactions, calculated using molecular mechanics force fields, ΔGMM, electrostatic solvation and solvent accessible (Including Sharp KA. (1998) Proteins 33, 39-48; Novotny J. Bruccoleri RE, Davis M, Sharp KA (1997) J Mol Biol 268, 401-411).

コンピューターによるスクリーニングの簡便で迅速な方法は、CONGENで実施されるようにAmber94のような分子力学的フォースフィールドからの項を含む基礎スコア化関数を使用して、エネルギー項の合計または組合せを使用して計算することである。
ΔEtotal = Ebond + Eangel + Edihed + Eimpr + Evdw + Eelec + Esolvation + Eotherまたは、結合フリーエネルギーは、改良スコア化関数
ΔGb = ΔGMM + ΔGsol - TΔSSSここで
ΔGMM = ΔGele + ΔGvdw (1)
ΔGsol = ΔGele-sol + ΔGASA (2)
を使用して、結合および非結合状態の差として計算される。
A convenient and rapid method of computational screening uses a sum or combination of energy terms, using a basic scoring function that includes terms from a molecular mechanical force field such as Amber94 as performed at CONGEN. Is to calculate.
ΔE total = E bond + E angel + E dihed + E impr + E vdw + E elec + E solvation + E other or bond free energy is an improved scoring function ΔG b = ΔG MM + ΔG sol -TΔS SS where ΔG MM = ΔG ele + ΔG vdw (1)
ΔG sol = ΔG ele-sol + ΔG ASA (2)
Is used as the difference between the bound and unbound states.

ΔGeleとΔGvdw(静電およびファンデアワールス相互作用エネルギー)は、ΔGMMについてCONGENで行ったamber94パラメータを使用して計算され、ここでΔGele-solは、絶縁境界の無いタンパク質中の不均一に分布した荷電を、タンパク質の形により規定される絶縁境界のある水相中に移動させるのに必要な市電溶媒和エネルギーである。これは、参照と変異体構造の静電電位についてのポアソン−ボルツマン式を解くことにより計算される。ΔGASA(非極性エネルギー)は、非極性溶質基を水性溶媒中に移動させるためのエネルギーコストであり、溶媒分子が再構築される。これは、分子の溶媒がアクセスできる表面と1次相関することが証明されている(Sitkoff D, Sharp, KA, Honig B (1994) J Phys Chem 98, 1978-1988; Pascual-Ahir & Silla (1990) J Comp Chem 11, 1047-1060)。 ΔG ele and ΔG vdw (electrostatic and van der Waals interaction energies) are calculated using the amber94 parameter made in CONGEN for ΔG MM , where ΔG ele-sol is the non-insulating protein The city solvation energy required to transfer a uniformly distributed charge into an aqueous phase with an insulating boundary defined by the protein shape. This is calculated by solving the Poisson-Boltzmann equation for the electrostatic potential of the reference and mutant structures. ΔG ASA (nonpolar energy) is the energy cost for transferring nonpolar solute groups into an aqueous solvent, where solvent molecules are reconstructed. This has been shown to be first-order correlated with the accessible surface of the molecular solvent (Sitkoff D, Sharp, KA, Honig B (1994) J Phys Chem 98, 1978-1988; Pascual-Ahir & Silla (1990 ) J Comp Chem 11, 1047-1060).

側鎖エントロピー(ΔSSS)の変化は、特に結合界面での、局所的側鎖コンフォメーション空間に対する作用の尺度である。これは、結合および非結合状態の許容された側鎖コンフォメーションの数の比から計算される。一般的スコア化目的に、種々の骨格コンフォメーション中の多重側鎖のコンフォメーション種特異性を試験して負荷される大きなコンピューターへの要求を避けるために、独立の側鎖近似を変異側鎖に適用する。   The change in side chain entropy (ΔSSS) is a measure of the effect on the local side chain conformation space, especially at the binding interface. This is calculated from the ratio of the number of allowed side chain conformations in the bound and unbound states. For general scoring purposes, to test the specificity of multiple side-chain conformation species in various backbone conformations to avoid the burden of large computational burdens, separate independent side-chain approximations to mutated side chains Apply.

ヒットライブラリーまたはヒット変種ライブラリー中の配列は、標的構造との構造的適合性について評価され、標的折り畳みのエネルギー背景上にマッピングされる。多数の変種は抗体足場を安定化することができるため抗VEGF抗体について、抗原の存在下および非存在下での抗体配列のスコアは一般的に関連している(図12Cを参照)。特に、標的エピトープに結合できる配列の有意な割合がある。実施例の欄に示すように、CDRライブラリー配列は、一致スコアに基づき、鋳型抗体−抗原複合体(1CZ8)の相対的安定性に基づきランク付けされ、実験的に選択された配列が同定される(図13A)。   The sequences in the hit library or hit variant library are evaluated for structural compatibility with the target structure and mapped onto the target folding energy background. For many anti-VEGF antibodies, the score of the antibody sequence in the presence and absence of antigen is generally relevant since many variants can stabilize the antibody scaffold (see FIG. 12C). In particular, there is a significant percentage of sequences that can bind to the target epitope. As shown in the Examples section, the CDR library sequences are ranked based on the match score, based on the relative stability of the template antibody-antigen complex (1CZ8), and experimentally selected sequences are identified. (FIG. 13A).

結合状態と非結合状態の両方の抗原中のスコアを測定して、いずれかの状態の極めて好ましくない配列を排除することは、有効であり、可能である。こうすることにより我々は、検索空間を有効に縮小させながら、結合および非結合状態の差を正確にスコア化する必要性を避けることができる。   It is useful and possible to measure scores in both bound and unbound antigens to eliminate highly undesired sequences in either state. By doing so, we can avoid the need to accurately score the difference between bound and unbound states while effectively reducing the search space.

スコア化関数は、ヒットライブラリー、ヒット変種ライブラリーIまたはヒット変種ライブラリーII中の配列をスコア化するのに使用され、かつ場合により、リード配列またはリード構造鋳型配列およびライブラリー配列の差が計算されて熱力学的サイクルが完了する。従って、以下の任意の基準に基づいて、さらなる実験的スクリーニングのために配列が選択される:1) 抗体構造の安定化においてリード配列より優れたスコアの配列が選択される;2) 抗体−抗原複合体の安定化においてリード配列より優れたスコアの配列が選択され;3) スコア化関数が大きい数の間の小さな差を充分に区別できるほど高感度なら、結合状態と非結合状態のスコアの差はリード配列より優れている。最後の基準は、高度に改良されたスコア化関数または高品質集合ベースのスコア化関数が利用できる時のみ、および好ましくは、スコア化関数の較正について高品質変異体データが利用できる系で、使用すべきである。   The scoring function is used to score sequences in the hit library, hit variant library I or hit variant library II, and optionally the difference between the lead sequence or the lead structure template sequence and the library sequence. Calculated to complete the thermodynamic cycle. Thus, a sequence is selected for further experimental screening based on any of the following criteria: 1) A sequence with a better score than the lead sequence is selected in stabilizing the antibody structure; 2) Antibody-antigen A sequence with a score better than the lead sequence is selected for stabilization of the complex; 3) If the scoring function is sensitive enough to distinguish small differences between large numbers, the score of the bound and unbound state will be The difference is superior to the lead arrangement. The last criterion is used only when highly improved scoring functions or high quality set-based scoring functions are available, and preferably in systems where high quality variant data is available for scoring function calibration Should.

リード配列より良いスコアの配列が分析され、異なるクラスターに分類される。クラスターの組合せは、充分な配列と構造空間をカバーし、これは一致背景中の所望の領域をカバーする(図7)。配列をクラスターしてスコア化窓を選択するこのアプローチは、物理的ライブラリーサイズを小さくするための試みとして見なされる。アプローチをクラスターする他の利点は、いくつかの離れたスコア化窓以後の核酸ライブラリー(例えば、核酸ライブラリーI、II、IIIなど、図7)の組合せはそれでも、リード配列よりスコアの良いかなりの配列および構造空間をカバーすることである。このクラスタリングプロセスの好ましい結果は、これらの配列クラスターのそれぞれは、組合せライブラリーよりはるかに小さい物理的ライブラリーサイズが必要なだけであるため、クラスターのそれぞれをコードする核酸ライブラリーは、in vitroまたはin vivoの完全なスクリーニングのために充分小さいことである。   Sequences with better scores than the lead sequence are analyzed and classified into different clusters. The combination of clusters covers sufficient sequence and structural space, which covers the desired area in the matching background (Figure 7). This approach of clustering sequences and selecting a scoring window is considered an attempt to reduce the physical library size. Another advantage of clustering the approach is that the combination of nucleic acid libraries (eg, nucleic acid libraries I, II, III, etc., FIG. 7) after several distant scoring windows is still much better scored than the lead sequence. Is to cover the array and structure space. The favorable result of this clustering process is that each of these sequence clusters only requires a much smaller physical library size than the combinatorial library, so the nucleic acid library that encodes each of the clusters is either in vitro or Small enough for complete in vivo screening.

本発明のある実施態様において、ヒット変種ライブラリーのスコア化は、所望の機能のために最適化した配列の集団を選択するために、およびヒット変種ライブラリーIIの出発設計を調製するために使用される。生じるヒット変種ライブラリーIIのスコア化は、修飾と設計増強の変種プロフィールへの影響を調べるために使用される。核酸ライブラリーから得られる(後述のセクション7に詳述)ヒット変種ライブラリーIIIはまた、ライブラリーの一致を決定、および分子標的の一致背景上に配列と構造空間をマッピングすることにおけるスコア化関数の有効性を評価するためにスコア化される。   In certain embodiments of the invention, hit variant library scoring is used to select a population of sequences optimized for the desired function and to prepare a starting design for hit variant library II. Is done. The resulting hit variant library II scoring is used to examine the effect of modification and design enhancement on the variant profile. Hit variant library III, derived from a nucleic acid library (detailed in section 7 below), also determines library matches, and scoring functions in mapping sequence and structure space onto molecular target match backgrounds Is scored to assess the effectiveness of.

具体的な実施態様において、MM項からの標準項は、静電溶媒和項と、静電溶媒和の連続的溶媒モデルを用いて計算された溶媒がアクセスできる溶媒和項とを含む溶媒和項と組合わされている;これらのMM-PBSAまたはMM-GBSA法は、骨格と側鎖を含むコンフォメーションエントロピーからの寄与とともに、フリーエネルギー変化において実験値と計算値の間で良好な相関を示している(Wang W, Kollman P (2OOO) J Mol Biol 303, 567-582)。タンパク質とドラッグデザインで使用される他のスコア化関数と比較して、MM-PBSAまたはMM-GBSAはスコア化のための良好な物理的モデルであり、一貫したアプローチにより種々の問題を扱うが、システムの集合平均を計算するのに、明確な水の中の分子動的シミュレーションから多重軌道が必要なためコンピューター的に高価になり、連続的溶媒モデルはコンピューター的に遅い。これらの正確な方法は、ライブラリースクリーニングに使用される単純なスコア化関数を較正するための、または単純な計算ではできないいくつかの困難な変異を研究するためのベンチマークを提供する。   In a specific embodiment, the standard term from the MM term includes an electrostatic solvation term and a solvation term accessible by the solvent calculated using a continuous solvent model of electrostatic solvation. These MM-PBSA or MM-GBSA methods show a good correlation between experimental and calculated values in free energy changes, with contributions from conformational entropy involving the backbone and side chains (Wang W, Kollman P (2OOO) J Mol Biol 303, 567-582). Compared to other scoring functions used in protein and drug design, MM-PBSA or MM-GBSA is a good physical model for scoring and handles a variety of issues with a consistent approach, To calculate the collective average of a system, multiple orbitals are required from a clear molecular dynamics simulation in water, making it computationally expensive, and the continuous solvent model is computationally slow. These accurate methods provide a benchmark for calibrating the simple scoring function used for library screening, or for studying some difficult mutations that are not possible with simple calculations.

7) タンパク質設計のフォースフィールドの例
タンパク質のコア内の正しいパッキング相互作用をスコア化するための重要な相互作用であるファンデアワールス(vdw)相互作用を使用して、計算で許容されたロタマー配列を試験することによりタンパク質コア配列を設計した(Ponder JW, Richards FM (1987) J Mol Biol 193, 775-791)。確率アルゴリズムを用いるシミュレートした進化を使用して、ポテンシャル関数下で一群の配列を選択することができる;タンパク質の疎水性コア中の残基について選択された配列のエネルギーのランク順序は、その生物活性とよく相関する(Hellinga HW, Richards FM (1994) PNAS 91, 5803-5807)。
7) Force field example of protein design Computationally allowed rotamer sequences using the van der Waals (vdw) interaction, a key interaction for scoring the correct packing interaction within the protein core The protein core sequence was designed by testing (Ponder JW, Richards FM (1987) J Mol Biol 193, 775-791). A simulated evolution using a stochastic algorithm can be used to select a group of sequences under the potential function; the rank order of the selected sequence's energy for the residues in the hydrophobic core of the protein is It correlates well with activity (Hellinga HW, Richards FM (1994) PNAS 91, 5803-5807).

推計アルゴリズムを使用してタンパク質を設計するのに、同様のアルゴリズムを使用した(Desjarlais J, Handel T, (1995) Protein Science 4, 2006-2018; Kono H, Doi J (1994) Proteins, 19, 244-255)。標的足場の設計配列へのポテンシャル関数の作用は、ファンデアワールス、静電学、および表面依存性半経験的環境フリーエネルギーまたは項の組合せを含めて、アミノ酸配列の組成を一定に維持する自動タンパク質設計法で評価されている。エネルギー関数の各追加項は、パッキングのためのvdw、折り畳み特異性のための静電作用、および疎水性残基の埋め込みのためのかつ親水性残基の露出のための環境的溶媒和項により、設計された配列の性能を漸進的に向上させることが証明された(Koehl P. Levitt M (1999) J Mol Biol 293, 1161-1811)。   A similar algorithm was used to design proteins using estimation algorithms (Desjarlais J, Handel T, (1995) Protein Science 4, 2006-2018; Kono H, Doi J (1994) Proteins, 19, 244 -255). The function of the potential function on the target scaffold design sequence is an automated protein that maintains a constant amino acid sequence composition, including van der Waals, electrostatics, and surface-dependent semi-empirical environment-free energy or a combination of terms It is evaluated by the design method. Each additional term of the energy function depends on vdw for packing, electrostatic action for folding specificity, and environmental solvation terms for embedding hydrophobic residues and for exposing hydrophilic residues. Has been shown to progressively improve the performance of designed sequences (Koehl P. Levitt M (1999) J Mol Biol 293, 1161-1811).

最適の解答を見つけるためにエネルギー表面を試験するのに自己矛盾のない平均フィールドアプローチが使用された(Delarue M, Koehl. (1997) Pac. Symp. Biocomput. 109-121; Koehl P, Delarue M, (1994) J. Mol. Biol. 239, 249-275; Koehl P, Delarue M (1995) Nat. Struct. Biol. 2, 163-170; Koehl P. Delarue M (1996) Curr. Opin. Struct. Biol. 6:222-226; Lee J. (1994) Mol. Biol. 236, 918-939; Vasquez (1995) Biopolymers 36, 53-70)。分子フィールド、知識ベースの統計的フォースフィールドおよび他の経験的補正からの項の組合せはまた、標的足場の未変性の配列に近いタンパク質配列を設計するのに使用されている(Kuhlman B, Baker D (2000) PNAS 97, 10383-l0388)。タンパク質コア設計の立体的反発以外に、構造ベースの熱力学的項が含められた(Jiang X. Farid H, Pistor E, Farid RS (2OOO) Protein Science 9, 403-416)。知識ベースのポテンシャルはタンパク質を設計するのに使用されている(Rossi A. Micheletti C, Seno F, Maritan A (2001) Biophysical Journal 80, 480-490)。   A self-consistent average field approach was used to test the energy surface to find the optimal solution (Delarue M, Koehl. (1997) Pac. Symp. Biocomput. 109-121; Koehl P, Delarue M, (1994) J. Mol. Biol. 239, 249-275; Koehl P, Delarue M (1995) Nat. Struct. Biol. 2, 163-170; Koehl P. Delarue M (1996) Curr. Opin. Struct. Biol 6: 222-226; Lee J. (1994) Mol. Biol. 236, 918-939; Vasquez (1995) Biopolymers 36, 53-70). Combinations of terms from molecular fields, knowledge-based statistical force fields and other empirical corrections have also been used to design protein sequences close to the native sequence of the target scaffold (Kuhlman B, Baker D (2000) PNAS 97, 10383-l0388). In addition to the steric repulsion of the protein core design, a structure-based thermodynamic term was included (Jiang X. Farid H, Pistor E, Farid RS (2OOO) Protein Science 9, 403-416). Knowledge-based potential has been used to design proteins (Rossi A. Micheletti C, Seno F, Maritan A (2001) Biophysical Journal 80, 480-490).

フォースフィールドはまた、特にタンパク質設計目的に行き止まり排除アルゴリズムと組合せて最適化されている(Dahiyat BI, Mayo SL (1996) Protein Science 5, 895-903)。エネルギー関数は、分子力学的エネルギー項と特異的な溶媒和項とを組合せる対の機能性型に分解され、コア、境界および表面位置の残基について使用される;行き止まり排除アルゴリズムは、大きな数のコンビナトリアルロタマー配列を調べるのに使用される。タンパク質設計に使用されるフォースフィールドと固定骨格を有する強固な逆折り畳みプロトコールとの厳密性は必然的に、高率の偽陰性結果を与えている;ソフトエネルギー関数または柔軟性のある骨格が可能なら許容されるであろう多くの配列が拒絶される。さらにタンパク質設計に使用されるエネルギー関数は、タンパク質折り畳みまたは安定性の研究に広く使用され試験されている一般的なフォースフィールド(例えばAmberまたはCharmm)とは極めて異なる(Gordon DB, Marshall SA, Mayo SL (1999) Curr Opin Stru Biol 9, 509-513)。タンパク質設計プロトコールに含まれる偽陰性の問題のために直接の比較は不可能かも知れないため、特定のプロトコールを使用して設計された配列を、別の方法からの配列と比較する時は注意をする必要がある。   Forcefield has also been optimized specifically in combination with dead end exclusion algorithms for protein design purposes (Dahiyat BI, Mayo SL (1996) Protein Science 5, 895-903). The energy function is broken down into pairs of functional types that combine molecular mechanical energy terms with specific solvation terms and used for residues at the core, boundary and surface positions; Used to examine the combinatorial rotamer sequence of The strictness of the force field used in protein design and a robust defolding protocol with a fixed backbone inevitably gives a high rate of false negative results; if a soft energy function or a flexible backbone is possible Many sequences that would be allowed are rejected. In addition, the energy function used for protein design is very different from common force fields (eg Amber or Charmm) that are widely used and tested for protein folding or stability studies (Gordon DB, Marshall SA, Mayo SL). (1999) Curr Opin Stru Biol 9, 509-513). Care should be taken when comparing sequences designed using a particular protocol with sequences from other methods, since a direct comparison may not be possible due to the false negatives involved in protein design protocols. There is a need to.

本発明者らは、ほとんど制限の無いタンパク質の設計にとって、タンパク質でにおける高い偽陰性率は問題ではないが、ほんのわずかに制限領域のみがタンパク質機能を改良するための改変配列を有することが許される薬学的応用のタンパク質の設計にとって、これは深刻な問題を提起すると考えている。例えば、実際にはVEGF抗体中のVH CDR3のほんの1つまたは2つの残基のみがその結合親和性を改良するのみであるが、VH CDR3には多くの変種が許容されるが、フレームワーク領域については、ヒト化のために数個の変異体が許容されるのみである。従って、標的領域中のこれらのわずかの変異体を同定するために、機能改良のために最も重要なことは、コンピューターによるスクリーニングのスケールまたはスピードではなく正確さである。
場合により、分子動力学または他のコンピューター法を使用して、配列をランク付けするのに使用される構造集合体や集合平均スコアを生成することができる(Kollman PA, Massova I, Reyes C, Kuhn B, Huo SH, Chong LT, Lee M. Lee TS, Duan Y, Wang W, Donini O, Cieplak P, Srinivasan P, Case DA, and Cheatham TE (2000) Acc. Chem Res. 33, 889-897)。集合構造体から計算される平均的性質は、実験測定からの対応するデータとより良好な相関を示す。
We do not have a high false negative rate in proteins for designing almost unlimited proteins, but only a few restriction regions are allowed to have modified sequences to improve protein function. We believe this poses a serious problem for the design of proteins for pharmaceutical applications. For example, only one or two residues of V H CDR3 in a VEGF antibody actually improve its binding affinity, but many variants are allowed for V H CDR3, but the frame For the work region, only a few variants are allowed for humanization. Thus, to identify these few variants in the target region, the most important for functional improvement is accuracy, not the scale or speed of the computer screening.
In some cases, molecular dynamics or other computational methods can be used to generate structural aggregates and aggregate average scores used to rank sequences (Kollman PA, Massova I, Reyes C, Kuhn B, Huo SH, Chong LT, Lee M. Lee TS, Duan Y, Wang W, Donini O, Cieplak P, Srinivasan P, Case DA, and Cheatham TE (2000) Acc. Chem Res. 33, 889-897). The average properties calculated from the aggregate structure show a better correlation with the corresponding data from experimental measurements.

6. リード構造鋳型に基づく変異体抗体ライブラリーの構築
あるいは、リード抗体の3D構造に基づき変異体抗体ライブラリーが直接構築され、次にin vitroまたはin vivoで所望の機能についてスクリーニングされる。このアプローチは、ヒット変種ライブラリーの構築を避けることにより近道をし、タンパク質データベースをスクリーニングすることにより構築されるヒットライブラリーからの配列を直接評価する。このアプローチは、図1Cまたは1E-Hに経路IIIとして記載されている。
6. Construction of Mutant Antibody Library Based on Lead Structure Template Alternatively, a mutant antibody library is constructed directly based on the 3D structure of the lead antibody and then screened for the desired function in vitro or in vivo. This approach takes a shortcut by avoiding the construction of hit variant libraries and directly evaluates sequences from hit libraries that are constructed by screening protein databases. This approach is described as pathway III in FIG. 1C or 1E-H.

セクション3に詳述されるように、ヒットライブラリーを構築するのにいくつかの方法がある。ヒットライブラリーを構築する1つの方法は、タンパク質データベースを検索して、変異すべき領域のアミノ酸配列、例えばリード抗体の重鎖のCDR3(CDR H3)と配列パターンが一致するセグメントを見つける。CDR H3配列と高い相同性を有する配列を検索するのに、従来のBLAST分析を使用してもよい。
場合により、PSI-BLASTを使用して、鋳型抗体のCDR H3の配列相同物を検索してもよい。
As detailed in Section 3, there are several ways to build a hit library. One way to construct a hit library is to search a protein database for a segment whose sequence pattern matches the amino acid sequence of the region to be mutated, eg, CDR3 (CDR H3) of the heavy chain of the lead antibody. Conventional BLAST analysis may be used to search for sequences with high homology with CDR H3 sequences.
In some cases, PSI-BLAST may be used to search for CDR H3 sequence homologues of the template antibody.

また場合により、単一の標的配列および/または多重配列整列を使用して、プロフィール陰れマルコフモデル(HMM)を構築してもよい。このHMMは次に、タンパク質配列データベース(例えばタンパク質のKabatデータベース、およびフレームワークのヒト生殖細胞系免疫グロブリンデータベース)からの近いおよび離れたヒト相同対の両方を検索するのに使用される。種々の種からの免疫学的関心のあるタンパク質のKabatデータベースは、CDRの多様な配列を設計するのに使用することができる。   In some cases, a single target sequence and / or multiple sequence alignment may also be used to construct a profile hidden Markov model (HMM). This HMM is then used to search both near and remote human homologous pairs from protein sequence databases (eg, the Kabat database of proteins and the human germline immunoglobulin database of frameworks). A Kabat database of proteins of immunological interest from various species can be used to design diverse sequences of CDRs.

配列整列またはその組合せのための任意の上記方法を使用して選択されるヒットライブラリー中の配列はプロフィール化して、鋳型抗体中の対応する領域(例えばCDR H3)の各位置のアミノ酸の種類とその出現頻度を比較することができる。
ヒットライブラリーの各メンバーは、鋳型抗体中の対応する領域(例えばCDR H3)に移植され、抗体の残りとの構造的適合性について、上記セクション5に記載のスコア化関数を使用して試験される。
The sequences in the hit library selected using any of the above methods for sequence alignment or combinations thereof are profiled to identify the amino acid type at each position in the corresponding region (eg CDR H3) in the template antibody and The appearance frequency can be compared.
Each member of the hit library is implanted into the corresponding region in the template antibody (eg CDR H3) and tested for structural compatibility with the rest of the antibody using the scoring function described in Section 5 above. The

同様のアプローチを使用して、リード抗体の異なる領域(例えば、重鎖と軽鎖のCDR1、CDR2)からのリード配列に基づいてヒットライブラリーが構築され、リード抗体の残りとの構造適合性について試験することができる。これらのライブラリーを組合せて、リード抗体の異なる領域への同時変異が可能になり、こうして変異体抗体ライブラリーの多様性が上昇する。   Using a similar approach, a hit library was constructed based on the lead sequences from different regions of the lead antibody (eg, heavy and light chain CDR1, CDR2) for structural compatibility with the rest of the lead antibody. Can be tested. Combining these libraries allows for simultaneous mutation of different regions of the lead antibody, thus increasing the diversity of the variant antibody library.

これらのプロセスで選択されたすべての変異体抗体配列はプールされ、in vitroまたはin vivoで標的抗原への高親和性結合についてスクリーニングされる。   All mutant antibody sequences selected in these processes are pooled and screened for high affinity binding to the target antigen in vitro or in vivo.

7. 実験によるスクリーニングのための核酸ライブラリーの構築
in vitroまたはin vivoの機能的スクリーニングを促進するために、本発明の上記方法を使用して選択されるアミノ酸配列をコードする核酸ライブラリーが構築される。核酸ライブラリーのサイズは、アミノ酸配列を選択しプロフィール化するための具体的な方法に依存して変化する。例えば、あまりにも多くのアミノ酸配列が選択され組換えられる場合は、核酸のサイズは>106に達しても良い。実験的に効率的で完全なスクリーニングを促進するために、アミノ酸配列の分割および再プロフィール化を行って、核酸ライブラリーのサイズが小さくされる。上記セクション5に記載のように、例えばヒット変種ライブラリーIIを作成するのに使用されるプロフィールはまた、in vitroもしくはin vivoの実験によるスクリーニングのための核酸ライブラリーのサイズを測定するのに使用される。
7. Construction of nucleic acid library for experimental screening
To facilitate in vitro or in vivo functional screening, nucleic acid libraries are constructed that encode amino acid sequences selected using the above methods of the invention. The size of a nucleic acid library varies depending on the specific method for selecting and profiling amino acid sequences. For example, if too many amino acid sequences are selected and recombined, the size of the nucleic acid may reach> 10 6 . In order to facilitate experimentally efficient and complete screening, amino acid sequence segmentation and reprofiles are performed to reduce the size of the nucleic acid library. As described in Section 5 above, for example, the profile used to create hit variant library II can also be used to measure the size of nucleic acid libraries for screening by in vitro or in vivo experiments. Is done.

図6は、選択されたアミノ酸残基のアミノ酸配列をコードする核酸ライブラリー、例えばヒット変種ライブラリーIIを構築するための方法の例を示す(図4と5)。核酸ライブラリーを構築するために、アミノ酸プロフィール中の変種は、ライブラリーサイズとコドン使用を考慮して、対応する核酸に逆翻訳される(図6)。   FIG. 6 shows an example of a method for constructing a nucleic acid library encoding the amino acid sequence of selected amino acid residues, eg, hit variant library II (FIGS. 4 and 5). To construct a nucleic acid library, variants in the amino acid profile are back-translated into the corresponding nucleic acid, taking into account the library size and codon usage (Figure 6).

例えば、あるアミノ酸ライブラリーの多様性をカバーする最も単純で最も小さい核酸ライブラリーを得るために、発現系で使用される唯一の好適なコドンがアミノ酸ライブラリーをコードするように選択される。対応するヌクレオチド位置変種プロフィール(NT-PVP)は、AA-PVPの逆翻訳から得られ、ヌクレオチドコンビナトリアル算出から核酸ライブラリーサイズが決定される。例えば、図13A〜Cを参照。このサイズが106未満である場合、核酸ライブラリーの合成(例えば、核酸ライブラリーI、II、IIIなど、図7)が行われ、次に実験によるスクリーニングが行われる。サイズが106より大きいなら、セクション2に配列空間またはプロフィールに記載されているように、ヒット変種ライブラリーIIはより短いライブラリーに分割されるか、またはスコア化分布を再試験して、新しいAA-PVPを作成して小ライブラリーサイズを生成する。 For example, to obtain the simplest and smallest nucleic acid library that covers the diversity of an amino acid library, the only suitable codon used in the expression system is selected to encode the amino acid library. The corresponding nucleotide position variant profile (NT-PVP) is obtained from back translation of AA-PVP and the nucleic acid library size is determined from nucleotide combinatorial calculations. See, for example, FIGS. If this size is less than 10 6 , a nucleic acid library is synthesized (eg, nucleic acid libraries I, II, III, etc., FIG. 7) and then screened by experiment. If the size is greater than 10 6, as described in sequence space or profile section 2, or the hit variant library II is divided into shorter library, or by re-testing the scoring distributions, new Create AA-PVP and generate small library size.

NT-PVPを使用することにより、選択された核酸配列を個々に合成することなく、縮重核酸ライブラリーを構築することができる。このアプローチでは、各位置についてヌクレオチドの異なる混合物を用いて自動オリゴヌクレオチド合成機をプログラミングすることにより、各ライブラリー(例えば、核酸I、II、IIIなど、図7)について1回の通過で核酸ライブラリーの合成を行うことができるため、コストと時間を節約してくれる。その結果、縮重核酸ライブラリーの配列空間は、有意に拡張して多様性が上昇する。核酸ライブラリー(ヒット変種ライブラリーIIIとして翻訳される)のサイズは、設計されたアミノ酸配列をコードするもの(例えばヒット変種ライブラリーII)より大きいが、縮重ライブラリー構築のこのアプローチは、設計された配列を含むのみでなく、元々の設計されたものと同等またはより優れている機能を有する新規配列を見つける可能性を上昇させる。   By using NT-PVP, a degenerate nucleic acid library can be constructed without individually synthesizing selected nucleic acid sequences. In this approach, each library (eg, nucleic acid I, II, III, etc., FIG. 7) is programmed in one pass for each live library by programming an automated oligonucleotide synthesizer with a different mixture of nucleotides for each position. The rally can be combined, which saves cost and time. As a result, the sequence space of the degenerate nucleic acid library is significantly expanded to increase diversity. Although the size of a nucleic acid library (translated as hit variant library III) is larger than that encoding the designed amino acid sequence (eg hit variant library II), this approach to degenerate library construction Increases the likelihood of finding new sequences that have functions that are equivalent to or better than those originally designed.

念のため、NT-PVPを使用して作成された核酸ライブラリーを、アミノ酸配列ライブラリーに逆翻訳してヒット変種ライブラリーIIIを作成し、エネルギー関数を使用してスコア化して、ヒット変種ライブラリーIIによりカバーされる配列と構造空間とライブラリーの一致を評価する(図13A)。最終的な評価には、ライブラリーの一致と、配列および構造空間を一致背景のマッピングにおけるスコア化関数の有効性とを証明するために、実験的選択データが必要である。   As a precaution, a nucleic acid library created using NT-PVP is back-translated into an amino acid sequence library to create hit variant library III, scored using an energy function, and hit variant live Assess the match between the sequence, structure space and library covered by Rally II (FIG. 13A). The final evaluation requires experimental selection data to prove the library match and the effectiveness of the scoring function in mapping sequence and structure space to match background.

8. 構造が利用できない変異体ライブラリーの構築
配列ライブラリーをより小さい成分に分割することにより、変異体ライブラリーを構築することができる。これは、低分解構造しか利用できないかまたは全く構造が利用できない場合も、有利である。配列を重複する連続的配列セグメントに分割することにより複合体ライブラリーが設計される。各断片は縮重核酸ライブラリーを用いて標的化することができる。低分解構造しか利用できないかまたは全く構造が利用できない場合も、構造が結合していることが測定される変種は、縮重核酸ライブラリーを使用して同時に標的化されることを注意されたい(後述の実施例を参照)。このアイデアはセクション2の7)に記載されており、後述の実施例で例示される(設計については図28A〜D、実験結果については図30と36を参照されたい)。
8. Construction of mutant libraries for which structure is not available Mutant libraries can be constructed by dividing the sequence library into smaller components. This is also advantageous when only low resolution structures are available or no structure is available at all. A complex library is designed by dividing the sequence into overlapping sequential sequence segments. Each fragment can be targeted using a degenerate nucleic acid library. Note that variants with measured structure binding are simultaneously targeted using a degenerate nucleic acid library, even if only low resolution structures are available or no structure is available at all ( See examples below). This idea is described in Section 2 7) and is illustrated in the examples below (see FIGS. 28A-D for design and FIGS. 30 and 36 for experimental results).

簡単に説明すると、配列変種ライブラリーは、以下のように小断片に分解される:構造が離れたセグメントはしばしば相関せず、その結果広く離れた変異は独立に処理されるが、空間で互いに結合する断片は、コンビナトリアル核酸ライブラリーにより同時に標的化すべきである。この場合、構造情報は好ましいが、絶対に必要ではないことに注意されたい(詳細については後述の実施例と図28A〜Dを参照)。   Briefly, a sequence variant library is broken down into small fragments as follows: Segments that are distant are often uncorrelated, so that widely separated mutations are processed independently, but are separated from each other in space. The binding fragments should be targeted simultaneously by the combinatorial nucleic acid library. Note that, in this case, structural information is preferred but not absolutely necessary (see examples below and FIGS. 28A-D for details).

本発明の利点
アミノ酸配列と構造モチーフの大きなコンビナトリアル空間を試験し、タンパク質間の分子間相互作用をスコア化することにより、アミノ酸配列のライブラリーをコンピューターでスクリーニングすることができる。ここで使用される特異的抗体−抗原複合体について、それぞれリード配列単独、抗体構造、および抗体と抗原の複合体構造に基づいて、抗体のいくつかのライブラリーが設計され構築される。すべてのライブラリーは、その配列および/または構造がリード抗体に偏りがある;その一部は複合体中の特異抗原に対する。すなわち抗体ライブラリーは、cDNAライブラリーからまたは特異抗体リードのランダム突然変異誘発からの抗体の集まりより、濃縮されており関連する。これらのライブラリーは、特異抗原を用いる親和性成熟について実験的にスクリーニングされる。CDR中のリード抗体配列とは異なる種々の配列が選択される(図16Aと27を参照)。選択された配列の一部は、リード抗体(または親抗体)より遅いオフレート(より高い親和性を示唆する)を示す。この中で、2つの変異体(図30と36を参照)(例えばH97Yおよび/またはS101T)が、文献で報告された親和性成熟したVH CDR3配列中の決定的に重要な変異体と同一であるが、1つの新規変異体(S101R)は、文献で報告されたS101Tより、2つの独立した実験系で測定すると、オフレートパニングが良好であった(Chen Y, Wlesmann C. Fuh G, Li B, Christinger HW, McKay P, de Vos AM (1999) J Mol Biol 293, 865-881)。
Advantages of the invention By testing a large combinatorial space of amino acid sequences and structural motifs and scoring intermolecular interactions between proteins, a library of amino acid sequences can be screened on a computer. For the specific antibody-antigen complexes used herein, several libraries of antibodies are designed and constructed based on the lead sequence alone, the antibody structure, and the antibody-antigen complex structure, respectively. All libraries are biased towards lead antibodies in their sequence and / or structure; some are directed to specific antigens in the complex. That is, the antibody library is enriched and related from a collection of antibodies from a cDNA library or from random mutagenesis of specific antibody leads. These libraries are screened experimentally for affinity maturation using specific antigens. Various sequences are selected that differ from the lead antibody sequence in the CDR (see FIGS. 16A and 27). Some of the selected sequences exhibit a slower off-rate (suggesting higher affinity) than the lead antibody (or parent antibody). Among them, two variants (see FIGS. 30 and 36) (eg H97Y and / or S101T) are identical to critically important variants in the affinity matured V H CDR3 sequence reported in the literature. However, one new mutant (S101R) showed better off-rate panning when measured in two independent experimental systems than S101T reported in the literature (Chen Y, Wlesmann C. Fuh G, Li B, Christinger HW, McKay P, de Vos AM (1999) J Mol Biol 293, 865-881).

本発明は、いくつかの面で有利であると考えられる。まずこのアプローチは、タンパク質の進化データを使用して、配列および構造空間の両方でヒットライブラリーを拡張する。進化的に濃縮された配列データベースからリード配列の近いならびに遠い相同体を検索するのに、単純なBLASTから強力になっていくプロフィールベースのアプローチ(例えばPSI-BLASTおよび/またはHAMMER)までの配列検索法が利用される。利用できるリード構造の多重配列整列に基づく配列プロフィールの使用は、伝統的な多重配列整列アプローチより多くの配列空間のサンプリングを可能にする。従ってここで使用した方法は、多様性、ならびに新規ヒットまたは結合親和性が上昇した変異体の組合せを見つける機会を上昇させる。   The present invention is considered advantageous in several aspects. First, this approach uses protein evolution data to extend the hit library in both sequence and structure space. Sequence search from simple BLAST to a more powerful profile-based approach (eg PSI-BLAST and / or HAMMER) to search close and distant homologues from evolutionary enriched sequence databases Law is used. The use of sequence profiles based on multiple sequence alignments of available lead structures allows more sequence space sampling than traditional multiple sequence alignment approaches. Thus, the methods used here increase diversity as well as the opportunity to find new hits or combinations of mutants with increased binding affinity.

第2に、配列空間中のサンプリングはまた、特定の目的に適した配列データベースの選択を強調する。例えば、CDRの設計するための多様な配列データベースの使用およびヒト生殖細胞系またはフレームワーク領域のヒト起源の配列の使用は、免疫原性が大きな問題である薬学的応用のタンパク質を設計するのに使用すべきである。   Second, sampling in sequence space also highlights the selection of sequence databases suitable for a particular purpose. For example, the use of diverse sequence databases to design CDRs and the use of sequences of human origin in human germline or framework regions can be used to design proteins for pharmaceutical applications where immunogenicity is a major issue. Should be used.

第3に、種々のデータベースから既存の存在を使用する配列設計は、1つの進化的に濃縮された配列またはその組合せが使用されるため、簡便かつ高度に効率的である。改良されたが計算が高価なスコア化関数を応用して、管理可能なサイズの得られる配列プールをスコア化することができ、これは、折り畳みと発現とを含む情報を暗示的に取り込む。   Third, sequence design using existing entities from various databases is simple and highly efficient because one evolutionally enriched sequence or combination thereof is used. An improved but expensive computational scoring function can be applied to score the resulting pool of manageable sizes, which implicitly captures information including folding and expression.

第4に、構造鋳型と最適化スコア化関数の使用は、任意の実験によるスクリーニングの前に、コンビナトリアルヒット変種ライブラリーのサイズを効率的にフィルターにかけ縮小することができる。すなわち、大きな仮想配列空間をコンピューターで試験でき、好ましい配列の集合の以後の選択は、多様な配列空間をカバーするいくつかの小さなライブラリーの実験的合成を指令することができる。   Fourth, the use of structural templates and optimized scoring functions can efficiently filter and reduce the size of combinatorial hit variant libraries prior to screening by any experiment. That is, a large virtual sequence space can be tested on a computer, and subsequent selection of a preferred set of sequences can direct the experimental synthesis of several small libraries covering diverse sequence spaces.

第5に、ライブラリーサイズの制御(これは核酸ライブラリーについて通常約103〜107である)は、直接機能的スクリーニングを実験的に実施することを容易にする。直接機能的スクリーニングは、in silico法の有効性と正確性についての最終的な試験であるため、コンピューターによるスクリーニングでスコア化関数と構造鋳型に関連するいくつかの固有の限界が実験的に試験される。 Fifth, control of library size (which is usually about 10 3 to 10 7 for nucleic acid libraries) facilitates direct functional screening experimentally. Since direct functional screening is the ultimate test for the effectiveness and accuracy of in silico methods, computer screening has experimentally tested several inherent limitations related to scoring functions and structural templates. The

第6に、長い配列を分割するための単純な構造相関の使用はライブラリーサイズの制御を可能にし、その結果、多様性を大きく喪失することなく実験的に管理できる。これはまた、利用できる構造情報がほとんどなくても、リード配列の配列ライブラリーを設計することを可能にする。   Sixth, the use of simple structural correlations to split long sequences allows control of library size, so that it can be experimentally managed without significant loss of diversity. This also makes it possible to design a sequence library of lead sequences with little available structural information.

最後に、スコア化関数の適応性とパラメータ化は、各実験サイクルでの改良を可能にする。実験でスクリーニングしたクローンは、プロフィールの実際の位置変種であり、これは種々のスコア化項を改良することにより、スコア化関数を改良するためのフィードバックとして使用することができる。   Finally, the adaptability and parameterization of the scoring function allows improvements in each experimental cycle. The clone screened in the experiment is the actual positional variant of the profile, which can be used as feedback to improve the scoring function by improving the various scoring terms.

要約すると、タンパク質の配列および構造空間でコンピューターによるスクリーニングを用いて、実験限界内で、直接実験によるスクリーニングを組合せることにより機能空間を調べることは、我々がここに抗体について示すようにタンパク質工学および設計に対する強力なアプローチである。   In summary, using computer screening in protein sequence and structure space and examining functional space by combining direct experimental screening, within experimental limits, as we show here for antibodies, It is a powerful approach to design.

実施例
抗体ライブラリーのin silico構築のために本発明の方法を使用した。抗体設計において本発明を証明するために、原理の証明実験の抗原として血管内皮増殖因子(VEGF)を選択する。VEGFとその受容体については、豊富な配列および構造情報が利用できる(Muller YA, Christinger HW, Keyt BA, de Vos AM (1997) Structure 5, 1325-1338; Wiesmann C. Fuh G, Christinger HW, Eigenbrot C, Wells JA, de Vos AM (1997) Cell 91 , 695-704)、VEGFとそのヒト化抗体との複合体(Muller YA, Christinger HW, Li B, Cunningharn BC, Lowman HB, de Vos AM (1998) Structure 6, 1153- I167、およびVEGFとその成熟抗体との複合体(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW. McKay P, de Vos AM (1999) J Mol Biol 293, 865-881)。これらは、本発明の方法を試験するための良好な根拠を提供する。本発明により提供される方法を使用することにより、抗体配列、抗体の構造、抗体とその抗原との複合体構造からの増加してきた情報を利用して、抗VEGF抗体のいくつかのデジタルライブラリーがin silicoで設計された。1本鎖または2本鎖の抗体結合単位を用いる2つの独立の新規ファージ表示系(phage display system)により、VEGFへの高親和性結合について、抗体ライブラリーの集団をin vitroでスクリーニングした。
Examples The method of the present invention was used for in silico construction of antibody libraries. To prove the present invention in antibody design, vascular endothelial growth factor (VEGF) is selected as the antigen of the principle proof experiment. A wealth of sequence and structural information is available for VEGF and its receptors (Muller YA, Christinger HW, Keyt BA, de Vos AM (1997) Structure 5, 1325-1338; Wiesmann C. Fuh G, Christinger HW, Eigenbrot C, Wells JA, de Vos AM (1997) Cell 91, 695-704), a complex of VEGF and its humanized antibody (Muller YA, Christinger HW, Li B, Cunningharn BC, Lowman HB, de Vos AM (1998) ) Structure 6, 1153- I167, and a complex of VEGF and its mature antibody (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW. McKay P, de Vos AM (1999) J Mol Biol 293, 865- 881) These provide a good basis for testing the method of the present invention: by using the method provided by the present invention, the antibody sequence, the structure of the antibody, the complex of the antibody and its antigen Using the increasing information from the structure, several digital libraries of anti-VEGF antibodies were designed in silico: single chain or double chain antibody binding. By two independent new phage display system of using the unit (phage display system), the high-affinity binding to VEGF, a population of antibody libraries were screened by in vitro.

1. 抗VEGF抗体ライブラリーのin silico設計
VEGFは発生における主要な血管形成因子であり、内皮細胞を刺激することにより固形腫瘍の増殖に関与する。マウスモノクローナル抗体はVEGF依存性細胞増殖を阻止し、in vivoで腫瘍増殖を遅らせることがわかった(Kim KJ, Li B, Winer J, Armanini M, Gillett N, Phillips HS, Ferrara N (1993) Nature 362, 841-844)。このマウス抗体はヒト化(Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG. Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M. Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684)、およびファージ表示とオフレート選択を使用して親和性成熟された(Chen Y, Wiesmann C, Fuh G, Li B. Christinger HW, McKay P, de Vos AM (1999) J Mol Biol 293, 865-881)。VEGFと親抗体との間で形成された複合体(Muller YA, Chen Y, Christinger HW, Li B. Cunningham, BC, Lowman HB, de Vos AM (1998) Structure 6, 1153-1167)、ならびにVEGFと成熟抗体との間で形成された複合体(Chen Y. Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881)のX線構造が報告された。
1. In silico design of anti-VEGF antibody library
VEGF is a major angiogenic factor in development and is involved in solid tumor growth by stimulating endothelial cells. Mouse monoclonal antibodies were found to block VEGF-dependent cell growth and slow tumor growth in vivo (Kim KJ, Li B, Winer J, Armanini M, Gillett N, Phillips HS, Ferrara N (1993) Nature 362 , 841-844). This mouse antibody is humanized (Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG. Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M. Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684), and affinity matured using phage display and off-rate selection (Chen Y, Wiesmann C, Fuh G, Li B. Christinger HW, McKay P, de Vos AM (1999) J Mol Biol 293, 865-881). Complex formed between VEGF and parent antibody (Muller YA, Chen Y, Christinger HW, Li B. Cunningham, BC, Lowman HB, de Vos AM (1998) Structure 6, 1153-1167), and VEGF Of the complex formed with mature antibody (Chen Y. Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881) An X-ray structure has been reported.

図9Aは、ヒト化抗VEGF抗体(以後「親抗VEGF抗体」)の可変領域のアミノ酸配列と、ヒト化抗VEGF抗体から親和性成熟した抗体(以後「成熟抗VEGF抗体」)を示す。抗原と接触することが観察されたVH CDR中のアミノ酸残基のそれぞれを、下に以後「c」と記載する。図9Bは、VH CDR中の親抗VEGF抗体と成熟抗VEGF抗体の整列である。フレームワークとCDRは、Kabat基準に従って命名される(Kabat EA, RediMiller M, Perry HM, Gottesman KS (1987) Sequences of Proteins of Inununological Interest 第4版、国立衛生研究所(National Institutes of Health), ベセスダ、メリーランド州)。アミノ酸残基の差を太字で強調してある。図9Bに示すように、成熟抗体のみが、親抗体とは異なる2つのアミノ酸残基をVH CDR1(T28DとN31H)とVH CDR3(H97YとS100aT)に有する。親和性成熟後はCDR2に変化は無い。 FIG. 9A shows the amino acid sequence of the variable region of a humanized anti-VEGF antibody (hereinafter “parent anti-VEGF antibody”) and an antibody that has been affinity matured from the humanized anti-VEGF antibody (hereinafter “mature anti-VEGF antibody”). Each of the amino acid residues in the V H CDRs that were observed to contact the antigen are referred to below as “c”. FIG. 9B is an alignment of parent and mature anti-VEGF antibodies in V H CDRs. Frameworks and CDRs are named according to Kabat standards (Kabat EA, RediMiller M, Perry HM, Gottesman KS (1987) Sequences of Proteins of Inununological Interest 4th edition, National Institutes of Health, Bethesda, Maryland). Differences in amino acid residues are highlighted in bold. As shown in FIG. 9B, only the mature antibody has two amino acid residues in V H CDR1 (T28D and N31H) and V H CDR3 (H97Y and S100aT) that differ from the parent antibody. There is no change in CDR2 after affinity maturation.

成熟抗VEGF抗体は、VH鎖に4つの変異(T28D、N31H、H97Y、およびS100aT)を有する親抗VEGF抗体よりVEGFに対して135倍高い結合親和性を有する。VH CDR3中の変異の2つは、親抗体に対して結合親和性を個々に14倍(H97Yから)と2倍(S100aTから)改良する(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881の表6を参照)。VH CDR3中のH97Y単独による14倍の親和性の改良は、これを親和性成熟について単一の最も重要な変異とし、これは、H97Yにより抗原と抗体の間で2つの追加のH結合が作成されるというX線による複合体構造の観察と一致する。 The mature anti-VEGF antibody has a 135-fold higher binding affinity for VEGF than the parent anti-VEGF antibody with four mutations (T28D, N31H, H97Y, and S100aT) in the V H chain. Two of the mutations in V H CDR3 individually improve the binding affinity to the parent antibody 14-fold (from H97Y) and 2-fold (from S100aT) (Chen Y, Wiesmann C, Fuh G, Li B, (See Table 6 of Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881). A 14-fold improvement in affinity by H97Y alone in V H CDR3 makes it the single most important mutation for affinity maturation, which results in two additional H bonds between antigen and antibody by H97Y. This is consistent with the observation of the composite structure by X-rays being created.

本発明において抗体のCDRとフレームワークのような各モチーフは、モジュラーin silico進化的設計アプローチを使用して標的化することができる。このモジュラー設計は図8に記載される。各CDRにはわずかな限定された数のコンフォメーション(標準構造と呼ぶ)のみがあることは理解されている。抗体のこれらの構造的特徴は、抗体構造の広範な分析から、VLおよびVH中のCDR1、CDR2、およびCDR3のような抗体の種々の領域の構造化されたモチーフを使用して、進化的配列設計を試験するための優れたシステムを提供する。これらの構造と配列保存は、異なる種にわたって観察されている。実際、抗体の足場、または免疫グロブリン折り畳みは、自然界で観察される最も豊富な構造の1つであり、種々の抗体と関連分子中で高度に保存されている。 In the present invention, each motif such as antibody CDRs and frameworks can be targeted using a modular in silico evolutionary design approach. This modular design is described in FIG. It is understood that each CDR has only a small limited number of conformations (called standard structures). These structural features of the antibody, the extensive analysis of antibody structures, using the structured motifs of various regions of an antibody, such as the V CDRl in L and V H, CDR2, and CDR3, Evolution Provides an excellent system for testing dynamic array designs. These structures and sequence conservation have been observed across different species. Indeed, antibody scaffolds, or immunoglobulin folds, are one of the most abundant structures observed in nature and are highly conserved among various antibodies and related molecules.

本発明者らは、上記の親抗VEGF抗体は、本発明の方法を使用して指令抗体親和性成熟のためのモデル系のリードタンパク質として機能できると考えている。成熟抗VEGF抗体(Chenら、前述)は、本発明の方法を使用して得られた結果を証明するための参照または陽性対照となることができる。   The present inventors believe that the parent anti-VEGF antibody described above can function as a model protein lead protein for affinity maturation of the command antibody using the method of the present invention. Mature anti-VEGF antibody (Chen et al., Supra) can serve as a reference or positive control to demonstrate the results obtained using the methods of the invention.

さらに構造の重なりは、VEGFと親抗体とで形成される複合体の構造が、VEGFと成熟抗体とで形成する複合体とほとんど重なることを明らかにした。成熟前後の抗体構造は実質的に同じであるため、親抗体と成熟抗体の構造は、本発明の方法を使用して抗VEGF抗体のデジタルライブラリーの設計に使用された。本発明の方法はまた、配列ベースのアプローチまたは誘導された構造変化を含有する構造集合体をを使用して、抗原結合により誘導された一致を有する抗体を設計するのに使用することができる。   Furthermore, the structural overlap revealed that the structure of the complex formed between VEGF and the parent antibody almost overlaps with the complex formed between VEGF and the mature antibody. Since the antibody structure before and after maturation is substantially the same, the structures of the parent antibody and the mature antibody were used to design a digital library of anti-VEGF antibodies using the method of the present invention. The methods of the invention can also be used to design antibodies with matches induced by antigen binding using sequence-based approaches or structural assemblies containing induced structural changes.

リードタンパク質として親抗VEGF抗体をそしてリード配列としてそのVH CDR3を使用して、図1D中に経路IVとしてそして図2に模式図で概説した方法に従ってVH CDR3のデジタルライブラリーを構築した。 Using the parent anti-VEGF antibody as the lead protein and its V H CDR3 as the lead sequence, a digital library of V H CDR3 was constructed according to the method outlined in Figure 1D as pathway IV and in the schematic diagram in FIG.

リード配列は、親抗VEGF抗体のVH CDR3と隣接フレームワーク領域からのいくつかのアミノ酸残基とを含有した(図9B)。概説すると、VH CDR3と遠い相同性を有するヒットアミノ酸配列を検索し選択することにより、ヒットライブラリーを構築した。ヒットライブラリーに基づいて各位置ですべての変種を記載するために変種プロフィールを作成し、あるカットオフ値でフィルターにかけて、生じるヒット変種ライブラリーのサイズをコンピューターのまたは実験の限界内まで小さくした。以下を促進するために変種プロフィールもまた構築した:i) 一致背景中の好適な領域をカバーする配列空間のサンプリング;ii) 好適なペプチド集合配列を標的とする縮重核酸ライブラリーの分割と合成;iii) 所望の機能について抗体ライブラリーの実験によるスクリーニング;およびiv) さらなる設計と最適化のためのフィードバックのある実験結果の分析。 The lead sequence contained V H CDR3 of the parent anti-VEGF antibody and several amino acid residues from the flanking framework regions (FIG. 9B). In summary, a hit library was constructed by searching for and selecting hit amino acid sequences that have distant homology with V H CDR3. A variant profile was created to describe all variants at each position based on the hit library and was filtered with a certain cutoff value to reduce the size of the resulting hit variant library to within computer or experimental limits. Variant profiles were also constructed to facilitate: i) sampling of sequence space covering suitable regions in the matching background; ii) splitting and synthesizing degenerate nucleic acid libraries targeting suitable peptide assembly sequences Iii) screening the antibody library by experiment for the desired function; and iv) analysis of experimental results with feedback for further design and optimization.

VEGFと抗VEGF抗体とで形成された複合体の利用できるX線構造から、リード構造鋳型を得た。VEGFと親抗VEGF抗体の複合体構造を1BJ1とよび、VEGFと成熟抗VEGF抗体との複合体構造を1CZ8と呼ぶ。スキャンした配列の相対的ランクで1CZ8構造鋳型からの結果は1BJ1からの結果と同様であった。   From the available X-ray structure of the complex formed by VEGF and anti-VEGF antibody, a lead structure template was obtained. The complex structure of VEGF and parent anti-VEGF antibody is called 1BJ1, and the complex structure of VEGF and mature anti-VEGF antibody is called 1CZ8. The results from the 1CZ8 structural template were similar to those from 1BJ1 in the relative rank of the scanned sequence.

1) リード配列
VH CDR3のリード配列は、Kabat分類に従って親抗VEGF抗体から取られ、隣接フレームワーク領域からのアミノ酸残基CAKとWGがそれぞれN末端とC末端でVH CDR3配列をフランクする(図9B)。図9Bに示すように、親抗体と成熟抗体のVH CDR3は2つのアミノ酸位置のみが異なる。親抗体のVH CDR3配列のみを使用して、タンパク質データベース検索のためのHMMを作成した。
1) Lead arrangement
The V H CDR3 lead sequence was taken from the parent anti-VEGF antibody according to the Kabat classification, and amino acid residues CAK and WG from adjacent framework regions flank the V H CDR3 sequence at the N-terminus and C-terminus, respectively (FIG. 9B). . As shown in FIG. 9B, the parent antibody and mature antibody V H CDR3 differ only in two amino acid positions. Only the parent antibody V H CDR3 sequence was used to create an HMM for protein database searches.

2) ヒットライブラリーと変種プロフィール
単一のリード配列(配列番号5)(図9B)を使用して作成したHMMを較正し、Kabatデータベース(Johnson, G and Wu, TT (2001) Nucleic Acids Research, 29, 205-206)を検索するのに使用した。予測値すなわちE値より大きいすべての配列ヒットを記載し、HAMMER2.2.1パッケージを使用して整列する。ヒットリストから重複し成熟した配列(すなわち、成熟配列が利用できないと仮定して配列番号6)を除去した後、リードHMMについて残りの107個のヒット配列がヒットライブラリーを形成する。
2) Hit library and variant profile HMMs created using a single read sequence (SEQ ID NO: 5) (Figure 9B) were calibrated and Kabat database (Johnson, G and Wu, TT (2001) Nucleic Acids Research, 29, 205-206). All sequence hits that are larger than the predicted or E value are listed and aligned using the HAMMER 2.2.1 package. After removing duplicate and mature sequences from the hit list (ie, SEQ ID NO: 6 assuming no mature sequences are available), the remaining 107 hit sequences for the lead HMM form a hit library.

図10Aに示すように、107個のヒット配列は、Kabatデータベースからのリード配列の35〜95%の範囲である。ヒットの間の進化的距離は、樹状図で図10Bに、プログラムTreeView1.6.5(http://taxonomy.zoology.gla.ac.uk/rod /rod.html)を使用して表示する。系統樹を、ClustalW 1.81(Thompson JD, Higgins DG, Gibson TJ (1994) Nucleic Acids Research 22, 4673-4680)中の隣接体結合法(Saitou N, Nei M (1987) Mol Biol Evol 4, 406-425)を使用して分析した。 As shown in FIG. 10A, the 107 hit sequences range from 35 to 95% of the lead sequence from the Kabat database. The evolutionary distance between hits is displayed in a dendrogram in FIG. 10B using the program TreeView 1.6.5 ( http://taxonomy.zoology.gla.ac.uk/rod/rod.html ). The phylogenetic tree is obtained from the adjoining method (Saitou N, Nei M (1987) Mol Biol Evol 4, 406-425 in ClustalW 1.81 (Thompson JD, Higgins DG, Gibson TJ (1994) Nucleic Acids Research 22, 4673-4680). ).

各位置の変種プロフィールを図11に示す。図11のAA-PVP表は、各位置での各アミノ酸残基の出現数を与える。表リストの下の変種プロフィールは、各位置での出現が減少する順に、参照配列としてリード配列を用いてデータベースから見つかったすべての変種を記載する。   The variant profile at each position is shown in FIG. The AA-PVP table in FIG. 11 gives the number of occurrences of each amino acid residue at each position. The variant profile below the table list lists all variants found from the database using the lead sequence as the reference sequence in order of decreasing occurrence at each position.

ヒットライブラリーからの107個のヒット配列の多様性は、各位置のアミノ酸の頻度と変化の両方を示すAA-PVP表で見ることができる。VH CDR3中の親抗VEGF抗体と成熟抗VEGF抗体の配列の差を比較すると、2つの異なるアミノ酸(Kabat番号付けシステムを使用してH97YとS100aT)が各位置で記載される変種に含まれる。成熟配列の結合親和性を上昇させるのに最も重要な変異体であることが報告されたH97Y(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881)は、その位置で最も高頻度な残基(〜25%)として容易に同定される。S100aTは、その位置で同定される変種の〜5%を占める。図11の右下部分は、カットオフ頻度10またはそれ以下で出現する変種をフィルターにかけた後の変種プロフィールを示す。フィルター化後に、配列の各位置でほんのわずかの数の変種のみが許容されることが明らかになる;しかし、そのようなカットオフでは、エネルギースコア化は維持されるであろうが、成熟配列中のS100aTのような一部の重要な変異体が失われるかも知れない。 The diversity of the 107 hit sequences from the hit library can be seen in the AA-PVP table showing both the frequency and change of amino acids at each position. Comparing the sequence differences between the parent anti-VEGF antibody and the mature anti-VEGF antibody in V H CDR3, two different amino acids (H97Y and S100aT using the Kabat numbering system) are included in the variant described at each position . H97Y (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB () reported to be the most important variant to increase the binding affinity of the mature sequence 1999) J. Mol Biol 293, 865-881) is easily identified as the most frequent residue (˜25%) at that position. S100aT accounts for ~ 5% of the variants identified at that position. The lower right part of FIG. 11 shows the variant profile after filtering variants that appear with a cut-off frequency of 10 or less. After filtering, it becomes clear that only a few variants are allowed at each position of the sequence; however, with such a cut-off, energy scoring will be maintained but in the mature sequence Some important mutants like S100aT may be lost.

進化的選択プールからの変種プロフィールは、変化できるかまたは固定できるリード配列中の位置を同定するのに有用なデータを提供する。この部位は3つのカテゴリーに分類することができる:i) 構造が保存された部位は進化しても保存されたままである。高頻度残基は、これらの位置で標的モチーフの足場を維持するのに使用することができる;ii) 焦点化した突然変異誘発を用いて、可変の機能的ホットスポットを標的化すべきである;iii) 機能的ホットスポットで同時に可変性を提供しながら、標的足場を安定化するためのi)とii)の組合せ。   Variant profiles from the evolutionary selection pool provide data useful for identifying positions in the lead sequence that can be altered or fixed. This site can be divided into three categories: i) Sites that have preserved their structure remain conserved as they evolve. Frequent residues can be used to maintain the scaffold of the target motif at these positions; ii) Focused mutagenesis should be used to target variable functional hot spots; iii) A combination of i) and ii) to stabilize the target scaffold while simultaneously providing variability in functional hot spots.

機能性変種からのアミノ酸のセットは進化的に選択され最適化されているので、変種プロフィール中の頻度に従って機能的ホットスポットでこれらを含めるべきである。さらに、コンピューターや実験の制約を満足するために、各位置の変種は他の有用な変異体候補を含めるかまたは好ましくない変異体候補を排除するようにフィルター化または優先順位付けすることができる。   Since the set of amino acids from the functional variant has been evolutionarily selected and optimized, they should be included in the functional hotspot according to the frequency in the variant profile. In addition, to satisfy computer and experimental constraints, each position variant can be filtered or prioritized to include other useful mutant candidates or to exclude unwanted mutant candidates.

3) ヒットライブラリーのコンビナトリアル配列の構造ベースの評価
変種プロフィールは、各位置でおよび好適な順序の具体的な変異体で、好適なアミノ酸残基上で有益であるが、これは、膨大な数の組換え体を具体化する。頻度カットオフを使用するあるフィルター化は、コンピューターによるスクリーニングで評価されるかまたは実験ライブラリーにより直接標的化される必要があるコンビナトリアル配列を減少させる。変種プロフィールに適用されるカットオフを用いてさえ、実験によるスクリーニングのために最終配列でスコア化され評価される必要がある多くのコンビナトリアル配列がある(図13A〜Cおよび28A〜Dに示す)。
3) Structure-based evaluation of combinatorial sequences of hit libraries Variant profiles are beneficial on preferred amino acid residues, with specific variants at each position and in the preferred order, but this is a huge number The recombinant of is materialized. Certain filtering using a frequency cut-off reduces combinatorial sequences that need to be assessed by computer screening or directly targeted by an experimental library. There are many combinatorial sequences that need to be scored and evaluated in the final sequence for experimental screening, even with a cutoff applied to the variant profile (shown in FIGS. 13A-C and 28A-D).

ヒットライブラリーおよびヒット変種ライブラリーを形成するそのコンビナトリアル配列をスクリーニングするために、構造ベースのスコア化が適用される。親抗VEGF抗体のVH CDR3の側鎖は、各残基位置の変種ライブラリーからの対応するアミノ酸変種のロタマーにより置換された。ロタマーのコンフォメーションを作成し、骨格依存性ロタマーライブラリーを使用するプログラムSCWRL(登録商標)(バージョン2.1)を使用して最適化した(Bower MJ, Cohen FE, Dunbrack RL (1997) JMB 267, 1268-82)。 Structure-based scoring is applied to screen the combinatorial sequences that form the hit library and the hit variant library. The side chain of the V H CDR3 of the parent anti-VEGF antibody was replaced with the corresponding amino acid variant rotamer from the variant library at each residue position. Rotamer conformation was created and optimized using the program SCWRL® (version 2.1) using a backbone-dependent rotamer library (Bower MJ, Cohen FE, Dunbrack RL (1997) JMB 267, 1268 -82).

スコア化は、抗原VEGFの構造の存在下および非存在下でCONGEN[Bruccoleri and Karplus (1987) Biopolymers 26: 137-168]のAmber94を使用して、最適ロタマーを検索しエネルギーを100ステップ最小化することにより行った。図12AとBは、それぞれ親(1BJ1)と成熟(1CZ8)抗VEGF抗体の構造を使用して、VEGF抗原有りおよび無しで、CONGENを用いて計算した総エネルギーに基づく、抗VEGF変種ライブラリーのエネルギースコアを示す。親および成熟配列のスコアは、図12AとBで印を付けてある。成熟配列は、抗原の有り/無しで両方の構造中で親配列よりスコアは良く、成熟配列の変異体が、抗体構造ならびにVEGF抗原とのその複合体の両方を安定化することを示唆する。図12Cは、抗原の存在下および非存在下での配列のスコア化が一般的に相関することを示し、これは、抗体構造のみに基づく配列スクリーニングがまた、その抗原との良好な結合親和性を有する良好な配列候補となることを示唆する。   Scoring uses Amber94 of CONGEN [Bruccoleri and Karplus (1987) Biopolymers 26: 137-168] in the presence and absence of the structure of the antigen VEGF to find the optimal rotamer and minimize energy by 100 steps Was done. FIGS. 12A and B show the anti-VEGF variant library based on total energy calculated using CONGEN with and without VEGF antigen, using the structures of the parent (1BJ1) and mature (1CZ8) anti-VEGF antibodies, respectively. Indicates the energy score. Parent and mature sequence scores are marked in FIGS. 12A and B. The mature sequence scored better than the parental sequence in both structures with and without antigen, suggesting that the variant of the mature sequence stabilizes both the antibody structure as well as its complex with the VEGF antigen. FIG. 12C shows that the scoring of sequences in the presence and absence of antigen is generally correlated, indicating that sequence screening based on antibody structure alone also has good binding affinity for that antigen. It is suggested that it is a good sequence candidate having

図12Aと12Bに示すように、親配列および成熟配列より高いスコアを有する、種々の変種ライブラリーの多くの配列がある。エネルギー模式図のエネルギースコア化の分布は、VH CDR3のヒット変種ライブラリー、そのコンビナトリアルペプチド、縮重核酸ライブラリーのコンビナトリアルライブラリー、および実験的に選択された配列からの10個の選択された配列について図13Aに示す。スコア化は、成熟配列中のY97が絶えずH97よりスコアが良く、これは実験観察結果と一致する(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881)。T100aは成熟配列中にあるようにS100aより好適であり、一方TとSの両方とも100b位置中では同等に好適である。すなわち、構造ベースのエネルギースコア化は、元々タンパク質データベースから選択された進化的配列のプロフィール化に基づいて作成されたヒット変種ライブラリーの各位置での変種の出現を再プロフィール化するための別の独立した方法を提供する。 As shown in FIGS. 12A and 12B, there are many sequences in various variant libraries with higher scores than the parental and mature sequences. The energy scoring distribution in the energy schematic is 10 selected from the hit variant library of V H CDR3, its combinatorial peptide, the degenerate nucleic acid library combinatorial library, and experimentally selected sequences The sequence is shown in FIG. 13A. For scoring, Y97 in the mature sequence is consistently better than H97, which is consistent with experimental observations (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881). T100a is preferred over S100a as in the mature sequence, while both T and S are equally preferred in the 100b position. That is, structure-based energy scoring is a separate approach to re-profile variants at each position in a hit variant library created based on evolutionary sequence profiling originally selected from protein databases. Provide an independent method.

CONGENで使用された単純なエネルギー関数を使用してスコア化関数の正確度を測定するために、配列のランダム選択したセットのエネルギーを、側鎖エントロピー、非極性溶媒和エネルギーおよび静電溶媒和エネルギーを含む改良されたカスタムスコア化関数を使用して計算した。3つのエネルギー項を計算した:側鎖エントロピー、非極性溶媒和エネルギー、および静電溶媒和エネルギー。ループの骨格エントロピーを計算する追加の選択肢があった。側鎖エントロピーは、CONGEN中のコンフォメーション検索コマンドCGENを使用して計算した。CGEN下の選択肢は、側鎖コンフォメーションツリーを拡張するための各結合(節)でひずみ空間を使用して個々の側鎖形成ツリー検索を行うと定義した。これらには、各側鎖についてSEARCH DEPTHとSIDE選択肢があり、SGRIDパラメータをAUTOに設定して、各ひずみ角が不連続間隔で回転するようにした。具体的には、AUTO設定は、例えばフェニル、チロシル、カルボキシル、およびアミノ基中のように回転対称を有する結合についてひずみグリッド角30度を使用し、他のすべてについて10度を使用した。MIN選択肢は、各ひずみについて局所的エネルギー極小で回転サンプリングが開始するように設定した。またVAVOIDO選択肢は、ファンデアワールス反発回避をオンにするように含めた。MAXEVDWパラメータは、比較的高い100kcal/molに設定して、ファンデアワールス反発を緩和させ、算出中により多くのコンフォーマーが得られるようにした。   In order to measure the accuracy of the scoring function using the simple energy function used in CONGEN, the energy of a randomly selected set of sequences is converted to side chain entropy, nonpolar solvation energy and electrostatic solvation energy. Calculated using an improved custom scoring function including: Three energy terms were calculated: side chain entropy, nonpolar solvation energy, and electrostatic solvation energy. There was an additional option to calculate the skeleton entropy of the loop. Side chain entropy was calculated using the conformation search command CGEN in CONGEN. The option under CGEN was defined as performing an individual side chain formation tree search using strain space at each bond (section) to expand the side chain conformation tree. These have SEARCH DEPTH and SIDE choices for each side chain, with the SGRID parameter set to AUTO so that each strain angle rotates at discrete intervals. Specifically, the AUTO setting used a strain grid angle of 30 degrees for bonds with rotational symmetry, such as in phenyl, tyrosyl, carboxyl, and amino groups, and 10 degrees for all others. The MIN option was set so that rotational sampling starts at the local energy minimum for each strain. The VAVOIDO option was also included to turn on van der Waals repulsion avoidance. The MAXEVDW parameter was set to a relatively high 100 kcal / mol to mitigate van der Waals repulsion and allow more conformers to be obtained during the calculation.

側鎖コンフォメーション検索を、各変異体残基側鎖について繰り返した。コードは、コンフォメーション空間のツリー検索により到達する「下の葉の数」を出力する(これは、完了したツリー検索の数である)。近似として、側鎖コンフォメーション検索は、計算時間が最小になるように、各残基を独立に処理する。互いに接触しない残基について、これは良好な近似値である。互いに接触する可能性のある残基について、コンフォメーション算出は、コンフォメーションの数を過剰に推定する傾向がある。我々は、より多くのサンプリングを得るために比較的高いファンデアワールス反発を使用するため、残基接触による誤差は、コンフォメーション空間の人工的測定において減少させなければならない。さらに、コンフォメーションの数が大きくなると、残基接触による誤差の意味は小さくなりがちであり、これは、エントロピーの相対的変化は、変異体と参照構造中のコンフォメーションの数の対数の差であるためである。   The side chain conformation search was repeated for each mutant residue side chain. The code outputs the “number of lower leaves” reached by a tree search in the conformation space (this is the number of tree searches completed). As an approximation, the side chain conformation search treats each residue independently so that the computation time is minimized. For residues that do not contact each other, this is a good approximation. For residues that may contact each other, conformational calculations tend to overestimate the number of conformations. Since we use a relatively high van der Waals repulsion to obtain more sampling, the error due to residue contacts must be reduced in the artificial measurement of conformational space. In addition, as the number of conformations increases, the meaning of errors due to residue contacts tends to decrease, which means that the relative change in entropy is the logarithm of the number of conformations in the mutant and the reference structure. Because there is.

非静電溶媒和エネルギーは、CONGENで使用されたGEPOL (Pascual-Ahuir JL, Silla E (1993) J Comput Chem 11, 1047-1060)コマンドを使用して、スケーリング定数を70cal/mol/A2 (Tunon I, Sma E, Pascual-Ahuir JL (1992) Prot Eng 5, 715-716) にしてGEPOL93アルゴリズムにより計算した時、分子表面に比例するようにした。表面の三角形の分割レベルを特定するNDIVは3に設定する。値は1〜5の範囲であり、5は最も高い正確度を与えるが、CPU時間要求が顕著に上昇する。RGRIDは2.5Aに設定し、これは、隣接体を見つけるのに使用される空間グリッドを説明する。 Non-electrostatic solvation energy can be calculated using the GEPOL (Pascual-Ahuir JL, Silla E (1993) J Comput Chem 11, 1047-1060) command used in CONGEN, with a scaling constant of 70 cal / mol / A 2 ( Tunon I, Sma E, Pascual-Ahuir JL (1992) Prot Eng 5, 715-716) and calculated to be proportional to the molecular surface. The NDIV that specifies the division level of the surface triangle is set to 3. Values range from 1 to 5, with 5 giving the highest accuracy but significantly increasing CPU time requirements. RGRID is set to 2.5A, which describes the spatial grid used to find neighbors.

静電溶媒和エネルギーは、UHBDプログラム(Davis ME, Madura JD, Luty BA. McCammon JA (1991) Comput Phys Commun 62, 187-197)で使用された有限差PB(FDPB)法を使用して計算した。変異の周りの領域については、焦点化法を使用した。自動プロトコールは3つのグリッドを生成する:粗い、細かい、焦点グリッド。グリッド単位はそれぞれ1.5、0.5および0.25オングストロームである。焦点グリッドは、変異残基が占めるデカルト容量にまたがる球形グリッドである。細かいグリッドは、タンパク質または複合体の全容量にまたがる球形グリッドである。粗いグリッドは、各軸で細かいグリッドの約2倍のサイズに設定されている球形グリッドであり、細かいグリッドの約8倍の容量をカバーする。粗いグリッドは、長期の溶媒作用を説明するのに有用であり、細かいグリッドの境界条件を設定する。同様に細かいグリッドは、タンパク質内部の静電的寄与を説明し、焦点グリッドの境界条件を設定する。焦点グリッドは、変異による局在化作用のより詳細を説明する。タンパク質内部と外部の誘電率は、それぞれ4と78に設定される。温度は300ケルビンに、イオン強度は150mMに設定される。最大繰り返しは200に設定される。内部および外部誘電率が4に設定されるように計算は均一な誘電率で繰り返され、そして2つのエネルギーの差が計算される。後者の計算は、グリッドへ電荷を与えることによるエネルギーを示す。   Electrostatic solvation energy was calculated using the Finite Difference PB (FDPB) method used in the UHBD program (Davis ME, Madura JD, Luty BA. McCammon JA (1991) Comput Phys Commun 62, 187-197). . For the area around the mutation, the focusing method was used. The automatic protocol generates three grids: a coarse, fine, and focal grid. The grid units are 1.5, 0.5 and 0.25 angstroms, respectively. The focal grid is a spherical grid that spans the Cartesian volume occupied by mutated residues. The fine grid is a spherical grid that spans the entire volume of the protein or complex. The coarse grid is a spherical grid that is set to about twice the size of the fine grid on each axis, covering about 8 times the capacity of the fine grid. A coarse grid is useful to account for long term solvent action and sets the fine grid boundary conditions. Similarly, the fine grid accounts for the electrostatic contribution within the protein and sets the boundary conditions for the focal grid. The focal grid describes more details of the localization effects due to mutation. The dielectric constant inside and outside the protein is set to 4 and 78, respectively. The temperature is set to 300 Kelvin and the ionic strength is set to 150 mM. The maximum repetition is set to 200. The calculation is repeated with a uniform dielectric constant so that the internal and external dielectric constants are set to 4, and the difference between the two energies is calculated. The latter calculation shows the energy from applying a charge to the grid.

CONGEN中のAmber94フォースフィールドとここで使用されたUHBD中のPBからの溶媒和項を使用するカスタムスコア化関数または分子力学的エネルギーは、MM-PBSAまたはMM-GBSAに等しいことが証明された。エネルギー関数は、特に、エネルギー関数の集合平均(Kollman PA, Massova I, Reyes C, Kuhn B, Huo SH, Chong LT, Lee M, Lee TS, Duan Y, Wang W, Donini O, Cieplak P, Srinivasan P, Case DA, and Cheatham TE (2OOO) Acc. Chem Res. 33, 889-897)に基づいて、配列とその変種をスコア化するより正確な方法を提供するために分子動力学的計算による構造集合体を使用する時、実験データより良好な一致(Sharp KA. (1998) Proteins 33, 39-48; Novotny J, Bruccoleri RE. Davis M, Sharp KA (1997) J Mol Biol 268, 401-411)を示す。   A custom scoring function or molecular mechanical energy using solvation terms from Amber94 force field in CONGEN and PB in UHBD used here proved to be equal to MM-PBSA or MM-GBSA. In particular, the energy function is the collective average of energy functions (Kollman PA, Massova I, Reyes C, Kuhn B, Huo SH, Chong LT, Lee M, Lee TS, Duan Y, Wang W, Donini O, Cieplak P, Srinivasan P , Case DA, and Cheatham TE (2OOO) Acc. Chem Res. 33, 889-897) to provide a more accurate method for scoring sequences and their variants to provide structural assembly by molecular dynamics calculations. When using the body, better agreement than the experimental data (Sharp KA. (1998) Proteins 33, 39-48; Novotny J, Bruccoleri RE. Davis M, Sharp KA (1997) J Mol Biol 268, 401-411) Show.

4) ヒット変種ライブラリーの変種プロフィールの低下
ほとんどの好適な残基を維持しながらライブラリー候補のサイズを低下させるために、上記したようにヒット変種ライブラリーからの変種プロフィールをフィルターにかけた。図13Aの上の部分は、カットオフ値より出現頻度が小さいアミノ酸で構造ベースの評価で排除した後の、ヒット変種ライブラリーからのランク上位の10個の選択された配列の低下した変種プロフィールを示す。リストは、標的抗原に結合できる多様な配列の選択における本発明の証明についての盲検法として選択した。変種ライブラリーの1つのコンピューターによるスクリーニングからの10個の選択された配列には、いくつかの共通の特徴がある:例えばVEGF抗原の存在下または非存在下で鋳型構造として1bj1または1cz8を使用してランク上位の200個の配列について、R94、Y97およびR100aはいつも対応するK94、H97およびS100aより優れている。後に実験の欄で示すように、実際H97Yは親和性成熟のための良好な変異体である。しかし。アルギニンへのK94RおよびS100aRのような変異は興味深い例である:一方で、K94Rは親和性成熟の良好な変異体ではないが、K94RはKabat分類に従うとCDRとフレームワークの境界にあり、ヒトフレームワーク配列にとっては進化的に好適である。本発明の実験的選択で証明されるようにK94はR94より好適(図30と36)であり、これは、R94変異が抗VEGF抗体の結合親和性を上昇させるという文献(Baca M, Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684)の観察結果と一致する。他方で、S100aRはVH CDR3成熟の最も重要な単一の変異の1つであり、文献で報告されているようにS100aTより好適であり、ファージ表示において厳しい洗浄条件下でも多数回のラウンドのパニングでも持続する(図30と36を参照)。
4) Reduced variant profile of hit variant library To reduce the size of the library candidate while maintaining most suitable residues, the variant profile from the hit variant library was filtered as described above. The upper part of FIG. 13A shows a reduced variant profile of the top 10 selected sequences from the hit variant library after exclusion by structure-based evaluation with less frequently occurring amino acids than the cutoff value. Show. The list was chosen as a blind method for proof of the present invention in selecting diverse sequences that can bind to the target antigen. The 10 selected sequences from one computer screen of the variant library have several common characteristics: for example using 1bj1 or 1cz8 as template structure in the presence or absence of VEGF antigen For the 200 highest ranked sequences, R94, Y97 and R100a are always better than the corresponding K94, H97 and S100a. As will be shown later in the experimental section, in fact H97Y is a good variant for affinity maturation. However. Mutations such as K94R and S100aR to arginine are an interesting example: while K94R is not a good variant of affinity maturation, K94R is at the border between CDR and framework according to the Kabat classification, and the human frame It is evolutionarily suitable for work sequences. As evidenced by the experimental selection of the present invention, K94 is preferred over R94 (FIGS. 30 and 36) because the R94 mutation increases the binding affinity of anti-VEGF antibodies (Baca M, Presta LG , O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684). On the other hand, S100aR is one of the most important single mutations of V H CDR3 maturation and is preferred over S100aT, as reported in the literature, and has been used in multiple rounds of phage display under severe washing conditions. It persists in panning (see Figures 30 and 36).

変種プロフィール中のいくつかの重要な変異体を見逃さないように、野生型からのリジン(例えばK94R)のようないくつかの残基を含めてもよいが、これらはヒットライブラリーのフィルター化で使用されたカットオフ値より低いか、またはこれらは、長い側鎖またはコンフォメーション変化を有する荷電残基を含む計算の仮定に関連する問題のためにアルギニンよりスコアが悪い。従って、長い側鎖を有する荷電残基(例えばアルギニンおよびリジン)については、設計ライブラリーにおいて、同じ位置に予測される残基と野生型残基が含まれる。低下した変種プロフィールは、リード配列からの多様な配列を有する機能性ライブラリーの設計についてここで使用した本発明の方法の盲検法として、ヒット変種ライブラリーIIを算出するのに使用した。   Some residues, such as lysine from the wild type (eg K94R) may be included so that some important variants in the variant profile are not missed, Below the cut-off values used, or they are worse in score than arginine due to problems associated with computational assumptions involving charged residues with long side chains or conformational changes. Thus, for charged residues with long side chains (eg, arginine and lysine), the design library includes residues predicted at the same position and wild type residues. The reduced variant profile was used to calculate hit variant library II as a blind method of the method of the present invention used here for the design of functional libraries with diverse sequences from the lead sequence.

5) ヒット変種ライブラリーII − スコア化選択と最適化から設計したアミノ酸ライブラリー
好適なスコアおよび/または好適な相互作用に参加する可能性のある残基の存在に基づいて上位の配列を選択する方策を使用して、核酸ライブラリー設計のためのアミノ酸配列のクラスターを同定した(図7)。上記したように、コンピューターによる評価からのそれぞれVH CDR3、CDR1およびCDR2についての図13A〜Cの配列(例えば10個の配列)のクラスターを、in vitroでのさらなる実験のために選択した。ペプチド配列と各位置の変種を図13Aの左上部分に記載する。フィルターにかけた変種プロフィールに基づいてコンビナトリアルライブラリーを作成し、ヒット変種ライブラリーIIを形成した。抗VEGF(図13A)のVH CDR3について、ヒット変種ライブラリーIIのサイズは、リード配列よりスコアの良い選択された上位の10個の配列の変種プロフィールに基づくと72である(使用した変種ライブラリー中の上のランクの10個の配列)。VH CDR1とCDR2については図13BとCを参照されたい。
5) Hit variant library II-Amino acid library designed from scoring selection and optimization Select top sequences based on suitable scores and / or the presence of residues that may participate in suitable interactions A strategy was used to identify clusters of amino acid sequences for nucleic acid library design (Figure 7). As noted above, clusters of the sequences of FIGS. 13A-C (eg, 10 sequences) for V H CDR3, CDR1 and CDR2 from computer evaluation, respectively, were selected for further experiments in vitro. The peptide sequence and variants at each position are listed in the upper left part of FIG. 13A. A combinatorial library was created based on the filtered variant profile to form hit variant library II. For the V H CDR3 of anti-VEGF (Figure 13A), the size of the hit variant library II is 72 based on the variant profile of the top 10 selected sequences that score better than the lead sequence (variant live used) The top 10 rank array in the rally). See FIGS. 13B and C for V H CDR1 and CDR2.

6) ヒット変種ライブラリーIIに基づく縮重核酸ライブラリーの構築
上記で構築したヒット変種ライブラリーを、単一の縮重核酸ライブラリーを用いて標的化した。図13Aの下の部分は、VH CDR3について最適の大腸菌(E. coli)コドンを使用する逆翻訳から得られる核酸配列プロフィールを示す。このプロフィールに基づき、塩基の混合物を各縮重位置に取り込むことにより縮重核酸ライブラリーを合成した。合成のコンビナトリアル作用の結果として、この縮重核酸ライブラリーは、4608のサイズの拡張したアミノ酸ライブラリーをコードする(「ヒット変種ライブラリーIII」と呼ぶ)。VH CDR1とCDR2については図13BとCを参照されたい。
6) Construction of degenerate nucleic acid library based on hit variant library II The hit variant library constructed above was targeted using a single degenerate nucleic acid library. The lower part of FIG. 13A shows the nucleic acid sequence profile resulting from reverse translation using the optimal E. coli codon for V H CDR3. Based on this profile, a degenerate nucleic acid library was synthesized by incorporating a mixture of bases at each degenerate position. As a result of the synthetic combinatorial action, this degenerate nucleic acid library encodes an extended amino acid library of 4608 size (referred to as “hit variant library III”). See FIGS. 13B and C for V H CDR1 and CDR2.

上記で構築した縮重核酸ライブラリーをファージ表示系(phage display system)にクローン化し、96ウェルプレート上に被覆された固定化VEGFへの結合に基づき、ファージ表示された抗体(ccFv)を選択した。後述のセクション2に詳述するように、小さい核酸ライブラリーサイズで、1〜3ラウンドの洗浄と選択(すなわちパニング)を行い、陽性ELISA反応を示すクローンを選択し、VH CDR3について図14Bに示すように配列決定した。陽性クローンは、核酸ライブラリーへの縮重コドンの取り込みとともに、標的化位置で多様な変種プロフィールを示す。 The degenerate nucleic acid library constructed above was cloned into a phage display system, and a phage-displayed antibody (ccFv) was selected based on binding to immobilized VEGF coated on a 96-well plate. . As detailed in Section 2 below, with a small nucleic acid library size, perform 1-3 rounds of washing and selection (ie panning), select clones that show a positive ELISA reaction, and see Figure 14B for V H CDR3 Sequenced as indicated. Positive clones show diverse variant profiles at the targeted location, along with the incorporation of degenerate codons into the nucleic acid library.

設計したもの対実験的にスクリーニングした抗体配列の結果を図14〜18で分析する。簡単に説明するとVH CDR1、2、3の配列は、VH CDR3について上記した本発明の方法に基づいて設計されている。VH CDR3、CDR2およびCDR2についてコンピューターでスクリーニングしたライブラリーから選択した上位の10個の配列とその変種プロフィールを図13A〜Cに示す。図16Aは、図13A〜Cに示す縮重核酸のVH CDR1、CDR2およびCDR3から実験的に選択されたアミノ酸配列を記載する。図16Bは、抗VEGF VH CDR1、2、3の対応する親配列に対する、VH CDR1、CDR2およびCDR3ライブラリーから選択された配列の配列同一性の分布を示す。図17Aは、4つの異なるライブラリー(設計アミノ酸配列、設計配列のアミノ酸変種のコンビナトリアルライブラリー、およびユニークなアミノ酸配列をコードするコンビナトリアル縮重核酸ライブラリーおよび全縮重核酸ライブラリー)の関係と、例としてラウンド3からの抗VEGF VH CDR3ライブラリーを使用して、Xに示した実験的に選択された陽性クローンの分布を示す(図17Bの表を参照)。異なるライブラリー中の分布は、選択条件、ライブラリー設計の有効性、選択されたクローンの相対的サイズ対配列決定したクローンのライブラリーもしくは数に依存する。図17Bは、4つのライブラリー(図17A)の間の関係と抗VEGF VH CDR1、2、3ライブラリーの陽性クローンの実験的に選択された配列の分布を示す表である。 The results of the designed versus experimentally screened antibody sequences are analyzed in FIGS. Brief sequence of V H CDRs 1, 2, and 3 when is designed in accordance with the method of the present invention described above for V H CDR3. The top 10 sequences selected from libraries screened on computers for V H CDR3, CDR2 and CDR2 and their variant profiles are shown in FIGS. FIG. 16A lists the amino acid sequences experimentally selected from V H CDR1, CDR2 and CDR3 of the degenerate nucleic acids shown in FIGS. 13A-C. FIG. 16B shows the distribution of sequence identity of sequences selected from the V H CDR1, CDR2 and CDR3 libraries relative to the corresponding parental sequences of anti-VEGF V H CDR1,2,3. FIG. 17A shows the relationship between four different libraries: a designed amino acid sequence, a combinatorial library of amino acid variants of the designed sequence, and a combinatorial degenerate nucleic acid library and a fully degenerate nucleic acid library that encode a unique amino acid sequence; Using the anti-VEGF V H CDR3 library from round 3 as an example, the distribution of experimentally selected positive clones shown in X is shown (see table in FIG. 17B). Distribution in different libraries depends on the selection conditions, the effectiveness of the library design, the relative size of the selected clones versus the library or number of clones sequenced. FIG. 17B is a table showing the relationship between the four libraries (FIG. 17A) and the distribution of experimentally selected sequences of positive clones of the anti-VEGF V H CDR1,2,3 library.

VH CDR3の詳細な分析を後述する。図14Aは、縮重核酸ライブラリー(図13A)にコードされるVH CDR3を有する機能性抗VEGF ccFv抗体のラウンド1とラウンド3で同定されたELISA陽性クローンのUV読み値を示す。図14Bは、図13Aに示す核酸ライブラリーのファージ表示によるラウンド1と3の選択からの陽性クローンのVH CDR3配列を示す。親抗VEGF抗体や成熟抗VEGF抗体(図9BとC)のVH CDR3とは異なるいくつかの位置で大きな変動が有って、多くの多様な配列が選択されることが明らかである。図14Cは、スクリーニングした配列の多様性を示す陽性クローンの系統樹を例示する。図14Bに示すVH CDR3からの選択された陽性クローンの配列同一性は、親VH CDR3配列に対して57〜73パーセントの範囲である。図15A〜Bは、第1ラウンドと第3ラウンドでスクリーニング配列の起源の3群への分解を示すパイチャートである:設計アミノ酸配列、設計アミノ酸配列からのコンビナトリアルアミノ酸配列、および合成した縮重核酸ライブラリーによりコードされるユニークなコンビナトリアルアミノ酸配列。配列分析について各ラウンドから限定された数の陽性クローンのみが選択されるため、図は、設計、そのコンビナトリアルアミノ酸、および核酸ライブラリーからの選択された配列のパーセントを例示するのみである。 Detailed analysis of V H CDR3 will be described later. FIG. 14A shows UV readings of ELISA positive clones identified in round 1 and round 3 of a functional anti-VEGF ccFv antibody with V H CDR3 encoded in a degenerate nucleic acid library (FIG. 13A). FIG. 14B shows the V H CDR3 sequence of positive clones from rounds 1 and 3 selection by phage display of the nucleic acid library shown in FIG. 13A. It is clear that there are large variations at several positions different from the V H CDR3 of the parent anti-VEGF antibody and mature anti-VEGF antibody (FIGS. 9B and C), and that many diverse sequences are selected. FIG. 14C illustrates a phylogenetic tree of positive clones showing screened sequence diversity. The sequence identity of selected positive clones from V H CDR3 shown in FIG. 14B ranges from 57 to 73 percent relative to the parent V H CDR3 sequence. 15A-B are pie charts showing the decomposition of the screening sequence into three groups in the first and third rounds: the designed amino acid sequence, the combinatorial amino acid sequence from the designed amino acid sequence, and the synthesized degenerate nucleic acid. A unique combinatorial amino acid sequence encoded by a library. Since only a limited number of positive clones are selected from each round for sequence analysis, the figure only illustrates the design, its combinatorial amino acids, and the percent of selected sequences from the nucleic acid library.

これらの実験は、本発明の方法を使用することにより、多様な配列と系統発生的距離を有するのみでなく、関連する生物学的機能(例えば、VEGFのような標的抗原に結合する能力)を有する抗体が選択されることを証明した。   These experiments show that by using the methods of the present invention, not only have diverse sequences and phylogenetic distances, but also related biological functions (eg, the ability to bind to a target antigen such as VEGF). It was proved that the antibody having was selected.

図18は、例としてVH CDR3の各段階で、アミノ酸配列のスコア化結果を使用する配列設計の漸進的進化を要約する。左から右へ模式図は、リード配列、データベース検索から作成したヒットライブラリー、ヒット変種ライブラリーI中のコンピューターでスクリーニングしたコンビナトリアル配列、設計アミノ酸配列の選択された群(ヒット変種ライブラリーII)、ライブラリーIIプロフィールから得られた縮重核酸ライブラリー、および実験でスクリーニングされた陽性クローンと配列のエネルギースペクトルを示す。このプロセスは、増強もしくは所望の性質を有する配列が実験的に選択されるまで、実験からのフィードバックを用いて繰り返される。 FIG. 18 summarizes the progressive evolution of sequence design using amino acid sequence scoring results at each stage of V H CDR3 as an example. A schematic diagram from left to right shows a lead sequence, a hit library created from database search, a combinatorial sequence screened with a computer in hit variant library I, a selected group of designed amino acid sequences (hit variant library II), The degenerate nucleic acid library obtained from the Library II profile and the positive clones and sequence energy spectra screened in the experiment are shown. This process is repeated with feedback from the experiment until sequences with enhancement or desired properties are experimentally selected.

図19A〜Dは、リード配列または複数の構造に基づく整列から得られたリード配列に基づく配列相同性分布の比較を示す。図19Aは、構造ベースの多重配列整列から作成したリードプロフィールを示す。リード配列の構造モチーフは、ある距離のカットオフ内の同様の構造についてタンパク質構造データベース(PDBデータバンク)を検索するのに使用される。各構造とVH CDR3構造モチーフ(青で着色)の間の平均自乗平均の平方根の差(RMSD)は、2Å以内である。対応する多重配列整列を、対応する構造のPDB IDと色とともに図19Aの右に示す。 19A-D show a comparison of sequence homology distributions based on lead sequences or lead sequences obtained from alignments based on multiple structures. FIG. 19A shows a lead profile generated from a structure-based multiple sequence alignment. The structural motif of the lead sequence is used to search the protein structure database (PDB databank) for similar structures within a certain distance cutoff. The root mean square difference (RMSD) between each structure and the V H CDR3 structural motif (colored in blue) is within 2 km. Corresponding multiple sequence alignments are shown to the right of FIG. 19A along with corresponding structure PDB IDs and colors.

図19Bは、親抗VEGF抗体のVH CDR3のリード配列プロフィールに基づいて作成したヒットライブラリーの251個のユニークな配列の変種プロフィールを示す。図の下の部分は、頻度の5%カットオフ(この場合は12)を使用して得られたフィルターにかけた変種プロフィールを示す。興味深いことに、リード配列プロフィールから作成された変種プロフィール中にも重要な変異体(H97YとS100aRまたはS100aT、図30と36を参照)が観察される。 FIG. 19B shows a variant profile of 251 unique sequences of a hit library generated based on the read sequence profile of the V H CDR3 of the parent anti-VEGF antibody. The lower part of the figure shows the filtered variant profile obtained using a 5% cut-off of frequency (in this case 12). Interestingly, important variants (H97Y and S100aR or S100aT, see FIGS. 30 and 36) are also observed in the variant profile generated from the lead sequence profile.

図19Cは、親VH CDR3配列に対するヒットライブラリーからの配列の分布を示す。丸は、HMM検索について単一の親配列を使用して、36%までの配列同一性が同定できることを示す。三角は、構造ベースの多重配列整列からのリード配列プロフィールを使用して、さらに下のほぼ20%までの配列同一性が見つけられることを示す。ここで使用される配列検索方策は、リード配列に対して遠い相同性(20%の低さまで)を有する多様なヒットを見つけることができる。 FIG. 19C shows the distribution of sequences from the hit library relative to the parent V H CDR3 sequence. Circles indicate that up to 36% sequence identity can be identified using a single parent sequence for HMM searches. The triangles indicate that using the lead sequence profile from the structure-based multiple sequence alignment, further down to nearly 20% sequence identity can be found. The sequence search strategy used here can find diverse hits with distant homology (up to 20% low) to the lead sequence.

図19Dは、配列、構造および機能空間中の有望な候補について検索するためにここで使用した本発明の方法の概念的進化を示す。基礎的なアイデアは、機能空間で改良された機能を有する候補を見つけるために、配列および構造空間中のヒットと変種ライブラリーの多様性を拡張するということである。ヒットと変種ライブラリーの多様性および/またはサイズが、例えばリード配列または配列プロフィールの遠い相同体(図19Aに示す)を見つけることにより上昇するが、配列、構造および機能空間の間の交差部分は、機能が向上した配列を見つける確率が上昇すると、より小さい領域に焦点化することができる。   FIG. 19D shows the conceptual evolution of the inventive method used here to search for promising candidates in sequence, structure and functional space. The basic idea is to extend the diversity of hit and variant libraries in the sequence and structure space to find candidates with improved functionality in the functional space. The diversity and / or size of hit and variant libraries is increased, for example, by finding distant homologues of the lead sequence or sequence profile (shown in FIG. 19A), but the intersection between sequence, structure and functional space is As the probability of finding an array with improved function increases, the focus can be on a smaller area.

HMMモデルを作成するためのプロフィールとして構造ベースの多重配列整列を使用することは、リード配列の遠い相同体(問題の配列の20%の配列同一性まで)を見つけることを可能にすることは明らかである。ここに記載した本発明の方法は、利用できる配列と構造情報が増加しスコア化関数の正確度が改良されると、抗体CDRライブラリーを設計するのにより強力になるであろう。   It is clear that using structure-based multiple sequence alignment as a profile for creating an HMM model makes it possible to find distant homologues of the lead sequence (up to 20% sequence identity of the sequence in question) It is. The inventive methods described herein will be more powerful in designing antibody CDR libraries as the available sequence and structural information increases and the accuracy of the scoring function improves.

2. in vitroで設計された抗体ライブラリーの機能的スクリーニング
上記の方法を使用して親抗VEGF抗体のリード配列に基づいてin silicoで設計した抗体ライブラリーを、新規ファージ表示系(phage display system)を使用して抗原VEGFに結合する能力について試験した。親抗体または成熟抗体の構造が、構造ベースのコンピューターによるスクリーニングのために使用された。1本鎖抗体(scFv)の型を取る抗体をスクリーニングする一般的アプローチ(図20と32に示す他の新規方法を参照)に対して、2本鎖抗体ライブラリーを発現させ、バクテリオファージの表面に表示させた。2本鎖抗体は、抗体のFabを機能的に模倣するためにVHとVLのヘテロダイマー化により形成される。この2本鎖抗体を「ccFv」と呼ぶ。上記したようにin silicoで設計した抗体の配列をコードする縮重核酸ライブラリーに基づいて、ccFvライブラリーを構築した。
2. Functional screening of antibody libraries designed in vitro An antibody library designed in silico based on the lead sequence of the parent anti-VEGF antibody using the above method was developed into a new phage display system. ) Was used to test for the ability to bind to the antigen VEGF. The structure of the parent antibody or mature antibody was used for structure-based computational screening. In contrast to the general approach to screening for antibodies that take the form of single chain antibodies (scFv) (see other novel methods shown in FIGS. 20 and 32), a double chain antibody library is expressed and the surface of the bacteriophage Was displayed. Double-chain antibodies are formed by heterodimerization of VH and VL to functionally mimic antibody Fabs. This double chain antibody is referred to as “ccFv”. As described above, a ccFv library was constructed based on the degenerate nucleic acid library encoding the antibody sequence designed in silico.

ccFvを設計するための理由、ccFvライブラリーの構築と発現、およびccFvライブラリーの機能的スクリーニングを、以下に詳述する。   The reasons for designing ccFv, the construction and expression of the ccFv library, and the functional screening of the ccFv library are detailed below.

1) ccFv − ヘテロダイマー性コイルドコイル安定化抗体
抗体Fv断片は、全抗原結合部位を含有する最も小さい抗体断片である。Fv断片は2つのVHとVL断片間で非常に小さい相互作用エネルギーを有し、生理学的条件下での多くの応用にはあまりにも不安定なことが多い。当然ながら、VHとVLドメインは、定常ドメイン(CH1とCL)中に位置する鎖間ジスルフィド結合により連結されてFab断片を形成する。VHおよびVL断片はまた、1つの断片のカルボキシ末端と別の断片のアミノ末端とを短いペプチドリンカーにより人工的につないで1本鎖Fv抗体断片(scFv)を形成することもできることは公知である。
本発明は、VHとVLヘテロダイマーを安定化するための新しい方策を提供する。ユニークなヘテロダイマー化配列対を設計し、これを使用して、Fab様機能的人工的Fv断片ccFvを作成した(図20)。ヘテロダイマー配列対のそれぞれは、ヘテロダイマー受容体GABAB R1とR2から得られた。この配列対は特異的にコイルドコイル構造を形成し、GABAB-R1とGABAB-R2受容体の機能的ヘテロダイマー化を仲介する。抗体のVHとVLのヘテロダイマーを操作するために、GABAB R1とGABAB-R2コイルドコイルドメイン(それぞれGR1とGR2)を、それぞれVH断片とVL断片のカルボキシ末端に融合させた。すなわち、VHとVLの機能的対合ccFv(コイルドコイルFv)は、GR1とGR2の特異的なヘテロダイマー化により仲介される。さらに、GR1とGR2ドメインのカルボキシ末端を、柔軟性のあるスペーサーまたはフレキソン「SerArgGlyGlyGlyGly」[配列番号7](または「GlyGlyGlyGlySer」[配列番号18])を加えて修飾した。ヘテロダイマー性ccFvをさらに安定化するために、GR1とGR2コイルドコイルのC末端に「ValGlyGlyCys」[配列番号8]スペーサーを加えて一対のシステイン残基を導入して、コイルドコイルGR1およびGR2介在ヘテロダイマーがジスルフィド結合で共有結合できるようにした(図20〜21)。ccFvは分子量35kDaで大腸菌(E. coli)で発現された。
1) ccFv-Heterodimeric coiled-coil stabilized antibody Antibody Fv fragment is the smallest antibody fragment containing the entire antigen binding site. Fv fragments have very little interaction energy between the two VH and VL fragments and are often too unstable for many applications under physiological conditions. Of course, the V H and V L domains are linked by interchain disulfide bonds located in the constant domains (C H 1 and C L ) to form Fab fragments. It is known that V H and V L fragments can also form single chain Fv antibody fragments (scFv) by artificially connecting the carboxy terminus of one fragment and the amino terminus of another fragment with a short peptide linker. It is.
The present invention provides a new strategy for stabilizing VH and VL heterodimers. A unique heterodimerized sequence pair was designed and used to create a Fab-like functional artificial Fv fragment ccFv (FIG. 20). Each of the heterodimeric sequence pairs was derived from the heterodimeric receptor GABA B R1 and R2. The sequence pair specifically forms a coiled-coil structure and mediates the functional heterodimerization of GABA B -R1 and GABA B -R2 receptors. In order to engineer the VH and VL heterodimers of the antibody, GABA B R1 and GABA B -R2 coiled coil domains (GR1 and GR2 respectively) were fused to the carboxy terminus of the V H and VL fragments, respectively. That is, the functional pairing ccFv (coiled coil Fv) of VH and VL is mediated by specific heterodimerization of GR1 and GR2. In addition, the carboxy terminus of the GR1 and GR2 domains was modified by adding a flexible spacer or flexon “SerArgGlyGlyGlyGly” [SEQ ID NO: 7] (or “GlyGlyGlyGlySer” [SEQ ID NO: 18]). In order to further stabilize the heterodimeric ccFv, a “ValGlyGlyCys” [SEQ ID NO: 8] spacer was added to the C-terminus of the GR1 and GR2 coiled coils to introduce a pair of cysteine residues, so that the coiled coil GR1 and GR2 mediated heterodimers Covalent bonds can be made with disulfide bonds (FIGS. 20 to 21). ccFv had a molecular weight of 35 kDa and was expressed in E. coli.

2) 抗VEGF(AM2-ccFv)とファージ表面へのその表示
抗VEGF抗体AM2のVHとVL配列を図22A〜Bに示す。これは、親抗VEGF抗体を修飾して設計した抗体である。設計したCDR配列ライブラリーの効率的なクローニングを促進するために、親抗VEGF抗体のVHとVL遺伝子中にユニークな制限部位を導入した。AM2 VHとVL遺伝子の両方をファジミドベクターにクローン化してファージ表示ベクターpABMD12を構築した。図23Aと23Bは、それぞれベクター地図と配列[配列番号17]を示す。このベクターは2つの融合タンパク質を発現するであろう:VH-GR1とVL-GR2-pIII融合体。発現されたVH-GR1とVL-GR2-pIII融合体は、細胞周辺腔中に分泌され、ここでこれらはヘテロダイマー化して、コイルドコイルドメインを介して安定なccFv抗体(「AM2-ccFv」と呼ぶ)を形成する。
ファージ上にAM2-ccFvを表示するために、pABMD12ベクターを細菌TG1細胞中に形質転換した。pABMD12ベクターを有するTG1細胞をさらにKO7ヘルパーファージで重感染させた。感染したTG1細胞を2×yt/Amp/Kan中で30℃で一晩増殖させた。ファジミド粒子をPEG/NaClにより培養物上清から沈殿させ、PBSに再懸濁して固定化VEGFに対してライブラリー選択をした。2時間結合後、非結合ファージを洗い流し、結合ファージを溶出させ、次のラウンドのパニングのために増幅した。
2) Anti-VEGF (AM2-ccFv) and its display on the phage surface The VH and VL sequences of the anti-VEGF antibody AM2 are shown in FIGS. This is an antibody designed by modifying a parent anti-VEGF antibody. In order to facilitate efficient cloning of the designed CDR sequence library, unique restriction sites were introduced into the VH and VL genes of the parent anti-VEGF antibody. Both the AM2 VH and VL genes were cloned into a fuzzymid vector to construct the phage display vector pABMD12. Figures 23A and 23B show the vector map and sequence [SEQ ID NO: 17], respectively. This vector will express two fusion proteins: V H -GR1 and V L -GR2-pIII fusion. The expressed V H -GR1 and V L -GR2-pIII fusions are secreted into the periplasmic space where they are heterodimerized and are stable ccFv antibodies ("AM2-ccFv") via the coiled-coil domain. Called).
To display AM2-ccFv on phage, the pABMD12 vector was transformed into bacterial TG1 cells. TG1 cells harboring the pABMD12 vector were further superinfected with KO7 helper phage. Infected TG1 cells were grown overnight at 30 ° C. in 2 × yt / Amp / Kan. Phadimide particles were precipitated from the culture supernatant with PEG / NaCl, resuspended in PBS and library selection against immobilized VEGF. After binding for 2 hours, unbound phage was washed away and bound phage was eluted and amplified for the next round of panning.

ファージ粒子上に表示されたccFvの結合は、ファージELISAによる抗原結合活性により検出した。簡単に説明すると、抗原(例えばVEGF)をまずELISAプレートに被覆した。5%ミルク/PBSでブロッキング後、ファージ溶液をELISAプレートに加えた。固定化抗原に結合したファージを、ファージ被覆タンパク質pVIIIに対するHRP結合抗M13抗体とインキュベートして検出した。基質ABTS[2,2’−アジノ−ビス(3−エチルベンズチアゾロン−6−スルホン酸)]を、HRP活性の測定に使用した。このアッセイはAM2に特異性が高いことが証明された。   The binding of ccFv displayed on the phage particle was detected by antigen binding activity by phage ELISA. Briefly, an antigen (eg, VEGF) was first coated on an ELISA plate. After blocking with 5% milk / PBS, the phage solution was added to the ELISA plate. Phage bound to the immobilized antigen was detected by incubation with an HRP-conjugated anti-M13 antibody against the phage coat protein pVIII. The substrate ABTS [2,2'-azino-bis (3-ethylbenzthiazolone-6-sulfonic acid)] was used to measure HRP activity. This assay proved to be highly specific for AM2.

上記のファージELISAでAM2-ccFvと比較するために、1本鎖AM2抗体(AM2-scFv)ファージも調製した。図24に示すように、固定化VEGFへのAM2-ccFvファージの見かけの結合親和性は、AM2-scFvファージよりほとんど1オーダー高い。すなわち、ファージ粒子上に表示されると、AM2-ccFvとAM2-scFvともに機能性であると結論される。   A single chain AM2 antibody (AM2-scFv) phage was also prepared for comparison with AM2-ccFv in the phage ELISA described above. As shown in FIG. 24, the apparent binding affinity of AM2-ccFv phage to immobilized VEGF is almost an order of magnitude higher than AM2-scFv phage. That is, when displayed on phage particles, it is concluded that both AM2-ccFv and AM2-scFv are functional.

3) モデル抗体ライブラリーからのccFvファージの濃縮
AM2-ccFv表示ファージがバックグランドファージから濃縮できることを証明するために、我々はパニング実験を行って「モデルライブラリー」からAM2-ccFvファージについて選択した。モデルライブラリーは、AM2-ccFvファージを無関係のAM1-ccFv表示ファージと1:106または1:107の比率で混合して調製した。固定化VEGF抗原について2ラウンドのパニングを行った。100μlの2μg/ml VEGFを96ウェルプレート中の各ウェルに被覆した。PBS中の5%ミルクでブロッキングした後、2%ミルク/PBS中の1×1012ライブラリーファージをウェルに加え、室温で2時間インキュベートした。ファージ溶液を捨て、ウェルをPBST(PBS中0.05%ツイーン20)で5回洗浄し、PBSで5回洗浄した。結合ファージを100mM トリエチルアミンで溶出させ、TG1培養物に加えて感染させた。感染したTG1細胞から調製したファージを次のラウンドのパニングと上記ファージELISAに使用した。各ラウンドのパニング後、回収されたAM2-ccFvファージ対AM1-ccFvファージの比を、PCRにより感染したTG1コロニーを分析して測定した。AM2-ccFv遺伝子とAM1-ccFv遺伝子の配列の差のために、AM2-ccFv遺伝子を特異的に増幅するがAM1-ccFv遺伝子は増幅しない一対のプライマーを設計した。図25Aに示すように、第2ラウンドのパニングからのファージは非常に高いELISA読み値を与え、2ラウンドのパニング後に1:106と1:107ライブラリーの両方からAM2-ccFvファージの高い濃縮が達成されたことを示唆する。PCR分析は、AM2-ccFvファージの出現率が、第1ラウンドのパニング後の1:107ライブラリーから4.4%であり、第2ラウンドのパニングから100%であることを確認した(図25B)。
3) Enrichment of ccFv phage from model antibody library
To prove that AM2-ccFv-displayed phage can be enriched from background phage, we performed panning experiments and selected for AM2-ccFv phage from the “model library”. The model library was prepared by mixing AM2-ccFv phage with irrelevant AM1-ccFv display phage at a ratio of 1:10 6 or 1:10 7 . Two rounds of panning were performed on the immobilized VEGF antigen. 100 μl of 2 μg / ml VEGF was coated to each well in a 96 well plate. After blocking with 5% milk in PBS, 1 × 10 12 library phage in 2% milk / PBS was added to the wells and incubated for 2 hours at room temperature. The phage solution was discarded and the wells were washed 5 times with PBST (0.05% Tween 20 in PBS) and 5 times with PBS. Bound phage was eluted with 100 mM triethylamine and added to the TG1 culture for infection. Phages prepared from infected TG1 cells were used for the next round of panning and the above phage ELISA. After each round of panning, the ratio of recovered AM2-ccFv phage to AM1-ccFv phage was measured by analyzing TG1 colonies infected by PCR. Due to the sequence difference between the AM2-ccFv gene and the AM1-ccFv gene, a pair of primers that specifically amplify the AM2-ccFv gene but not the AM1-ccFv gene were designed. As shown in FIG. 25A, phage from the second round of panning give very high ELISA readings, and high AM2-ccFv phage from both 1:10 6 and 1:10 7 libraries after two rounds of panning Suggests that concentration has been achieved. PCR analysis confirmed that the incidence of AM2-ccFv phage was 4.4% from the 1:10 7 library after the first round of panning and 100% from the second round of panning (FIG. 25B). .

4) 設計したccFv抗体のファージライブラリーの構築とパニング
図8に概説するように、モジュラー進化的アプローチを使用して、コンピューターによるスクリーニングと実験によるスクリーニングのために抗体ライブラリーを構築した。設計したCDR配列のライブラリーをコードするオリゴを合成し、PCRにより増幅した。増幅用のプライマーは、合成CDR配列をpABMD12ベクター中にクローン化するための制限部位を含有する。CDR1、CDR2、およびCDR3の挿入のためにそれぞれNheIとXmaI、XmaIとSpeII、およびPstIとStyIの制限部位を使用して、AM2-ccFvのために3つのVHライブラリーを調製した。連結後、DNAをTG1細胞中に形質転換した。TG1細胞からKO7ヘルパーファージ感染によりファージを調製した。固定化VEGFに対する3ラウンドのパニングを後述のように行った。100μlの2μg/ml VEGFを96ウェルプレート中の各ウェルに被覆した。PBS中の5%ミルクでブロッキングした後、2%ミルク/PBS中の1×1012ライブラリーファージをウェルに加え、室温で2時間インキュベートした。ファージ含有溶液を捨て、ウェルをPBST(PBS中0.05%ツイーン20)で5回洗浄し、PBSで5回洗浄した。結合ファージを最後に100mM トリエチルアミンで溶出させ、TG1培養物に加えて感染させた。感染したTG1細胞から調製したファージを次のラウンドのパニングに使用した。各ラウンドのパニング後、94〜376個のクローンをファージELISAのために取り上げた(図26AとB)。ファージELISAからの陽性クローンをPCRにより増幅し配列決定した。次にDNA配列をアミノ酸配列に翻訳した。3つのライブラリーからのコードアミノ酸配列を図27の表に記載する。
4) Construction and panning of a designed ccFv antibody phage library As outlined in Figure 8, a modular evolutionary approach was used to construct antibody libraries for computational and experimental screening. Oligos encoding the designed library of CDR sequences were synthesized and amplified by PCR. The amplification primer contains a restriction site for cloning the synthetic CDR sequence into the pABMD12 vector. Three VH libraries were prepared for AM2-ccFv using NheI and XmaI, XmaI and SpeII, and PstI and StyI restriction sites for insertion of CDR1, CDR2, and CDR3, respectively. After ligation, the DNA was transformed into TG1 cells. Phages were prepared from TG1 cells by KO7 helper phage infection. Three rounds of panning against immobilized VEGF were performed as described below. 100 μl of 2 μg / ml VEGF was coated to each well in a 96 well plate. After blocking with 5% milk in PBS, 1 × 10 12 library phage in 2% milk / PBS was added to the wells and incubated for 2 hours at room temperature. The phage-containing solution was discarded and the wells were washed 5 times with PBST (0.05% Tween 20 in PBS) and 5 times with PBS. Bound phage was finally eluted with 100 mM triethylamine and added to the TG1 culture for infection. Phages prepared from infected TG1 cells were used for the next round of panning. After each round of panning, 94-376 clones were picked for phage ELISA (FIGS. 26A and B). Positive clones from phage ELISA were amplified by PCR and sequenced. The DNA sequence was then translated into an amino acid sequence. The encoded amino acid sequences from the three libraries are listed in the table of FIG.

5) 3次構造または構造モデルからの制約の有るおよび無い配列に基づくライブラリー設計
CDRライブラリーを設計するための別の方策は、構造空間中でCDR配列を無関係のおよび関係のあるセグメントに分割し、CDRループのN末端およびC末端領域のような構造的に結合した部位で共変変異体を検出することである(ほとんどの場合に低い分解構造で充分である)。例えば図28Aは、VH CDR3のフィルターにかけたヒット変種プロフィールを実験的選択からの他の変種と組合せることにより得られる抗VEGF抗体のVH CDR3の複合変種プロフィールを示す。我々は、多様な供給源からの変種を組合せて、ライブラリー構築のための複合変種プロフィールを作成できることを証明したい。約106〜107の多様性を有する核酸ライブラリーにより各小さい変種プロフィールがカバーできることを確認するために、この変種プロフィールは、より小さい変種プロフィールのいくつかのセグメントに分解できる。分解したセグメントライブラリーでは、VH CDR3成熟配列とH97YおよびS101T(KabatのS100aT)との組合せは意図的に避けたことを注意されたい(図28A〜D)。
5) Library design based on sequences with and without constraints from tertiary structures or structural models
Another strategy for designing CDR libraries is to divide the CDR sequences into unrelated and related segments in the structure space and at structurally linked sites such as the N-terminal and C-terminal regions of the CDR loop. Detecting covariant variants (in most cases a low resolution structure is sufficient). For example, FIG. 28A shows a composite variant profile of anti-VEGF antibody V H CDR3 obtained by combining the filtered hit variant profile of V H CDR3 with other variants from experimental selection. We want to prove that variants from various sources can be combined to create a composite variant profile for library construction. In order to confirm that each small variant profile can be covered by a nucleic acid library having a diversity of about 10 6 to 10 7 , this variant profile can be broken down into several segments of smaller variant profiles. Note that in the degraded segment library, the combination of the V H CDR3 mature sequence with H97Y and S101T (Kabat S100aT) was intentionally avoided (FIGS. 28A-D).

図28A〜Dは、抗VEGF VH CDR3の配列ライブラリーを示す。ライブラリーを3つのセグメントに分解する:図28Dは、結合した変種を含有する可能性のあるN末端とC末端をカバーする(1〜3)、図28Cはセグメント(4)を含有し、図28Dは、他のセグメント(5)を含有する。すべての3つのセグメントは、約106のサイズの核酸ライブラリーによりカバーされる:図28B中の(1〜3)は、3つの縮重核酸ライブラリーにより標的化され、一方図28C〜D中の(4)と(5)は、別々の縮重核酸ライブラリーにより標的化される。 Figures 28A-D show a sequence library of anti-VEGF V H CDR3. Decompose the library into three segments: FIG. 28D covers N- and C-termini that may contain bound variants (1-3), FIG. 28C contains segment (4), 28D contains another segment (5). All three segments are covered by a nucleic acid library of about 10 6 size: (1-3) in FIG. 28B is targeted by three degenerate nucleic acid libraries, while in FIGS. 28C-D (4) and (5) are targeted by separate degenerate nucleic acid libraries.

これらのセグメントライブラリーを設計する理由は以下の通りである。構造的に遠いセグメントはしばしば無関係であり、従って空間中で広く分かれた変異は独立に処理することができる。CDR3ループについて、配列は3つのセグメントに分割される:第1と第3のセグメント(ループの基部)はライブラリー設計のための1つのプロフィールを形成し、ループの頂部はライブラリー設計のための縮重核酸ライブラリー中にサイズが106の2つのプロフィールに分解される。図28Bに示されるように、空間中で互いに結合するN末端とC末端の断片(ループの基部を形成する配列は一般的にループ閉環に相関する)は、3つの縮重オリゴヌクレオチド(1〜3)のみを有するコンビナトリアル核酸ライブラリーにより同時に標的化すべきである。CαまたはCβ距離マトリックスのような単純な基準を調べて、相関するセグメントを同定することができる(8Å内のCα原子中の構造と距離接触マトリックスについては図28Aを参照)。場合により、より詳細な相互作用マトリックスをマッピングして、相互作用の数と種類を調べることができるが、基礎的原理は相関セグメントを同定するものと同じである。 The reasons for designing these segment libraries are as follows. Structurally distant segments are often irrelevant, so mutations that are widely separated in space can be handled independently. For CDR3 loops, the sequence is divided into three segments: the first and third segments (the base of the loop) form one profile for the library design and the top of the loop is for the library design It is broken down into two profiles of size 10 6 in a degenerate nucleic acid library. As shown in FIG. 28B, the N-terminal and C-terminal fragments that bind together in space (the sequence that forms the base of the loop generally correlates with the loop closure) are divided into three degenerate oligonucleotides (1 to 3) should be targeted simultaneously by a combinatorial nucleic acid library with only Simple criteria such as Cα or Cβ distance matrix can be examined to identify correlated segments (see Figure 28A for structure and distance contact matrix in Cα atoms within 8 Å). In some cases, a more detailed interaction matrix can be mapped to examine the number and type of interactions, but the basic principle is the same as identifying correlated segments.

頂部のライブラリー(例えば図28Cと28Dの(4)と(5))はしばしば無関係である。これらは、各ライブラリーが、実験により容易に管理できるサイズ範囲(図28C〜D中で<106)に限定されるなら、連続的に1次配列に沿って縮重オリゴヌクレオチドライブラリーにより、標的化される。生じるライブラリー間で小さいレベルの局所的相関を維持するために、断片間に位置の重複がなければならない。同様に、長いセグメントは重複セグメントに分割されて、配列の長さをまたがるようにし、対応するライブラリーを作成することができる。 The top library (eg (4) and (5) in FIGS. 28C and 28D) is often irrelevant. If each library is limited to a size range (<10 6 in FIGS. 28C-D) that can be easily managed by experiment, then the degenerate oligonucleotide libraries along the primary sequence, Targeted. In order to maintain a small level of local correlation between the resulting libraries, there must be positional overlap between the fragments. Similarly, long segments can be split into overlapping segments to span the length of the sequence and a corresponding library can be created.

生じる再プロフィール化は、観察された実験的または構造的またはコンピューター基準に基づいてさらに修飾され増強される。これらには、追加の極性アミノ酸との既知の水素結合の種々の位置、大きな脂肪族または芳香族基とのファンデアワールス接触の大きい領域、またはグリシンによる柔軟性の上昇により利益を受ける領域がある。実験的フィードバックにおいて、図28Aの変種プロフィールで証明されるように、以後の設計改良のための基礎として、早期スクリーニングからのアッセイ結果に基づいて変種を加えてもよい。より洗練された分析は、配列内のアミノ酸基の結合(例えば、塩結合または水素結合)を考慮してもよい。   The resulting reprofile is further modified and enhanced based on observed experimental or structural or computational criteria. These include various positions of known hydrogen bonds with additional polar amino acids, areas of high van der Waals contact with large aliphatic or aromatic groups, or areas that benefit from increased flexibility with glycine. . In experimental feedback, variants may be added based on assay results from early screening as the basis for subsequent design improvements, as evidenced by the variant profile of FIG. 28A. A more sophisticated analysis may take into account the bonding of amino acid groups within the sequence (eg, salt bonding or hydrogen bonding).

6) ccFvライブラリーL14のためのオフレートパニング
高親和性抗体を選択するために、オフレートパニングプロセスを行ってライブラリーL14を選択した(図28A〜Dを参照)。ファージ表面上の抗体断片と固定化抗原との相互作用の強さは、オンレート(結合速度)とオフレート(解離速度)により測定される相互作用性親和性により測定される。前記試験により、高親和性の抗体は通常遅いオフレートを有するが、低親和性の抗体は速いオフレートを有し、これらのオンレートは同様である。固定化抗原からの低親和性を有する抗体の解離を促進するためにオフレートパニングを設計し、洗浄条件の厳しさ(ストリンジェンシー)を徐々に上昇させた。ストリンジェンシーが上昇する洗浄液を適用して、低親和性ファージを洗い流し、親和性が高くなっていく(すなわち、遅いオフレート)ファージを残した。従って、厳しくなる洗浄条件を生き延びるファージは高親和性を有し、その存在が優勢になるファージは存在が低いものより高い親和性を有するはずである。我々はまた、種々のパニング条件下で(図29と35A〜B)2つの独立の表示プラットフォーム(図20と32)を使用して、ファージレベルで匹敵するオフレートパニングを証明する。ファージパニングから生じる陽性クローンまたはクローンのコンセンサスは、ある配列または変種、親配列と比較して抗原に対して増強した親和性を有することを強く示唆する。
6) Off-rate panning for ccFv library L14 To select high affinity antibodies, an off-rate panning process was performed to select library L14 (see FIGS. 28A-D). The strength of the interaction between the antibody fragment on the phage surface and the immobilized antigen is measured by the interactive affinity measured by the on-rate (binding rate) and the off-rate (dissociation rate). According to the test, high affinity antibodies usually have a slow off rate, while low affinity antibodies have a fast off rate, and these on rates are similar. Off-rate panning was designed to promote dissociation of antibodies with low affinity from the immobilized antigen, and the stringency of washing conditions (gradient) was gradually increased. A wash solution with increased stringency was applied to wash out the low affinity phage, leaving the phage with higher affinity (ie slow off-rate). Thus, a phage that survives stringent wash conditions will have a high affinity, and a phage whose presence predominates should have a higher affinity than a low presence. We also demonstrate comparable off-rate panning at the phage level using two independent display platforms (FIGS. 20 and 32) under various panning conditions (FIGS. 29 and 35A-B). A consensus of positive clones or clones arising from phage panning strongly suggests having an enhanced affinity for the antigen compared to a sequence or variant, the parental sequence.

VH CDR3配列を短い重複セグメントに分解することにより、抗VEGF VH CDR3ライブラリーとしてL14を調製した(図28A〜Dを参照)。遅いオフレートを区別するために、多くのパニング条件を操作した。最初の2ラウンドのパニングで、ウェルをPBSTとPBSで軽く6回洗浄して、低親和性のファージを除去した。パニング3から出発して、結合ファージをさらに長時間洗浄して、より速いオフレート(解離)を有するものを除去した。そのような解離期間の持続とストリンジェンシーをパニングの回数とともに増加させ(図29)、より多くのファージを解離させ除去した;これに対して、遅いオフレート(高親和性)を有するものは結合したまま残り、最終的に濃縮される。図29に記載のように、パニング3はPBS中で37℃で1時間行った(PBSは10分毎に新鮮なものを使用し、その間に短い洗浄を行い解離したファージを除去した);パニング4はPBS中で37℃で2時間行った;パニング5はPBST中で室温で1時間、次にPBS中で37℃で2時間行った;パニング6は大量(20ml)のPBS中で室温で一晩行った;パニング7はさらに洗浄の温度(30℃)、容量(50ml)、および時間(24時間)を上昇させた。図29に示すように、上記の洗浄ストリンジェンシーを変化させる以外に、抗原濃度、ファージ入力濃度を低下させ、結合時間の温度を上昇させて、解離をさらに増強した。パニングから生き延びたクローンをランダムに取り上げ、ファージELISAで測定して、VEGFに結合する能力を確認した。パニング5と7の両方でクローンから100%ELISA陽性率が得られ、パニング5以降はすべての生存ファージがVEGFに結合でき、従って洗い流されたファージはより速いオフレートを持っていたことを示唆している。ファージELISAで陽性のクローンのうちで、パニング5からの20クローンとパニング7からの10クローンを、DNA配列決定のためにランダム取り上げた。VH CDR3のコードアミノ酸配列を図30に要約する。野生型と平均抗体の頻度は、パニング5で20%であった。高ストリンジェンシーでさらに2ラウンドのオフレートパニング後に、野生型配列の頻度はパニング7で0まで低下した。これに対して、HR(H97、R101またはKabatではR100a)変異体は、パニング5で35%からパニング7で70%まで濃縮され(図30)、これは最終的に唯一の優勢なクローンとなった。HT(H97、T101またはKabatではT100a)変異体の存在(30%)は、パニング5と7で変化しなかった。P0からP7までのHR変異体の濃縮を図31に示す。これらのデータは、HRとHT変異体の両方が野生型抗体より高い親和性を有することを示唆する。HR変異体の親和性はHT変異体(これは、成熟配列について報告された(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881)ように101位(またはKabatでは100a)にアルギニンではなくスレオニンを有する)の親和性より高いはずである。 L14 was prepared as an anti-VEGF V H CDR3 library by degrading the V H CDR3 sequence into short overlapping segments (see FIGS. 28A-D). A number of panning conditions were manipulated to distinguish slow off rates. In the first two rounds of panning, the wells were gently washed 6 times with PBST and PBS to remove low affinity phage. Starting from panning 3, the bound phages were washed for a longer time to remove those with a faster off-rate (dissociation). The duration and stringency of such dissociation periods increased with the number of pannings (Figure 29), dissociating and removing more phage; in contrast, those with slow off-rates (high affinity) bound It remains and is finally concentrated. Panning 3 was performed in PBS at 37 ° C. for 1 hour as described in FIG. 29 (PBS was used fresh every 10 minutes, during which a short wash was performed to remove dissociated phage); panning 4 was performed in PBS for 2 hours at 37 ° C; Panning 5 was performed in PBST for 1 hour at room temperature, then in PBS for 2 hours at 37 ° C; Panning 6 was performed in a large volume (20 ml) of PBS at room temperature Panning 7 further increased washing temperature (30 ° C.), volume (50 ml), and time (24 hours). As shown in FIG. 29, in addition to changing the washing stringency described above, the antigen concentration and the phage input concentration were decreased, the temperature of the binding time was increased, and dissociation was further enhanced. Clones that survived panning were randomly picked and measured by phage ELISA to confirm their ability to bind to VEGF. Both panning 5 and 7 gave 100% ELISA positive rates from the clones, suggesting that all surviving phage could bind to VEGF after panning 5 and thus washed out phage had a faster off-rate. ing. Of the clones positive by phage ELISA, 20 clones from panning 5 and 10 clones from panning 7 were randomly picked for DNA sequencing. The encoded amino acid sequence of V H CDR3 is summarized in FIG. The frequency of wild-type and average antibodies was 20% with panning 5. After two additional rounds of off-rate panning at high stringency, the frequency of wild-type sequences decreased to zero at panning 7. In contrast, HR (H97, R101 or R100a in Kabat) mutants were enriched from 35% in panning 5 to 70% in panning 7 (Figure 30), which ultimately became the only dominant clone It was. The presence (30%) of the HT (H97, T101 or Kabat T100a) mutant did not change between panning 5 and 7. The enrichment of HR variants from P0 to P7 is shown in FIG. These data suggest that both HR and HT variants have higher affinity than wild type antibodies. The affinity of the HR mutant was reported for the HT mutant (this was reported for mature sequences (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881) should be higher than the affinity at position 101 (or threonine instead of arginine at 100a in Kabat).

8) アダプター介在ファージ表示系による1本鎖(scFv)抗VEGF抗体ライブラリーのパニング
後述の独立した系を使用して、オフレートパニング方策をさらに試験した。
8) Panning of single chain (scFv) anti-VEGF antibody library with adapter-mediated phage display system An off-rate panning strategy was further tested using the independent system described below.

従来のファージ表示系では、目的のタンパク質をファージカプシドタンパク質(例えばpIII)に融合させてファージの表面に表示させた。融合タンパク質は組み立てられてファージ粒子となり、野生型ファージタンパク質はKO7のようなヘルパーファージにより提供された。我々は、「アダプター指令表示系」と呼ぶ新しいファージ表示系を開発した。一般的に目的のタンパク質は、特異的にヘテロダイマーを形成する一対のアダプター(1つは発現ベクター中の表示されたタンパク質と融合され、他の1つはヘルパーベクター中のファージカプシドタンパク質と融合する)により、ファージ粒子の表面に輸送される。本例の一対のアダプターは、上記のGR1とGR2である。図32に記載のように、目的のタンパク質(scFv抗VEGF)はアダプター(GR1)との融合体として発現されて、発現ベクター中でscFv-GR1の構築体を形成する(図33AとB)。GR2をヘルパーファージのゲノム中に挿入して、pIIIカプシドタンパク質との融合体を形成した(pIIIのGR2-CT、図33AとB)。その結果、修飾ゲノムを有するヘルパーファージは次にGMCTウルトラヘルパーファージと命名される(図34AとB)。TG1細胞では、発現ベクターはscFv-GR1を発現し、これは次に細菌細胞周辺腔中に分泌される。細胞をさらにGMCTウルトラヘルパーファージで感染させ、これはpIIIのGR2-CTを発現し、細菌細胞周辺腔中にも分泌される。従ってscFv-GR1とpIIIのGR2-CTは、GR1とGR2のコイルドコイル相互作用により特異的にヘテロダイマーを形成し、これは最終的にファージの表面にscFvを組み立てる。   In a conventional phage display system, a target protein is fused to a phage capsid protein (eg, pIII) and displayed on the surface of the phage. The fusion protein was assembled into a phage particle, and the wild type phage protein was provided by a helper phage such as KO7. We have developed a new phage display system called the “adapter command display system”. Generally, the protein of interest is specifically fused to a pair of adapters that form heterodimers, one fused to the indicated protein in the expression vector and the other to the phage capsid protein in the helper vector. ) To be transported to the surface of the phage particle. The pair of adapters in this example is the above-described GR1 and GR2. As described in FIG. 32, the protein of interest (scFv anti-VEGF) is expressed as a fusion with the adapter (GR1) to form a scFv-GR1 construct in the expression vector (FIGS. 33A and B). GR2 was inserted into the helper phage genome to form a fusion with the pIII capsid protein (GRIII-CT of pIII, FIGS. 33A and B). As a result, helper phage with a modified genome is then named GMCT ultrahelper phage (FIGS. 34A and B). In TG1 cells, the expression vector expresses scFv-GR1, which is then secreted into the bacterial periplasmic space. Cells are further infected with GMCT ultrahelper phage, which expresses pIII GR2-CT and is also secreted into the periplasmic space of bacteria. Thus, scFv-GR1 and pIII GR2-CT specifically form heterodimers due to the coiled-coil interaction of GR1 and GR2, which ultimately assembles the scFv on the surface of the phage.

この系を使用して我々は、抗VEGF scFvライブラリーL17(上記ccFvライブラリーL14と同等)を構築した(抗VEGF CDR3 VH合成ライブラリー)。ライブラリーL14の選択と同様に、オフレートパニングを適用した。ライブラリーDNAをTG1細胞に形質転換し、次にGMCTウルトラヘルパーファージでレスキューした。標準的プロトコールに従ってファージを調製し、96ウェルプレート中の固定化VEGFに対する結合を試験した。図35Aに示すように、パニング1と2からのウェルを、まずPBSTで10回洗浄し、次にPBSで室温で10回洗浄し、次にPBST中で室温で1時間解離した(PBSTは10分毎に新鮮なものに交換し、その間に短い洗浄を行い解離したファージを除去した);パニング3では解離時間を2時間に増加させた。パニング3から回収したファージを使用して、2つの平行パニング(図35B)(パニング4とパニング5)を行って、低親和性のファージの解離をさらに促進させた:パニング4では150ml PBSTで18時間、パニング5では37℃。パニング4からELISA陽性の10クローンとパニング5から8クローンを、配列決定のためにランダムに取り上げた。データを図36に示す。パニング4では、WT配列の存在は10%であった。HT変異体(30%)とHA変異体(30%)の頻度は同等であった。分析した10クローンの中で101位(100a Kabat)にはアルギニン残基は証明されず(図36)、この段階で低出現率を示唆している。これに対して、パニング5では解離ストリンジェンシーを上昇させることにより、101位(100a Kabat)のアルギニンの存在は50%(8クローンのうち4つ)まで上昇し、パニング5では優勢になる。比較すると、HT変異体は30%から12.5%まで低下し、WTは10%から0まで低下し、図30の観察結果と一致する。この結果は、HR変異体がHT変異体またはWTより高い親和性を有することを強く示唆する。 Using this system, we constructed an anti-VEGF scFv library L17 (equivalent to the above ccFv library L14) (anti-VEGF CDR3 V H synthesis library). Off-rate panning was applied as in library L14 selection. Library DNA was transformed into TG1 cells and then rescued with GMCT ultrahelper phage. Phages were prepared according to standard protocols and tested for binding to immobilized VEGF in 96 well plates. As shown in FIG. 35A, wells from pannings 1 and 2 were first washed 10 times with PBST, then 10 times with PBS at room temperature, and then dissociated in PBST for 1 hour at room temperature (PBST 10 Every minute, it was replaced with a fresh one, during which a short wash was performed to remove the dissociated phage); in Panning 3, the dissociation time was increased to 2 hours. Using phage recovered from panning 3, two parallel pannings (Figure 35B) (panning 4 and panning 5) were performed to further promote dissociation of low affinity phage: 18 in 150 ml PBST for panning 4 Time, Panning 5 is 37 ° C. Ten ELISA-positive clones from Panning 4 and 5 to 8 clones were randomly picked for sequencing. The data is shown in FIG. In panning 4, the presence of WT sequences was 10%. The frequency of HT mutant (30%) and HA mutant (30%) was comparable. Of the 10 clones analyzed, no arginine residue was demonstrated at position 101 (100a Kabat) (Figure 36), suggesting a low incidence at this stage. In contrast, panning 5 increases dissociation stringency, so that the presence of arginine at position 101 (100a Kabat) rises to 50% (4 out of 8 clones) and panning 5 becomes dominant. By comparison, the HT variant decreases from 30% to 12.5%, and the WT decreases from 10% to 0, which is consistent with the observations in FIG. This result strongly suggests that the HR mutant has a higher affinity than the HT mutant or WT.

9) ライブラリー設計、多様性および親和性成熟の要約
図30と36の両方に示した結果は、ここで使用した2つの独立した新規ファージ表示系のオフレートパニングは、新規変異体HR(H97、R101またはKabatでR100a)を選択できることを示唆する。HR変異体は、報告された成熟配列中の対応するHT(H97、T101またはKabatでT100a)変異体より高い結合親和性を有する(図9B)。さらにHR変異体は、YS(Y97、S101またはKabatでS100a)変異体より良く抗原に結合する(図36のパニング4を参照)。YS変異体は以前、WTに対して14倍結合親和性を改良すると報告され、成熟抗VEGF抗体のVH CDR3の単一の最も重要な変異体であると考えられた(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881)。この変異体H97Yはまた、データベース検索(図11)とコンピューターによるスクリーニング(図13A)により、設計ライブラリーで重要であることがわかった。
9) Summary of library design, diversity and affinity maturation The results shown in both FIGS. 30 and 36 show that the off-rate panning of the two independent novel phage display systems used here is the novel mutant HR (H97 This suggests that R100a) can be selected with R101 or Kabat. The HR mutant has a higher binding affinity than the corresponding HT (H97, T101 or Kabat T100a) mutant in the reported mature sequence (FIG. 9B). Furthermore, the HR mutant binds to the antigen better than the YS (Y97, S101 or Kabat S100a) mutant (see Panning 4 in FIG. 36). The YS variant was previously reported to improve binding affinity 14-fold to WT and was considered the single most important variant of the mature anti-VEGF antibody V H CDR3 (Chen Y, Wiesmann C , Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881). This mutant H97Y was also found to be important in the design library by database search (Figure 11) and computer screening (Figure 13A).

K94は興味深い例であり、ある程度考察に値する。厳密に言うと、K94はKabat命名法ではVH CDR3に属さない。しかしVH CDR3のN末端の配列CAKは、HMMモチーフの作成において含まれ、その理由は、この配列が配列モチーフの境界に強い制約を与えるためである。CAKはフレームワークとVH CDR3の境界領域であるため、我々は、この領域の変異が結合親和性に与える影響を試験することを考える。R94はデータベース検索とコンピューターによるスクリーニングの両方で好適であることがわかったが(図11と13A)、K94は実験によるスクリーニングでR94より強く結合する(図30と36)。K94とR94の両方をライブラリーに含めるとK94のみが選択された(図28B、30および36)が、R94はVEGFへの結合においてまだ活性がある(図13Aと14B)。この理由は、ジョイント領域中のR94は、抗体の他の領域と相互作用することにより抗原への結合においてVH CDR3の配向を変化させ、こうしてコンピューターによるスクリーニングに使用された元々のK94X線構造(成熟抗体)を失効させるためかも知れない。R94は、ヒト化中に抗VEGF抗体の結合親和性をほぼ5倍低下させることが報告された(Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678- 10684)。この問題を避けるためにいくつかのアプローチが使用できる:(1) CDRのみを設計するなら、境界の残基を設計することを避ける;(2) 親および好適な残基の両方(例えば、94のKとRの両方)を実験ライブラリー中で組合せる。RとKは、データベース検索からこの位置で好ましい2つの主要な残基(R94についてほぼ90%、K94についてほぼ10%)であるため、この場合これらは妥当かつ直接的である(図11を参照);(3) 分子動的シミュレーションによりコンピューターでR94をこの位置でコンフォメーションを試験し、改変構造または構造集合体がR94とともに使用されるかどうか調べる。 K94 is an interesting example and deserves some consideration. Strictly speaking, K94 does not belong to V H CDR3 by Kabat nomenclature. However, the N-terminal sequence CAK of V H CDR3 is included in the creation of the HMM motif because this sequence places strong constraints on the boundaries of the sequence motif. Since CAK is the border region between the framework and V H CDR3, we consider testing the effect of mutations in this region on binding affinity. Although R94 was found to be suitable for both database searching and computer screening (Figures 11 and 13A), K94 binds more strongly than R94 in experimental screening (Figures 30 and 36). Including both K94 and R94 in the library selected only K94 (Figures 28B, 30 and 36), but R94 is still active in binding to VEGF (Figures 13A and 14B). This is because R94 in the joint region changes the orientation of V H CDR3 in binding to the antigen by interacting with other regions of the antibody, and thus the original K94 X-ray structure used for computer screening ( This may be due to the expiration of the mature antibody. R94 has been reported to reduce the binding affinity of anti-VEGF antibodies almost 5-fold during humanization (Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684). Several approaches can be used to avoid this problem: (1) If designing only CDRs, avoid designing border residues; (2) both parent and preferred residues (eg, 94 Combine both K and R) in the experimental library. Since R and K are the two major residues preferred at this position from a database search (approximately 90% for R94 and approximately 10% for K94), they are reasonable and straightforward in this case (see FIG. 11) ); (3) The conformation of R94 is tested at this position with a computer by molecular dynamic simulation to see if a modified structure or structure aggregate is used with R94.

要約すると、抗VEGF抗体のVH CDR3領域の周りの3つの重要な部位が、VEGFの抗体の結合親和性に対して直接影響を有することがわかっている。3つの位置(K94、H97およびS101)の変異の2つ(Y97とR101またはR100aKabat)は、抗原の存在下および/または非存在下で親または成熟抗体構造を使用して、抗原との改良された結合に重要であることがわかり、R94はジョイント領域での変異により誘導される構造変化の可能性のために正しく予測できなかった。Y97は、我々の実験によるスクリーニングで証明されたように、親和性改良の重要な変異であることがわかっている。R101(R100aKabat)は、2つの独立のファージ表示系により確認される新規変異体であり、おそらくY97より高い親和性を付与するであろう。 In summary, it has been found that three important sites around the V H CDR3 region of anti-VEGF antibodies have a direct effect on the binding affinity of VEGF antibodies. Two of the mutations at three positions (K94, H97 and S101) (Y97 and R101 or R100aKabat) are improved with the antigen using the parental or mature antibody structure in the presence and / or absence of the antigen. R94 could not be predicted correctly due to the possibility of structural changes induced by mutations in the joint region. Y97 has been found to be an important mutation for affinity improvement, as demonstrated by our experimental screening. R101 (R100aKabat) is a novel mutant identified by two independent phage display systems and will probably confer higher affinity than Y97.

R94、Y97およびR101を含むこれらの変異体のほとんどは、ヒット変種プロフィール中の優勢変種に属する(図11を参照)(>5%)。従って単純な配列検索により、ヒット変種ライブラリーからこれらが見つかるであろう。変種ライブラリーの構造ベースのスクリーニングでは、これらの変異体はまた、図13Aに示すように選択された配列プロフィール中で高くランクされる。集合配列スコア化の観点から、親配列より高いスコアの配列のプール化と再プロフィール化はまた、観察された変種を94(88%R、12%K)、97(60%Y、17%H)、および101(60%R、17%T、13%S)で高くランク付けされる。R94に関連する問題を除くと、Y97とR101またはT101に対する統計的選択性は我々の設計で明らかである。我々は、変種プロフィールを作成するための配列検索および/または構造ベースのスコア化を使用する我々のライブラリー設計を証明した。2つの独立した新規ファージ表示系を使用する実験によるスクリーニングまたは選択は、VH中の親配列とは異なる配列を設計するのに、ここに記載した本発明の方法の有用性を証明した。ここで見つかった変異体の一部(例えばY97および/またはR101またはT101)は、親配列より少なくとも10倍高い親和性を有する(Y97は親和性の14倍改良を占め、一方R101は我々の実験でより高い親和性を有することが証明された(図36を参照)。外挿すると、変異体の組合せ(例えばY97とR101)は、成熟配列について報告されたものより高い親和性を有する可能性がある。 Most of these mutants, including R94, Y97 and R101 belong to the dominant variant in the hit variant profile (see Figure 11) (> 5%). Thus, a simple sequence search will find these from the hit variant library. In the structure-based screening of variant libraries, these variants are also ranked higher in the selected sequence profile as shown in FIG. 13A. From the standpoint of aggregate sequence scoring, pooling and reprofiling sequences with higher scores than the parental sequence also resulted in 94 (88% R, 12% K), 97 (60% Y, 17% H) ), And 101 (60% R, 17% T, 13% S). Excluding problems associated with R94, the statistical selectivity for Y97 and R101 or T101 is evident in our design. We have demonstrated our library design using sequence search and / or structure-based scoring to create variant profiles. Experimental screening or selection using two independent novel phage display systems has demonstrated the utility of the methods of the invention described herein for designing sequences that differ from the parent sequence in VH . Some of the mutants found here (eg Y97 and / or R101 or T101) have an affinity that is at least 10-fold higher than the parent sequence (Y97 accounts for a 14-fold improvement in affinity, while R101 is our experiment (See Figure 36) Extrapolated, mutant combinations (eg Y97 and R101) may have higher affinity than reported for mature sequences There is.

親和性成熟したVH CDR3の結合親和性を、図37に示すようにバイオセンサーチップ上に固定化したVEGFを用いて、SPR(表面プラスマ共鳴)装置(BIAcore)を使用して測定した。タンパク質を発現させ精製した。X50はccFvフォーマット中に有り、図22Aと22Bに示すVHとVLの参照配列を含有する。X63はVH CDR3中にH97YとS101Tを、文献に報告されたFabフォーマットの14倍改良に対してKdが6.3倍改良された(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881の表6を参照)。X64はVH CDR3中にS101Rを含有し、参照に対して2.5倍改良され;この改良はほとんどすべてオンレートの上昇による。逆標識法改良のこの新規変異体の重要性は報告されていないが、この位置で包括的突然変異誘発が行われた。またこの位置のデータベース中の頻度は低い。これは、ここで取ったアプローチは、親和性改良のための重要な変異体を発見できることを示す。X65はH97YとS101Rを含有し、同じ条件下でccFvフォーマットを使用して10倍の改良を示し、これは親和性成熟したVH CDR3配列(Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881)のX63の最良の変異体組合せ(H97YとS101T)より結合親和性が強い。 The binding affinity of affinity matured V H CDR3 was measured using VEGF immobilized on a biosensor chip as shown in FIG. 37, using an SPR (surface plasma resonance) apparatus (BIAcore). The protein was expressed and purified. X50 is in the ccFv format and contains the V H and V L reference sequences shown in FIGS. 22A and 22B. X63 has H97Y and S101T in V H CDR3 and Kd improved by 6.3 times compared to 14-fold improvement of the Fab format reported in literature (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881, see Table 6). X64 contains S101R in V H CDR3 and is improved by a factor of 2.5 over the reference; almost all this improvement is due to increased on-rate. Although the importance of this new variant in improving the reverse labeling method has not been reported, comprehensive mutagenesis was performed at this position. Also, the frequency in the database at this position is low. This indicates that the approach taken here can find important variants for affinity improvement. X65 contains H97Y and S101R and shows a 10-fold improvement using the ccFv format under the same conditions, which is an affinity matured V H CDR3 sequence (Chen Y, Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowrnan HB (1999) J. Mol Biol 293, 865-881) has a stronger binding affinity than the best mutant combination of X63 (H97Y and S101T).

実施例2
フレームワーク最適化のための抗VEGF抗体ライブラリーの作成
VEGFは発生における主要な血管形成因子であり、内皮細胞を刺激することにより固形腫瘍の増殖に関与する。マウスモノクローナル抗体はVEGF依存性細胞増殖を阻止し、in vivoで腫瘍増殖を遅らせることがわかった(Kim KJ, Li B, Winer J, Armanini M, Gillett N, Phillips HS, Ferrara N (1993) Nature 362, 841-844)。このマウス抗体は、抗原結合ループを移植後にいくつかの主要なフレームワーク位置でランダム突然変異誘発を使用してヒト化された(Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG. Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M. Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684)。典型的には、部位特異的突然変異誘発と選択後に、いくつかのあらかじめ決められた主要な位置で、ヒトまたはコンセンサスヒトフレームワークを親の非ヒト抗体からの非ヒトアミノ酸で置換することにより作成される。これらのヒト化抗体は通常、親抗体の同起源の抗原に親抗体より弱い親和性で結合する(ヒト化抗VEGFについてはその親マウス抗体より約6倍弱い、Baca M, Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684, および他のバージョンのヒト化抗VEGFについては2倍弱い、Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG, Krummen L. Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M, Presta LG, O'Connor SJ. Wells JA (1997) J Biol Chem 272, 10678-10684を参照)。この結合親和性の喪失は、CDRの親和性成熟を使用することにより回復されるであろう(Chen Y. Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB (1999) J. Mol Biol 293, 865-881)。
Example 2
Creation of anti-VEGF antibody library for framework optimization
VEGF is a major angiogenic factor in development and is involved in solid tumor growth by stimulating endothelial cells. Mouse monoclonal antibodies were found to block VEGF-dependent cell growth and slow tumor growth in vivo (Kim KJ, Li B, Winer J, Armanini M, Gillett N, Phillips HS, Ferrara N (1993) Nature 362 , 841-844). This murine antibody was humanized using random mutagenesis at several key framework positions after transplanting the antigen binding loop (Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG. Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M. Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684). Typically, after site-directed mutagenesis and selection, created by replacing human or consensus human frameworks with non-human amino acids from the parent non-human antibody at several pre-determined key positions Is done. These humanized antibodies usually bind to the cognate antigen of the parent antibody with a weaker affinity than the parent antibody (for humanized anti-VEGF, about 6 times weaker than its parent mouse antibody, Baca M, Presta LG, O ' Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684, and other versions of humanized anti-VEGF are two times weaker, Presta LG, Chen H, O'Connor SJ, Chisholm V, Meng YG, Krummen L. Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599; Baca M, Presta LG, O'Connor SJ. Wells JA (1997) J Biol Chem 272, 10678-10684). This loss of binding affinity may be restored by using CDR affinity maturation (Chen Y. Wiesmann C, Fuh G, Li B, Christinger HW, McKay P, de Vos AM, Lowman HB ( 1999) J. Mol Biol 293, 865-881).

記載の本発明の方法を使用して我々は、フレームワーク最適化により、文献(Presta LG, Chen H, O'Connor SJ, Chisholm V. Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599)に報告された親/参照抗VEGF抗体フレームワークより結合親和性(ccFvフォーマット中)が4倍高い2つのヒト化フレームワークを発見した。報告されたヒト化抗VEGF抗体(図22AとB)は、その対応するマウス抗体よりほぼ2倍弱いため、これらの2つのヒト化抗体は、ヒト化により対応するマウス抗体よりほぼ2倍高い結合親和性を有するはずである。   Using the method of the present invention described, we have reviewed the literature (Presta LG, Chen H, O'Connor SJ, Chisholm V. Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer. Res. 57, 4593-4599) discovered two humanized frameworks with a binding affinity (in ccFv format) 4 times higher than the parent / reference anti-VEGF antibody framework. Since the reported humanized anti-VEGF antibodies (FIGS. 22A and B) are almost 2-fold weaker than their corresponding mouse antibodies, these two humanized antibodies bind almost 2-fold higher than the corresponding mouse antibodies upon humanization. Should have affinity.

1. 抗VEGF抗体フレームワークライブラリーのin silico設計
図38Aの上のパネルは、マウス抗VEGF抗体(そこでは「マウス抗VEGF抗体またはa4.6.1」と呼ばれる)、ヒト化抗体(ライブラリーから選択されたHU2.0とHU2.10、およびVHとVLの両方について主要な位置でヒト化のために使用されたアミノ酸(Baca M, Presta LG, O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684を参照)のフレームワークfr123のアミノ酸配列を示す。フレームワークとCDRは、Kabat基準(Kabat EA, RediMiller M, Perry HM, Gottesman KS (1987) Sequences of Proteins of Inununological Interest 第4版、国立衛生研究所(National Institutes of Health), ベセスダ、メリーランド州)に従って命名されるが、他の分類も使用できる。図38Aの下のパネルは、マウス抗VEGF抗体(そこでは「マウス抗VEGF抗体」と呼ばれる)およびここで親および参照フレームワークとして使用され、文献(Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599)に報告されたヒト化抗体(そこでは「ヒト化抗VEGF抗体」と呼ばれる)のフレームワークfr123領域のアミノ酸配列を示す。フレームワーク4は関係して一定であるため設計されない。しかし所望であれば、同じアプローチを使用して設計することができる。また、FR1またはFR2またはFR3およびFR4の別々のセグメントを個々に設計でき、所望であれば一緒に貼りつけることができる。CDRとFRの組合せは、ここに記載したアプローチを使用して各セグメントまたはセグメントの組合せを設計することにより、同時に設計することができる。CDR1とCDR2の位置は矢印を使用して示すが、図には記載していない。CDRは、マウス抗VEGFからの図9B中のものと同じである。図38Bは、マウス抗VEGF抗体のVH FR123のリード配列に基づくヒトVH生殖細胞系配列を使用して作成されるヒットライブラリーの変種プロフィールを示す。下の変種プロフィールは、アミノ酸位置の多様性を示す。図の下の部分は、それぞれカットオフ頻度5と13を使用して得られたフィルターにかけた変種プロフィールを示す。ヒットリストのメンバーのうちで5回またはそれ以下、または13回またはそれ以下の出現のすべての位置アミノ酸をフィルターにかける。図38B(続き)は、カットオフ無しでマウス抗VEGF抗体のVH FR123のリード配列に基づくヒトVH生殖細胞系配列を使用して作成したヒットライブラリーの再プロフィール化変種プロフィールを示すが、各位置の変種は、総エネルギーまたはファンデアワールスエネルギーを使用して、抗体構造との構造的適合性に基づいてランク付けされる。一部の参照アミノ酸は、その総エネルギーまたは特異的パッキングに基づいていくつかの位置で好適であることがわかったが、その出現頻度は非常に低い(例えば、矢印で注を付けたF68(F67), L72(L7l), S77(S76) およびK98(K94)を参照)。例えばF68とL72は、選択のためのライブラリーに含まれる。図38Cは、カットオフ19でフィルターにかけた変種プロフィールを有するマウス抗VEGF抗体のVH FR123のリード配列に基づき、Kabat由来ヒトVH配列を使用して作成したヒットライブラリーの変種プロフィールを示す。このプロフィールは、低頻度で出現するが足場形成において重要であるいくつかのアミノ酸の重要性を強調する。マウスVH FR123配列を、連続的数字を使用して示す位置で点線の上に参照として記載する。アミノ酸のすべての変種は点線の下に記載する。変種中の点は、参照と同じアミノ酸である。図38Dは、カットオフ5でヒトVH生殖細胞系配列からのフィルターにかけた変種プロフィールを使用するデザイナーライブラリーを示す(図38Bを参照)。FR123配列の上の配列番号はKabat命名法(kabataa)とそのCDR中のアミノ酸を含む連続順序に基づく。このフィルターにかけた変種プロフィールは、抗体構造のみが使用される場合の構造適合性のランク順序を反映するように、コンピューターでさらにスクリーニングすることができる。カットオフ5でフィルターにかけた変種プロフィールからは無くなっている2つのアミノ酸、F70(F69)とL72(L71)は、構造ベースのスクリーニングに基づいてこれらの位置で最も好適なアミノ酸の仲間であるため、これらも含まれる。構造ベースのスクリーニングからの上位100個の配列の最終的に提出されたライブラリーはまた、F70(F69)、L72(L71)、S77(S76)、およびK98(K94)(カッコ内の数字はKabat命名法に基づく配列番号を示す)を含み、これは、Rのような一部のアミノ酸が、VH CDR3親和性成熟のK94Rについて前記したようにL72(L71)とK98(K94)について計算で過剰に予測されるためである。
1. In silico design of anti-VEGF antibody framework library The top panel of Figure 38A shows mouse anti-VEGF antibody (where it is called "mouse anti-VEGF antibody or a4.6.1"), humanized antibody (selected from the library) been HU2.0 and HU2.10, and amino acids that were used for humanization a major position for both V H and V L (Baca M, Presta LG , O'Connor SJ, Wells JA (1997) J Biol Chem 272, 10678-10684) shows the amino acid sequence of the framework fr123, which is based on the Kabat standard (Kabat EA, RediMiller M, Perry HM, Gottesman KS (1987) Named according to 4th edition, National Institutes of Health, Bethesda, MD, but other classifications can also be used.The bottom panel of Figure 38A shows mouse anti-VEGF antibodies (where "mouse Called anti-VEGF antibody) and here As a reference framework and reported in literature (Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599) The amino acid sequence of the framework fr123 region of a humanized antibody (referred to herein as a “humanized anti-VEGF antibody”) is not designed because framework 4 is constant, but if desired, the same approach In addition, separate segments of FR1 or FR2 or FR3 and FR4 can be individually designed and pasted together if desired. By designing each segment or combination of segments using the approach described, the positions of CDR1 and CDR2 are indicated using arrows, but not shown in the figure. , Mau Figure 38B shows a hit library generated using human V H germline sequences based on the V H FR123 lead sequence of the mouse anti-VEGF antibody. The variant profile is shown. The lower variant profile shows the diversity of amino acid positions. The lower part of the figure shows the filtered variant profile obtained using cut-off frequencies 5 and 13, respectively. Filter all position amino acids of the hit list members that appear 5 times or less, or 13 times or less. FIG. 38B (continued) shows a reprofiled variant profile of a hit library generated using human V H germline sequences based on the V H FR123 lead sequence of the murine anti-VEGF antibody without cut-off, Each position variant is ranked based on its structural compatibility with the antibody structure using total energy or van der Waals energy. Some reference amino acids have been found to be suitable at several positions based on their total energy or specific packing, but their frequency of occurrence is very low (eg, F68 (F67 marked with an arrow). ), L72 (L7l), S77 (S76) and K98 (K94)). For example, F68 and L72 are included in the library for selection. FIG. 38C shows the variant profile of a hit library generated using the Kabat-derived human VH sequence based on the VH FR123 lead sequence of the mouse anti-VEGF antibody with the variant profile filtered at cutoff 19. This profile highlights the importance of several amino acids that appear infrequently but are important in scaffold formation. The mouse V H FR123 sequence is listed as a reference above the dotted line at the positions indicated using sequential numbers. All amino acid variants are listed under the dotted line. The point in the variant is the same amino acid as the reference. FIG. 38D shows a designer library using a filtered variant profile from a human VH germline sequence with cutoff 5 (see FIG. 38B). The SEQ ID NO above the FR123 sequence is based on the Kabat nomenclature (kabataa) and the sequential order including the amino acids in its CDRs. This filtered variant profile can be further screened on a computer to reflect the rank order of structural suitability when only antibody structures are used. The two amino acids, F70 (F69) and L72 (L71), missing from the variant profile filtered at cutoff 5, are the most preferred amino acid companions at these positions based on structure-based screening, These are also included. The final submitted library of the top 100 sequences from structure-based screening is also F70 (F69), L72 (L71), S77 (S76), and K98 (K94) (numbers in parentheses are Kabat) This indicates that some amino acids such as R are over-calculated for L72 (L71) and K98 (K94) as described above for K94R of VH CDR3 affinity maturation. This is because it is predicted.

図38Dの下のパネルは、VH fr123のヒト化に使用されるアミノ酸を用いるデザイナーライブラリーを示す。図38Dに示すように、ヒト対非ヒト配列はVHの全鎖を通して多くの位置で異なるが、他のアプローチで使用されるアミノ酸ライブラリーはいくつかの主要な位置で濃縮され、一方本発明は、VHとVL鎖の両方を通して種々の位置を標的化し、これらの位置のいくつかの変異体は出発抗体のデザイナーライブラリーに基づく。   The bottom panel of FIG. 38D shows a designer library with amino acids used for humanization of VH fr123. As shown in FIG. 38D, human versus non-human sequences differ in many positions throughout the entire VH chain, but the amino acid libraries used in other approaches are enriched in several key positions, while the present invention Targeting various positions through both the VH and VL chains, several variants of these positions are based on a designer library of starting antibodies.

本発明において、図8に示すフレームワークFR1、FR2、FR3、およびFR4のような各モチーフ、各フレームワークモチーフまたは抗体のFR123のようなその組合せは、モジュラーin silico進化的設計アプローチを使用して標的化することができる。各モチーフについて限定された数のコンフォメーション(標準構造と呼ぶ)のみまたはその組合せがあることは理解されている。抗体のこれらの構造的特徴は、抗体構造の広範な分析に基づく抗体の種々の領域での構造化モチーフを使用して、進化的配列設計を試験するための優れた系を提供する。これらの構造と配列保存は、異なる種を超えて観察されている。実際、抗体の足場または免疫グロブリン折り畳みは、自然界で観察される最も豊富な構造の1つであり、種々の抗体や関連する分子で高度に保存されている。
本発明者らは、上記の親抗VEGF抗体は、本発明の方法を使用して治療的および他の応用のために、指令抗体最適化のモデル系のリードタンパク質として機能できると考えている。ヒト化抗VEGF抗体(Bacaら、前述;Prestaら、前述)は、本発明の方法を使用して得られた結果を評価するための参照または陽性対照として機能することができる。
In the present invention, each motif, such as frameworks FR1, FR2, FR3, and FR4, shown in FIG. Can be targeted. It is understood that there is only a limited number of conformations (called standard structures) or combinations thereof for each motif. These structural features of antibodies provide an excellent system for testing evolutionary sequence design using structured motifs in various regions of antibodies based on extensive analysis of antibody structure. Their structure and sequence conservation has been observed across different species. In fact, antibody scaffolds or immunoglobulin folds are one of the most abundant structures observed in nature and are highly conserved among various antibodies and related molecules.
The inventors believe that the parent anti-VEGF antibody described above can function as a lead protein in a model system for command antibody optimization for therapeutic and other applications using the methods of the invention. Humanized anti-VEGF antibodies (Baca et al., Supra; Presta et al., Supra) can serve as a reference or positive control to evaluate the results obtained using the methods of the invention.

さらに構造の重なりは、VEGFと親抗体とで形成される複合体の構造が、VEGFと成熟抗体とで形成する複合体とほとんど重なることを明らかにした。抗体構造、特にフレームワーク領域は実質的に同じであるため、親抗体と成熟抗体の構造は、本発明の方法を使用して抗VEGF抗体のデジタルライブラリーの設計に使用された。本発明の方法はまた、配列ベースのアプローチ、または誘導された構造変化を含有する構造集合体を使用して、抗体フレームワークを設計するのに使用することができる。   Furthermore, the structural overlap revealed that the structure of the complex formed between VEGF and the parent antibody almost overlaps with the complex formed between VEGF and the mature antibody. Since the antibody structures, particularly the framework regions, are substantially the same, the parent and mature antibody structures were used to design a digital library of anti-VEGF antibodies using the method of the present invention. The methods of the invention can also be used to design antibody frameworks using sequence-based approaches or structural assemblies containing induced structural changes.

リードタンパク質としてマウス抗VEGF抗体フレームワークをそしてリード配列としてそのVH FR123を使用して、図1D中に経路IVとしてそして図2に模式図で概説した方法に従ってVH FR123のデジタルライブラリーを構築した。 Using the mouse anti-VEGF antibody framework as the lead protein and its V H FR123 as the lead sequence, construct a digital library of V H FR123 as route IV in Figure 1D and according to the scheme outlined in Figure 2 did.

概説すると、VH CDR3と遠い相同性を有するヒットアミノ酸配列を検索し選択することにより、ヒットライブラリーを構築した。ヒットライブラリーに基づいて各位置ですべての変種を記載するために変種プロフィールを作成し、あるカットオフ値でフィルターにかけて、生じるヒット変種ライブラリーのサイズをコンピューターのまたは実験の限界内まで小さくした。以下を促進するために変種プロフィールをまた構築した:i) 一致背景中の好適な領域をカバーする配列空間の試験;ii) 好適なペプチド集合配列を標的とする縮重核酸ライブラリーの分割と合成;iii) 所望の機能について抗体ライブラリーの実験によるスクリーニング;およびiv) さらなる設計と最適化のためのフィードバックのある実験結果の分析。 In summary, a hit library was constructed by searching for and selecting hit amino acid sequences that have distant homology with V H CDR3. A variant profile was created to describe all variants at each position based on the hit library and was filtered with a certain cutoff value to reduce the size of the resulting hit variant library to within computer or experimental limits. Variant profiles were also constructed to facilitate: i) examination of sequence space covering suitable regions in the matching background; ii) partitioning and synthesis of degenerate nucleic acid libraries targeting suitable peptide assembly sequences Iii) screening the antibody library by experiment for the desired function; and iv) analysis of experimental results with feedback for further design and optimization.

VEGFと抗VEGF抗体とで形成された複合体の利用できるX線構造から、リード構造鋳型を得た。VEGFと親抗VEGF抗体の複合体構造を1BJ1とよび、VEGFと成熟抗VEGF抗体との複合体構造を1CZ8と呼ぶ。スキャンした配列の相対的ランクで1CZ8構造鋳型からの結果は1BJ1からの結果と同様であった。モデル化構造または構造集合体または集合平均はまた、配列をスクリーニングするのに使用することができる。   From the available X-ray structure of the complex formed by VEGF and anti-VEGF antibody, a lead structure template was obtained. The complex structure of VEGF and parent anti-VEGF antibody is called 1BJ1, and the complex structure of VEGF and mature anti-VEGF antibody is called 1CZ8. The results from the 1CZ8 structural template were similar to those from 1BJ1 in the relative rank of the scanned sequence. Modeled structures or structure aggregates or set averages can also be used to screen sequences.

1) リード配列
VH FR123のリード配列は、Kabat分類に従ってマウス抗VEGF抗体から取られる(図38B)。
1) Lead arrangement
The V H FR123 lead sequence is taken from a mouse anti-VEGF antibody according to the Kabat classification (FIG. 38B).

2) ヒットライブラリーと変種プロフィール
単一のリード配列 A4.6.1(図38A)を使用して作成したHMMを較正し、Kabatデータベース(Johnson, G and Wu, TT (2001) Nucleic Acids Research, 29, 205-206)から得られたヒト重鎖生殖細胞系配列データベースおよび/またはヒト配列データベース(ヒト生殖細胞系とヒト化配列とを含む)を検索するのに使用した。予測値すなわちE値より大きいすべての配列ヒットを記載し、HAMMER2.2.1パッケージを使用して整列する。ヒットリストから重複配列を除去した後、リードHMMについて残りのヒット配列がヒットライブラリーを形成する。
2) Hit libraries and variant profiles HMMs created using a single read sequence A4.6.1 (Figure 38A) were calibrated and Kabat database (Johnson, G and Wu, TT (2001) Nucleic Acids Research, 29, 205-206) was used to search the human heavy chain germline sequence database and / or human sequence database (including human germline and humanized sequences). All sequence hits that are larger than the predicted or E value are listed and aligned using the HAMMER 2.2.1 package. After removing duplicate sequences from the hit list, the remaining hit sequences for the lead HMM form a hit library.

ヒトVH生殖細胞系からのヒット配列の配列同一性は、リード配列の40〜68%の範囲であり、Kabatデータベース(このデータベースは、検索の感度とその相対的ランク付けを上昇させるためにfr123断片に分解される)(ヒト起源の免疫グロブリン配列を含有するなら、他のデータベースを使用してもよい)から得られるヒト免疫グロブリン配列からのヒット配列の対応する配列同一性は、約30〜75%の範囲である。ヒット間の進化的距離は、プログラムTreeView1.6.5(http://taxonomy.zoology.gla.ac.uk/rod /rod.html)を使用して分析することができる。系統樹を、ClustalW 1.81(Thompson JD, Higgins DG, Gibson TJ (1994) Nucleic Acids Research 22, 4673-4680)中の隣接体結合法(Saitou N, Nei M (1987) Mol Biol Evol 4, 406-425)を使用して分析した。 The sequence identity of hit sequences from human VH germline ranges from 40 to 68% of the lead sequence, and the Kabat database (this database is a fr123 fragment to increase search sensitivity and its relative ranking The corresponding sequence identity of the hit sequence from the human immunoglobulin sequence obtained from (which contains immunoglobulin sequences of human origin, other databases may be used) is about 30-75 % Range. The evolutionary distance between hits can be analyzed using the program TreeView 1.6.5 ( http://taxonomy.zoology.gla.ac.uk/rod/rod.html ). The phylogenetic tree is obtained from the adjoining method (Saitou N, Nei M (1987) Mol Biol Evol 4, 406-425 in ClustalW 1.81 (Thompson JD, Higgins DG, Gibson TJ (1994) Nucleic Acids Research 22, 4673-4680). ).

図38BとDのAA-PVP表は、各位置での各アミノ酸残基の出現数を与える。表リストの下の変種プロフィールは、各位置での出現が減少する順に、参照配列としてリード配列を用いてデータベースから見つかったすべての変種を記載する。ヒトVH生殖細胞系とKabat由来のヒトVH配列とのヒット配列の同一性の差を比較すると、AA-PVPの差が明らかである:ヒト生殖細胞系配列からのAA-PVPについて、各位置のすべての変異体はヒト起源であるが、AA-PVPはまた、出発非ヒト抗体配列から来るかも知れない非ヒト起源もしくは低出現頻度のアミノ酸、または進化の過程で標的抗体などの足場を安定化するのに構造的に重要なアミノ酸を含有する。例えば、図42B中のF70とL72は、VH3生殖細胞系ファージ分からのAA-PVPでは同定されない(図42を参照、ヒトVH3生殖細胞系ではこれらの2つの位置でIとRのみが許容される)。しかし一方F75とL77は、非常に低い頻度の出現でヒトVH生殖細胞系配列中で許容される。これらのアミノ酸F70とL72は、Kabat由来ヒト配列からのAA-PVPでは比較的高い頻度で出現する。アミノ酸のすべての変種を点線の下に記載する。変種中の点は、参照中の同じアミノ酸であることを示す。図38Dは、コア5でヒトVH生殖細胞系配列からのフィルターにかけた変種プロフィールを使用するデザイナーライブラリーを示す(図38Bを参照)。FR123配列の上の配列番号は、Kabat命名法(kabataa)とそのCDR中のアミノ酸を含む連続順序に基づく。このフィルターにかけた変種プロフィールは、抗体構造のみが使用される場合の構造適合性のランク順序を反映するように、コンピューターでさらにスクリーニングすることができる。カットオフ5でフィルターにかけた変種プロフィールからは無くなっている2つのアミノ酸、F70(F69)とL72(L71)は、構造ベースのスコア化に基づいてこれらの位置で最も好適なアミノ酸の仲間であるため、これらも含まれる。構造ベースのスクリーニングからの上位100個の配列の最終的に提出されたライブラリーはまた、F70(F69)、L72(L71)、S77(S76)、およびK98(K94)(カッコ内の数字はKabat命名法に基づく配列番号を示す)を含み、これは、Rのような一部のアミノ酸が、VH CDR3親和性成熟のK94Rについて前記したようにL72(L71)とK98(K94)について計算で過剰に予測されるためである。   The AA-PVP table in FIGS. 38B and D gives the number of occurrences of each amino acid residue at each position. The variant profile below the table list lists all variants found from the database using the lead sequence as the reference sequence in order of decreasing occurrence at each position. A comparison of hit sequence identity differences between human VH germline and Kabat-derived human VH sequences reveals the difference in AA-PVP: for AA-PVP from the human germline sequence All variants are of human origin, but AA-PVP also stabilizes scaffolds such as non-human origin or low-frequency amino acids that may come from the starting non-human antibody sequence, or target antibodies during evolution It contains structurally important amino acids. For example, F70 and L72 in FIG. 42B are not identified by AA-PVP from the VH3 germline phage component (see FIG. 42, human VH3 germline only accepts I and R at these two positions. ). However, F75 and L77 are tolerated in human VH germline sequences with very low frequency appearance. These amino acids F70 and L72 appear relatively frequently in AA-PVP from the Kabat-derived human sequence. All amino acid variants are listed below the dotted line. Points in the variant indicate the same amino acid in the reference. FIG. 38D shows a designer library that uses a filtered variant profile from human VH germline sequences in core 5 (see FIG. 38B). The SEQ ID NO above the FR123 sequence is based on the Kabat nomenclature (kabataa) and the sequential order including the amino acids in its CDRs. This filtered variant profile can be further screened in a computer to reflect the rank order of structural compatibility when only antibody structures are used. Two amino acids, F70 (F69) and L72 (L71), missing from the variant profile filtered at cutoff 5, are the most preferred amino acid companions at these positions based on structure-based scoring These are also included. The final submitted library of the top 100 sequences from structure-based screening is also F70 (F69), L72 (L71), S77 (S76), and K98 (K94) (numbers in parentheses are Kabat) This indicates that some amino acids such as R are over-calculated for L72 (L71) and K98 (K94) as described above for K94R of VH CDR3 affinity maturation. This is because it is predicted.

図42はまた、FとIの両方が、パニングによりこの位置で同定でき、この位置で優勢なL72のみが同定できることを示す。簡単に説明すると、フレームワーク最適化のためのヒト起源の異なるデータベースの使用は、改良された結合親和性と安定性を伴うヒト化を含むフレームワーク最適化のためのアミノ酸の、多様であるが強力な選択肢を提供する。治療用抗体の開発における我々の知識の増加により、より多くの抗体配列データが蓄積され、本発明を使用して我々の設計を助けるであろう。主要な位置およびこれらの位置に関連するアミノ酸を仮定するのに、前もって仮定は必要無い。この情報は本発明の方法を使用して自動的に明らかにされるため、より多くのデータが蓄積されるとデータベース中のその出現の増加により、良好に規定されるであろう。構造ベースの基準を使用して、他の有用な可能性のある変異体を含むように、変種を再プロフィール化し優先させることができる(図38B−続きを参照)。   FIG. 42 also shows that both F and I can be identified at this position by panning and only the dominant L72 can be identified at this position. Briefly, although the use of different databases of human origin for framework optimization is diverse in amino acids for framework optimization, including humanization with improved binding affinity and stability Provide powerful choices. Due to our increased knowledge in the development of therapeutic antibodies, more antibody sequence data will be accumulated and will help our design using the present invention. No assumptions are required in advance to assume the main positions and the amino acids associated with these positions. Since this information is automatically revealed using the method of the present invention, as more data is accumulated, it will be well defined due to its increasing appearance in the database. Using structure-based criteria, variants can be reprofiled and prioritized to include other potentially useful variants (see FIG. 38B—continuation).

3) ヒットライブラリーのコンビナトリアル配列の構造ベースの評価
変種プロフィールは、各位置でおよび好適な修飾していない順序の具体的な変異体で、好適なアミノ酸残基上で有益であるが、これは、膨大な数の組換え体を具体化する。スコア化は、F70とL72が構造ベースのスコア化で好適であるためプロフィール中に維持すべきであることを示すが、その出現頻度は、データベース検索から得られるプロフィールについて使用されるカットオフより低い(図38B−続き)。すなわち、構造ベースのエネルギースコア化は、元々はタンパク質データベースから選択される進化的配列のプロフィール化に基づいて作成されたヒット変種ライブラリーについて、各位置で変種の出現を再プロフィール化するための別の方法を提供する。頻度カットオフを使用するあるフィルター化は、コンピューターによるスクリーニングで評価されるかまたは実験ライブラリーにより直接標的化される必要があるコンビナトリアル配列を減少させることができる。変種プロフィールに適用されるカットオフを用いてさえ、実験によるスクリーニングのために最終配列でスコア化され評価される必要がある多くのコンビナトリアル配列がある(図38Dの下のパネルに示すように)。
3) Structure-based evaluation of combinatorial sequences of hit libraries Variant profiles are specific variants at each position and in a suitable unmodified order, beneficial on preferred amino acid residues, Embody a huge number of recombinants. Scoring indicates that F70 and L72 are suitable for structure-based scoring and should be maintained in the profile, but their frequency of occurrence is lower than the cut-off used for profiles derived from database searches (FIG. 38B—continued). That is, structure-based energy scoring is a separate approach to reprofile variants at each position for hit variant libraries originally created based on the evolutionary sequence profiling selected from protein databases. Provide a way. Certain filtering using a frequency cut-off can reduce combinatorial sequences that need to be assessed by computer screening or directly targeted by an experimental library. There are many combinatorial sequences that need to be scored and evaluated on the final sequence for experimental screening (as shown in the bottom panel of FIG. 38D), even with the cutoff applied to the variant profile.

ヒットライブラリーおよびヒット変種ライブラリーを形成するそのコンビナトリアル配列をスクリーニングするために、構造ベースのスコア化が適用される。1CZ8または1BJ1中の抗VEGF抗体のVH FR123の側鎖は、各残基位置の変種ライブラリーからの対応するアミノ酸変種のロタマーにより置換された。ロタマーのコンフォメーションを作成し、骨格依存性ロタマーライブラリーを使用するプログラムSCWRL(登録商標)(バージョン2.1)を使用して最適化した(Bower MJ, Cohen FE, Dunbrack RL (1997) JMB 267, 1268-82)。
スコア化は、抗原VEGFの構造の存在下および非存在下でCONGEN[Bruccoleri and Karplus (1987) Biopolymers 26: 137-168]のAmber94フォースフィールドを使用して、最適ロタマーを検索しエネルギーを100ステップ最小化することにより行った。
Structure-based scoring is applied to screen the combinatorial sequences that form the hit library and the hit variant library. The side chain of V H FR123 of the anti-VEGF antibody in 1CZ8 or 1BJ1 was replaced by the corresponding amino acid variant rotamer from the variant library at each residue position. Rotamer conformation was created and optimized using the program SCWRL® (version 2.1) using a backbone-dependent rotamer library (Bower MJ, Cohen FE, Dunbrack RL (1997) JMB 267, 1268 -82).
Scoring uses the Amber94 force field of CONGEN [Bruccoleri and Karplus (1987) Biopolymers 26: 137-168] in the presence and absence of the structure of the antigen VEGF to find the optimal rotamer and minimize energy by 100 steps This was done by

図39Aは、VEGF抗原の不存在下(最も左の列)と存在下(真ん中の列)で鋳型構造として1bj1(上のパネル)と1cz8(下のパネル)を使用して、X軸の1列に比較的密な青いストリップ中のヒトVH生殖細胞系配列を使用した、マウス抗VEGFのVHフレームワークfr123ヒット配列についてのスコア化模式図の分布を、そしてX軸の0列に比較的疎な青いストリップ中に、マウスおよびヒト化フレームワークfr123(Prestaら、前述)配列と広く使用されているヒトVH生殖細胞系DP47についてのスコア化模式図の分布を示す。抗原の存在下および不存在下での配列のスコアは相関し(最も右の列)、フレームワーク最適化のための抗体構造は、抗原と最小の接触をするため、フレームワーク最適化のほとんどに充分であることを示す。コンビナトリアル配列ライブラリーのスコア化模式図は、ここには示していない。   FIG. 39A shows X axis 1 using 1bj1 (upper panel) and 1cz8 (lower panel) as template structures in the absence (leftmost column) and presence (middle column) of VEGF antigen. Distribution of scoring schematics for mouse anti-VEGF VH framework fr123 hit sequences using human VH germline sequences in relatively dense blue strips in rows, and relatively sparse in column 0 on the X axis The distribution of scoring schematics for the mouse and humanized framework fr123 (Presta et al., Supra) sequences and the widely used human VH germline DP47 are shown in the blue strips. Sequence scores in the presence and absence of antigen are correlated (rightmost column), and the antibody structure for framework optimization has minimal contact with the antigen, so most of the framework optimization Indicates that it is sufficient. A scoring diagram of a combinatorial sequence library is not shown here.

図39Bは、ライブラリー中の配列と参照マウスVH FR123配列との差、および参照、マウスVH FR123、報告された(Prestaら、前述、1997、およびChenら、前述、1999)ヒト化VH FR123、上位の200個のデザイナー配列、およびヒトCDR H3生殖細胞系(DP47と呼ぶ広く使用されているVHヒト生殖細胞系)についてのX軸の系統発生的距離に基づくランクスコア化を左のパネルに示す。ヒト生殖細胞系の1つの変種プロフィール(AA-PVP)の構造ベースのスクリーニングからの上位200の配列は、系統発生分析(赤のサイクル)においてヒトVH3生殖細胞系ファミリーとクラスターを形成し、一方リードマウス抗体フレームワークは、設計されたものから系統発生的距離が遺伝的に離れている(高出現頻度の生殖細胞系VH配列のみが含まれる時、および1bj1からのヒト化配列(Prestaら、前述)が、比較的低出現率のアミノ酸、例えばF70(F69)とK98(K94)(図42CとDを参照)を含むことにより、わずかに変化するであろう。y軸は、ほとんどの設計フレームワークVH fr123が、マウス、参照およびヒト化フレームワークVH fr123(DP47に近い)に対して良好な構造的適合性を有する。これらは、その使用したデータベースにより部分的に規定されるようにここに記載した本発明の方法のフレームワーク最適化のヒト様特徴を支持する。   FIG. 39B shows differences between sequences in the library and reference mouse VH FR123 sequences, and reference, mouse VH FR123, reported (Presta et al., Supra, 1997, and Chen et al., Supra, 1999) humanized VH FR123, The left panel shows rank scoring based on the phylogenetic distance of the X axis for the top 200 designer sequences and the human CDR H3 germline (a widely used VH human germline called DP47) . The top 200 sequences from the structure-based screening of one variant of human germline (AA-PVP) cluster with the human VH3 germline family in a phylogenetic analysis (red cycle), while leading The murine antibody framework is genetically separated from the designed one by a phylogenetic distance (when only high-frequency germline VH sequences are included, and humanized sequences from 1bj1 (Presta et al., Supra) ) Will vary slightly by including relatively low-occurrence amino acids such as F70 (F69) and K98 (K94) (see FIGS. 42C and D.) The y-axis is Work VH fr123 has good structural compatibility with the mouse, reference and humanized framework VH fr123 (close to DP47), as these are partly defined by the database used Support the human-like features of framework optimization of the method of the invention described herein.

4) ヒット変種ライブラリーの変種プロフィールの低下
カットオフ値より低い出現頻度を有するか、および/または構造足場形成との適合性に基づいて配列をスクリーニングすることによりアミノ酸を排除後のヒット変種ライブラリーから得られた、図38Bに示す好適な残基のほとんどを維持しながら、ライブラリー候補のサイズを低下させるために、上記したようにヒット変種ライブラリーからの変種プロフィールを、フィルターにかけた。例えば、ヒットライブラリーのフィルター化で使用されるカットオフ値より低いが、野生型からの変種プロフィール中のいくつかの重要な変異体(例えばF70とL72)が含まれる。これらは、構造ベースのプロフィール化を使用して評価され、ファージ表示において厳しい洗浄条件下の多数回のラウンドのパニングでも持続する(図42)。構造ベースのスコア化からの上位100個の配列を、元々のプロフィールの構造ベースのプロフィール化からのF70とL72とともに使用した。
4) Reduced variant profile of hit variant library Hit variant library after exclusion of amino acids by screening sequences based on suitability with structural scaffolding and / or appearance frequency lower than cut-off value In order to reduce the size of the library candidates while maintaining most of the preferred residues shown in FIG. 38B, the variant profile from the hit variant library was filtered as described above. For example, some important variants (eg F70 and L72) are included in the variant profile from the wild type, but below the cut-off value used in the hit library filtering. These are evaluated using structure-based profiling and persist through multiple rounds of panning under severe wash conditions in phage display (Figure 42). The top 100 sequences from structure-based scoring were used with F70 and L72 from structure-based profiling of the original profile.

5) ヒット変種ライブラリーIIに基づく縮重核酸ライブラリーの構築
上記で構築したヒット変種ライブラリーを、図40Aに示す縮重オリゴヌクレオチドを用いて標的化した。上記で構築した縮重核酸ライブラリーをファージ表示系にクローン化し、96ウェルプレート上に被覆された固定化VEGFへの結合に基づき、ファージ表示された抗体(ccFv)を選択した。VH抗VEGFの最終的に設計したヒト化配列を図40Aに示す。抗VEGFのVHの約120アミノ酸残基について、コンピューター設計の結果として34アミノ酸を変化させた:そのうち18個を固定(太字で下線を引いた)し、16個は記載のccFv系を使用してファージ表示ライブラリースクリーニング(「X」と表示)による測定の結果として置いた。従ってスクリーニング中の好適なアミノ酸残基の複数の選択肢を作成するために、16個の位置に対応するDNA配列の縮重を作成した。ライブラリーの理論密度は約2.6×105である。ライブラリーをファージ表示ベクターpABMD12中に入れ、ここで抗VEGFのVHをライブラリーにより置換した。その結果、VLとライブラリーにより置換された種々のVHが対合して、抗VEGFの機能性ccFvを形成するであろう。次にファージ表示ライブラリーを、固定化VEGFタンパク質抗原に対するさらなるパニングのために使用した。
5) Construction of degenerate nucleic acid library based on hit variant library II The hit variant library constructed above was targeted using the degenerate oligonucleotide shown in FIG. 40A. The degenerate nucleic acid library constructed above was cloned into a phage display system, and a phage-displayed antibody (ccFv) was selected based on the binding to immobilized VEGF coated on a 96-well plate. The final designed humanized sequence of VH anti-VEGF is shown in FIG. 40A. About 120 amino acid residues of VH of anti-VEGF, 34 amino acids were changed as a result of computer design: 18 of them were fixed (bold and underlined) and 16 using the described ccFv system Placed as a result of measurement by phage display library screening (labeled "X"). Therefore, a degeneracy of the DNA sequence corresponding to the 16 positions was created to create multiple choices of suitable amino acid residues during screening. The theoretical density of the library is about 2.6 × 10 5 . The library was placed in the phage display vector pABMD12 where the anti-VEGF VH was replaced by the library. As a result, VL and various VHs displaced by the library will pair to form a functional ccFv of anti-VEGF. The phage display library was then used for further panning against the immobilized VEGF protein antigen.

縮重位置の広範囲の分散した分布をカバーするライブラリーを作成するために、ライブラリーを設計した部位で縮重位置を用いて複数の重複縮重DNAオリゴを合成した。アセンブリープロセスは、2つのPCR反応、アセンブリーPCR、および増幅PCRから構成された。アセンブリーオリゴは35〜40量体で設計し、平均約60℃の融解温度で15〜20塩基が重複した。設計生成物の最終的な増幅のために、1対の追加の増幅オリゴプライマー(Amp93とAmp94)を作成した。従って、アセンブリーPCRは以下を含む:等量のアセンブリーオリゴプライマー、最終総濃度8μM、0.8μMのdNTP、1×pfu緩衝液(ストラタジーン(Stratagene))、および2.5単位のpfuターボ(ストラタジーン(Stratagene))。熱サイクルは以下の通り行った:94℃ x 45", 58℃ x 45", 72℃ x 45" を30サイクル、そして最後の伸長を72℃で10分。PCR産物を10倍希釈し、増幅PCRの鋳型として使用し、ここですべての試薬は、増幅プライマーを最終濃度1μMで加えた以外は同じである。熱サイクルは以下の通り行った:94℃ x 45", 60℃ x 45", 72℃ x 45" を30サイクル、そして最後の伸長を72℃で20分。最終生成物(VHライブラリー)を精製し、HIndIIIとStyIで消化し(図26)、最後にベクターpABMD12にサブクローン化して元々のマウスVHを置換した。このライブラリーを使用して、TG1細胞を電気的に形質転換(電気穿孔法?)し、これを次に増幅し、ヘルパーファージKO7(アマシャム(Amersham))でレスキューした後、標準的方法に従って30℃で一晩ライブラリーのファージを産生させた。   In order to create a library that covers a wide distribution of degenerate positions, multiple overlapping degenerate DNA oligos were synthesized using degenerate positions at the site where the library was designed. The assembly process consisted of two PCR reactions, assembly PCR, and amplification PCR. The assembly oligo was designed as a 35-40mer, with 15-20 bases overlapping at an average melting temperature of about 60 ° C. A pair of additional amplification oligo primers (Amp93 and Amp94) were created for final amplification of the designed product. Thus, assembly PCR includes: equal amounts of assembly oligo primers, final total concentration of 8 μM, 0.8 μM dNTP, 1 × pfu buffer (Stratagene), and 2.5 units of pfu turbo (Stratagene ( Stratagene)). Thermal cycling was performed as follows: 30 cycles of 94 ° C x 45 ", 58 ° C x 45", 72 ° C x 45 ", and final extension for 10 minutes at 72 ° C. PCR product diluted 10-fold and amplified Used as a template for PCR, where all reagents were the same except that amplification primers were added at a final concentration of 1 μM. Thermal cycling was performed as follows: 94 ° C x 45 ", 60 ° C x 45", 30 cycles of 72 ° C x 45 "and final extension at 72 ° C for 20 minutes. The final product (VH library) was purified and digested with HIndIII and StyI (FIG. 26) and finally subcloned into the vector pABMD12 to replace the original mouse VH. Using this library, TG1 cells were electrically transformed (electroporation?), Which was then amplified and rescued with helper phage KO7 (Amersham), followed by standard methods. Library phage were produced overnight at 0 ° C.

6) 抗VEGFのヒト化VHのファージ表示ライブラリーのパニング
上記例に記載の構築したライブラリーをスクリーニングするために、精製したホモダイマーVEGFタンパク質(カルビオケム(Calbiochem))をコーティング緩衝液(0.05M NaHCO3、pH9.6)中の指定濃度で希釈し、マイキシソルブ(Maxisorb)ウェル(ヌンク(Nunc))に4℃で一晩固定化した。次に被覆ウェルを5%ミルク中で37℃で1時間ブロック後、PBSで希釈したファージライブラリーをウェルに適用して37℃で2時間インキュベートした。インキュベーション混合物はまた、非特異結合を最小にするために2%ミルクを日常的に含有した。インキュベーションの最後に、ウェルを洗浄し、次に結合したファージを1.4%トリエチルアミンで溶出した後、TG1細胞を感染させ、次に増幅のためにKO7ヘルパーファージによりレスキューした。次にファージを増幅するために、感染しレスキューしたTG1細胞を30℃で一晩カルベニシリンとカナマイシンの存在下で増殖させ、次にファージライブラリーを採取した。増幅したファージを、次のラウンドのパニングの供給ライブラリーとして使用した。パニング法は、図41に要約した。一方、5回目以降のパニングからの個々のクローンをファージELISA用にランダムにサンプリングし、固定化VEGFへの特異的結合を確認し、5回目〜7回目のパニングから100%の陽性を示した。最後に、2×YT/カルベニシリン(100μg/ml)/カナマイシン(70μg/ml)のプレートで増殖させた単離したクローンを、5回目のパニング(P5)から開始して配列決定のためにサンプリングして、設計に対するヒット位置とヒット配列を規定した。
6) Panning anti-VEGF humanized V H phage display library To screen the constructed library described in the above example, purified homodimeric VEGF protein (Calbiochem) was coated with coating buffer (0.05M NaHCO 3). 3 and diluted at the specified concentration in pH 9.6) and immobilized in Maxisorb wells (Nunc) at 4 ° C. overnight. The coated wells were then blocked in 5% milk at 37 ° C. for 1 hour, and then a phage library diluted in PBS was applied to the wells and incubated at 37 ° C. for 2 hours. The incubation mixture also routinely contained 2% milk to minimize nonspecific binding. At the end of the incubation, the wells were washed and then bound phage was eluted with 1.4% triethylamine before infecting TG1 cells and then rescued with KO7 helper phage for amplification. To amplify the phage, the infected and rescued TG1 cells were then grown overnight at 30 ° C. in the presence of carbenicillin and kanamycin, and then the phage library was collected. Amplified phage was used as a supply library for the next round of panning. The panning method is summarized in FIG. On the other hand, individual clones from the 5th and subsequent panning were randomly sampled for phage ELISA to confirm specific binding to immobilized VEGF and showed 100% positive from the 5th to 7th panning. Finally, isolated clones grown on 2 × YT / carbenicillin (100 μg / ml) / kanamycin (70 μg / ml) plates were sampled for sequencing starting with the fifth round of panning (P5). The hit position and hit sequence for the design were defined.

上記ライブラリーパニングからのヒットの配列解析の要約を図42Aに示し、ここでライブラリーを設計した位置で、ヒト生殖細胞系のファミリーIIIのVHの優勢残基、およびライブラリーパニングからのヒットとともに、アミノ酸残基を比較した。記載のように、ファージ表示ライブラリースクリーニングにより測定のために設計した16個の位置のうち、連続番号で1、11、17、24、70、72、74、77、78、79、98位の特定のアミノ酸残基は、P5(5回目のパニング)から最後(8回目)のパニングまで維持されたかまたは優勢となり、一方残りの位置は、優勢残基のある程度の変動を示した。最後の16個の位置(図42Bで影を付けた)のうちの9個で残基の最終選択は、ヒト免疫グロブリンVHのファミリーIIIの同等の位置の残基と主に一致し、これは、選択された種はファミリーIIIに入る可能性が高いことを示す。   A summary of the sequence analysis of hits from the above library panning is shown in Figure 42A, with the dominant residues of the human germline family III VH and hits from the library panning at the location where the library was designed. Amino acid residues were compared. Out of the 16 positions designed for measurement by phage display library screening, as described, serial numbers 1, 11, 17, 24, 70, 72, 74, 77, 78, 79, 98 Certain amino acid residues were maintained or predominated from P5 (5th panning) to the last (8th) panning, while the remaining positions showed some variation in the dominant residues. The final selection of residues at 9 of the last 16 positions (shaded in FIG. 42B) is largely consistent with residues at equivalent positions in the human immunoglobulin VH family III, , Indicating that the selected species is likely to fall into Family III.

図42Cは、記載のヒト生殖細胞系VH3ファミリー、マウス抗VEGF VHフレームワークFR123、およびヒト化VHフレームワークfr123とともに、抗VEGFのファージ表示ライブラリーのパニングからの上位のヒットVH配列の系統発生的分析を示す。図42Cに示すように、ヒト生殖細胞系ブイHSPファミリーは、予測されたように系統発生的距離でクラスターを形成する。選択された最適化VHフレームワークもまた、ヒト化VH配列(注を参照)とクラスターを形成し、ヒト生殖細胞系VH3ファミリーに系統発生的距離が非常に近く、一方マウスVHフレームワークは場合によりVHフレームワークおよびヒト生殖細胞系から非常に遠い。VHのヒト免疫グロブリンレパートリーに対するヒット配列の系統発生的分析は、これらが最も密接にファミリーIIIに関連することを示唆する。系統発生的分析はまた、最終的なヒット配列が、抗VEGFのマウス起源の配列と比較して、ヒト免疫グロブリンのファミリーIIIにはるかに密接に関連していることを示す(Y. Chenら、1999)。要約するとこの結果は、34個の位置の大多数についてヒト起源のアミノ酸残基がうまく測定されたことを示した。   FIG. 42C is a phylogenetic view of the top hit VH sequences from panning of an anti-VEGF phage display library, with the described human germline VH3 family, mouse anti-VEGF VH framework FR123, and humanized VH framework fr123. Show the analysis. As shown in FIG. 42C, the human germline buoy HSP family forms clusters at phylogenetic distances as expected. The selected optimized VH framework also forms a cluster with the humanized VH sequence (see note), and the phylogenetic distance is very close to the human germline VH3 family, while the mouse VH framework may be Very far from the VH framework and the human germline. Phylogenetic analysis of hit sequences against the human immunoglobulin repertoire of VH suggests that these are most closely related to family III. Phylogenetic analysis also shows that the final hit sequence is much more closely related to human immunoglobulin family III compared to sequences from mouse origin of anti-VEGF (Y. Chen et al., 1999). In summary, the results indicated that amino acid residues of human origin were successfully measured for the majority of the 34 positions.

さらに、5個の位置(すなわち連続番号で6、72、77、79、98位)(図42B)は、選択後に好適なヒト残基では終わらず、連続番号(図42B)で70と74位は、ヒト起源の残基である少数集団を取り上げることができた。少数にとどまっているが、これらの集団は一環して、連続的な厳しい洗浄と複数のパニングを生き延び、これらが実際、抗原に対して高親和性を有することを証明している。これらの位置は、ヒト起源の優勢な残基を選択しなかった。一方、ヒト起源残基の少数集団の存在(連続番号(図42B)で70と74位)は、これらの位置をヒト化できる可能性を示唆する。   In addition, 5 positions (ie, positions 6, 72, 77, 79, 98 in sequential numbers) (FIG. 42B) do not end with suitable human residues after selection, but positions 70 and 74 in sequential numbers (FIG. 42B). Was able to pick up a minority group of residues of human origin. Although few, these populations have survived a series of rigorous washings and multiple pannings, demonstrating that they actually have a high affinity for antigen. These positions did not select dominant residues of human origin. On the other hand, the presence of a minority population of human-origin residues (positions 70 and 74 in sequential numbers (FIG. 42B)) suggests that these positions may be humanized.

これは、ヒト様と、集合構造体もしくは構造平均からの構造鋳型もしくは鋳型との適合性との微妙なバランスに依存して、最適化抗体のヒトまたはヒト様配列を用いて最適化したフレームワークの設計における本発明の方法を支持する。図42Bは、いくつかの充分性状解析された配列D36、D40およびD42および関連配列についての注釈付きの別の系統樹見解で、これらの配列の系統発生的距離を示す。D36は、系統発生的距離で報告されているヒト化配列と同様にヒトであるかまたはほとんど良好ではない。   This is a framework that is optimized using human or human-like sequences of optimized antibodies, depending on the delicate balance between human-like and the structural template from the aggregate structure or structure average or compatibility with the template. The method of the present invention in the design of FIG. 42B shows the phylogenetic distance of these sequences in another annotated phylogenetic view with some fully characterized sequences D36, D40 and D42 and related sequences. D36 is human or hardly as good as the humanized sequence reported at phylogenetic distance.

抗VEGF VHライブラリーパニングからの上位のヒット(最後の2回のパニングからの上位のヒット、7回目と8回目のパニング)の完全長配列を、マウス抗VEGF VH(Y. Chenら、1999)とヒト免疫グロブリンVHのファミリーIIIの優勢配列とともに図42Aに記載する。   The full-length sequence of the top hits from anti-VEGF VH library panning (top hits from the last two pannings, 7th and 8th pannings), mouse anti-VEGF VH (Y. Chen et al., 1999) And the human III immunoglobulin VH family III dominant sequence is described in FIG. 42A.

7) 高親和性を有する抗VEGFのヒト化VHの選択
図41に要約されるように、高親和性結合体を選択しない洗浄のストリンジェンシーを上昇させるために、洗浄時間の延長、洗浄容量の増加、被覆VEGF濃度の低下、投入ライブラリーファージの減少などの方法を行った。これらのすべての方法は、比較的低親和性の相互作用の解離を促進し、高親和性の相互作用が選択的に残るようにする。次にこのパニングを生き延びるファージのクローンをサンプリングして、配列決定を行う。このパニングからの上位のヒットの抗VEGF VH配列の完全長を図42Aに記載する。記載した我々の本発明の方法を使用して我々は、フレームワーク最適化(図43AとBを参照)により、親もしくは参照抗VEGF抗体より高い結合親和性をccFvフォーマットで有する3つ(D36、D40およびD42)のヒト化フレームワークを発見した(ヒト化抗VEGF抗体については図22AとBを参照(Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599)。これらの改良は主に、フレームワークヒト化単独によるオンレートの大きな上昇とオフレートの小さな低下から来る。図43Aは、ccFvファージ表示系(上記図23〜25の説明を参照)を使用して、デザイナーVH最適化ライブラリーから選択される抗VEGF抗体の最適化VHフレームワーク(FR123)の配列を示す。D36、D40およびD42のVH fr123は、元々のマウス抗体VH FR123と、マウス抗体からの同じCDRを有するヒト化配列(Prestaら、前述)とともに。下のパネルの点は、参照と同じアミノ酸を示す(マウスVHフレームワークfr123)。
7) Selection of humanized VH for anti-VEGF with high affinity As summarized in Figure 41, to increase the stringency of washing without selecting high-affinity binders, increase washing time, wash volume Methods such as increase, decrease in coated VEGF concentration, decrease in input library phage were performed. All these methods promote the dissociation of relatively low affinity interactions so that high affinity interactions remain selectively. The phage clones that survive this panning are then sampled and sequenced. The full length of the top hit anti-VEGF VH sequence from this panning is described in FIG. 42A. Using our described method of the present invention, we have three (D36, D36, D) that have higher binding affinity in the ccFv format than the parent or reference anti-VEGF antibody by framework optimization (see FIGS. D40 and D42) discovered humanized frameworks (see Figures 22A and B for humanized anti-VEGF antibodies (Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599) These improvements mainly come from a large increase in on-rate and a small decrease in off-rate due to framework humanization alone, Figure 43A shows the ccFv phage display system ( (See description of FIGS. 23-25 above) shows the sequence of the optimized VH framework (FR123) of anti-VEGF antibodies selected from the designer VH optimized library: D36, D40 and D42 VH fr123 Is the same as the original mouse antibody VH FR123. Humanized sequences with CDR (Presta et al., Supra) along with. The lower panel point, showing the same amino acid as the reference (murine VH framework FR123).

図43Bは、BIAcoreバイオセンサーを使用してデザイナーライブラリーから選択された5つの抗体、親抗体(X50)および抗VEGF抗体の最適化フレームワーク(D36、D40、D41およびD42)の親和性データを示す(その配列については図43Aと図43Bの注を参照)。測定は、精製抗体がCM5バイオチップ上に固定化された抗原(VEGF)に25℃で結合する時のSPR単位の変化(y軸)対時間(x軸)を測定することにより行われる。オンレートとオフレートの両方を、1:1ラングミュア結合モデルを使用してデータフィッティングにより測定した。2つのヒト化フレームワークD36とD40は、フレームワーク最適化により親/参照抗VEGF抗体配列より結合親和性(ccFvフォーマットで)がほぼ4倍高く(ヒト化抗VEGF抗体については図22AとBを参照(Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599)、一方D42は、参照抗体とほぼ同じである。報告されたヒト化抗VEGF抗体(図22AとB)は、その比較したマウス抗体より約2倍弱いため、これらの2つのヒト化抗体は、ヒト化により対応するマウス抗体より約2倍高い結合親和性を有するはずである。   Figure 43B shows affinity data for five antibody, parent antibody (X50) and anti-VEGF antibody optimization frameworks (D36, D40, D41 and D42) selected from a designer library using a BIAcore biosensor. Shown (see notes in Figure 43A and Figure 43B for its sequence). The measurement is performed by measuring the change in SPR units (y axis) versus time (x axis) when the purified antibody binds to an antigen (VEGF) immobilized on a CM5 biochip at 25 ° C. Both on-rate and off-rate were measured by data fitting using a 1: 1 Langmuir binding model. The two humanized frameworks D36 and D40 have almost 4-fold higher binding affinity (in ccFv format) than the parent / reference anti-VEGF antibody sequence due to framework optimization (Figures 22A and B for humanized anti-VEGF antibodies). Reference (Presta LG, Chen H, O'Counor SJ, Chisholm V, Meng YG, Krummen L, Winkler M, Ferrara N (1997) Cancer Res. 57, 4593-4599), whereas D42 is almost the same as the reference antibody Since the reported humanized anti-VEGF antibodies (FIGS. 22A and B) are about 2-fold weaker than their compared mouse antibodies, these two humanized antibodies are about 2-fold more than the corresponding mouse antibodies upon humanization. It should have a high binding affinity.

図44は、最適化VHフレームワークの安定性の上昇を示す(日36とD40)。y軸は、親X50と最適化フレームワーク(D36とD40)について精製抗体を4、37および42℃で17時間インキュベートした後の、BIAcoreを使用して25℃で固定化VEGF抗原への結合が活性に維持された抗体のパーセントを示す。これは、最適化フレームワークが、報告(Prestaら、前述、1997)されたヒト化VHフレームワークより高い安定性を有することを示す。   Figure 44 shows the increased stability of the optimized VH framework (days 36 and D40). The y-axis shows the binding of purified antibody to parental X50 and optimized frameworks (D36 and D40) at 4, 37 and 42 ° C for 17 hours, followed by binding to immobilized VEGF antigen at 25 ° C using BIAcore. The percentage of antibody maintained in activity is shown. This indicates that the optimization framework is more stable than the reported humanized VH framework (Presta et al., Supra, 1997).

図45は、最適化VHフレームワークの改良された発現を示す。最適化フレームワーク(D36、D40およびD42)はまた、SDS-PAGE/クマシーブルー染色に検出される発現収率で示されるように、親/野生型抗体(X50)に対して、改良された発現を示す。   FIG. 45 shows improved expression of the optimized VH framework. The optimized framework (D36, D40 and D42) also improved expression relative to the parent / wild type antibody (X50) as shown by the expression yield detected in SDS-PAGE / Coomassie blue staining Indicates.

本発明の方法を使用して設計された抗体ライブラリーはバクテリオファージ系のみでなく、他の生物(特に限定されないが、酵母、昆虫、植物および哺乳動物細胞)中でも発現されスクリーニングされることを注意されたい。設計された抗体(抗原結合断片および他の抗体型を含む)は、種々の組換えDNA技術または他の技術により産生される。例えば設計抗体をコードするDNAセグメントは発現ベクター中にクローン化され、公知の方法(これは細胞宿主の種類により異なり、特に限定されないが塩化カルシウムトランスフェクション、電気穿孔法、リポフェクション、およびフレームシフトトランスフェクションがある)により宿主細胞に移される。抗体は、当該分野の標準的方法(特に限定されないが、硫酸アンモニウム沈殿、親和性カラム、カラムクロマトグラフィー、ゲル電気泳動などがある)により精製される。添付の特許請求の範囲により規定されるように、本発明の精神と範囲を逸脱することなく、種々の修飾が当業者には可能である。   Note that antibody libraries designed using the methods of the present invention are expressed and screened not only in bacteriophage systems but also in other organisms, including but not limited to yeast, insects, plants and mammalian cells. I want to be. Engineered antibodies (including antigen-binding fragments and other antibody types) are produced by various recombinant DNA techniques or other techniques. For example, a DNA segment encoding the designed antibody is cloned into an expression vector and known methods (which depend on the cell host type and are not particularly limited, but include calcium chloride transfection, electroporation, lipofection, and frameshift transfection. Is transferred to the host cell. Antibodies are purified by standard methods in the art, including but not limited to ammonium sulfate precipitation, affinity columns, column chromatography, gel electrophoresis, and the like. Various modifications may be made by those skilled in the art without departing from the spirit and scope of the invention as defined by the appended claims.

本発明の方法を使用して設計される抗体は、種々の疾患[特に限定されないが、癌、自己免疫疾患(例えば、多発性硬化症、リウマチ様関節炎、全身性エリテマトーデス、1型糖尿病、および重症筋無力症)、移植片対宿主反応病、心血管疾患、フレームシフト感染(例えば、HIV、肝炎ウイルス、および単純ヘルペスウイルス)、細菌感染、アレルギー、II型糖尿病、血液疾患(例えば、貧血)がある]の診断または治療に使用される。
抗体はまた、診断用もしくは治療用残基と結合した結合体として、または化学療法剤または生物製剤と組合せて使用することもできる。抗体はまた、多様な投与経路を介する投与用に調製することもできる。例えば、抗体は、経口、局所的、非経口、腹腔内、静脈内、動脈内、経皮的、舌下、筋肉内、直腸内、頬内、鼻内、吸入、膣内、眼内、局所的供給(例えばカテーテルまたはステントにより)、皮下、脂肪組織内、関節内、またはくも膜下に、投与または同時投与してもよい。
Antibodies designed using the methods of the invention can be used in various diseases [including but not limited to cancer, autoimmune diseases (eg, multiple sclerosis, rheumatoid arthritis, systemic lupus erythematosus, type 1 diabetes, and severe Myasthenia), graft-versus-host reaction disease, cardiovascular disease, frameshift infection (eg, HIV, hepatitis virus, and herpes simplex virus), bacterial infection, allergy, type II diabetes, blood disease (eg, anemia) It is used for diagnosis or treatment.
The antibodies can also be used as conjugates conjugated with diagnostic or therapeutic residues, or in combination with chemotherapeutic agents or biologics. The antibodies can also be prepared for administration via various routes of administration. For example, antibodies can be oral, topical, parenteral, intraperitoneal, intravenous, intraarterial, transdermal, sublingual, intramuscular, rectal, buccal, intranasal, inhalation, intravaginal, intraocular, topical Administration or co-administration may be administered (eg, via a catheter or stent), subcutaneously, in adipose tissue, in a joint, or subarachnoidally.

in silicoでタンパク質ライブラリーを設計するための本発明の方法は、種々の形の任意の計算システム(特に限定されないが、スーパーコンピューター、パーソナルコンピューター、パーソナルデジタルアシスタント(PDA)、ネットワークコンピューター、分布コンピューター、またはインターネットもしくは他のマイクロプロセッサーシステムがある)で行われる。本明細書に記載の方法とシステムは、ランダムアクセスメモリー(RAM)のような記憶素子以外の種々のタイプの実行可能な媒体で実行することができる。他のタイプの実行可能な媒体には、特に限定されないが、コンピューターで読める保存媒体があり、これは任意の記憶デバイス、コンパクトディスク、ジップディスクまたはフロッピーディスクでもよい。   The method of the present invention for designing a protein library in silico can be used in any form of any computational system (including but not limited to supercomputers, personal computers, personal digital assistants (PDAs), network computers, distributed computers, Or on the Internet or other microprocessor system). The methods and systems described herein can be implemented on various types of executable media other than storage elements, such as random access memory (RAM). Other types of executable media include, but are not limited to, computer readable storage media, which may be any storage device, compact disc, zip disk or floppy disk.

上記で引用した特許、特許出願および刊行物は、参照することによりその全体が本明細書に組み込まれる。   The patents, patent applications and publications cited above are hereby incorporated by reference in their entirety.

Claims (156)

抗体配列のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
A method for constructing a library of antibody sequences comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 15% sequence identity with the lead sequence (the selected peptide segment is a hit library Form).
リード配列の長さは5〜100aaである、請求項1の方法。   2. The method of claim 1, wherein the length of the lead sequence is 5 to 100 aa. リード配列の長さは6〜80aaである、請求項1の方法。   2. The method of claim 1, wherein the length of the lead sequence is 6-80 aa. リード配列の長さは8〜50aaである、請求項1の方法。   2. The method of claim 1, wherein the length of the lead sequence is 8-50 aa. CDR中のアミノ酸配列を同定する工程は、Kabat基準またはチョチア(Chothia)基準を使用して行われる、請求項1の方法。   2. The method of claim 1, wherein the step of identifying the amino acid sequence in the CDR is performed using Kabat criteria or Chothia criteria. リード配列は、CDR1、CDR2、CDR3、FR1-CDR1、CDR1-FR2、FR2-CDR2、CDR2-FR3、FR3-CDR3、CDR3-FR4、FR1-CDR1-FR2、FR2-CDR2-FR3、およびFR3-CDR3-FR4よりなる群から選択されるリード抗体のVHまたはVL内の領域からのアミノ酸配列を含む、請求項1の方法。 The lead sequence is CDR1, CDR2, CDR3, FR1-CDR1, CDR1-FR2, FR2-CDR2, CDR2-FR3, FR3-CDR3, CDR3-FR4, FR1-CDR1-FR2, FR2-CDR2-FR3, and FR3-CDR3 2. The method of claim 1, comprising an amino acid sequence from a region within VH or VL of a lead antibody selected from the group consisting of -FR4. リード配列は、選択されたCDR中に少なくとも6つの連続的アミノ酸残基を含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence comprises at least 6 consecutive amino acid residues in the selected CDR. リード配列は、選択されたCDR中に少なくとも7つの連続的アミノ酸残基を含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence comprises at least 7 consecutive amino acid residues in a selected CDR. リード配列は、選択されたCDR中にすべてのアミノ酸残基を含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence comprises all amino acid residues in the selected CDR. リード配列は、選択されたCDRにすぐ隣接する少なくとも1つのアミノ酸残基をさらに含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence further comprises at least one amino acid residue immediately adjacent to the selected CDR. リード配列は、選択されたCDRにフランクするFR中に少なくとも1つのアミノ酸残基をさらに含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence further comprises at least one amino acid residue in the FR that flanks the selected CDR. リード配列は、選択されたCDRのC末端またはN末端に隣接する1つ以上のCDRもしくはFRをさらに含む、請求項1の方法。   2. The method of claim 1, wherein the lead sequence further comprises one or more CDRs or FRs adjacent to the C-terminus or N-terminus of the selected CDR. 複数のテスタータンパク質配列は抗体配列を含む、請求項1の方法。   The method of claim 1, wherein the plurality of tester protein sequences comprises an antibody sequence. 複数のテスタータンパク質配列はヒト抗体配列を含む、請求項1の方法。   The method of claim 1, wherein the plurality of tester protein sequences comprises a human antibody sequence. 複数のFRテスタータンパク質配列は、VHまたはVL中に少なくとも70%のヒト配列を有するヒト化抗体配列を含む、請求項1の方法。 2. The method of claim 1, wherein the plurality of FR tester protein sequences comprises a humanized antibody sequence having at least 70% human sequence in VH or VL . 複数のFRテスタータンパク質配列は、ヒト生殖細胞系抗体配列を含む、請求項1の方法。   2. The method of claim 1, wherein the plurality of FR tester protein sequences comprises a human germline antibody sequence. 複数のテスタータンパク質配列は、抗体のCDRについてNIHのジーンバンク、Swiss-Protデータベース、およびKabatデータベースからなるデータベースから検索される、請求項1の方法。   2. The method of claim 1, wherein the plurality of tester protein sequences are retrieved from a database consisting of NIH's Genebank, Swiss-Prot database, and Kabat database for antibody CDRs. リード配列を複数のテスタータンパク質配列と比較する工程は、BLAST、PSI-BLAST、プロフィールHMM、およびCOBLATHよりなる群から選択されるアルゴリズムにより行われる、請求項1の方法。   2. The method of claim 1, wherein the step of comparing the lead sequence to a plurality of tester protein sequences is performed by an algorithm selected from the group consisting of BLAST, PSI-BLAST, profile HMM, and COBLATH. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも25%である、請求項1の方法。   The method of claim 1, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 25%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも35%である、請求項1の方法。   2. The method of claim 1, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 35%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも45%である、請求項1の方法。   2. The method of claim 1, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 45%. 以下の工程をさらに含む請求項1の方法:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
The method of claim 1 further comprising the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
以下の工程をさらに含む請求項1の方法:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
The method of claim 1 further comprising the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into corresponding gene codons; and combinatorially combining nucleic acid position variants into a degenerate nucleic acid library of DNA segments Build up.
遺伝子コドンは、細菌での発現に好適なものである、請求項23の方法。   24. The method of claim 23, wherein the gene codon is suitable for bacterial expression. 遺伝コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、1×107 未満であるように選択される、請求項23の方法。 24. The method of claim 23, wherein the genetic codon is selected such that the diversity of the degenerate nucleic acid library of the DNA segment is less than 1 × 10 7 . 遺伝コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、1×106 未満であるように選択される、請求項23の方法。 24. The method of claim 23, wherein the genetic codon is selected such that the diversity of the degenerate nucleic acid library of the DNA segment is less than 1 × 10 6 . 以下の工程をさらに含む請求項23の方法:
縮重核酸ライブラリーのDNAセグメントを宿主生物細胞中に導入し;
縮重核酸ライブラリーによりコードされるヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;そして
106 M-1 より高い親和性で標的抗原に結合する組換え抗体を選択する。
24. The method of claim 23 further comprising the following steps:
Introducing a DNA segment of a degenerate nucleic acid library into a host organism cell;
Expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library encoded by the degenerate nucleic acid library is produced in the host organism cell; and
Recombinant antibodies that bind to the target antigen with an affinity higher than 10 6 M −1 are selected.
選択された組換え抗体の親和性は108 M-1より高い、請求項27の方法。 28. The method of claim 27, wherein the affinity of the selected recombinant antibody is greater than 10 < 8 > M- 1 . 選択された組換え抗体の親和性は109 M-1より高い、請求項27の方法。 28. The method of claim 27, wherein the affinity of the selected recombinant antibody is greater than 10 9 M −1 . 宿主生物は、細菌、酵母、植物、昆虫および哺乳動物よりなる群から選択される、請求項27の方法。   28. The method of claim 27, wherein the host organism is selected from the group consisting of bacteria, yeast, plants, insects and mammals. 組換え抗体は、完全に組み立てられた抗体、Fab断片、Fv断片、または1本鎖抗体よりなる群から選択される、請求項27の方法。   28. The method of claim 27, wherein the recombinant antibody is selected from the group consisting of fully assembled antibodies, Fab fragments, Fv fragments, or single chain antibodies. 組換え抗体はファージ粒子の表面上に表示される、請求項27の方法。   28. The method of claim 27, wherein the recombinant antibody is displayed on the surface of the phage particle. ファージ粒子の表面上に表示される組換え抗体は、VHとVLにより形成される2本鎖ヘテロダイマーでもよい、請求項32の方法。 33. The method of claim 32, wherein the recombinant antibody displayed on the surface of the phage particle may be a double-stranded heterodimer formed by VH and VL . VHおよびVL鎖のヘテロダイマー化は、それぞれVHとVL鎖に融合した2つの非抗体ポリペプチド鎖の間で形成されたヘテロダイマーにより促進される、請求項33の方法。 Heterodimerization of V H and V L chains is facilitated by a heterodimer formed between two non-antibody polypeptide chain fused to the V H and V L chains, respectively The method of claim 33. 非抗体ポリペプチド鎖は、それぞれヘテロダイマー受容体GABAB R1(GR1)とR2(GR2)から得られる、請求項34の方法。 35. The method of claim 34, wherein the non-antibody polypeptide chain is obtained from the heterodimeric receptors GABA B R1 (GR1) and R2 (GR2), respectively. ファージ粒子の表面上に表示される組換え抗体は、ペプチドリンカーで連結されたVHとVLを含有する1本鎖抗体である、請求項32の方法。 33. The method of claim 32, wherein the recombinant antibody displayed on the surface of the phage particle is a single chain antibody containing VH and VL linked by a peptide linker. ファージ粒子の表面上の1本鎖抗体の表示は、1本鎖抗体とGR1との融合体とファージpIIIキャプシドタンパク質とGR2との融合体とで形成されるヘテロダイマーにより促進される、請求項36の方法。   The display of single chain antibodies on the surface of the phage particle is facilitated by a heterodimer formed by a fusion of the single chain antibody and GR1 and a fusion of the phage pIII capsid protein and GR2. the method of. 標的抗原は、小有機分子、タンパク質、ペプチド、核酸およびポリ炭水化物よりなる群から選択される、請求項27の方法。   28. The method of claim 27, wherein the target antigen is selected from the group consisting of small organic molecules, proteins, peptides, nucleic acids and polycarbohydrates. 抗体配列のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDRとFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含む第1のアミノ酸配列を提供し(選択されたアミノ酸配列はCDRリード配列である);
CDRリード配列を複数のテスタータンパク質配列と比較し;
複数のCDRテスタータンパク質配列から、CDRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはCDRヒットライブラリーを形成する);
リード抗体のVHまたはVL領域中に1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列はFRリード配列である);
FRリード配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、FRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはFRヒットライブラリーを形成する);そして
CDRヒットライブラリーとFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
A method for constructing a library of antibody sequences comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identify the amino acid sequence in the CDR and FR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing a first amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a CDR lead sequence);
Comparing the CDR read sequence to multiple tester protein sequences;
Selecting from the plurality of CDR tester protein sequences at least two peptide segments having at least 15% sequence identity with the CDR lead sequence (the selected peptide segments form a CDR hit library);
Select one FR in the VH or VL region of the lead antibody;
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the FR lead sequence);
Comparing the FR lead sequence to a plurality of FR tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the FR lead sequence (selected peptide segments Forms an FR hit library); and
A hit library is formed by combining the CDR hit library and the FR hit library.
複数のCDRテスタータンパク質配列は、ヒトまたは非ヒト抗体のアミノ酸配列を含む、請求項39の方法。   40. The method of claim 39, wherein the plurality of CDR tester protein sequences comprise an amino acid sequence of a human or non-human antibody. 複数のFRテスタータンパク質配列は、ヒト抗体のアミノ酸配列を含んでよい、請求項39の方法。   40. The method of claim 39, wherein the plurality of FR tester protein sequences may comprise the amino acid sequence of a human antibody. 複数のFRテスタータンパク質配列は、VHまたはVL中に少なくとも70%のヒト配列を有するヒト化抗体配列を含む、請求項39の方法。 40. The method of claim 39, wherein the plurality of FR tester protein sequences comprises a humanized antibody sequence having at least 70% human sequence in VH or VL . 複数のFRテスタータンパク質配列は、ヒト生殖細胞系抗体配列を含む、請求項39の方法。   40. The method of claim 39, wherein the plurality of FR tester protein sequences comprises a human germline antibody sequence. 少なくとも1つの複数のCDRテスタータンパク質配列は、複数のFRテスタータンパク質配列とは異なる、請求項39の方法。   40. The method of claim 39, wherein the at least one plurality of CDR tester protein sequences are different from the plurality of FR tester protein sequences. 複数のCDRテスタータンパク質配列はヒトもしくは非ヒト抗体配列であり、複数のFRテスタータンパク質配列はヒト抗体配列である、請求項39の方法。   40. The method of claim 39, wherein the plurality of CDR tester protein sequences are human or non-human antibody sequences and the plurality of FR tester protein sequences are human antibody sequences. 以下の工程をさらに含む請求項39の方法:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
40. The method of claim 39, further comprising the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
以下の工程をさらに含む請求項39の方法:
CDRヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、CDRヒットライブラリーのアミノ酸位置変種プロフィールを第1の核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重CDR核酸ライブラリーを構築する。
40. The method of claim 39, further comprising the following steps:
Create an amino acid position variant profile of the CDR hit library;
Converting the amino acid position variant profile of the CDR hit library into the first nucleic acid position variant profile by back-translating the amino acid position variants into the corresponding gene codons; and combining the nucleic acid position variants in a combinatorial manner to reduce the DNA segment Build a heavy CDR nucleic acid library.
ライブラリー抗体配列を構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のFR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのFRを選択し;
選択されたFR中に少なくとも3つの連続したアミノ酸残基を含む第1のアミノ酸配列を提供し(選択されたアミノ酸配列は第1のFRリード配列である);
第1のリードFR配列を複数のFRテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、第1のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはFRヒットライブラリーを形成する)。
A method of constructing a library antibody sequence comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the FR of the lead antibody;
Select one FR in the VH or VL region of the lead antibody;
Providing a first amino acid sequence comprising at least three consecutive amino acid residues in the selected FR (the selected amino acid sequence is the first FR lead sequence);
Comparing the first lead FR sequence to a plurality of FR tester protein sequences; and selecting at least two peptide segments from the plurality of FR tester protein sequences having at least 15% sequence identity with the first FR lead sequence (Selected peptide segments form an FR hit library).
以下の工程をさらに含む請求項48の方法:
選択されたFRとは異なるFR中に少なくとも3つの連続したアミノ酸残基を含む第2のアミノ酸配列を提供し(選択されたアミノ酸配列は第2のFRリード配列である);
第2のFRリード配列を複数のFRテスタータンパク質配列と比較し;
複数のFRテスタータンパク質配列から、第2のFRリード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントは第2のFRヒットライブラリーを形成する);そして
第1のFRヒットライブラリーと第2のFRヒットライブラリーとを組合せてヒットライブラリーを形成する。
49. The method of claim 48, further comprising the following steps:
Providing a second amino acid sequence comprising at least three consecutive amino acid residues in a FR different from the selected FR (the selected amino acid sequence is the second FR lead sequence);
Comparing a second FR lead sequence to a plurality of FR tester protein sequences;
Select at least two peptide segments having at least 15% sequence identity with a second FR lead sequence from a plurality of FR tester protein sequences (the selected peptide segments form a second FR hit library) And combining the first FR hit library and the second FR hit library to form a hit library.
リードFR配列は、リード抗体のVH FR1、VH FR2、VH FR3、VH FR4、VL FR1、VL FR2、VL FR3、およびVL FR4よりなる群から選択される選択されたFR中に、少なくとも5つの連続的アミノ酸残基を含む、請求項48の方法。 The lead FR sequence was selected from the group consisting of V H FR1, V H FR2, V H FR3, V H FR4, V L FR1, V L FR2, V L FR3, and V L FR4 of the lead antibody 49. The method of claim 48, comprising at least 5 consecutive amino acid residues in the FR. 請求項48の方法であって、以下の工程をさらに含む:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸または縮重核酸ライブラリーを構築する。
49. The method of claim 48, further comprising the following steps:
A nucleic acid or degenerate nucleic acid library containing a DNA segment encoding the amino acid sequence of the hit library is constructed.
複数のFRテスタータンパク質配列は、CDRが削除された抗体配列を含む、請求項48の方法。   49. The method of claim 48, wherein the plurality of FR tester protein sequences comprises an antibody sequence from which CDRs have been deleted. 複数のFRテスタータンパク質配列は、CDRが削除されたヒト抗体配列を含む、請求項48の方法。   49. The method of claim 48, wherein the plurality of FR tester protein sequences comprises a human antibody sequence from which CDRs have been deleted. リード配列プロフィールに基づいて抗体配列のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し;
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列の3次元構造を提供し;
リード配列の構造に基づいてリード配列プロフィールを作成し;
リード配列プロフィールを複数のテスタータンパク質配列と比較し;そして
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択する(選択されたペプチドセグメントはヒットライブラリーを形成する)。
A method for constructing a library of antibody sequences based on a lead sequence profile comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody;
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Providing a three-dimensional structure of the lead sequence;
Creating a lead sequence profile based on the structure of the lead sequence;
Comparing the lead sequence profile to a plurality of tester protein sequences; and selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments are hit live Forming a rally).
リード配列の3次元構造は、X線結晶解析、核磁気共鳴(NMR)分光法、または理論的構造モデル化から得られる構造である、請求項54の方法。   55. The method of claim 54, wherein the three-dimensional structure of the lead sequence is a structure obtained from X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy, or theoretical structural modeling. リード配列プロフィールを作成する工程は以下の工程を含む請求項54の方法:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションの差の自乗平均の平方根を決定し;
主鎖コンフォメーションの差の自乗平均の平方根が5Å未満であるテスタータンパク質セグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
55. The method of claim 54, wherein generating the lead sequence profile comprises the following steps:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the root mean square of the difference in the main chain conformation of the lead sequence and the tester protein segment;
A tester protein segment is selected that has a root mean square difference of less than 5 squares of the difference in backbone conformation; and the amino acid sequence of the selected tester protein segment is aligned with the lead sequence to create a lead sequence profile.
主鎖コンフォメーションの差の自乗平均の平方根が4Å未満である、請求項56の方法。   57. The method of claim 56, wherein the root mean square difference root mean square difference is less than 4%. 主鎖コンフォメーションの差の自乗平均の平方根が2Å未満である、請求項56の方法。   57. The method of claim 56, wherein the root mean square difference root-mean-square difference is less than 2%. リード配列プロフィールを作成する工程は以下の工程を含む請求項54の方法:
リード配列の構造を複数のテスタータンパク質セグメントの構造と比較し;
リード配列とテスタータンパク質セグメントの主鎖コンフォメーションのZスコアを決定し;
Zスコアが2より大きい、好ましくは3より大きい、さらに好ましくは4より大きい、および最も好ましくは5より大きいテスタータンパク質セグメントのセグメントを選択し;そして
選択されたテスタータンパク質セグメントのアミノ酸配列をリード配列と整列させてリード配列プロフィールを作成する。
55. The method of claim 54, wherein generating the lead sequence profile comprises the following steps:
Comparing the structure of the lead sequence to the structure of multiple tester protein segments;
Determining the Z-score of the main chain conformation of the lead sequence and tester protein segment;
Selecting a segment of the tester protein segment with a Z score greater than 2, preferably greater than 3, more preferably greater than 4, and most preferably greater than 5; and the amino acid sequence of the selected tester protein segment as the lead sequence Align to create a lead sequence profile.
リード配列プロフィールを作成する工程は、CE、MAPS、モンテカルロおよび3Dクラスタリングアルゴリズムよりなる群から選択されるアルゴリズムにより行われる、請求項54の方法。   55. The method of claim 54, wherein creating the lead sequence profile is performed by an algorithm selected from the group consisting of CE, MAPS, Monte Carlo, and 3D clustering algorithms. 以下の工程をさらに含む請求項54の方法:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
55. The method of claim 54, further comprising the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
以下の工程をさらに含む請求項54の方法:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応するトリヌクレオチドコドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
55. The method of claim 54, further comprising the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into the corresponding trinucleotide codons; and combining nucleic acid position variants in a combinatorial manner Build a rally.
リード配列に基づいて変異抗体のライブラリーを構築するためのコンピューターによる方法であって、この方法は以下の工程を含む:
入力としてリード抗体のCDR領域中の少なくとも3つの連続的アミノ酸残基を含むアミノ酸配列を取り(アミノ酸配列はリード配列である);
コンピューターが実行できるロジックを使用してリード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し;そして
出力として、ヒットライブラリーを形成する選択されたペプチドを作成する。
A computational method for constructing a library of mutant antibodies based on a lead sequence, the method comprising the following steps:
Taking as input an amino acid sequence comprising at least three consecutive amino acid residues in the CDR region of the lead antibody (the amino acid sequence is the lead sequence);
Compare the lead sequence to multiple tester protein sequences using computer-implementable logic;
From the plurality of tester protein sequences, select at least two peptide segments having at least 15% sequence identity with the lead sequence; and, as an output, create selected peptides that form a hit library.
リード配列に基づいて変異抗体のライブラリーを構築するためのロジックを含むコンピューターで読める媒体であって、ロジックは、
入力としてリード抗体のCDRの少なくとも3つの連続的アミノ酸残基を含むアミノ酸配列を取り(アミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し;そして
出力として、ヒットライブラリーを形成する選択されたペプチドを作成する、ロジックを含む上記媒体。
A computer readable medium including logic for constructing a library of mutant antibodies based on a lead sequence, the logic comprising:
Taking as input an amino acid sequence comprising at least three consecutive amino acid residues of the CDR of the lead antibody (the amino acid sequence is the lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting at least two peptide segments having at least 15% sequence identity with the lead sequence from a plurality of tester protein sequences; and generating as output the selected peptides that form a hit library, including logic Medium.
リード抗体の構造に基づいて抗体のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
スコア化関数を使用して、ヒットライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒットライブラリーのメンバーを選択する。
A method of constructing a library of antibodies based on the structure of a lead antibody, the method comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structural template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
A scoring function is used to determine whether the hit library members are structurally compatible with the lead structural template; and the hit library members with scores equal to or better than the lead sequence Select.
リード配列の長さは5〜100aaである、請求項65の方法。   66. The method of claim 65, wherein the length of the lead sequence is 5-100 aa. リード配列の長さは6〜80aaである、請求項65の方法。   66. The method of claim 65, wherein the length of the lead sequence is 6-80 aa. リード配列の長さは8〜50aaである、請求項65の方法。   66. The method of claim 65, wherein the length of the lead sequence is 8-50aa. CDR中のアミノ酸配列を同定する工程は、Kabat基準またはチョチア(Chothia)基準を使用して行われる、請求項65の方法。   66. The method of claim 65, wherein the step of identifying the amino acid sequence in the CDR is performed using Kabat criteria or Chothia criteria. リード配列は、CDR1、CDR2、CDR3、FR1-CDR1、CDR1-FR2、FR2-CDR2、CDR2-FR3、FR3-CDR3、CDR3-FR4、FR1-CDR1-FR2、FR2-CDR2-FR3、およびFR3-CDR3-FR4よりなる群から選択されるリード抗体のVHまたはVL内の領域からのアミノ酸配列を含む、請求項65の方法。 The lead sequence is CDR1, CDR2, CDR3, FR1-CDR1, CDR1-FR2, FR2-CDR2, CDR2-FR3, FR3-CDR3, CDR3-FR4, FR1-CDR1-FR2, FR2-CDR2-FR3, and FR3-CDR3 66. The method of claim 65, comprising an amino acid sequence from a region within VH or VL of a lead antibody selected from the group consisting of -FR4. リード配列は、選択されたCDR中に少なくとも6つの連続的アミノ酸残基を含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence comprises at least 6 consecutive amino acid residues in the selected CDR. リード配列は、選択されたCDR中に少なくとも7つの連続的アミノ酸残基を含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence comprises at least 7 consecutive amino acid residues in the selected CDR. リード配列は、選択されたCDR中にすべてのアミノ酸残基を含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence comprises all amino acid residues in the selected CDR. リード配列は、選択されたCDRにすぐ隣接する少なくとも1つのアミノ酸残基をさらに含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence further comprises at least one amino acid residue immediately adjacent to the selected CDR. リード配列は、選択されたCDRにフランクするFR中に少なくとも1つのアミノ酸残基をさらに含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence further comprises at least one amino acid residue in the FR that flanks the selected CDR. リード配列は、選択されたCDRのC末端またはN末端に隣接する1つ以上のCDRもしくはFRをさらに含む、請求項65の方法。   66. The method of claim 65, wherein the lead sequence further comprises one or more CDRs or FRs adjacent to the C-terminus or N-terminus of the selected CDR. 複数のテスタータンパク質配列は抗体配列を含む、請求項65の方法。   66. The method of claim 65, wherein the plurality of tester protein sequences comprises an antibody sequence. 複数のテスタータンパク質配列はヒト抗体配列を含む、請求項65の方法。   66. The method of claim 65, wherein the plurality of tester protein sequences comprises a human antibody sequence. 複数のFRテスタータンパク質配列は、VHまたはVL中に少なくとも70%のヒト配列を有するヒト化抗体配列を含む、請求項65の方法。 66. The method of claim 65, wherein the plurality of FR tester protein sequences comprises a humanized antibody sequence having at least 70% human sequence in VH or VL . 複数のFRテスタータンパク質配列は、ヒト生殖細胞系抗体配列を含む、請求項65の方法。   66. The method of claim 65, wherein the plurality of FR tester protein sequences comprises a human germline antibody sequence. 複数のテスタータンパク質配列は、抗体のCDRについてNIHのジーンバンク、Swiss-Protデータベース、およびKabatデータベースからなるデータベースから検索される、請求項65の方法。   66. The method of claim 65, wherein the plurality of tester protein sequences are retrieved from a database consisting of NIH's Genebank, Swiss-Prot database, and Kabat database for antibody CDRs. リード配列を複数のテスタータンパク質配列と比較する工程は、BLAST、PSI-BLAST、プロフィールHMM、およびCOBLATHよりなる群から選択されるアルゴリズムにより行われる、請求項65の方法。   66. The method of claim 65, wherein the step of comparing the lead sequence to the plurality of tester protein sequences is performed by an algorithm selected from the group consisting of BLAST, PSI-BLAST, profile HMM, and COBLATH. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも25%である、請求項65の方法。   66. The method of claim 65, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 25%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも35%である、請求項65の方法。   66. The method of claim 65, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 35%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも45%である、請求項65の方法。   66. The method of claim 65, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 45%. スコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である、請求項65の方法。   The scoring function is an energy scoring function selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. 66. The method of claim 65. スコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールドよりなる群から選択されるフォースフィールドを含むスコア化関数である、請求項65の方法。   The scoring functions are Amber force field (forcefiled), Charmm force field, Discover cvff force field, ECEPP force field, GROMOS force field, OPLS force field, MMFF94 force field, Tripos force field, MM3 force field, Dreiding force field, and 66. The method of claim 65, wherein the scoring function includes a force field selected from the group consisting of UNRES force fields. ヒットライブラリーのメンバーを選択する工程は、
ΔEtotal = Evdw + Ebond + Eangel + Eelectrostatics + Esolvation
の式に基づいて計算されるリード配列より低いかまたは同等の総エネルギーを有するヒットライブラリーのメンバーを選択することを含む、請求項65の方法。
The process of selecting hit library members is:
ΔE total = E vdw + E bond + E angel + E electrostatics + E solvation
66. The method of claim 65, comprising selecting a member of the hit library that has a total energy that is lower than or equal to the lead sequence calculated based on the formula:
ヒットライブラリーのメンバーを選択する工程は、改良されたスコア化関数
ΔGb = ΔGMM + ΔGsol - TΔSSS
(式中、
ΔGMM = ΔGele + ΔGvdw (1)
ΔGsol = ΔGele-sol + ΔGASA (2))
を使用して、結合状態と非結合状態の差として計算されるリード配列より小さい結合フリーエネルギーを有するヒットライブラリーのメンバーを選択することを含む、請求項65の方法。
The process of selecting hit library members involves an improved scoring function ΔG b = ΔG MM + ΔG sol -TΔS SS
(Where
ΔG MM = ΔG ele + ΔG vdw (1)
ΔG sol = ΔG ele-sol + ΔG ASA (2))
66. The method of claim 65, comprising selecting a member of a hit library having a binding free energy less than the lead sequence calculated as the difference between the bound and unbound states using.
リード構造鋳型は完全に組み立てられたリード抗体である、請求項65の方法。   66. The method of claim 65, wherein the lead structural template is a fully assembled lead antibody. リード構造鋳型はリード抗体のVHまたはVLの3D構造である、請求項65の方法。 66. The method of claim 65, wherein the lead structure template is a 3D structure of the VH or VL of the lead antibody. リード構造鋳型は、リード抗体のCDRまたはFRの3D構造またはこれらの組合せである、請求項65の方法。   66. The method of claim 65, wherein the lead structure template is a 3D structure of a CDR or FR of a lead antibody or a combination thereof. リード構造鋳型は、X線結晶解析、核磁気共鳴(NMR)分光法、または理論的構造モデル化から得られる構造である、請求項65の方法。   66. The method of claim 65, wherein the lead structure template is a structure obtained from X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy, or theoretical structural modeling. 以下の工程をさらに含む請求項65の方法:
ヒットライブラリーのアミノ酸配列をコードするDNA配列を含む核酸ライブラリーを構築する。
66. The method of claim 65, further comprising the following steps:
A nucleic acid library comprising a DNA sequence encoding the amino acid sequence of the hit library is constructed.
以下の工程をさらに含む請求項65の方法:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
66. The method of claim 65, further comprising the following steps:
Create an amino acid position variant profile of the hit library;
Converting amino acid position variant profiles of hit libraries into nucleic acid position variant profiles by back-translating amino acid position variants into corresponding gene codons; and combinatorially combining nucleic acid position variants into a degenerate nucleic acid library of DNA segments Build up.
遺伝子コドンは、細菌での発現に好適なものである、請求項95の方法。   96. The method of claim 95, wherein the gene codon is suitable for bacterial expression. 遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、1×107 未満であるように選択される、請求項95の方法。 96. The method of claim 95, wherein the gene codon is selected such that the diversity of the degenerate nucleic acid library of the DNA segment is less than 1 × 10 7 . 遺伝子コドンは、DNAセグメントの縮重核酸ライブラリーの多様性が、1×106 未満であるように選択される、請求項95の方法。 96. The method of claim 95, wherein the gene codon is selected such that the diversity of the degenerate nucleic acid library of the DNA segment is less than 1 × 10 6 . 以下の工程をさらに含む請求項95の方法:
縮重核酸ライブラリーのDNAセグメントを宿主生物細胞中に導入し;
縮重核酸ライブラリーによりコードされるヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;そして
106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択する。
96. The method of claim 95, further comprising the following steps:
Introducing a DNA segment of a degenerate nucleic acid library into a host organism cell;
Expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library encoded by the degenerate nucleic acid library is produced in the host organism cell; and
Recombinant antibodies that bind to the target antigen with an affinity higher than 10 6 M −1 are selected.
選択された組換え抗体の親和性が108 M-1より高い、請求項99の方法。 99. The method of claim 99, wherein the affinity of the selected recombinant antibody is higher than 10 < 8 > M- 1 . 選択された組換え抗体の親和性が109 M-1より高い、請求項99の方法。 99. The method of claim 99, wherein the affinity of the selected recombinant antibody is greater than 10 < 9 > M- 1 . 宿主生物は、細菌、酵母、植物、昆虫および哺乳動物よりなる群から選択される、請求項99の方法。   99. The method of claim 99, wherein the host organism is selected from the group consisting of bacteria, yeast, plants, insects and mammals. 組換え抗体は、完全に組み立てられた抗体、Fab断片、Fv断片、または1本鎖抗体よりなる群から選択される、請求項99の方法。   99. The method of claim 99, wherein the recombinant antibody is selected from the group consisting of a fully assembled antibody, Fab fragment, Fv fragment, or single chain antibody. 組換え抗体はファージ粒子の表面上に表示される、請求項99の方法。   99. The method of claim 99, wherein the recombinant antibody is displayed on the surface of the phage particle. ファージ粒子の表面上に表示される組換え抗体は、VHとVLにより形成される2本鎖ヘテロダイマーである、請求項104の方法。 105. The method of claim 104, wherein the recombinant antibody displayed on the surface of the phage particle is a double stranded heterodimer formed by VH and VL . VHおよびVL鎖のヘテロダイマー化は、それぞれVHとVL鎖に融合した2つの非抗体ポリペプチド鎖の間で形成されたヘテロダイマーにより促進される、請求項105の方法。 Heterodimerization of V H and V L chains is facilitated by a heterodimer formed between two non-antibody polypeptide chain fused to the V H and V L chains, respectively The method of claim 105. 非抗体ポリペプチド鎖は、それぞれヘテロダイマー受容体GABAB R1(GR1)とR2(GR2)から得られる、請求項106の方法。 107. The method of claim 106, wherein the non-antibody polypeptide chain is obtained from the heterodimeric receptors GABA B R1 (GR1) and R2 (GR2), respectively. ファージ粒子の表面上に表示される組換え抗体は、ペプチドリンカーで連結されたVHとVLを含有する1本鎖抗体である、請求項104の方法。 105. The method of claim 104, wherein the recombinant antibody displayed on the surface of the phage particle is a single chain antibody containing VH and VL linked by a peptide linker. ファージ粒子の表面上の1本鎖抗体の表示は、1本鎖抗体とGR1との融合体とファージpIIIキャプシドタンパク質とGR2との融合体とで形成されるヘテロダイマーにより促進される、請求項108の方法。   109. The display of single chain antibodies on the surface of phage particles is facilitated by a heterodimer formed by a fusion of a single chain antibody and GR1 and a fusion of phage pIII capsid protein and GR2. the method of. 標的抗原は、小有機分子、タンパク質、ペプチド、核酸およびポリ炭水化物よりなる群から選択される、請求項99の方法。   99. The method of claim 99, wherein the target antigen is selected from the group consisting of small organic molecules, proteins, peptides, nucleic acids and polycarbohydrates. 抗体配列のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列プロフィールを複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーの適用ウイルス粒子を作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを作成し;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
A method for constructing a library of antibody sequences comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structural template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence profile to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating a hit library application virus particle based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining the amino acid variants in the hit library to create a combination of hit variants that forms a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.
ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む請求項111の方法:
出現頻度が4回より大きいアミノ酸変種を選択する。
112. The method of claim 111, wherein combining the amino acid variants in the hit library comprises:
Select amino acid variants with an appearance frequency greater than 4.
ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む請求項111の方法:
出現頻度が6回より大きいアミノ酸変種を選択する。
112. The method of claim 111, wherein combining the amino acid variants in the hit library comprises:
Select amino acid variants with an appearance frequency greater than 6.
ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む請求項111の方法:
出現頻度が各位置で総変種の5%より大きいアミノ酸変種を選択する。
112. The method of claim 111, wherein combining the amino acid variants in the hit library comprises:
Select amino acid variants with an appearance frequency greater than 5% of total variants at each position.
ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む請求項111の方法:
出現頻度が各位置で総変種の10%より大きいアミノ酸変種を選択し;そして
ヒットライブラリー中の選択されたアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成する。
112. The method of claim 111, wherein combining the amino acid variants in the hit library comprises:
Amino acid variants with an occurrence frequency greater than 10% of the total variant are selected at each position; and the selected amino acid variants in the hit library are combined to produce a combination of hit variants that forms a hit variant library.
ヒットライブラリー中のアミノ酸変種を組合せる工程は以下を含む請求項111の方法:
出現頻度が各位置で総変種の5%より大きいアミノ酸変種を選択し;
出現頻度が各位置で総変種の5%と等しいかまたはそれより小さい場合、リード配列のアミノ酸を選択し;そして
ヒットライブラリー中の選択されたアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成する。
112. The method of claim 111, wherein combining the amino acid variants in the hit library comprises:
Select amino acid variants with an appearance frequency greater than 5% of total variants at each position;
If the frequency of occurrence is less than or equal to 5% of the total variant at each position, select the amino acid of the lead sequence; and combine the selected amino acid variants in the hit library to form a hit variant library Generate a combination of hit variants.
スコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である、請求項111の方法。   The scoring function is an energy scoring function selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. 112. The method of claim 111, wherein: スコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールドよりなる群から選択されるフォースフィールドを含むスコア化関数である、請求項111の方法。   The scoring functions are Amber force field (forcefiled), Charmm force field, Discover cvff force field, ECEPP force field, GROMOS force field, OPLS force field, MMFF94 force field, Tripos force field, MM3 force field, Dreiding force field, and 112. The method of claim 111, wherein the scoring function includes a force field selected from the group consisting of UNRES force fields. 以下の工程をさらに含む請求項111の方法:
ヒットライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
112. The method of claim 111, further comprising the following steps:
A nucleic acid library is constructed that includes DNA segments that encode the amino acid sequences of selected members of the hit library.
以下の工程をさらに含む請求項111の方法:
ヒット変種ライブラリーの選択されたメンバーを少なくとも2つのサブヒット変種ライブラリーに分解し;
サブヒット変種ライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、選択されたサブヒット変種ライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;そして
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築する。
112. The method of claim 111, further comprising the following steps:
Decomposing selected members of the hit variant library into at least two sub-hit variant libraries;
Create an amino acid position variant profile of the sub-hit variant library;
Converting the amino acid position variant profile of the selected sub-hit variant library into a nucleic acid position variant profile by back-translating the amino acid position variants into the corresponding gene codons; and combinatorially combining the nucleic acid position variants into a DNA segment Build a heavy nucleic acid library.
ヒット変種ライブラリーを分解する工程は以下を含む請求項120の方法:
リード配列と同等かまたはより優れたスコアを有するヒット変種ライブラリーの10〜30メンバーをランダムに選択する(選択されたメンバーはサブ変種ライブラリーを形成する)。
121. The method of claim 120, wherein decomposing the hit variant library comprises:
Randomly select 10-30 members of the hit variant library that have a score equal to or better than the lead sequence (the selected members form a subvariant library).
ヒット変種ライブラリーを分解する工程は以下を含む請求項120の方法:
ヒット変種ライブラリーのアミノ酸位置変種プロフィールを作成して、ヒット変種プロフィールを得て;そして
ある距離のカットオフ(4.5Å〜8Å)を使用して、リード構造鋳型のCα、Cβまたは重い原子の接触地図に基づき、ヒット変種プロフィールをサブ変種プロフィールのセグメントに分解する。
121. The method of claim 120, wherein decomposing the hit variant library comprises:
Create amino acid position variant profile of hit variant library to get hit variant profile; and use Cα, Cβ or heavy atom contact of lead structure template using a certain distance cut-off (4.5 ~ 8 ~) Based on the map, break the hit variant profile into sub-variant profile segments.
ヒット変種ライブラリーを分解する工程は以下を含む請求項120の方法:
ヒット変種ライブラリーのアミノ酸位置変種プロフィールを作成して、ヒット変種プロフィールを得て;そして
6Å−8Åの距離カットオフを使用して、リード構造鋳型のCα、Cβまたは重い原子の接触地図に基づき、ヒット変種プロフィールをサブ変種プロフィールのセグメントに分解する。
121. The method of claim 120, wherein decomposing the hit variant library comprises:
Create an amino acid position variant profile of the hit variant library to obtain a hit variant profile; and
Using a 6-8 distance cut-off, the hit variant profile is decomposed into sub-variant profile segments based on the contact map of Cα, Cβ or heavy atoms in the lead structure template.
複数の抗体の構造集合体に基づいて抗体のライブラリーを構築する方法であって、この方法は以下の工程を含む:
リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
リード抗体以外のVHもしくはVL領域中の異なる配列を有する1つ以上の抗体の3D構造を提供し;
リード抗体と1つ以上の抗体とを組合せて構造集合体を形成し(構造集合体はリード構造鋳型として定義される);
リード抗体のCDR中のアミノ酸配列を同定し;
リード抗体のVHまたはVL領域中の1つのCDRを選択し;
選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列である);
リード配列を複数のテスタータンパク質配列と比較し;
複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;そして
リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択する。
A method of constructing an antibody library based on a plurality of structural assemblies of antibodies, the method comprising the following steps:
Providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
Providing a 3D structure of one or more antibodies having different sequences in the VH or VL regions other than the lead antibody;
Combining the lead antibody and one or more antibodies to form a structural assembly (the structural assembly is defined as a lead structural template);
Identifying the amino acid sequence in the CDR of the lead antibody;
Select one CDR in the VH or VL region of the lead antibody;
Providing an amino acid sequence comprising at least three consecutive amino acid residues in a selected CDR (the selected amino acid sequence is a lead sequence);
Comparing the lead sequence to multiple tester protein sequences;
Selecting from the plurality of tester protein sequences at least two peptide segments having at least 10% sequence identity with the lead sequence (the selected peptide segments form a hit library);
Creating an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
Combining amino acid variants in the hit library to generate a combination of hit variants that form a hit variant library;
A scoring function is used to determine whether members of the hit variant library are structurally compatible with the lead structural template; and a hit variant library with a score equal to or better than the lead sequence Select members.
リード抗体の構造に基づいて抗体のライブラリーを構築する方法であって、この方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列を複数のテスタータンパク質配列と比較し;
f) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
g) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
h) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成させ;
i) スコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
j) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
k) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
l) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程j)〜l)を繰り返し;
m) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
n) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
o) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
p) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜o)を繰り返す。
A method of constructing a library of antibodies based on the structure of a lead antibody, the method comprising the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) compare the lead sequence to multiple tester protein sequences;
f) selecting at least two peptide segments having at least 10% sequence identity with the lead sequence from a plurality of tester protein sequences (the selected peptide segments form a hit library);
g) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
h) combining the amino acid variants in the hit library to generate a combination of hit variants that forms a hit variant library;
i) using a scoring function to determine whether members of the hit variant library are structurally compatible with the lead structure template;
j) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
k) constructing a degenerate nucleic acid library comprising a DNA segment encoding the amino acid sequence of a selected member of the hit variant library;
l) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step j) to l) until the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
m) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
n) expressing a DNA segment in the host cell so that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
o) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
p) If no recombinant antibody is found that binds to the target antigen with an affinity higher than 10 6 M −1 , repeat steps e) to o).
リード抗体の構造に基づいて抗体のライブラリーを構築する方法であって、この方法は以下の工程を含む:
a) リード抗体の重鎖(VH)または軽鎖(VL)の可変領域のアミノ酸配列を提供し(リード抗体は、リード構造鋳型として定義される既知の3次元構造を有する);
b) リード抗体のCDR中のアミノ酸配列を同定し;
c) リード抗体のVHまたはVL領域中の1つのCDRを選択し;
d) 選択されたCDR中に少なくとも3つの連続したアミノ酸残基を含むアミノ酸配列を提供し(選択されたアミノ酸配列はリード配列として定義される);
e) リード配列の1つ以上のアミノ酸残基を1つ以上の異なるアミノ酸残基で置換してリード配列を変異させて、リード配列変異体ライブラリーを作成し;
f) 第1のスコア化関数を使用して、リード配列変異体ライブラリーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
g) リード配列と同等であるかまたはよりすぐれたスコアのリード配列変異体を選択し;
h) リード配列を複数のテスタータンパク質配列と比較し;
i) 複数のテスタータンパク質配列から、リード配列と少なくとも10%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);
j) リード配列の各位置に現れるアミノ酸変種の頻度に基づきヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
k) ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種の組合せを生成させ;
l) 選択された配列変異体をヒット変種の組合せと組合せて、ヒット変種ライブラリーを産生させ;
m) 第2のスコア化関数を使用して、ヒット変種ライブラリーのメンバーがリード構造鋳型と構造的に適合性があるかどうかを決定し;
n) リード配列と同等であるかまたはよりすぐれたスコアのヒット変種ライブラリーのメンバーを選択し;
o) ヒット変種ライブラリーの選択されたメンバーのアミノ酸配列をコードするDNAセグメントを含む縮重核酸ライブラリーを構築し;
p) 核酸ライブラリーの多様性を決定し、多様性が1×106より大きい場合は、核酸ライブラリーの多様性が1×106と等しいかまたはより小さくなるまで工程n)〜p)を繰り返し;
q) 縮重核酸ライブラリー中のDNAセグメントを宿主生物の細胞中に導入し;
r) ヒットライブラリーのアミノ酸配列を含有する組換え抗体が宿主生物細胞中で産生されるように、DNAセグメントを宿主細胞中で発現させ;
s) 106 M-1より高い親和性で標的抗原に結合する組換え抗体を選択し;そして
t) 106 M-1より高い親和性で標的抗原に結合する組換え抗体が見つからない場合、工程e)〜s)を繰り返す。
A method of constructing a library of antibodies based on the structure of a lead antibody, the method comprising the following steps:
a) providing the amino acid sequence of the variable region of the heavy chain (V H ) or light chain (V L ) of the lead antibody (the lead antibody has a known three-dimensional structure defined as a lead structure template);
b) identify the amino acid sequence in the CDR of the lead antibody;
c) select one CDR in the VH or VL region of the lead antibody;
d) providing an amino acid sequence comprising at least 3 consecutive amino acid residues in the selected CDR (the selected amino acid sequence is defined as the lead sequence);
e) mutating the lead sequence by substituting one or more amino acid residues of the lead sequence with one or more different amino acid residues to create a lead sequence variant library;
f) using a first scoring function to determine if the lead sequence variant library is structurally compatible with the lead structural template;
g) select a lead sequence variant with a score equal to or better than the lead sequence;
h) comparing the lead sequence to multiple tester protein sequences;
i) selecting at least two peptide segments having a sequence identity of at least 10% with the lead sequence from the plurality of tester protein sequences (the selected peptide segments form a hit library);
j) create an amino acid position variant profile of the hit library based on the frequency of amino acid variants appearing at each position of the lead sequence;
k) combining amino acid variants in a hit library to generate a combination of hit variants;
l) combining a selected sequence variant with a combination of hit variants to produce a hit variant library;
m) Use a second scoring function to determine whether members of the hit variant library are structurally compatible with the lead structural template;
n) Select a member of the hit variant library that has a score equivalent to or better than the lead sequence;
o) constructing a degenerate nucleic acid library comprising DNA segments encoding the amino acid sequences of selected members of the hit variant library;
p) determining the diversity of nucleic acid libraries, if diversity is greater than 1 × 10 6 is the step n) ~p) to the diversity of the nucleic acid library is less than or equal to 1 × 10 6 repetition;
q) introducing the DNA segment in the degenerate nucleic acid library into the cells of the host organism;
r) expressing a DNA segment in the host cell such that a recombinant antibody containing the amino acid sequence of the hit library is produced in the host organism cell;
s) selecting a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 ; and
t) If a recombinant antibody that binds to the target antigen with an affinity higher than 10 6 M −1 is not found, repeat steps e) to s).
以下の工程を含む、設計されるタンパク質のライブラリーを構築する方法:
リードタンパク質から得られるアミノ酸配列を提供し(このアミノ酸配列はリード配列と呼ぶ);
リード配列を複数のテスタータンパク質配列と比較し;そして
複数のFRテスタータンパク質配列から、リード配列と少なくとも15%の配列同一性を有する少なくとも2つのペプチドセグメントを選択し(選択されたペプチドセグメントはヒットライブラリーを形成する);そして
リード配列をヒットライブラリーで置換して設計されるタンパク質のライブラリーを形成する。
A method for constructing a library of designed proteins comprising the following steps:
Providing an amino acid sequence obtained from the lead protein (this amino acid sequence is referred to as the lead sequence);
Comparing the lead sequence to a plurality of tester protein sequences; and selecting from the plurality of FR tester protein sequences at least two peptide segments having at least 15% sequence identity with the lead sequence (the selected peptide segments are hit live A lead library); and the lead sequence is replaced with a hit library to form a library of designed proteins.
リード配列の長さは好ましくは5〜100aaである、請求項127の方法。   128. The method of claim 127, wherein the length of the lead sequence is preferably 5-100 aa. リード配列の長さは好ましくは6〜80aaである、請求項127の方法。   128. The method of claim 127, wherein the length of the lead sequence is preferably 6-80 aa. リード配列の長さは好ましくは8〜50aaである、請求項127の方法。   128. The method of claim 127, wherein the length of the lead sequence is preferably 8-50aa. リードタンパク質は、酵素受容体、サイトカイン、腫瘍サプレッサー、ケモカイン、抗体および増殖因子よりなる群から選択される種類のタンパク質である、請求項127の方法。   128. The method of claim 127, wherein the lead protein is a protein of a type selected from the group consisting of enzyme receptors, cytokines, tumor suppressors, chemokines, antibodies and growth factors. 複数のテスタータンパク質配列はヒトタンパク質配列を含む、請求項127の方法。   128. The method of claim 127, wherein the plurality of tester protein sequences comprises a human protein sequence. 複数のテスタータンパク質配列は、それぞれ少なくとも70%のヒト配列を有するヒト化タンパク質配列を含む、請求項127の方法。   128. The method of claim 127, wherein the plurality of tester protein sequences comprises a humanized protein sequence each having at least 70% human sequence. 複数のテスタータンパク質配列は、ジーンバンク(GenBank)またはSwiss-Protデータベースのタンパク質データベースから検索される、請求項127の方法。   128. The method of claim 127, wherein the plurality of tester protein sequences are retrieved from a protein database of GeneBank or Swiss-Prot database. リード配列を複数のテスタータンパク質配列と比較する工程は、BLAST、PSI-BLAST、プロフィールHMM、およびCOBLATHよりなる群から選択されるアルゴリズムにより行われる、請求項127の方法。   128. The method of claim 127, wherein the step of comparing the lead sequence to the plurality of tester protein sequences is performed by an algorithm selected from the group consisting of BLAST, PSI-BLAST, profile HMM, and COBLATH. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも25%である、請求項127の方法。   128. The method of claim 127, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 25%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも35%である、請求項127の方法。   128. The method of claim 127, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 35%. ヒットライブラリー中の選択されたペプチドセグメントとリード配列との配列同一性は、少なくとも45%である、請求項127の方法。   128. The method of claim 127, wherein the sequence identity between the selected peptide segment in the hit library and the lead sequence is at least 45%. 以下の工程を含む請求項127の方法:
設計されるタンパク質のライブラリーから所望の機能を有するタンパク質を選択する。
128. The method of claim 127, comprising the following steps:
A protein having a desired function is selected from the designed library of proteins.
所望の機能はリードタンパク質の改良された生物学的機能である、請求項139の方法。   140. The method of claim 139, wherein the desired function is an improved biological function of the lead protein. 改良された生物学的機能は、安定性の増強、酵素活性の増強、リードタンパク質の同種のリガンドへの結合親和性の増強、およびあらかじめ決められた生物の発現の増強よりなる群から選択される、請求項140の方法。   The improved biological function is selected from the group consisting of enhanced stability, enhanced enzyme activity, enhanced binding affinity of the lead protein to the same type of ligand, and enhanced expression of a predetermined organism. 145. The method of claim 140. 以下の工程をさらに含む請求項127の方法:
ヒットライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築する。
128. The method of claim 127, further comprising the following steps:
A nucleic acid library comprising a DNA segment encoding the amino acid sequence of the hit library is constructed.
以下の工程をさらに含む請求項127の方法:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
ヒットライブラリー中のアミノ酸変種を組合せて、ヒット変種ライブラリーを形成するヒット変種の組合せを生成し;そして
ヒット変種ライブラリーから好ましい機能を有するタンパク質を選択する。
128. The method of claim 127, further comprising the following steps:
Create an amino acid position variant profile of the hit library;
The amino acid variants in the hit library are combined to generate a combination of hit variants that forms a hit variant library; and a protein with a preferred function is selected from the hit variant library.
以下の工程をさらに含む請求項143の方法:
スコア化関数を使用して、ヒットライブラリーのメンバーが構造的に、リード配列またはリードタンパク質の3次元構造と適合するかどうかを決定し;そして
リード配列またはリードタンパク質とスコアが同等かまたはより優れたメンバーを選択する。
145. The method of claim 143, further comprising the following steps:
A scoring function is used to determine whether the members of the hit library are structurally compatible with the lead sequence or the three-dimensional structure of the lead protein; and the score is equal or better than the lead sequence or lead protein Selected members.
リード配列またはリードタンパク質の3次元構造は、X線結晶解析、核磁気共鳴(NMR)分光法、または理論的構造モデル化から得られる構造である、請求項144の方法。   145. The method of claim 144, wherein the three-dimensional structure of the lead sequence or lead protein is a structure obtained from X-ray crystallography, nuclear magnetic resonance (NMR) spectroscopy, or theoretical structural modeling. スコア化関数は、静電的相互作用、ファンデアワールス相互作用、静電的溶媒和エネルギー、溶媒がアクセス可能な表面溶媒和エネルギー、およびコンフォメーションエントロピーよりなる群から選択されるエネルギースコア化関数である、請求項144の方法。   The scoring function is an energy scoring function selected from the group consisting of electrostatic interaction, van der Waals interaction, electrostatic solvation energy, solvent accessible surface solvation energy, and conformational entropy. 145. The method of claim 144, wherein: スコア化関数は、Amberフォースフィールド(forcefiled)、Charmm フォースフィールド、Discover cvff フォースフィールド、ECEPP フォースフィールド、GROMOS フォースフィールド、OPLS フォースフィールド、MMFF94 フォースフィールド、Tripos フォースフィールド、MM3 フォースフィールド、Dreiding フォースフィールド、およびUNRES フォースフィールドよりなる群から選択されるフォースフィールドを含むスコア化関数である、請求項127の方法。   The scoring functions are Amber force field (forcefiled), Charmm force field, Discover cvff force field, ECEPP force field, GROMOS force field, OPLS force field, MMFF94 force field, Tripos force field, MM3 force field, Dreiding force field, and 128. The method of claim 127, wherein the scoring function includes a force field selected from the group consisting of UNRES force fields. メンバーを選択する工程は、
ΔEtotal = Evdw + Ebond + Eangel + Eelectrostatics + Esolvation
の式に基づいて計算されるリード配列またはリードタンパク質より低いかまたは同等の総エネルギーを有するメンバーを選択することを含む、請求項143の方法。
The process of selecting members is
ΔE total = E vdw + E bond + E angel + E electrostatics + E solvation
145. The method of claim 143, comprising selecting a member having a total energy lower than or equivalent to a lead sequence or lead protein calculated based on the formula:
メンバーを選択する工程は、改良されたスコア化関数
ΔGb = ΔGMM + ΔGsol - TΔSSS
(式中、
ΔGMM = ΔGele + ΔGvdw (1)
ΔGsol = ΔGele-sol + ΔGASA (2))
を使用して、結合状態と非結合状態の差として計算されるリード配列またはリードタンパク質より小さい結合フリーエネルギーを有するメンバーを選択することを含む、請求項143の方法。
The process of selecting members is an improved scoring function ΔG b = ΔG MM + ΔG sol -TΔS SS
(Where
ΔG MM = ΔG ele + ΔG vdw (1)
ΔG sol = ΔG ele-sol + ΔG ASA (2))
144. The method of claim 143, comprising selecting a member having a binding free energy less than the lead sequence or lead protein calculated as the difference between the bound and unbound states.
以下の工程をさらに含む請求項127の方法:
設計されるタンパク質のライブラリーのアミノ酸配列をコードするDNAセグメントを含む核酸ライブラリーを構築し;
核酸ライブラリーを発現させて組換えタンパク質のライブラリーを作成し;そして
組換えタンパク質のライブラリーから所望の機能を有するタンパク質を選択する。
128. The method of claim 127, further comprising the following steps:
Constructing a nucleic acid library comprising DNA segments encoding the amino acid sequences of the library of proteins to be designed;
A nucleic acid library is expressed to create a library of recombinant proteins; and a protein having the desired function is selected from the library of recombinant proteins.
以下の工程をさらに含む請求項127の方法:
ヒットライブラリーのアミノ酸位置変種プロフィールを作成し;
アミノ酸位置変種を対応する遺伝子コドンに逆翻訳することにより、ヒットライブラリーのアミノ酸位置変種プロフィールを核酸位置変種プロフィールに変換し;
核酸位置変種をコンビナトリアル的に組合せてDNAセグメントの縮重核酸ライブラリーを構築し;
縮重核酸ライブラリーを発現させて組換えタンパク質のライブラリーを作成し;そして
組換えタンパク質のライブラリーから所望の機能を有するタンパク質を選択する。
128. The method of claim 127, further comprising the following steps:
Create an amino acid position variant profile of the hit library;
Converting the amino acid position variant profile of the hit library into a nucleic acid position variant profile by back-translating the amino acid position variant into the corresponding gene codon;
Combining nucleic acid position variants in a combinatorial manner to construct a degenerate nucleic acid library of DNA segments;
A degenerate nucleic acid library is expressed to create a library of recombinant proteins; and a protein having a desired function is selected from the library of recombinant proteins.
抗体のVEGFへの結合親和性が106 M-1より高く、モノクローナル抗体の重鎖CDR3は、配列番号36〜48および63〜125よりなる群から選択されるアミノ酸配列を含む、ヒト血管内皮増殖因子(VEGF)に対する抗体。 Human vascular endothelial growth, wherein the binding affinity of the antibody to VEGF is higher than 10 6 M −1 and the heavy chain CDR3 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 36-48 and 63-125 Antibody to factor (VEGF). 抗体の重鎖CDR1は、配列番号19〜30よりなる群から選択されるアミノ酸配列を含む、請求項152の抗体。   153. The antibody of claim 152, wherein the heavy chain CDR1 of the antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 19-30. モノクローナル抗体の重鎖CDR2は、配列番号31〜305よりなる群から選択されるアミノ酸配列を含む、請求項152の抗体。   153. The antibody of claim 152, wherein the heavy chain CDR2 of the monoclonal antibody comprises an amino acid sequence selected from the group consisting of SEQ ID NOs: 31-305. 抗体は、モノクローナル抗体、Fab、Fv、または1本鎖抗体である、請求項152の抗体。   153. The antibody of claim 152, wherein the antibody is a monoclonal antibody, Fab, Fv, or single chain antibody. 抗体のVEGFへの結合親和性が106 M-1より高く、抗体の重鎖可変領域(VH)は、配列番号126、128、129、130、および131よりなる群から選択されるアミノ酸配列を含み、抗体の軽鎖可変領域(VL)は配列番号127のアミノ酸配列を含む、ヒト血管内皮増殖因子(VEGF)に対する抗体。 The binding affinity of the antibody to VEGF is higher than 10 6 M −1 and the heavy chain variable region (V H ) of the antibody is an amino acid sequence selected from the group consisting of SEQ ID NOs: 126, 128, 129, 130, and 131 An antibody to human vascular endothelial growth factor (VEGF), wherein the light chain variable region (V L ) of the antibody comprises the amino acid sequence of SEQ ID NO: 127.
JP2009284767A 2002-05-20 2009-12-16 Generation and selection of protein library in silico Pending JP2010088451A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/153,176 US20030022240A1 (en) 2001-04-17 2002-05-20 Generation and affinity maturation of antibody library in silico
US10/153,159 US7117096B2 (en) 2001-04-17 2002-05-20 Structure-based selection and affinity maturation of antibody library

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004508241A Division JP2005526518A (en) 2002-05-20 2003-05-20 Insilico creation and selection of protein libraries

Publications (1)

Publication Number Publication Date
JP2010088451A true JP2010088451A (en) 2010-04-22

Family

ID=42261808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009284767A Pending JP2010088451A (en) 2002-05-20 2009-12-16 Generation and selection of protein library in silico

Country Status (2)

Country Link
JP (1) JP2010088451A (en)
SG (1) SG177012A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506259A (en) * 2011-01-17 2014-03-13 ノヴォ ノルディスク アー/エス IL-21 ligand
JP2019505880A (en) * 2015-12-04 2019-02-28 ユーシービー バイオファルマ エスピーアールエル Antibody design in de novo
US10275512B2 (en) 2015-08-07 2019-04-30 Fujitsu Limited Information processing apparatus and index dimension extracting method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201500464D0 (en) * 2015-01-12 2015-02-25 Crescendo Biolog Ltd Method of producing optimised therapeutic molecules

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014506259A (en) * 2011-01-17 2014-03-13 ノヴォ ノルディスク アー/エス IL-21 ligand
US10275512B2 (en) 2015-08-07 2019-04-30 Fujitsu Limited Information processing apparatus and index dimension extracting method
JP2019505880A (en) * 2015-12-04 2019-02-28 ユーシービー バイオファルマ エスピーアールエル Antibody design in de novo

Also Published As

Publication number Publication date
SG177012A1 (en) 2012-01-30

Similar Documents

Publication Publication Date Title
AU2003248548B2 (en) Generation and selection of protein library in silico
US20070037214A1 (en) Generation and selection of protein library in silico
US7117096B2 (en) Structure-based selection and affinity maturation of antibody library
EP1390741B1 (en) Structure-based construction of human antibody library
US20030022240A1 (en) Generation and affinity maturation of antibody library in silico
Lapidoth et al. Abdesign: A n algorithm for combinatorial backbone design guided by natural conformations and sequences
Shirai et al. Antibody informatics for drug discovery
JP2023169425A (en) antibody library
Dufner et al. Harnessing phage and ribosome display for antibody optimisation
JP5473603B2 (en) Design and construction of diverse synthetic peptide and polypeptide libraries
EP1781680B1 (en) Universal antibody libraries
JP4944608B2 (en) Altered antibodies with improved antigen binding affinity
US20060160138A1 (en) Compositions and methods for protein design
US20220415436A1 (en) Computer assisted antibody re-epitoping
US20070184487A1 (en) Compositions and methods for design of non-immunogenic proteins
JP2010088451A (en) Generation and selection of protein library in silico
Rojas Understanding and modulating antibody fine specificity: lessons from combinatorial biology
Bai et al. A novel synthetic antibody Library with complementarity-determining region diversities designed for an improved amplification profile
Sekhon designer Proteins

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327