CN106459174A

CN106459174A - 水溶性跨膜蛋白及其制备和使用方法

Info

Publication number: CN106459174A
Application number: CN201580023906.8A
Authority: CN
Inventors: S·张; F·陶
Original assignee: Massachusetts Institute of Technology
Current assignee: Massachusetts Institute of Technology
Priority date: 2015-02-18
Filing date: 2015-05-27
Publication date: 2017-02-22
Anticipated expiration: 2035-05-27
Also published as: JP7061461B2; CN106459174B; JP2023130393A; JP2020143063A; CN113929766A; JP2017516492A; JP2022037160A

Abstract

本发明涉及水溶性膜蛋白、其制备方法和其使用方法。

Description

水溶性跨膜蛋白及其制备和使用方法

相关申请

本申请要求皆在2015年3月26日提交的美国专利申请号14/669,753和国际申请号PCT/US2015/022780的优先权；根据35U.S.C.119(e)，这两篇皆要求2015年2月18日提交的美国临时申请号62/117,550、2014年5月15日提交的美国临时申请号61/993,783，和2014年3月27日提交的美国临时申请号61/971,388的申请日的权益。

根据35U.S.C.119(e)，本申请也要求2015年2月18日提交的美国临时申请号62/117,550、2014年5月15日提交的美国临时申请号61/993,783和2014年3月27日提交的美国临时申请号61/971,388的申请日的权益。

上述提及的申请的每一篇的全部内容，包括所有的附图和序列表，通过引用并入本文。

背景技术

膜蛋白在所有活的系统(living system)中起到关键的作用。在几乎所有测序基因组中的约～30％的所有基因对膜蛋白编码。但是，我们对于它们的结构和功能的详细理解远远落后于对可溶性蛋白质的详细理解。截止2015年3月，蛋白质数据库(Protein DataBank)中有超过100,000个结构。但是，仅仅有945个膜蛋白结构，其中530个独特的结构包括28个G蛋白偶联受体并且没有四次跨膜蛋白(tetraspanin membrane proteins)。

阐释膜受体的结构和功能，以及它们的识别和配体结合特性有数个瓶颈，但是它们非常令人感兴趣。最关键和挑战性的工作是非常难以产生毫克量的可溶性的和稳定的受体。非常需要便宜的大规模生产方法，并且因此已经是广泛研究的焦点。只有当克服这些基本障碍之后，才可能进行详细的结构研究。

通过引用并入本文的Zhang等(美国专利号：8,637,452)描述了改进的水溶解GPCR的方法，其中位于跨膜区中的某些疏水氨基酸被极性氨基酸替换。但是，该方法是劳动密集型的。此外，尽管修饰的跨膜区符合水溶性标准，但是期望水溶性和配体结合的改善。所以，本领域需要研究G蛋白偶联受体的改善的方法。

发明内容

本发明涉及设计、选择和/或产生水溶性膜蛋白和肽的方法，由其设计、选择或产生的肽(和跨膜结构域)、包括所述肽的组合物，以及使用其的方法。尤其，方法涉及使用“QTY Principle”设计水溶性膜肽，比如GPCR变体和四次跨膜蛋白的文库的过程，将不溶于水的氨基酸(Leu、Ile、Val和Phe，或简单的字母符号L、I、V、F)变成水溶性、非离子氨基酸(Gln、Thr和Tyr，或简单的字母符号Q、T、Y)。此外，两个另外的非离子氨基酸Asn(N)和Ser(S)也可用于替换L、I和V而不替换F。在下面讨论的实施方式中，应当理解Asn(N)和Ser(S)被设想替换Q和T(作为变体描述)或L、I或V(作为天然蛋白质描述)。但是，为了简化的目的，本申请不进一步阐述这些可选的实施方式的细节，因为根据本文的教导，这些是本领域技术人员已知的。

本发明包括修饰的、合成的和/或非天然存在的α-螺旋结构域和包括这种修饰的α-螺旋结构域的水溶性多肽(例如，“sGPCR”)，其中修饰的α-螺旋结构域包括其中天然膜蛋白的α-螺旋结构域中的多个疏水氨基酸残基(L、I、V、F)的氨基酸序列被亲水的、非离子氨基酸残基(分别Q、T、T、Y，或“Q、T、Y”)和/或N和S替换。本发明也包括制备水溶性多肽的方法，其包括用亲水的、非离子氨基酸残基(Q/N/S、T/N/S、Y)替换天然膜蛋白的α-螺旋结构域中的多个疏水氨基酸残基(L，I，V，F)。本发明另外包括通过用亲水的、非离子氨基酸残基(分别Q/N/S、T/N/S、Y)替换天然膜蛋白的α-螺旋结构域中的多个疏水氨基酸残基(L，I，V，F)制备的多肽。变体可由亲本或天然蛋白质(例如，CXCR4)的名字加上缩写“QTY”来表征(例如，CXCR4-QTY)。

因此，本发明的一个方面提供了操作计算机程序，以执行设计膜蛋白(例如，G蛋白偶联受体(GPCR))的水溶性变体的脚本程序(scripted procedure)的方法，该方法包括：(1)输入用于分析的膜蛋白(例如，GPCR)的序列；(2)获得膜蛋白(例如，GPCR)的变体，其中膜蛋白(例如，GPCR)的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸是替换的，其中：(a)所述疏水氨基酸选自亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)；(b)每个所述亮氨酸(L)独立地被谷氨酰胺(Q)、天冬酰胺(N)或丝氨酸(S)替换；(c)每个所述异亮氨酸(I)和所述缬氨酸(V)独立地被苏氨酸(T)、天冬酰胺(N)或丝氨酸(S)替换；并且，(d)每个所述苯丙氨酸被酪氨酸(Y)替换；和，随后，(3)获得变体的α-螺旋二级结构结果，以确认变体中α-螺旋二级结构的保持；(4)获得变体的跨膜区结果，以确认变体的水溶性，从而设计膜蛋白(例如，GPCR)的水溶性变体。

在某些实施方式中，步骤(3)在步骤(4)之前进行、与步骤(4)同时进行或在步骤(4)之后进行。如本文所描述，另外的步骤可并入上述处理顺序。处理优选地使用数据处理系统实施的计算步骤。系统使用自动计算系统和方法来选择蛋白质变体。

在某些实施方式中，在步骤(2)中，在GPCR的一个和相同TM区中的一个亚组的所述多个疏水氨基酸被替换，以产生潜在的变体的文库的一个成员，和所述多个疏水氨基酸的一个或多个不同亚组被替换，以产生文库的另外的成员。在某些实施方式中，方法可进一步包括基于组合评分对所述文库的所有成员排序，其中组合评分是α-螺旋二级结构预测结果和跨膜区预测结果的加权组合。在某些实施方式中，方法进一步包括使用排序函数对变体排序。在某些实施方式中，排序函数可包括二级结构分量和水溶性分量。例如，排序函数可包括二级结构分量和/或水溶性分量的加权值。在某些实施方式中，方法进一步包括用数据处理器进行的方法，其可进一步包括与其关联的存储器。

在某些实施方式中，方法可进一步包括选择具有最高组合评分的N个成员，以形成所述TM区的潜在变体的第一文库，其中N是预定的整数(例如，3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更大)。在某些实施方式中，方法可进一步包括产生GPCR的1、2、3、4、5个或所有6个其他TM区的潜在变体的一个文库。在某些实施方式中，方法可进一步包括用来自潜在变体的文库的相应TM区替换GPCR的两个或更多个TM区，以建立组合变体的文库。在某些实施方式中，方法进一步包括产生/表达所述组合变体。在某些实施方式中，方法进一步包括测试所述组合变体的配体结合(例如，在酵母双杂交系统中)，其中选择与GPCR的相比具有基本上相同配体结合的那些。在某些实施方式中，方法进一步包括测试所述组合变体的GPCR的生物功能，其中选择与GPCR的相比具有基本上相同生物功能的那些。

本发明的某些水溶性多肽具备结合通常结合野生型或天然膜蛋白(例如，GPCR)的配体。在某些实施方式中，天然膜蛋白(例如，GPCR)的潜在的配体结合位点中的氨基酸不被替换和/或天然膜蛋白(例如，GPCR)的细胞外和/或细胞内结构域的序列相同。

(非离子)亲水残基(其替换了天然膜蛋白的α-螺旋结构域中的一个或多个疏水残基)选自：谷氨酰胺(Q)、苏氨酸(T)、酪氨酸(Y)、天冬酰胺(N)和丝氨酸(S)，和任何其组合。在另外的方面中，替换了选自亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)的疏水残基。在某些实施方式中，蛋白质的α-螺旋结构域的苯丙氨酸残基被酪氨酸替换；蛋白质的α-螺旋结构域的异亮氨酸和/或缬氨酸残基的每一个独立地被苏氨酸(或S或N)替换；和/或蛋白质的α-螺旋结构域的每一个亮氨酸残基独立地被谷氨酰胺(或S或N)替换。

在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述亮氨酸被谷氨酰胺替换。在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述异亮氨酸被苏氨酸替换。在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述缬氨酸被苏氨酸替换。在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述苯丙氨酸被酪氨酸替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述亮氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述异亮氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述缬氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述苯丙氨酸不被替换。

在某些实施方式中，组合变体的文库包括小于约2百万个成员。在某些实施方式中，GPCR的序列包括关于GPCR的TM区的信息。在某些实施方式中，GPCR的序列获得自蛋白质结构数据库(例如，PDB、UniProt)。在某些实施方式中，GPCR的TM区基于GPCR的序列预测。例如，GPCR的TM区可使用TMHMM 2.0(使用隐马尔科夫模型(Hidden Markov Model)的跨膜预测)软件模块/包预测。在某些实施方式中，TMHMM 2.0软件模块/包使用寻峰的动态基线。

在某些实施方式中，方法进一步包括提供GPCR的每个变体的多核苷酸序列。多核苷酸序列可为在宿主(例如，细菌比如大肠杆菌，酵母比如酿酒酵母或粟酒裂殖酵母，昆虫细胞比如Sf9细胞，非人哺乳动物细胞，或人细胞)中的表达所优化的密码子。

在某些实施方式中，脚本程序可包括VBA脚本。在某些实施方式中，脚本程序可在Linux系统(例如，Ubuntu 12.04LTS)、Unix系统、Microsoft Windows操作系统、Android操作系统或Apple iOS操作系统中操作。包括C⁺⁺、Java Script、MATLAB等的不同编程语言可结合本发明的实施而使用。编码的指令可储存在可与本领域技术人员已知的计算机系统一起使用的存储器设备，比如非瞬时计算机可读的介质中。

在某些实施方式中，α-螺旋结构域是G蛋白偶联受体(GPCR)的天然膜蛋白中的7个跨膜α-螺旋结构域中的一个。在一些实施方式中，GPCR选自：嘌呤能受体(P2Y₁、P2Y₂、P2Y₄、P2Y₆)；M₁和M₃蕈毒碱乙酰胆碱受体；用于凝血酶(蛋白酶-激活受体(PAR)-1、PAR-2)、凝血烷(TXA₂)、鞘氨醇1-磷酸(sphingosine 1-phosphate)(S1P₂、S1P₃、S1P₄和S1P₅)、溶血磷脂酸(LPA₁、LPA₂、LPA₃)、血管紧张肽II(AT₁)、血清素(5-HT_2c和5-HT₄)、生长激素释放的抑制因子(sst₅)、内皮素(ET_A和ET_B)、胆囊收缩素(CCK₁)的受体；V_1a升压素受体；D₅多巴胺受体；fMLP甲酰基肽受体；GAL₂甘丙肽受体；EP₃前列腺素受体；A₁腺苷受体；α₁肾上腺素能受体；BB₂铃蟾肽受体；B₂缓激肽受体；钙感知受体；趋化因子受体；KSHV-ORF74趋化因子受体；NK₁速激肽受体；甲状腺-刺激激素(TSH)受体；蛋白酶-激活受体；神经肽受体；腺苷A2B受体；P2Y嘌呤受体；代谢谷氨酸受体；GRK5；GPCR-30；和CXCR4。

在其他实施方式中，天然膜蛋白或膜蛋白是整合膜蛋白。在进一步的方面中，天然膜蛋白是哺乳动物蛋白。本发明的蛋白优选地是人的。在某些实施方式中，提及具体的GPCR蛋白(例如，CXCR4)指哺乳动物GPCR，比如非人哺乳动物GPCR或人GPCR。

在一些实施方式中，α-螺旋结构域是，例如，细胞外或细胞内环中修饰的以改善或改变配体结合的G蛋白偶联受体(GPCR)变体中7个跨膜α-螺旋结构域之一，如在参考文献的其他地方所描述。为了本发明的目的，词“天然”或“野生型”旨在指根据本文所述的方法水溶解之前的蛋白质(或α-螺旋结构域)。

在某些实施方式中，膜蛋白可以是四次跨膜蛋白，其特征在于4个跨膜α-螺旋。已经评述和注释了约54种人四次跨膜蛋白。已知许多介导细胞信号转导事件，其在细胞发育、激活、生长和运动的调节中起到关键作用。例如，CD81受体作为丙肝病毒进入和疟原虫感染的受体起到关键作用。CD81基因位于肿瘤-抑制因子基因区域中并且可以是介导癌症恶性肿瘤的候选。CD151参与癌症细胞的增强的细胞运动、侵入和转移。CD63的表达与卵巢癌的侵入有关。四次跨膜蛋白的特征是第二或大的细胞外环中的半胱氨酸-半胱氨酸-甘氨酸基序。

本发明的另一方面提供了G蛋白偶联受体(GPCR)的水溶性变体，其中：(1)GPCR的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸被替换，其中：(a)所述疏水氨基酸选自亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)；(b)每个所述亮氨酸(L)独立地被谷氨酰胺(Q)、天冬酰胺(N)或丝氨酸(S)替换；(c)每个所述异亮氨酸(I)和所述缬氨酸(V)独立地被苏氨酸(T)、天冬酰胺(N)或丝氨酸(S)替换；并且，(d)每个所述苯丙氨酸被酪氨酸(Y)替换；和，随后，(2)变体的所有7个TM区保持α-螺旋二级结构；并且(3)没有预测的跨膜区。

在某些实施方式中，水溶性变体包括选自SEQ ID NOs：4-11、13-20、22-29、31-38、40-47、49-56和58-64的一个或多个氨基酸序列。其可进一步包括选自SEQ ID NOs：3、12、21、30、39、48和57的一个或多个氨基酸序列。在某些实施方式中，水溶性变体结合CXCR4配体。

在某些实施方式中，水溶性变体包括选自SEQ ID NOs：69-76、78-85、87、89-96、98-105、107-114和116-123的一个或多个氨基酸序列。其可进一步包括选自SEQ ID NOs：68、77、86、88、97、106、115和124的一个或多个氨基酸序列。在某些实施方式中，水溶性变体结合CX3CR1配体。

在某些实施方式中，水溶性变体包括选自SEQ ID NOs：128-135、137-144、146-153、155-162、164-171、173和175-182的一个或多个氨基酸序列。其可进一步包括选自SEQID NOs：127、136、145、154、163、172、174和183的一个或多个氨基酸序列。在某些实施方式中，水溶性变体结合CCR3配体。

在某些实施方式中，水溶性变体包括选自SEQ ID NOs：187-194、196-203、205-206、208、210-217、219-225、227-234的一个或多个氨基酸序列。其可进一步包括选自SEQID NOs：186、195、204、207、209、218、226和235的一个或多个氨基酸序列。在某些实施方式中，水溶性变体结合CCR5配体。

在某些实施方式中，水溶性变体包括选自SEQ ID NOs：236-243、245-252、254-261、263-270、272、274-281和283-290的一个或多个氨基酸序列。其可进一步包括选自SEQID NOs：235、244、253、262、271、273、282和291的一个或多个氨基酸序列。在某些实施方式中，水溶性变体结合CXCR3配体。

在某些实施方式中，水溶性变体包括在SEQ ID NOs：2、67、126、185、327、293、295、297、299、301、303、305、307、309、311、313、315、317、319、321、323或325的任何一个中阐释的一个或多个跨膜结构域。在某些实施方式中，变体是水溶性的并且结合同源的天然跨膜蛋白的配体。

本发明的另一方面提供在细菌(例如，大肠杆菌)中产生蛋白质的方法，包括：(a)在适于蛋白质产生的条件下在生长培养基中培养细菌；(b)分级分离(fractioning)细菌的裂解物，以产生可溶性部分(fraction)和不溶性的小球部分；和，(c)从可溶性部分分离蛋白质；其中：(1)蛋白质是权利要求29-46任一项的变体G蛋白偶联受体(GPCR)；和，(2)蛋白质的产率是至少20mg/L(例如，30mg/L、40mg/L、50mg/L或更大)的生长培养基。

在某些实施方式中，细菌是大肠杆菌BL21，并且生长培养基是LB培养基。在某些实施方式中，蛋白质由细菌中的质粒编码。在某些实施方式中，蛋白质的表达在诱导型启动子，比如IPTG可诱导的诱导型启动子的控制下。在某些实施方式中，通过超声产生裂解物。在某些实施方式中，可溶性部分通过在14,500×g或更大离心裂解物产生。

本发明的另一方面提供了在需要其的受试者中治疗由膜蛋白的活性介导的不适或疾病的方法，其包括向所述受试者施用有效量的本文所述的水溶性多肽。

在某些实施方式中，水溶性多肽保持膜蛋白的配体结合活性。可通过施用本发明的水溶性肽治疗的不适和疾病的例子包括但不限于癌症(比如，小细胞肺癌、黑素瘤、三阴性乳腺癌)、帕金森病、心血管疾病、高血压和支气管哮喘。

本发明的另一方面提供了包括治疗有效量的本发明的水溶性多肽和药学上可接受的载体或稀释剂的药物组合物。

在仍另一方面中，本发明提供了用包括修饰的α-螺旋结构域的受试者水溶性肽转染的细胞。在某些实施方式中，细胞是动物细胞(例如，人、非人哺乳动物、昆虫、鸟、鱼、爬行动物、两栖动物或其他细胞)、酵母或细菌细胞。

本发明也包括在计算机系统进行的计算机实施的方法，该方法包括如本文所描述的一个或多个方法(或其步骤)。计算机系统包括非瞬时计算机可读的介质，其具有在其上储存的计算机-可执行的指令、使得计算机系统实施该方法的被计算机系统执行的计算机-可执行的指令、使得计算机系统实施本文考虑的方法的被计算机系统执行的计算机-可执行的指令。另外，计算机系统包括至少一个存储器，以储存顺序数据和本文所述的定量结果以及与存储器关联的至少一个处理器，考虑配置为实施本文所述的方法的处理器。结合电子显示设备，用户界面，比如图形用户界面(GUI)可用于选择可操作以控制选择过程——包括本文所述的计算方法——的处理参数。

本发明的另一方面提供了非瞬时计算机可读的介质，其具有在其上储存的一系列指令，以实施本发明的任何方法。

本发明的进一步方面提供了可操作以选择G蛋白偶联受体的水溶性变体的数据处理系统，其包括：数据处理器，其可操作以实施本发明的任何方法中阐释的氨基酸替换，其中系统用排序函数对蛋白质变体排序。

应理解，本发明的所有实施方式，包括仅仅在本发明的一个方面(例如，筛选方法)下描述的那些，解释为适用于本发明的所有方面(例如，水溶性蛋白质或使用方法)，并且解释为与本发明的任何一个或多个另外实施方式可结合，除非明确否认或以其他方式不合适，如本领域技术人员容易理解。

附图说明

本发明的前述和其他目的、特征和优势将从下述本发明代表性实施方式的更具体描述中显而易见，如在附图中阐释，其中在不同的视图中相同的参考字符指相同的部分。附图不必按比例，而是强调图解本发明原理。

图1A-1D是系统性将疏水氨基酸L、I、V和F分别替换为Q、T、T、Y的QTY Code的一般图解(图1A)。氨基酸亮氨酸和谷氨酰胺的分子形状类似；同样地，异亮氨酸和缬氨酸的分子形状与苏氨酸类似；并且苯丙氨酸和酪氨酸的分子形状类似。亮氨酸、异亮氨酸、缬氨酸和苯丙氨酸是疏水的并且不能结合水分子。相反，谷氨酰胺可结合4个水分子、2个氢供体和2个氢受体；苏氨酸和酪氨酸上的-OH基可结合3个水分子、1个氢供体和2个受体。图1B是α螺旋的侧视图。在应用系统性氨基酸改变的QTY Code之后，α螺旋成为水溶性的。图1C是QTYCode替换之前和之后的α螺旋的顶视图：左侧的螺旋是天然膜螺旋，主要是疏水氨基酸，在右侧的螺旋是应用QTY Code替换之后的相同螺旋。现在螺旋具有大部分亲水氨基酸(图1D)。在QTY Code之前，GPCR膜蛋白由疏水的脂质分子围绕，以将它们嵌入脂质膜的内侧(图1D的左侧部分)。在应用QTY Code之后，GPCR膜蛋白成为水溶性的并且不再需要净化剂围绕它用于稳定性(图1D的右侧部分)。

图2是CXCR4的跨膜结构域区的TMHMM预测。预测显示7个不同的疏水跨膜区段。而在进行本发明的QTY替换方法的CXCR4的变体的TMHMM预测中(CXCR4-QTY)，不再有可见的不同的7个疏水跨膜区段。

图3图解了预测的CXCR4的全QTY Code修饰的TM1结构域的α螺旋轮结构。

图4图解了在GPCR CXCR4的7个TM区的每一个中的潜在变体。

图5、6、7和8分别是野生型蛋白质和CXCR4、CXCR3、CCR3和CCR5的QTY变体的序列排比。QTY Code仅仅应用于7个疏水的跨膜区段，而不应用于细胞外和细胞内区段。

图9A是方法的代表性实施方式的流程图。

图9B是方法的代表性实施方式的另一流程图。

图10是本发明的计算机系统的图解。

图11A和11B是流程图的示意图，其阐释了本发明某些优选实施方式的处理步骤。

发明详述

如下是本发明优选的实施方式的描述。词“一个(a)”或“一个(an)”意思是包括一个或多个，除非另外指出。

在一些方面中，本发明涉及QTY(谷氨酰胺、苏氨酸和酪氨酸)替换(或“QTY Code”)方法(或“原理”)的使用，以将天然蛋白质的7个跨膜α-螺旋疏水残基亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)变成亲水残基谷氨酰胺(Q)、苏氨酸(T)和酪氨酸(Y)。在某些实施方式中，如上述，Asn(N)和Ser(S)可也用作L、I和/或V，而不是F的替换残基。本发明可将水不溶性的天然膜蛋白转化为仍保持天然蛋白质的一些或基本上所有功能的更水溶性的对应物。

本发明包括设计水溶性肽的方法。根据GPCR蛋白作为示意性例子描述该方法，在第一种情况下对人CCR3、CCR5、CXCR4和CX3CR1具有特异性。但是，本发明的一般原理也适用于具有跨膜(α-螺旋)区的其他蛋白质。

GPCR通常具有7个跨膜α-螺旋(7TM)和由7个TM区连接的8个环(loop)(8NTM)。这些跨膜区段可称为TM1、TM2、TM3、TM4、TM5、TM6和TM7。8个非跨膜环分为4个细胞外环EL1、EL2、EL3和EL4，并且4个细胞内环IL1、IL2、IL3和IL4，因此，总共8个环(包括N-和C-末端环，其每个仅仅连接一个TM区，并且每个具有游离端)。因此，7TM GPCR蛋白基于跨膜和非跨膜特征可分为15个片段。

本发明的一个方面提供了操作计算机程序的方法，以执行脚本程序，以选择或制备膜蛋白(例如，G蛋白偶联受体(GPCR))的水溶性变体，该方法包括：

(1)输入用于分析的膜蛋白(例如，GPCR)的序列；

(2)获得膜蛋白(例如，GPCR)的变体，其中膜蛋白(例如，GPCR)的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸被替换，其中：

(a)所述疏水氨基酸选自亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)；

(b)每个所述亮氨酸(L)独立地被谷氨酰胺(Q)、天冬酰胺(N)或丝氨酸(S)替换；

(c)每个所述异亮氨酸(I)和所述缬氨酸(V)独立地被苏氨酸(T)、天冬酰胺(N)或丝氨酸(S)替换；并且，

(d)每个所述苯丙氨酸被酪氨酸(Y)替换；和，随后，

(3)获得变体的α-螺旋二级结构结果，以确认变体中α-螺旋二级结构的保持；

(4)获得变体的跨膜区结果，以确认变体的水溶性，

从而选择膜蛋白(例如，GPCR)的水溶性变体。

如本文所使用，“(跨)膜蛋白的水溶性变体”或“水溶性(跨)膜变体”可替换使用。

进行本发明步骤的精确的顺序可以是可改变的。例如，在某些实施方式中，步骤(3)在步骤(4)之前进行。在某些实施方式中，步骤(3)与步骤(4)同时进行。在某些实施方式中，步骤(3)在步骤(4)之后进行。

在某些实施方式中，多个疏水氨基酸随机选自位于蛋白质的所有TM区上的所有潜在的疏水氨基酸L、I、V和F。在某些实施方式中，多个疏水氨基酸是位于蛋白质的所有TM区上的所有潜在的疏水氨基酸L、I、V和F的约5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在某些实施方式中，多个疏水氨基酸不少于位于蛋白质的所有TM区上的所有潜在的疏水氨基酸L、I、V和F的约10％、15％、20％、25％、30％、35％、40％、45％、50％。在某些实施方式中，多个疏水氨基酸不大于位于蛋白质的所有TM区上的所有潜在的疏水氨基酸L、I、V和F的约95％、90％、85％、80％、75％、70％、65％、60％或50％。在某些实施方式中，随机选择的疏水氨基酸L、I、V和F可大体上均匀分布在所有的TM区上，或可优选地或排他性地分布在1、2、3、4、5或6个TM区上。

在某些实施方式中，蛋白质的所有TM区上的每个潜在的疏水氨基酸L、I、V和F被替换。例如，所有L独立地被Q(或S或N)替换；和/或所有I和V独立地被T(或S或N)替换；和/或所有F被Y替换。在某些实施方式中，所有L被Q替换，所有I和V被T替换，和所有F被Y替换。

在某些实施方式中，不是随机替换所有TM区中的选择的疏水氨基酸L、I、V和F，而是所有的替换可首先限于TM区的任何一个(比如最N-末端或C-末端TM区)，并且仅仅期望的替换变体被选择作为潜在的变体的文库的成员。文库的所有成员在选择的TM区中的替换不同，这是由于替换的位置(例如，TM区中的第3个残基对第10个残基被替换)，或由于替换基残基的身份(identity)(例如，对于I或V替换，S对T)，或二者。基于预定的标准选择期望的替换变体，比如考虑α-螺旋二级结构预测结果和/或跨膜区预测结果的评分系统。

该方法可为蛋白质的1、2、3、4、5、6个另外的TM区，或蛋白质的所有剩余的TM区重复，每个迭代产生潜在的变体的文库，其可储存在电子存储器或数据库中。在相同的文库中，所有的变体在所选择的TM区中的替换不同(见上)，但是在剩余的TM区和非TM区中另外相同。

使用来自两个或更多个这种文库的序列的结构域转换或改组产生了在两个或更多个TM区中具有疏水氨基酸L、I、V、F替换的组合变体。取决于每个文库中成员的数量，即使每个文库中仅仅数个成员，组合变体的总的可能组合可达百万。例如，对于具有7个TM区的GPCR，如果7个文库的每一个中有8个成员，基于文库的组合变体的总数将是8⁷或约二百一十万。在某些实施方式中，组合变体的文库包括小于约5百万、4百万、3百万、2百万、1百万或5十万个成员。

因此，在某些实施方式中，在步骤(2)中，在蛋白质(例如，GPCR)的一个和相同TM区中的一个亚组的所述多个疏水氨基酸被替换，以产生潜在的变体的文库的一个成员，并且所述多个疏水氨基酸的一个或多个不同亚组被替换，以产生文库的另外的成员。

在某些实施方式中，方法进一步包括基于组合评分对所述文库的所有成员排序，其中组合评分是α-螺旋二级结构预测结果和跨膜区预测结果的加权组合。

如本领域普通技术人员将认识到，具有不同序列的结构域将可能预测不同的水溶性并且倾向于α螺旋形成。人们可赋予特定预测的水溶性或溶解范围、倾向性“评分”，以形成α螺旋结构或倾向性范围。评分可以是定量的(0,1)，其中0可表示，例如，具有不可接受的预测水溶性的结构域和1可表示，例如，具有可接受的预测水溶性的结构域。例如，该评分可基于阈值。或，可在一定范围内，例如，确定表征增加水溶性程度的1和10之间评估评分。或，评分可以是定量的，比如根据mg/mL在描述预测的溶解性中。当评估每个结构域的评分时，结构域变体可容易地被一个或，优选地，两个评分比较(或排序)，以选择皆是水溶性并且形成α螺旋的结构域变体。因此，优选的实施方式可使用可用于计算排序数据的排序函数。也注意，基于目前描述的系统制备的水溶性蛋白可被分析和表征，以为系统提供输入，使得未有效实现给定生物功能的替换的那些组合可用于约束计算模型，从而确保信息更有效的处理。

例如，使用本发明的方法，可设计并且在体外和/或体内产生一个或多个变体，以及可基于任何许多本领域熟知的方法测定变体的一种或多种生物功能。例如，对于GPCR，变体的配体结合和/或下游信号转导可与野生型GPCR的比较，并且用于产生特定的变体的QTY替换的模式可与增强的、保持的或消失的生物活性相关。基于一个或多个变体获得的这种结构-功能关系信息可用于机器学习或赋予本发明的计算模型另外的约束，以更有效对通过本发明的方法产生的变体排序。因此，具有更密切匹配已知成功变体的替换模式的新的潜在变体可比具有较不密切匹配已知的成功变体，或更密切匹配已知不成功变体的替换模式的另一潜在的变体的排序更高。

TMHMM程序，当作为单机版本的软件模块/包运行(例如，用于Linux系统的版本)时，产生0和1之间的评分，其可用于预测形成跨膜区/蛋白质的倾向性。评分可用作本发明的方法的水溶性的定量预测。

因此，在某些实施方式中，排序函数的α-螺旋二级结构分量可以是定量的评分，比如0.5或1，对于没有预测的α-螺旋二级结构，和0，对于具有保持的预测的α-螺旋二级结构。在某些实施方式中，可由TM区预测程序，比如TMHMM 2.0提供跨膜区结果，TMHMM 2.0提供0和1之间的数值，0是没有预测的TM区，和1是形成TM区的最强倾向性。因此，可直接或加权组合两个评分，使得组合评分表示保持的二级结构以及预测的水溶性的总体评估(如通过形成TM区的倾向性测量的)。例如，0的组合评分指示变体没有预测的TM区，而具有保持的预测的α-螺旋二级结构，并且因此是期望的变体。同时，变体具有的形成TM区的强倾向性(例如，由于存在大量的疏水残基)，倾向于具有更大的组合评分并且因此在该评分方案中是非期望的。

在某些实施方式中，方法包括去除具有倾向于显示α-螺旋二级结构被破坏或干扰的α-螺旋二级结构预测结果的变体。在某些实施方式中，方法包括去除具有倾向于显示的形成TM区的强倾向性的跨膜区预测结果的变体。因此，系统可包括照射模块，其中可从进一步选择处理中排除变体。

在某些实施方式中，可选择排序函数，以包括赋予α-螺旋二级结构预测结果5％、10％、20％、25％、30％、40％、50％、60％、70％、80％、90％或95％权重，和将剩余的权重赋予跨膜区预测结果的加权方案。用户可手动选择加权特征，或软件可自动选择加权特征，这取决于期望的特征比如生物功能。

在某些实施方式中，方法进一步包括选择具有最高组合评分的N个成员，以形成所述TM区的潜在变体的第一文库，其中N是预定的整数(例如，3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更大)。

在某些实施方式中，方法进一步包括为蛋白质(例如，GPCR)的1、2、3、4、5、6个或所有剩余的TM区产生潜在的变体的一个文库。文库中的每个输入可包括用于定义该输入属性的字段，包括由一个或多个排序函数产生的排序数据。

在某些实施方式中，方法进一步包括用来自潜在变体的文库的相应TM区替换蛋白质(例如，GPCR)的两个或更多个(例如，所有的)TM区，以建立组合变体的文库。如本文所使用，“相应的TM区”指潜在的变体的文库中的TM区，其与被组合的蛋白质(例如，GPCR)的TM区相同或同源。例如，如果来自GPCR的N-末端的第2和第3个TM区待被替换，则来自仅仅在第2个TM区具有替换的文库的TM区序列，和来自仅仅在第3个TM区具有文库的TM区序列，被输入/粘贴/转移至GPCR的第2个和第3个TM区，以建立组合变体。

在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)，或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述亮氨酸被谷氨酰胺替换。在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)，或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述异亮氨酸被苏氨酸替换。在某些实施方式中，基本上所有的(例如，96％、97％、98％、99％或100％)，或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述缬氨酸被苏氨酸替换。在某些实施方式中，其中基本上所有的(例如，96％、97％、98％、99％或100％)，或30％、40％、50％、60％、70％、75％、80％、85％、90％、95％的所述苯丙氨酸被酪氨酸替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述亮氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述异亮氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述缬氨酸不被替换。在某些实施方式中，一个或多个(例如，1、2或3个)所述苯丙氨酸不被替换。

在某些实施方式中，方法进一步包括产生/表达所述组合变体。在某些实施方式中，方法进一步包括测试所述组合变体的配体结合(例如，体外，或在生物系统比如酵母双杂交系统中)，其中选择与GPCR的相比具有基本上相同配体结合的那些。在某些实施方式中，方法进一步包括测试所述组合变体的GPCR的生物功能，其中选择与GPCR的相比具有基本上相同生物功能的那些。

在某些实施方式中，TM蛋白质(例如，GPCR)的序列包含与蛋白质的TM区有关的信息，例如，TM蛋白质的一个或多个跨膜区的位置，比如所有TM区的位置。这种序列可属于包含具有限定的TM区的分解的晶体结构的蛋白质。这种序列也可属于具有基于之前的研究注释的TM区信息的蛋白质，并且这种信息容易可获得自公开数据库或专利数据库，比如PDB、UniProt、GenBank、EMBL、DBJ等。

蛋白质数据库(PDB)是每周更新的大生物分子，比如蛋白质和核酸的三维结构数据的资源库。通常通过X射线晶体学或NMR光谱学获得并且由来自世界各地的生物学家和生物化学家提交的数据在因特网上经其成员组织(PDBe、PDBj和RCSB)的网站免费获取。PDB由世界蛋白质数据库，wwPDB监视。PDB是结构生物学领域，比如结构基因组学，和最主要的科学期刊，和一些基金机构的关键资源，现要求科学家将他们的结构数据提交至PDB。

如果将PDB的内容视为原始数据，那么存在数百个衍生的(即，二级)数据库，其将数据不同地归类。例如，SCOP和CATH二者将结构根据结构类型和假设的进化关系归类；GO将结构基于基因归类；而晶体学数据库储存与蛋白质的3D结构相关的信息。所有这些公众可获得的数据库可用于提供输入序列信息，包括与跨膜区的存在和位置相关的信息。

可提供用于本发明的方法的序列信息的另一公众可用的数据库是UniProt。UniProt是综合的、高质量和免费获取的蛋白质序列和功能信息的数据库，许多条目源自基因组测序项目。其包含大量的源自研究文献的关于蛋白质的生物功能的信息。UniProt提供了四个核心数据库：UniProtKB(具有Swiss-Prot和TrEMBL的一部分)、UniParc、UniRef，和UniMes。它们中，UniProtKB/Swiss-Prot是手动注释的，非冗余蛋白质序列数据库，其结合从科学文献和生物管理-评估计算分析提取的信息。UniProtKB/Swiss-Prot的目标是提供所有与具体蛋白质相关的已知的相关信息。定期检查注释以与当前的科学发现一致。条目的手动注释涉及蛋白质序列和科学文献的详细分析。来自相同基因和相同物种的序列并入相同的数据库条目。鉴定序列之间的差异，并且记录它们的原因(例如，可选的剪接、自然变化等)。手动评估计算机-预测，并且为包括在该条目中选择相关的结果。这些预测包括翻译后修饰，跨膜结构域和拓扑、信号肽、结构域鉴定和蛋白质家族分类，所有的可用于提供与本发明的方法中使用的TM区相关的有用序列信息。

在某些实施方式中，TM蛋白质(例如，GPCR)的序列不包含与一个或多个(例如，任何)跨膜区的位置相关的信息。但是，可基于与具有已知TM区的相关蛋白质的序列同源性预测TM区。例如，相关蛋白质可以是在不同物种中的同源蛋白质。

在某些实施方式中，TM蛋白质(例如，GPCR)的序列不包含与一个或多个(例如，任何)跨膜区的位置相关的信息，并且这种信息不容易基于已知的信息获得。在该实施方式中，本发明使用熟知的方法，比如生物序列分析中心开发的TMHMM 2.0(使用隐马尔科夫模型的跨膜预测)程序提供了TM区的计算。关于此的进一步细节见下方。

在某些实施方式中，方法进一步包括提供蛋白质(例如，GPCR)的每个变体的多核苷酸序列。这种多核苷酸序列可容易基于蛋白质(例如，GPCR)的蛋白质序列，和已知的遗传密码而产生。在某些实施方式中，多核苷酸序列是为在宿主中表达而优化的密码子。宿主可以是细菌比如大肠杆菌、酵母比如酿酒酵母或粟酒裂殖酵母、昆虫细胞比如Sf9细胞、非人哺乳动物细胞或人细胞。

在某些实施方式中，蛋白质是GPCR，比如选自下述的一种：嘌呤能受体(P2Y₁、P2Y₂、P2Y₄、P2Y₆)；M₁和M₃蕈毒碱乙酰胆碱受体；凝血酶(蛋白酶-激活受体(PAR)-1、PAR-2)、凝血烷(TXA₂)、鞘氨醇1-磷酸(S1P₂、S1P₃、S1P₄和S1P₅)、溶血磷脂酸(LPA₁、LPA₂、LPA₃)、血管紧张肽II(AT₁)、血清素(5-HT_2c和5-HT₄)、生长激素释放的抑制因子(sst₅)、内皮素(ET_A和ET_B)，胆囊收缩素(CCK₁)的受体；V_1a升压素受体；D₅多巴胺受体；fMLP甲酰基肽受体；GAL₂甘丙肽受体；EP₃前列腺素受体；A₁腺苷受体；α₁肾上腺素能受体；BB₂铃蟾肽受体；B₂缓激肽受体；钙感知受体；趋化因子受体；KSHV-ORF74趋化因子受体；NK₁速激肽受体；甲状腺-刺激激素(TSH)受体；蛋白酶-激活受体；神经肽受体；腺苷A2B受体；P2Y嘌呤受体；代谢谷氨酸受体；GRK5；GPCR-30和CXCR4。

在某些实施方式中，方法的脚本程序包括VBA脚本。

在某些实施方式中，脚本程序可在Linux系统(例如，Ubuntu 12.04LTS)、Microsoft Windows操作系统或Apple iOS操作系统中运行。

在某些实施方式中，方法包括所有的或基本上所有的下述步骤：

(1)鉴定(跨)膜蛋白的第一跨膜区，如果必要，通过预测蛋白质(例如，GPCR)的α-螺旋结构；

(2)经QTY Code修饰多个疏水氨基酸，如本文所限定的，以获得修饰的第一跨膜序列；

(3)对(2)的第一修饰跨膜序列的α-螺旋结构的倾向性评分(例如，在具有第一修饰的跨膜序列的修饰的(跨)膜蛋白的背景下)，以获得结构评分；

(4)对(2)的第一修饰跨膜序列的水溶性预测评分(例如，在具有第一修饰跨膜序列的修饰(跨)膜蛋白的背景下)，以获得溶解性评分；

(5)重复步骤(2)至(4)，以获得具有推测的水溶性第一修饰跨膜变体的第一文库；

(6)比较第一文库中每个推测的水溶性第一修饰跨膜变体的结构评分和溶解性评分，并且优选地使用所述结构评分和溶解性评分对推测的水溶性第一修饰跨膜变体排序；

(7)选择多个推测的水溶性第一修饰跨膜变体(其中多个是整数，H，或优选地小于10、9、8、7、6、5或4)，以获得推测的水溶性第一修饰跨膜变体的第二文库；

(8)为蛋白质的第二、第三、第四、第五、第六、第七或优选地所有跨膜区重复步骤(1)至(7)(由该方法修饰的跨膜区的总和是整数n)；

(9)鉴定不包括在步骤(1)至(8)中修饰的任何跨膜区内的蛋白质的氨基酸序列，并且包括蛋白质的任何细胞外或细胞内结构域；

(10)产生推测的水溶性的修饰跨膜蛋白的组合变体(见上)；和，

(11)任选地，鉴定每个推测的水溶性修饰的跨膜变体的核酸序列。

使用在上面的过程中鉴定的核酸序列，可产生每个推测的水溶性修饰跨膜变体和每个非跨膜结构域(包括细胞外和细胞内结构域)的核酸序列，并且被组合表达，以建立多达Hⁿ个推测的水溶性跨膜蛋白变体的文库。例如，当H是8并且n是7时，可设计约2百万个水溶性蛋白质变体的文库。

本发明的另一方面涉及基于本发明的方法而设计的水溶性变体蛋白质(例如，GPCR)的表达。本发明的该方面部分基于出人意料的发现，基于本发明的方法而设计的水溶性变体蛋白质(例如，GPCR)在体外无细胞表达系统中和在常用的基于细胞的表达系统，比如大肠杆菌中都可实现高水平的表达。另外，表达的蛋白质是高度可溶的，并且可容易从表达系统的可溶性部分，比如来自大肠杆菌培养物的裂解物的可溶性部分纯化，与其中通常发现大部分膜蛋白的不溶解的聚集体或小球相反。

因此，本发明的一个方面提供了在细菌(例如，大肠杆菌)中产生蛋白质的方法，包括：

(a)在适于蛋白质生产的条件下在生长培养基中培养细菌；

(b)分级分离细菌的裂解物，以产生可溶性部分和不溶解的小球部分；和，

(c)从可溶性部分分离蛋白质；

其中：

(1)蛋白质是本发明的受试者变体蛋白质(例如，G蛋白偶联受体(GPCR))；和，

(2)蛋白质的产率是至少20mg/L(例如，30mg/L、40mg/L、50mg/L或更大)的生长培养基。

在某些实施方式中，细菌是大肠杆菌BL21，并且生长培养基是LB培养基。在某些实施方式中，蛋白质由细菌中的质粒编码。在某些实施方式中，蛋白质的表达在诱导型启动子的控制下。例如，诱导型启动子可以是由IPTG诱导的。在某些实施方式中，裂解物通过超声产生。在某些实施方式中，可溶性部分通过在14,500×g或更大离心裂解物产生。

关于上述本发明的大体方面，下面进一步描述本发明的某些特征或具体实施方式。

跨膜区预测

本发明的某些方法包括预测蛋白质，比如GPCR的跨膜区的步骤。本领域已知许多与TM区相关的程序和软件，并且其中任何一种可单独使用或在调用TM区预测步骤时结合本发明的方法使用。这些程序通常具有非常简单的用户界面，通常需要用户提供特定格式的输入序列(比如FASTA或纯文本)，并且使用文本或图形或两种提供预测结果。一些程序也提供更高级的特征，比如允许用户指定某些参数以优化预测结果。所有这些程序可用于本发明的方法。

一种示例性TM区预测程序是TMHMM(由丹麦技术大学生物序列分析中心托管)，该方法正确预测97-98％TM区螺旋。其使用隐马尔科夫模型预测蛋白质中的跨膜螺旋。输入蛋白质序列可以是FASTA格式，并且输出可提供为html页面，具有TM区的预测位置的图形。在Moller等，题目为“Evaluation of Methods forprediction of Membrane SpanningRegions,”Bioinformatics 17(7):646-653，2001的研究中，确定了TMHMM是在评估时最佳表现的跨膜预测程序。

在该研究中比较的程序包括下述，所有都可在本发明的方法中用于预测TM区：TMHMM 1.0、2.0和2.0的再训练版本(retrained version)(Sonnhammer等，Int.Conf.Intell.Syst.Mol.Biol.AAAI Press，Montreal，Canada，176-182页，1998；Krogh等，J Mol Biol.305(3):567-80，2001)；MEMSAT 1.5(Jones等，Biochemistry 33:3038-3049，1994)；Eisenberg(Eisenberg等，Nature299:371-374，1982)；Kyte/Doolittle(Kyte和Doolittle，J.Mol.Biol.157:105-132，1982)；TMAP(Persson和Argos，J.ProteinChem.16:453-457，1997)；DAS(Cserzo等，Protein Eng.10:673-676，1997)；HMMTOP(Tusnady和Simon，J.Mol.Biol.283:489-506，1998)；SOSUI(Hirokawa等，Bioinformatics14:378-379，1998)；PHD(Rost等，Int.Conf.Intell.Syst.Mol.Biol.AAAI Press，St.Louis，USA，pp.192-200，1996)；TMpred(Hofmann and Stoffel，Biol.Chem.Hoppe-Seyler 374:166，1993)；KKD(Klein等，Biochim.Biophys.Acta.815:468-476，1985)；ALOM2(Nakai和Kanehisa，Genomics14:489-911，1992)；和Toppred 2(Claros和Heijne，Comput.Appl.Biosci.10:685-686，1994)。所有的参考文献通过引用并入本文。

TMHMM的原理描述在Krogh等，Predicting transmembrane protein topologywith a hidden Markov model：Application to complete genomes.Journal ofMolecular Biology，305(3):567-580，2001年1月(通过引用并入)；和Sonnhammer等，Ahidden Markov model for predicting transmembrane helices in proteinsequences.In J.Glasgow，T.Littlejohn，F.Major，R.Lathrop，D.Sankoff，和C.Sensen，编辑者，Proceedings of the Sixth International Conference on Intelligent Systemsfor Molecular Biology，175-182页，Menlo Park，CA，1998，AAAI Press(通过引用并入)。

DAS(密集比对表面(Dense Alignment Surface)，Cserzo等，“Prediction oftransmembrane alpha-helices in procariotic membrane proteins：the DenseAlignment Surface method,”Prot.Eng.10(6)：673-676，1997,Stockholm University，Sweden)使用密集比对表面方法预测跨膜区。DAS是使用先前衍生的专用评分矩阵基于查询序列针对一组文库序列——非同源的膜蛋白——低严格性点图。该方法为查询提供了高精度疏水性图谱，从中可获得潜在的跨膜区段的位置。DAS-TM滤波算法的新颖性是第二个预测循环，以预测TM-文库的序列中的TM区段。为了使用DAS服务器，用户在www dot sbc dotsu dot se slash～miklos slash DAS输入蛋白质序列，并且DA服务器将预测输入序列的TM区。

HMMTOP(Hungarian Academy of Sciences，布达佩斯)是自动服务器，其用于使用隐马尔科夫模型预测蛋白质的跨膜螺旋和拓扑，由G.E.Tusnády，在Institute ofEnzymology开发。由该预测服务器使用的方法描述在G.E Tusnády和I.Simon(1998)“Principles Governing Amino Acid Composition of Integral Membrane Proteins：Applications to Topology Prediction."J.Mol.Biol.283：489-506中(通过引用并入)。HMMTOP 2.0版本的新特征描述在’G.E Tusnády和I.Simon(2001)“The HMMTOPtransmembrane topology prediction server,"Bioinformatics 17：849-850中(通过引用并入)。

MEMSAT2跨膜预测网页(www dot sacs dot ucsf dot edu slash cgi-bin slashmemsat dot py)使用FASTA格式或纯文本作为输入预测蛋白质中的跨膜区段。相关的程序，MEMSAT(1.5)软件的版权是David Jones博士(Jones等，Biochemistry 33:3038-3049，1994)。最新版的MEMSTAT，MEMSAT V3是广泛使用的全螺旋膜蛋白预测方法MEMSAT。该方法是已知拓扑的跨膜蛋白测试组的基准。从序列数据，MEMSAT被评估对于预测全螺旋跨膜蛋白的结构和膜中它们成分螺旋要素的位置具有超过78％的精确度。MEMSATSVM是跨膜螺旋拓扑的非常精确的预测器。其能够区分信号肽并且鉴定细胞溶质和细胞外的环。MEMSAT3和MEMSATSVM都是PSIPRED蛋白质序列分析工作台的一部分，其将数个结构预测方法聚集在University College London的一个位置。

Phobius服务器(phobius dot sbc dot su dot se)用于从FASTA格式的蛋白质的氨基酸序列预测跨膜拓扑和信号肽。Phobius描述在Lukas等，“A Combined TransmembraneTopology and Signal Peptide Prediction Method”，Journal of Molecular Biology338(5):1027-1036，2004)中。PoyPhobius描述在：Lukas等，“An HMM posterior decoderfor sequence feature prediction that includes homology information,”Bioinformatics,21(Suppl 1):i251-i257，2005中。并且Phobius网页服务器描述在：Lukas等，“Advantages of combined transmembrane topology and signal peptideprediction--the Phobius web server”，Nucleic Acids Res.35:W429-32，2007中(所有引用的现有技术通过引用并入)。

SOSUI用于区分膜蛋白和可溶性蛋白以及预测跨膜螺旋。SOSUI使用三级结构(tertial structure)的拓扑和探针螺旋方法的疏水性分析来预测跨膜区。据信，蛋白质的分类的精确度高达99％，并且据信跨膜螺旋预测的相应值是约97％。系统SOSUI通过因特网可用，访问www dot tuat dot ac dot jp slash mitaku slash sosui。

TMPred(欧洲分子生物学网络，瑞士节点)预测查询序列中跨膜区和蛋白质取向。具体而言，TMPred算法是基于天然存在的跨膜蛋白的数据库TMbase的统计分析。使用数个评分的权重矩阵的组合进行预测。见Hofmann&Stoffel(1993)“TMbase-A database ofmembrane spanning proteins segments,”Biol.Chem.Hoppe-Seyler，374:166。

SPLIT 4.0服务器是膜蛋白二级结构预测服务器(split dot pmfst dot hrslash split slash 4)，其使用偏好功能方法预测SWISS-PROT格式的膜蛋白的跨膜(TM)二级结构。见Juretic等，“Basic charge clusters and predictions of membrane proteintopology,”J.Chem.Inf.Comput.Sci.，42:620-632，2002(通过引用并入)。

PRED-TMR单独使用蛋白质序列本身预测蛋白质中的跨膜结构域。算法用跨膜区潜在的末端(“边缘”，开始和结束)的测定优化了标准疏水性分析。这使得二者放弃没有被清晰的开始和结束构象限定的高度疏水的区域并且确认通过它们的疏水的组分不可区分的推测的跨膜区段。对基于可靠拓扑的101个非同源的跨膜蛋白的测试组获得的精确度与其他流行存在的方法的相当。当算法应用于SwissProt数据库(发行35(release 35))的所有跨膜蛋白时，观察预测精确度仅仅稍微的下降。见Pasquier等，“A novel method forpredicting transmembrane segments in proteins based on a statistical analysisof the SwissProt database：the PRED-TMR algorithm,”Protein Eng.，12(5):381-385，1999(通过引用并入)。

在相关的PRED-TMR2中，已经用由人工神经网络代表的预处理阶段扩展了应用，其中所述人工神经网络能够以高精确度区分跨膜蛋白和可溶性或纤维蛋白。应用于跨膜蛋白的数个测试组，系统通过归类跨膜类别中的所有序列而产生了100％的完美预测率。应用于从PDBSELECT数据库提取的995个非跨膜蛋白，神经网络错误预测了它们中的23个是跨膜的(97.7％的准确率)。见Pasquier和Hamodrakas，“An hierarchical artificial neuralnetwork system for the classification of transmembrane proteins”，ProteinEng.，12(8):631-634，1999(通过引用并入)。

蛋白质α螺旋二级结构预测

本发明的某些方法包括预测蛋白质，比如GPCR的α螺旋二级结构的步骤。本领域已知许多这种程序和软件，并且其任何一个可单独使用或当调用α螺旋二级结构预测步骤时与本发明的方法一起使用。所有这种程序可用于本发明的方法。

二级结构预测的早期方法限于预测三个主要的状态：螺旋、片层或随机卷曲。这些方法基于单独氨基酸的螺旋-或片层-形成倾向性，有时与评估形成二级结构要素的自由能的规则相关。这种方法在预测残基采用三种状态(螺旋/片层/卷曲)的哪一个时通常是～60％准确。第一个广泛采用的由氨基酸序列预测蛋白质二级结构的技术是Chou-Fasman方法。

利用由多重序列排比提供的信息使得精确度显著提高(至接近～80％)；知道在整个进化中在位置(和在其附近中，通常在每侧～7个残基)上发生的氨基酸的充分分布提供了对于在该位置处结构倾向的更好的理解。例如，给定的蛋白质可能在给定位置具有甘氨酸，其本身可能提示了随机卷曲。但是，多重序列排比可能揭示利于螺旋的氨基酸在整个进化中在95％的同源蛋白质中出现在该位置(以及附近位置)。而且，通过检查在该位置和附近位置的平均疏水性，相同的比对也可提示残基溶剂可及性(accessibility)的模式与α-螺旋一致。一并考虑，这些因素将提示初始蛋白质的甘氨酸采用α-螺旋结构，而不是随机卷曲。因此，在本发明的方法中，α螺旋二级结构预测程序可结合所有可用数据，而形成3状态预测，包括神经网络、隐马尔科夫模型，和支持向量机。这种预测方法也提供了置信评分，用于它们在每个位置的预测。

二级结构预测方法是连续基准，例如，EVA(基准)。EVA是连续运行的基准项目，用于评估蛋白质结构预测和二级结构预测方法的质量。预测二级结构和三级结构——包括同源性建模、蛋白质穿引(protein threading)和接触顺序预测——的方法与来自蛋白质数据库(PDB)中保藏的每周更新解析的蛋白质结构的结果相当。项目的目标是确定通常公众可用的预测网页服务器的非专业用户期望的预测精确度。

基于这些测试，目前最精确的方法是Psipred，SAM(Karplus，"SAM-T08，HMM-basedprotein structure prediction,"Nucleic Acids Res.(2009)37(Web Server issue)：W492–497.doi:10.1093/nar/gkp403)；PORTER(Pollastri&McLysaght，"Porter：a new，accurate server for protein secondary structure prediction,"Bioinformatics 21(8):1719-1720，2005)；PROF(Yachdav等(2014)."PredictProtein--an open resourcefor online prediction of protein structural and functional features,"NucleicAcids Res.42(Web Server issue)：W337–343.doi:10.1093/nar/gku366)；and SABLE(Adamczak等(2005)"Combining prediction of secondary structure and solventaccessibility in proteins,"Proteins59(3)：467–475.doi:10.1002/prot.20441)。另外，将二级结构类别(螺旋/股/卷曲)分配至PDB结构的标准方法是DSSP(Kabsch W和Sander(1983)"Dictionary of protein secondary structure：pattern recognition ofhydrogen-bonded and geometrical features,"Biopolymers 22(12)：2577–2637.doi:10.1002/bip.360221211)，针对其预测是基准。所有通过引用并入并且所有的可用于本发明的方法。

DSSP算法是将二级结构分配至蛋白质的氨基酸的标准方法，考虑到蛋白质的原子分辨率坐标。DSSP开始于使用纯粹的静电定义鉴定蛋白质的骨架内氢键，分别赋予羰基氧和酰胺氢-0.42e和+0.20e的局部电荷，它们的对立(opposite)赋予至羰基碳和酰胺氮。如果下述等式中的E小于-0.5kcal/mol，则鉴定了氢键：

基于此，赋予了八类二级结构。3₁₀螺旋、α螺旋和π螺旋具有符号G、H和I，并且通过具有氢键的重复序列来识别，其中残基分别是分开的三、四或五个残基。存在两类β片层结构；β桥具有符号B，而更长组的氢键和β凸起具有符号E。T用于转角，描绘螺旋典型的氢键，S用于高曲率的区域(其中和之间的角度小于70°)，并且如果没有其他规则应用，则使用空白(或间隔)，参照环。这八种类型通常分为三个更大的类别：螺旋(G、H和I)、股(E和B)和环(所有其他的)。

PSIPRED(基于Psi-blast的二级结构预测)是研究蛋白质结构的技术。其在其算法中采用神经网络、机器学习方法。其是服务器端程序，特点是用作前端界面的网站，其可从原始序列预测蛋白质的二级结构(β片层、α螺旋和卷曲)。见bioinf dot cs dot ucl dotac dot uk slash psipred。该方法的灵感是机器学习方法，其使用进化相关的蛋白质的信息来预测新的氨基酸序列的二级结构。具体而言，PSIBLAST用于发现相关的序列并且构建位置特异性评分矩阵。该矩阵由神经网络处理，其被构建并且训练，以预测输入序列的二级结构。预测方法或算法被分成三个阶段：产生序列图谱、预测初始二级结构，和过滤预测的结构。PSIPRED用于使由PSIBLAST产生的序列图谱归一化。然后，通过使用神经网络，预测初始二级结构。对于序列中的每个氨基酸，神经网络被提供15个酸的窗口。存在附着的另外的信息，指示窗口是否横跨链的N或C末端。这产生最终的315个输入单元的输入层，分成21个单元的15个组。网络具有75个单元的单个隐藏层和3个输出节点(一个用于每个二级结构要素：螺旋、片层、卷曲)。第二神经网络用于过滤第一网络的预测结构。该网络也被提供有15个位置的窗口。在链末端的窗口的可能位置上的指示符也被发送(forwarded)。这产生60个输入单元，分成四个一组共15个组。网络具有60个单元的单个隐藏层并且产生三个输出节点(一个用于每个二级结构要素：螺旋、片层、卷曲)。三个最终输出节点为窗口的中心位置递送每个二级结构要素的评分。使用具有最高评分的二级结构，PSIPRED产生蛋白质预测。Q3值是二级结构状态，即螺旋、股和卷曲正确预测的残基的分数。

示例性实施方式的逐步描述：

上面大体上描述了本发明，下面参考附图中代表性流程图描述某些非限制性但是示意性实施方式。

图9A阐释了本发明的一个实施方式，其是非限制性的。其大体上图解了本发明的方法200，其中蛋白质(例如，GPCR)的TM区中选择的疏水氨基酸L、I、V和F根据本发明的“QTYCode”替换，而不限制任何具体TM区/结构域中的替换。

在该具体的实施方式中，方法开始于202，获取或读取204可能是或可能不是跨膜蛋白的蛋白质序列的输入。蛋白质序列可接着进行TM区预测206(如果这种信息从输入蛋白质序列中不可获得)和α-螺旋二级结构预测，这基于任何本领域熟知的方法。例如，TM区预测可使用程序240比如TMHMM程序进行。如果预测在242不产生任何TM区，可能一个或多个不同TM区预测程序250，比如SOSUI，可用于预测TM区的存在/缺失。如果在252基于这种程序没有预测到TM区，可能在该蛋白中不存在TM区254，并且该方法将终止260。

另一方面，如果通过任何适当的程序在242预测到一个或多个TM区，则获得TM区蛋白质序列244，并且本发明的QTY Code可应用于这种TM区中的疏水氨基酸L、I、V和F。更具体而言，根据QTY code，TM区中的每个亮氨酸可独立地被谷氨酰胺(Q)、丝氨酸(S)或天冬酰胺(N)替换212，或保持不替换；TM区中的每个异亮氨酸和缬氨酸可独立地被苏氨酸(T)、丝氨酸(S)或天冬酰胺(N)替换，或保持不替换；并且TM区中的每个苯丙氨酸可被酪氨酸(Y)替换，或保持不替换。这种QTY替换的结果产生初始跨膜蛋白的一个或多个推测的水溶性变体。注意，为区域中的每个氨基酸进行的替换的数量可被选择为参数。

接下来，可使用任何本领域熟知的程序，比如PORTER预测每个推测的水溶性变体中的α-螺旋二级结构210。结果可与初始蛋白比较208，优选地使用相同程序(例如，PORTER)预测的。注意，初始蛋白的α-螺旋二级结构可使用任何本领域熟知的程序在初始蛋白的TM区预测步骤之前、同时或之后预测。

如果α-螺旋二级结构预测的结果显示潜在的水溶性变体在214具备保持的或主要保持的与初始蛋白相同α-螺旋二级结构，其提示在该变体中QTY替换的具体模式不影响或不明显影响初始蛋白中的α-螺旋二级结构。TM区的预测可接着被进行220、验证222，和产生突变体序列224。任选地，如果结果显示初始蛋白中的一个或多个α-螺旋二级结构在214被破坏，则变体可在该步骤作为非期望的而放弃，因此终止该方法。

另一方面，本发明的方法也需要预测的QTY变体，以显示与初始蛋白相比很小或没有形成TM区的倾向性。因此推测的水溶性变体可进行TM区预测，比如使用用于初始蛋白中初始TM区预测(如果必要的话)的相同的TM区预测程序。如果结果显示仍存在明显的TM区，可放弃变体。另一方面，如果结果显示不存在TM区，或形成TM区的倾向性低，变体可被选择作为相对于初始蛋白具有提高的水溶性的期望变体，同时具有保持的α-螺旋二级结构，并且因此可能具有初始蛋白的功能。

如果需要，可进行另外的步骤，以提供所得水溶性变体的进一步表征。这种另外的表征可包括计算226变体的pI并且将其与初始蛋白的相比。pI应未改变或改变非常少(即小于30％，或优选地小于20％或更优选地小于10％)。其他另外的表征可包括产生螺旋轮模型246(比如图3中显示的)，以显示在任何具体TM区上QTY替换的位置和任何聚簇(clustering)。

用于通过本发明的QTY Code设计蛋白质(例如，GPCR)的跨膜区的本发明的另一示意性实施方式可在计算机系统上进行，其使用在图9B中的代表性方法10，一些详细步骤在下方进一步描述。许多步骤是任选的或可根据本发明的方法组合。

1：在步骤1中，计算机系统的计算机界面接收选择用于分析的蛋白质序列，和通过计算机的计算机界面送入、上传或输入12的描述蛋白质(例如，序列)的数据。送入的数据可以是蛋白质名称、数据库参考或蛋白质序列。例如，蛋白质序列可通过计算机界面上传。

2：在步骤2中，可鉴定、确定、获得和/或送入关于蛋白质的另外的数据，包括其名称或序列，并且经计算机界面送入。获得20蛋白质数据的一个来源是名称为UniProt(wwwdot uniprot dot org)的数据库。可选地，本发明的方法可储存与蛋白质相关的数据，或蛋白质相关序列，用于随后用户稍后在该步骤中检索。在实施方式中，程序可促使用户选择数据库或文件用于检索与选择用于分析的蛋白质相关的另外的数据(例如，序列数据)。

3：在步骤3中，用户可送入、上传或获得鉴定跨膜区的数据。例如，可使用户从公共资源，比如UniProt获得数据。信息可被确认30并且从数据库收集用于步骤5。

4：可选地或另外地，如果TM区信息不容易从输入蛋白质序列获得，跨膜区照旧可通过任何本领域熟知的方法确认40。跨膜区的大体特征在于α螺旋构象。跨膜螺旋预测可使用例如名称为TMHMM 2.0(使用隐马尔科夫模型的跨膜预测)、由生物序列分析中心(wwwdot cbs dot dtu dot dk slash services slash TMHMM)开发的软件模块/包预测。软件的版本可能对于寻峰存在问题并且有时不能发现GPCR的7-TM区。所以，当必要时，可使用改良版本的程序，其中通过计算机系统执行的寻峰方法引入了动态基线。这里，例如，在GPCR的情况下，如果未发现使用初始基线值的所有7个TM区，基线可变为较低的值。例如，默认的基线可在0.2设置。为了鉴定缺失的第七跨膜区，人们可将基线值设置至0.1。如果发现了大于7个TM区，基线可变为更高的值，比如0.15，以消除假的TM预测。例如，当CCR-2氨基酸序列进行TMHMM 2.0软件时，起初仅仅鉴定了6个跨膜区。但是，当TMHMM 2.0基线值设置至0.07时，鉴定了正确的总共7个跨膜区。然后，TM区预测的结果提供至步骤5。

5：在步骤5中，在通过重新预测或通过初始序列输入而获得这种信息鉴定了TM数据之后，根据TM区信息，GPCR的序列被分成50总共15个片段(即，7-跨膜区段(7TM)52和8个非跨膜区段(8NTM))54。即，每个典型的GPCR应具有7个TM和8个NTM片段。

应理解，使用计算机界面用于由用户输入，系统可执行一个或多个，比如所有的上述步骤。也应理解，系统可省略一个或多个上述步骤，或组合两个或更多个步骤。

6：在步骤6中，对蛋白质给定TM区中选择的亚组疏水氨基酸L、I、V和F部分进行QTY替换60。具体而言，第一跨膜区(典型地，但不是必要地，最靠近蛋白质的N-末端的跨膜区)首先被选择用于改变。第一跨膜区中的一些或所有的疏水氨基酸(L、I、V和F)接着被相应的非离子亲水的氨基酸(Q/S/N、T/S/N、T/S/N或Y)替换。应理解，氨基酸实际上在该背景下不被替换至蛋白质。而是，序列中氨基酸名称(designation)被替换用于建模。因此，术语“序列”旨在包括“序列数据”。典型地，大部分或所有的疏水氨基酸被选择用于替换。如果小于所有的氨基酸被选择，可期望选择内部疏水氨基酸，留下跨膜区疏水的一个或多个N和/或C末端氨基酸。另外地或可选地，可期望选择替换跨膜区中的所有的亮氨酸(L)。另外或可选地，可期望选择和替换跨膜区中的所有的异亮氨酸(I)。另外或可选地，可期望选择替换跨膜区中的所有的缬氨酸(V)。另外或可选地，可期望选择替换跨膜区中的所有的苯丙氨酸(F)。另外或可选地，可有利地保留跨膜区中的一个或多个苯丙氨酸。另外或可选地，可有利地保留跨膜区中的一个或多个缬氨酸。另外或可选地，可有利地保留跨膜区中的一个或多个亮氨酸。另外或可选地，可有利地保留跨膜区中的一个或多个异亮氨酸。另外或可选地，可有利地保留跨膜区中的一个或多个疏水氨基酸，其中野生型序列的特征在于三个或更多个连续疏水氨基酸。

7：在步骤7中，将如此设计的跨膜区返回到初始蛋白的环境(context)。即，具有QTY替换的突变的或再设计的TM区62被交换至初始蛋白的相应TM区，以建立跨膜变体70或“推测的变体”，因为每组替换为该TM区产生一个特定的推测的变体。这些相关推测的变体一起形成推测的变体的第一文库。

8：在步骤82和84中，每个推测的变体然后进行跨膜区预测方法(84)，如本文所讨论(例如，预测的TM区的丢失)。变体也被评估序列形成α螺旋的倾向性的评分(82)。变体也进行水溶性预测方法，如本文所讨论。例如，变体被评估序列是水溶性的倾向性的评分。这种评分可基于预测的形成TM区的倾向性，强的形成TM区的倾向性与差的水溶性相关，并且较低的或没有形成TM区的倾向性与高的水溶性相关。当然，大部分商业目的不要求在所有浓度下的完全水溶性。水溶性优选地确定为在预测的使用条件下(例如，在配体结合试验)起作用所需要的溶解性。

9：在步骤9中，放弃预测α螺旋结构丢失和/或“水不溶性”的推测的变体(在期望使用条件下预测)。可选择预测α螺旋结构和水溶性的推测的变体，比如通过使用组合评分或排序90，其是基于α-螺旋二级结构预测结果和TM区/水溶性预测结果的排序函数的加权组合。例如，人们可选择高度水溶性的或特征在于0、1、2或3个疏水氨基酸(例如，对于水溶性预测结果更高的权重)的跨膜变体，可能预期α螺旋结构可被折损(compromised)。可选地或另外，人们可选择高度α-螺旋结构(例如，对于α螺旋二级结构预测结果更高的权重)，其特征在于3、4、5或6个疏水氨基酸。

10：在步骤10中，相同文库94中推测的变体可基于上面阐释的评分计算方案被分类或排序100。接着，可选择预定数量的推测的变体，作为第一推测的变体文库中的最终成员。例如，在上述组合评分中，评分0意思是没有形成TM区的倾向性，和完全保持初始α螺旋二级结构，并且因此是最期望的推测的变体。稍微更高的评分可指示形成TM区的稍微倾向性(或水溶性的较少倾向性)。因此，推测的变体是较不期望的，但是基于其与文库中其他推测的变体相比卓越的组合评分仍可被选择。

在某些实施方式中，可选择预定数量的期望的推测的变体，比如10、9、8、7、6、5、4、3、2或1个。

这些步骤(例如，步骤6-10)可重复用于第二、第三、第四、第五、第六和/或第七(或更多)跨膜区或结构域，以为每个这种TM区或结构域建立一个推测的变体文库。

11：在步骤11中，人们可选择110TM区或结构域与推测的变体和未替换的非TM区的组合。例如，可将具有具备高α-螺旋结构评分的推测的变体的一个、两个、三个或四个结构域和具有具备高水溶性评分的推测的变体的一个、两个、三个、四个、五个或六个结构域组合。在另一实例中，人们可将特征在于所有的疏水氨基酸被亲水氨基酸替换，因此使水溶性评分最大化的结构域/TM区，和在多个变体选择中保持3、4或5个疏水氨基酸的第二结构域/TM区组合。这种选择的推测的变体可如本领域已知的与细胞外和细胞内结构域被“改组”，以建立推测的水溶性蛋白质变体的初始组合文库。

在某些实施方式中，可制备如本文所描述设计的初始组合文库的所有或一部分推测的水溶性蛋白质变体(体外或在宿主细胞中产生或表达)，并且筛选水溶性和/或配体结合，优选地在高通量筛选中。例如，文库的扩增可从表达产生小于100％的推测的水溶性蛋白质组合变体。报告系统可用于筛选配体结合，如本领域熟知的。使用本发明的方法，人们可快速鉴定包含功能上结合细胞外和细胞内结构域的推测的水溶性修饰跨膜组合变体的文库，并且产生具有野生型蛋白质的适当3维结构并且保持配体结合功能(包括结合亲和力)或其他功能的水溶性蛋白质变体。软件可包括学习模块，其中蛋白质变体的确认功能用于剔除某些变体或对它们不同地排序。

在某些实施方式中，为了实际实验，初始组合文库具有约2百万个潜在水溶性GPCR，或CXCR4，变体。当然，也可设计更多或更少变体的文库。在某些实施方式中，较小的文库可能是优选的，因为它们可基于如本文所描述的研究结果的分析而优化。研究结果的分析可能建立趋势，以优化改组的结构域变体的数量和用于选择结构域变体的假设。

在某些实施方式中，基于也称为“螺旋预测评分”的螺旋形成倾向性，选择用于修饰的跨膜蛋白的TM区中的某些疏水氨基酸(见www dot proteopedia dot org slash wikislash index dot php slash Main_Page)。随机组装改变的片段，以形成全长GPCR基因的约2M(8⁷)变体。预测的变体的数量可一般由式Hⁿ表示，其中n＝通过方法修饰和/或改变的跨膜区的数量(在GPCR的例子中，n＝7)和H＝在产生组合变体可用的每个跨膜区中推测的变体的数量。

一旦选择了初始组合文库，或待改组的结构域变体的选择，则可设计在初始组合文库中编码蛋白质的核酸分子或DNA或cDNA分子。核酸分子优选地设计以为选择以产生编码序列文库的表达系统提供密码子优化和内含子缺失。例如，如果表达系统是大肠杆菌，可选择为大肠杆菌表达优化的密码子。参见www dot dna20dot com slash resources slashgenedesigner。另外，选择启动子区域，比如适于在表达系统(例如，大肠杆菌)中的表达的启动子，并且可操作地连接至编码序列的文库中的编码序列。

接着表达编码序列的初始文库，或其一部分以产生推测的水溶性的GPCR的文库。接着，文库进行配体结合试验。在结合试验中，推测的水溶性的GPCR与配体结合，优选地在水性介质中并且检测到配体结合。

本发明包括从本文所述的方法获得的，或可获得的跨膜结构域变体和编码其的核酸分子。

本发明也考虑水溶性GPCR变体(“sGPCR”)，其特征在于多个跨膜结构域独立地特征在于天然跨膜蛋白(例如，GPCR)的至少50％、优选地至少约60％、更优选地至少约70％或80％、比如至少约90％)的疏水氨基酸残基(L、I、V和F)分别被Q、T、T或Y替换)。本发明的sGPCR特征在于水溶性和配体结合。尤其，sGPCR结合与相应的天然GPCR相同的天然配体。

本发明进一步包括治疗由膜蛋白的活性介导的不适或疾病的方法，包括使用水溶性多肽治疗所述不适和疾病，其中所述水溶性多肽包括修饰的α-螺旋结构域，和其中所述水溶性多肽保留了天然膜蛋白配体结合活性。这种不适和疾病的例子包括但不限于癌症、小细胞肺癌、黑素瘤、乳腺癌、帕金森病、心血管疾病、高血压和哮喘。

如本文所描述，本文所述的水溶性肽可用于治疗由膜蛋白的活性介导的病况或疾病。在某些方面中，水溶性肽可用作膜受体的“诱饵(decoy)”并且结合配体，否则以其他方式激活膜受体。这样，本文所述的水溶性肽可用于降低膜蛋白的活性。这些水溶性肽可保留在循环中并且竞争性结合特异性配体，从而降低膜结合受体的活性。例如，GPCR CXCR4在小细胞肺癌中过表达并且促进肿瘤细胞的转移。该配体被水溶性肽比如本文所述的水溶性肽的结合可显著降低转移。

趋化因子受体CXCR4在病毒研究中已知作为用于进入嗜T细胞系HIV(T cellline-tropic HIV)的主要共同受体(Feng等(1996)Science 272：872-877；Davis等(1997)JExp Med 186：1793-1798；Zaitseva等(1997)Nat Med3：1369-1375；Sanchez等(1997)JBiol Chem 272：27529-27531)。基质细胞衍生的因子1(SDF-1)是趋化因子，其与CXCR4特异性相互作用。当SDF-1结合CXCR4时，CXCR4激活Gαi蛋白质-介导的信号传导(百日咳毒素敏感的)(Chen等(1998)Mol Pharmacol 53：177-181)，包括淋巴细胞、巨核细胞和造血干细胞中的下游激酶途径，比如Ras/MAP激酶和磷脂酰肌醇3-激酶(PI3K)/Akt(Bleul等(1996)Nature 382：829-833；Deng等(1997)Nature 388：296-300；Kijowski等(2001)Stem Cells19：453-466；Majka等(2001)Folia.Histochem.Cytobiol.39：235-244；Sotsios等(1999)J.Immunol.163：5954-5963；Vlahakis等(2002)J.Immunol.169：5546-5554)。在移植有人淋巴结的小鼠中，SDF-1诱导CXCR4阳性细胞迁移至移植的淋巴结(Blades等(2002)J.Immunol.168：4308-4317)。

最近，研究已经显示CXCR4相互作用可调节转移细胞的迁移。低氧、氧分压的降低是在大部分实体瘤中出现的微环境改变并且是肿瘤血管生成和治疗抗性的主要诱导物。低氧增加了CXCR4水平(Staller等(2003)Nature425：307-311)。对来自具有升高的转移活性的骨转移模型的细胞的亚群体的微阵列分析显示转移表型中增加的一种基因是CXCR4。此外，分离的细胞中过表达CXCR4显著增加了转移活性(Kang等(2003)Cancer Cell 3：537-549)。在从各种乳腺癌患者收集的样品中，Muller等(Muller等(2001)Nature 410：50-56)发现CXCR4表达水平在原发性肿瘤中相对于正常的乳腺或上皮细胞更高。而且，已经显示，CXCR4抗体治疗当与所有转移至淋巴结和肺的对照同种型相比时，抑制转移至局部淋巴结(Muller等(2001)。这种诱饵疗法模型适于治疗CXCR4介导的疾病和不适。

在本发明的另一实施方式中，涉及治疗与取决于CXCR4趋化性相关的疾病或不适，其中疾病与异常白细胞募集或激活相关。疾病选自关节炎、牛皮癣、多发性硬化、溃疡性结肠炎、克罗恩病、过敏、哮喘、AIDS相关的脑炎、AIDS相关的斑状皮肤丘疹、AIDS相关的间质肺炎、AIDS相关的肠疾病、AIDS相关的门静脉周肝炎和AIDS相关的肾小球性肾炎。

在另一方面中，本发明涉及治疗选自下述的疾病或不适：关节炎、淋巴瘤、非小细胞肺癌、肺癌、乳腺癌、前列腺癌、多发性硬化、中枢神经系统发育疾病、痴呆、帕金森病、阿尔茨海默氏疾病、肿瘤、纤维瘤、星形细胞瘤、骨髓瘤、胶质母细胞瘤、炎性疾病、器官移植排斥、AIDS、HIV感染或血管生成。

本发明也包括药物组合物，其包括所述水溶性多肽和药学上可接受的载体或稀释剂。

取决于期望的制剂，组合物可也包括药学上可接受的、无毒的载体或稀释剂，其定义为媒介，通常用于配制用于动物或人施用的药物组合物。选择稀释剂从而不影响药学试剂或组合物的生物活性。这种稀释剂的例子是蒸馏水、生理学磷酸盐缓冲的生理盐水、林格溶液、右旋糖溶液和Hank’s溶液。另外，药物组合物或制剂也可包括其他载体、佐剂或非毒性、非治疗性、非免疫性稳定剂等。药物组合物可也包括大的、缓慢代谢的大分子，比如蛋白质、多糖，比如壳聚糖、聚乳酸、聚乙醇酸和共聚物(比如胶乳官能化的SEPHAROSE^TM、琼脂糖、纤维素等)、聚合氨基酸、氨基酸共聚物和脂质聚集物(比如油液滴或脂质体)。

组合物可被肠胃外施用，比如，例如，通过静脉内、肌内、鞘内或皮下注射。肠胃外施用可通过将组合物并入溶液或悬浮而完成。这种溶液或悬液也可包括无菌稀释剂，比如注射用水、生理盐水溶液、不挥发油、聚乙二醇、丙三醇、丙二醇或其他合成溶剂。肠胃外制剂也可包括抗细菌剂，比如，例如，苯甲醇或对羟基苯甲酸甲酯；抗氧化剂比如，例如，抗坏血酸或亚硫酸氢钠；和螯合剂，比如EDTA。也可添加缓冲剂比如醋酸盐、柠檬酸盐或磷酸盐和调整肌肉弹性的试剂，比如氯化钠或右旋糖。肠胃外制剂可封装在安瓿、一次性注射器或由玻璃或塑料制备的多剂量小瓶中。

另外，辅助物质，比如湿润剂或乳化剂、表面活性剂、pH缓冲物质等可存在于组合物中。药物组合物的其他组分是石油、动物、蔬菜或合成来源的那些，例如，花生油、大豆油和矿物质油。一般而言，乙二醇比如丙二醇或聚乙二醇是优选的液体载体，尤其用于可注射的溶液。

可注射的制剂可制备为液体溶液或悬液；也可制备在注射之前适于溶于或悬浮在液体媒介中的固体形式。制剂也可乳化或封装在脂质体或微颗粒比如聚乳酸、聚乙交酯中或用于增强佐剂效果的共聚物中，如上所讨论。Langer，Science 249：1527，1990；和Hanes，Advanced Drug Delivery Reviews28：97-119，1997。本文所述的组合物和药理学试剂可以储库式注射(depot injection)或植入制剂(implant preparation)形式——其可配制为允许活性成分持续释放或脉冲释放的形式——施用。

经皮的施用包括组合物通过皮肤的经皮吸收。经皮的制剂包括贴片、药膏、乳剂、凝胶、油膏等。经皮的递送可使用皮肤贴片或使用传递体(transferosomes)实现。见Paul等，Eur.J.Immunol.25：3521-24，1995；和Cevc等，Biochem.Biophys.Acta 1368：201-15，1998。

“治疗(treating)”或“治疗(treatment)”包括预防或延迟疾病的症状、并发症或生物化学指标的出现，缓解或减轻症状或压制或抑制疾病、病况或不适的进一步发展。“患者”是需要治疗的人受试者。

“有效量”指足够减轻不适的一个或多个症状和/或预防不适的进展、引起不适的退化和/或实现期望效果的治疗剂的量。

计算机系统

本文所述的各种方面和功能可实施为在一个或多个计算机系统中执行的专用硬件或软件组件。存在目前使用的许多计算机系统的例子。这些例子包括网络装置、个人计算机、工作站、主机、网络客户端、服务器、媒体服务器、应用服务器、数据库服务器和网络服务器等。计算机系统的其他例子可包括移动计算设备，比如手机和个人数字辅助物和网络装置，比如负载平衡器、路由器和交换机。此外，方面可位于单个计算机系统上或可分布在与一个或多个通讯网络连接的多个计算机系统中。

例如，各种方面、功能和方法可分布在配置为给一个或多个客户端计算机提供服务，或作为分布的系统的一部分进行总体任务的一个或多个计算机系统中。另外，方面可在包括分布在一个或多个实施各种功能的服务器系统中的组件的客户端-服务器或多层次系统上进行。从而，实施方式不限于在任何具体的系统或系统组中执行。此外，方面、功能和方法可在软件、硬件或固件，或其任何组合中实施。因此，方面、功能和方法可在使用各种硬件和软件配置的方法、动作、系统、系统要素和组件中实施，并且例子不限于任何特定分布的架构、网络或通信方案。

参考图10，阐释了分布式计算机系统300的方块图，其中实施了各种方面和功能。如显示的，分布式计算机系统300包括交换信息的一个或多个计算机系统。更具体而言，分布式计算机系统300包括计算机系统302、304和306。如显示的，计算机系统302、304和306通过通信网络308相互连接，并且可通过通信网络308交换数据。网络308可包括通过其计算机系统可交换数据的任何通信网络。为了使用网络308交换数据，计算机系统302、304和306和网络308可使用各种方法、方案和标准。这些方案和标准的例子包括适于在大数据环境下使用的NAS、Web、储存和其他数据移动方案。为了确保数据转移是安全的，计算机系统302、304和306可经网络308使用各种安全性措施包括，例如，SSL或VPN技术传输数据。尽管分布式计算机系统300图解三种网络计算机系统，但是分布式计算机系统300不这样限制并且可包括任何数量的使用任何介质和通信方案网络化的计算机系统和计算设备。

如在图10中阐释，计算机系统302包括处理器310、存储器312、互联元件314、界面316和数据储存元件318。为了实施本文公开的至少一些方面、功能和方法，处理器310进行一系列指令，其产生操作的数据。处理器310可以是任何类型的处理器、多处理器或控制器。示例性处理器可包括商业上可获得的处理器比如Intel Xeon、Itanium、Core、Celeron或Pentium处理器；AMD Opteron处理器；Apple A4或A5处理器；Sun UltraSPARC处理器；IBMPower5+处理器；IBM主机芯片；或量子计算机。处理器310通过互联元件314与其他系统组件——包括一个或多个存储器设备312——连接。

在计算机系统302的操作期间，存储器312储存程序(例如，编码以被处理器310执行的一系列指令)和数据。因此，存储器312可以是相对高效、易失、随机存取存储器，比如动态随机存取存储器(“DRAM”)或静态存储器(“SRAM”)。但是，存储器312可包括储存数据的任何设备，比如磁盘驱动器或其他非易失性存储器设备。各种例子可将存储器312组织进入特定的结构，和在一些情况下，独特的结构中，以实施本文公开的功能。这些数据结构可被定制大小和组织，以储存具体数据的值和数据的类型。

通过互联元件比如互联元件314连接计算机系统302的组件。互联元件314可包括系统组件之间的任何通信连接，比如与专用的或标准计算总线技术比如IDE、SCSI、PCI和InfiniBand一致的一个或多个物理总线。互联元件314确保通讯，包括指令和数据，以在计算机系统302的系统组件之间被交换。

计算机系统302也包括一个或多个界面设备316，比如输入设备、输出设备和组合输入/输出设备。界面设备可接收输入或提供输出。更具体地，输出设备可使得信息外部显示。输入设备可从外部资源接收信息。界面设备的例子包括键盘、鼠标设备、轨迹球、麦克风、触感屏幕、打印设备、显示屏、话筒、网络接口卡等。界面设备使得计算机系统302与外部实体交换信息并且与外部实体通讯，外部实体比如用户和其他系统。

数据储存元件318包括计算机可读的和可写的、非易失或非瞬时数据存储介质，其中储存限定由处理器310执行的程序或其他对象的指令。数据储存元件318也可包括记录在介质上或介质中并且在程序执行期间被处理器310处理的信息。更具体而言，信息可储存在专门配置为保存储存空间或增加数据交换性能的一个或多个数据结构中。指令可持久性地储存为编码信号，并且指令可使得处理器310实施本文所述的任何功能。介质可以是例如光盘、磁盘或闪存等。在操作时，处理器310或一些其他控制器使得数据从非易失记录介质中读入另一存储器，比如存储器312中，使得比包括在数据储存元件318中的存储介质，处理器310更快地访问信息。存储器可位于数据储存元件318或存储器312中，但是，处理器310操纵存储器中的数据，并且然后在处理完成之后，将数据拷贝至与数据储存元件318相关的存储介质。各种组件可控制存储介质和其他存储器元件之间的数据移动并且例子不限于具体的数据操作组件。此外，实施例不限于具体的存储器系统或数据储存系统。

尽管计算机系统302显示为在其上可实施各种方面和功能的一种类型的计算机系统的例子，但是方面和功能不限于在如图10中显示的计算机系统302上实施。各种方面和功能可在具有与图10中显示的相比不同架构或组件的一个或多个计算机上实施。例如，计算机系统302可包括专用编程、专用目的硬件，比如特定用途集成电路(“ASIC”)，其定制为实施本文公开的具体操作。但是，另一例子可使用数个通用目的计算设备栅格实施相同功能，所述通用目的计算设备以Motorola PowerPC处理器运行MAC OS系统X和数个运行专有硬件和操作系统的专用计算设备。

计算机系统302可以是计算机系统，包括管理至少一部分包括在计算机系统302中的硬件元件的操作系统。在一些实例中，处理器或控制器，比如处理器310，执行操作系统。可执行的具体操作系统的例子包括可获得自Microsoft Corporation的基于Windows的操作系统，比如，Windows NT、Windows 2000(Windows ME)、Windows XP、Windows Vista或Windows 7操作系统；可获得自Apple计算机的MAC OS系统X操作系统或iOS操作系统；许多基于Linux的操作系统分布的一种，例如，可获得自Red Hat Inc.的Enterprise Linux操作系统；可获得自Oracle Corporation的Solaris操作系统；或可获得自各种来源的UNIX操作系统。可使用许多其他操作系统，并且例子不限于任何具体的操作系统。

处理器310和操作系统一起限定了编写高级编程语言的应用程序的计算机平台。这些组件应用可以是可执行的中间字节码或编译码，其经通信网络，例如，因特网，使用通信方案，例如，TCP/IP通讯。类似地，方面可使用源于对象的编程语言，比如，Net、SmallTalk、Java、C⁺⁺、Ada、C#(C-Sharp)、Python或JavaScript实施。也可使用其他源于对象的编程语言。可选地，可使用函数式、脚本或逻辑编程语言。

另外，各种方面和功能可在非编程环境下实施。例如，以HTML、XML或其他格式创建的文档，当在浏览器程序的窗口中查看时，可产生图形用户界面的方面或实施其他功能。此外，各种例子可实施为编程的或非编程的要素，或其任何组合。例如，网页可使用HTML实施，同时从网页中调用的数据对象可用C⁺⁺编写。因此，实施例不限于具体的编程语言并且可使用任何适当的编程语言。因此，本文公开的功能组成可包括配置为实施本文所述功能的各种要素(例如，专用硬件、可执行码、数据结构或对象)。

在一些实施例中，本文公开的组件可读取影响由组件进行的功能的参数。这些参数可以物理储存在任何形式的适当的存储器中，包括易失存储器(比如RAM)或非易失存储器(比如磁性硬盘驱动器)。另外，参数可逻辑储存在合适的数据结构(比如用户空间应用定义的数据库或文件)或通常共享的数据结构(比如操作系统限定的应用注册表)中。另外，一些实施例提供了系统和用户界面，其使得外部实体修饰参数并且从而配置组件的行为。

图11A中大体上描述了实施计算方法的软件，其中用户选择操作参数，以在计算机上执行程序402，如本文先前所描述的，其中一个或多个序列被送入404，并且进行替换408。系统可操作的以验证二级结构408并且验证一个或多个变体的水溶性。如图11B中显示，除了先前描述的那些，程序可包括另外的处理选项，其中可储存一个或多个排序函数442，用户可选择或系统可自动选择444待使用的排序函数。然后，系统可产生如本文所描述的排序446，并且然后用户可制备选择的变体，以测量功能448，并且随后输入功能数据，以基于其修饰处理序列450。

结合下述实施例将更好地理解本发明，所述实施例期望仅仅作为阐释而不限制本发明的范围。本公开实施方式的各种改变和改进将对本领域技术人员的显而易见的并且可进行这种改变，而不背离本发明的精神和所附权利要求的范围。

实施例

实施例1:CXC趋化因子受体4型同种型a(CXCR4)：

CXCR4是长度356个氨基酸的趋化因子受体。其pI是约8.61和分子量是40221.19Da。文献中公开的CXCR4的序列是：

MSIPLPLLQIYTSDNYTEEMGSGDYDSMKEPCFREENANFNKIFLPTIYSIIFLTGIVGN

GLVILVMGYQKKLRSMTDKYRLHLSVADLLFVITLPFWAVDAVANWYFGNFLCKAVHVIY

TVNLYSSVLILAFISLDRYLAIVHATNSQRPRKLLAEKVVYVGVWIPALLLTIPDFIFAN

VSEADDRYICDRFYPNDLWVVVFQFQHIMVGLILPGIVILSCYCIIISKLSHSKGHQKRK

ALKTTVILILAFFACWLPYYIGISIDSFILLEIIKQGCEFENTVHKWISITEALAFFHCC

LNPILYAFLGAKFKTSAQHALTSVSRGSSLKILSKGKRGGHSSVSTESESSSFHSS(SEQ IDNO.1)。

序列进行TMHMM使得鉴定如图3中所描绘的跨膜结构域。

用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列：

1MSIPLPLLQIYTSDNYTEEMGSGDYDSMKEPCFREENANFNKIFLPTTYSTTYQTGTTGN

61GQTTQTMGYQKKLRSMTDKYRQHQSTADQQYTTTQPYWATDAVANWYFGNFLCKATHTTY

121TTNQYSSTQTQAYTSQDRYLAIVHATNSQRPRKLLAEKTTYTGTWTPAQQQTTPDYTYAN

181VSEADDRYICDRFYPNDLWVVVYQYQHTMTGQTQPGTTTQSCYCTIISKLSHSKGHQKRK

241ALKTTTTQTQAYYACWQPYYTGTSTDSYILLEIIKQGCEFENTVHKWTSTTEAQAYYHCC

301QNPTQYAYQGAKFKTSAQHALTSVSRGSSLKILSKGKRGGHSSVSTESESSSFHSS(SEQ IDNO:2)。

蛋白质预测的pI是8.54和分子量是40551.64Da。每个预测的跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括跨膜结构域，其包括SEQ IDNO：2的氨基酸47-70(TM1)，和包括其的蛋白质。作为例子，图3表示TM1序列的α-螺旋预测。优选地，包括本文的TM1的蛋白质包括SEQ ID NO：2的一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文TM1的蛋白质包括SEQ IDNO：2中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然L、I、V和F氨基酸的同源序列，如SEQ ID NO：1中阐释。

将CXCR4的天然蛋白质序列(N-末端氨基酸不同)第二次进行方法。程序输出将天然序列分成细胞外和细胞内区域并且为每个跨膜结构域选择8个跨膜结构域变体。结果阐释在图4和下述表中：

MEGISIYTSDNYTEEMGSGDYDSMKEPCFREENANFNK(SEQ ID NO.3；EC1)

TM 1变体:

TM 2变体:

TM 3变体:

TM 4变体:

TM 5变体:

TM 6变体:

TM 7变体

AFLGAKFKTSAQHALTSVSRGSSLKILSKGKRGGHSSVSTESESSSFHSS(SEQ ID NO.65；

IC4).

相信从上面清楚地，在跨膜结构域变体的每列之前、之间和之后的序列(SEQ IDNOs：3、12、21、30、39、48、57和65)分别是N’，中间的和C’细胞外和细胞内区域。

然后，上述序列用于产生编码序列，如本领域已知的，适于在表达系统，在该情况下在酵母中表达。然后，将编码序列改组和表达以产生包括多个蛋白质的文库，每个蛋白质具有SEQ ID NOs：3、12、21、30、39、48、57和65，其具有来自在各自的细胞内和细胞外结构域之间每个变体列表的一个跨膜结构域变体。

如此产生的文库接着被测试在结合活酵母细胞内侧的酵母中表达的质粒上的CXCR4关联配体(cognate ligand)，SDF1a(或CCL12)。通过来自酵母2杂交系统的基因激活检测配体结合并且接着对样品测序。测序了19个CXCR4变体。结果显示在图5中。

实施例2:CXC趋化因子受体3型同种型b(CX3CR1)：

CX3CR1是长度为355个氨基酸的趋化因子受体。其pI是约6.74和分子量是40396.4Da。序列进行TMHMM产生跨膜结构域的鉴定。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行)，与野生型(上行)对齐：

蛋白质变体的预测pI是6.74和分子量是41027.17Da。每个预测的跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括这样的跨膜结构域，其包括SEQ ID NO：67加下划线的氨基酸。优选地，包括本文的TM1的蛋白质包括SEQ ID NO：66的一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括SEQ ID NO：67中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如SEQID NO:66中阐释。

将CX3CR1的天然蛋白质序列进行方法第二次。程序输出将天然序列分成细胞外和细胞内区域并且为每个跨膜结构域选择8个跨膜结构域变体。结果阐释在下述表中：

MDQFPESVTENFEYDDLAEACYIGDIVVFGT(SEQ ID NO.68)

TM 1变体:

TM 2变体

TM3变体

YTTAYYYTGYYGSTYYTTTTST (SEQ ID NO.87)

DRYLAIVLAANSMNNRT (SEQ ID NO.88)

TM4变体:

TM5变体:

TM6变体:

TM7变体:

EKFRRYLYHLYGKCLAVLCGRSVHVDFSSSESQRSRHGSVLSSNFTYHTSDGDALLLL(SEQ IDNO.124)。

如在以上实施例1中，跨膜结构域变体的每列之前、之间和之后的序列分别是N’、中间和C’细胞内或细胞外区域。

然后，上述序列用于产生编码序列，如本领域已知的，适于在表达系统，在该情况下在酵母中表达。然后，将编码序列改组和表达以产生包括多个蛋白质的文库，每个蛋白质具有SEQ ID NOs：68、77、86、88、97、106和115，其具有来自在各自的细胞内和细胞外结构域之间每个变体列表的一个跨膜结构域变体。

如此产生的文库接着被测试在水性媒介中CX3CR1关联配体结合，如在实施例1中描述。检测配体结合和接着对样品测序。对七个变体测序。结果显示在图6中。

实施例3:CCR3变体

为趋化因子受体3型同种型3重复实施例1的方法。

名称	pI	MW(Da)
			WT	8.87	43122.3
MT	8.78	43531.64

在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行)，与野生型(上行)对齐：

每个预测的跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括这样的跨膜结构域，其包括SEQ ID NO：126加下划线的氨基酸。优选地，包括本文的TM1的蛋白质包括SEQ ID NO：126的一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括SEQ ID NO：126中的一个或多个另外的跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如在SEQ ID NO：125中阐释。

对CCR3的天然蛋白质序列进行方法第二次(注意N末端序列的不同)。程序输出将天然序列分成细胞外和细胞内区域并且为每个跨膜结构域选择8个跨膜结构域变体。结果阐释在下述表中：

MTTSLDTVETFGTTSYYDDVGLLCEKADTRALMA(SEQ ID NO.127)

TM1变体:

TM2变体:

TM3变体:

TM4变体:

TM5变体:

TM7变体:

ERFRKYLRHFFHRHLLMHLGRYIPFLPSEKLERTSSVSPSTAEPELSIVF(SEQ ID NO:183)。

然后，上述序列用于产生编码序列，如本领域已知的，适于在表达系统，在该情况下在酵母中表达。然后，将编码序列改组和表达以产生包括多个蛋白质的文库，每个蛋白质具有SEQ ID NOs：127、136、145、154、163、172、174和183，其具有来自在各自的细胞内和细胞外结构域之间每个变体列表的一个跨膜结构域变体。

如此产生的文库接着在水性媒介中被测试CCR3关联配体CCL3结合，如在实施例1中描述。检测配体结合和接着对样品测序。测序了11个变体。结果显示在图7中。

实施例4:CCR5变体

为趋化因子受体5型同种型3重复实施例1的方法。

名称	pI	MW(Da)
			WT	9.21	40524.05
MT	9.06	41058.3

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括这样的跨膜结构域，其包括SEQ ID NO：185加下划线的氨基酸。优选地，包括本文的TM1的蛋白质包括SEQ ID NO：185的一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括SEQ ID NO：185中的一个或多个另外的跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如在SEQ ID NO：184中阐释。

为CCR5的天然蛋白质序列进行方法第二次(注意N末端序列的不同)。程序输出将天然序列分成细胞外和细胞内区域，并且为每个跨膜结构域选择8个跨膜结构域变体。结果阐释在下述表中：

MDYQVSSPIYDINYYTSEPCQKINVKQIAA (SEQ ID NO.186)

TM1变体:

TM2变体:

TM3变体:

QQTGQYFTGYYSGTYYTTQQTT (SEQ ID NO.205)

QQTGQYYTGYYSGTYYTTQQTT (SEQ ID NO.206)

DRYLAVVHAVFALKART (SEQ ID NO.207)

TM4变体:

TTYGTTTSTTTWTTATYASQPGTTY (SEQ ID NO.208)

TRSQKEGLHYTCSSHFPYSQYQFWKNFQTLKI (SEQ ID NO.209)

TM5变体:

TM6变体:

TM7变体:

EKFRNYLLVFFQKHIAKRFCKCCSIFQQEAPERASSVYTRSTGEQEISVGL (SEQ ID NO.235)。

如在以上实施例1中，跨膜结构域变体的每个列表之前、之间和之后的序列分别是N’、中间和C’细胞内或细胞外区域。

然后，上述序列用于产生编码序列，如本领域已知的，适于在表达系统，在该情况下在酵母中表达。然后，将编码序列改组和表达以产生包括多个蛋白质的文库，每个蛋白质具有SEQ ID NOs:186、195、204、207、209、218、226和235，其具有来自在各自的细胞内和细胞外结构域之间每个变体列表的一个跨膜结构域变体。

如此产生的文库接着在水性媒介中被测试CCR5关联配体CCL5结合，如在实施例1中描述。检测配体结合和接着对样品测序。测序了1个变体。结果显示在图8中。

实施例5:CXCR3变体

对CXC趋化因子受体3型同种型2重复实施例1的方法。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(SEQ ID NO：325，下行)，与野生型(SEQ ID NO：324，上行)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括SEQ ID NO：325中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如在SEQ ID NO：324中阐释。

如上所讨论，对CXCR3的天然蛋白质序列进行所述方法。程序输出将天然序列分成细胞外和细胞内区域并且为每个跨膜结构域选择8个跨膜结构域变体。结果阐释在下述表中：

MVLEVSDHQVLNDAEVAALLENFSSSYDYGENESDSCCTSPPCPQDFSLNFDR(SEQ ID NO.235)

TM 1变体：

TM 2变体:

TM 3变体:

TM 4变体:

TM 5变体:

TAQRTQQQTAGYQQPQQTMAY (SEQ ID NO.:272)

CYAHILAVLLVSRGQRRLRAMR (SEQ ID NO.:273)

TM 6变体:

TM 7变体:

GVKFRERMWMLLLRLGCPNQRGLQRQPSSSRRDSSWSETSEASYSGL(SEQ ID NO.:291)。

上述序列可用于产生编码序列，如本领域已知的，适于在表达系统，在该情况下在酵母中表达。然后，将编码序列改组和表达以产生包括多个蛋白质的文库，每个蛋白质具有细胞内和细胞外环，其具有来自在各自的细胞内和细胞外结构域之间每个变体列表的一个跨膜结构域变体。

如此产生的文库可接着在水性媒介中测试关联配体结合，如在实施例1中描述。

实施例6:CCR-1C-C趋化因子受体1型

为标题蛋白质重复实施例1。

名称	pI	MW(Da)
			WT	8.38	41172.64
MT	8.31	41583.78

在跨膜结构域中，用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:293)，与野生型(上行SEQ ID NO：292)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括的跨膜结构域包括每个加下划线的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如在野生型序列中阐释。

野生型序列可进行如上所讨论的方法，以选择另外的跨膜结构域变体，如在实施例1中描述。可设计、改组编码序列并且表达蛋白质。可测试表达的蛋白质的配体结合，如本文所描述。

实施例7:CCR-2C-C趋化因子受体2型同种型A

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换的每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:295)，与野生型(上行SEQ ID NO：294)对齐：

实施例8:CCR-4C-C趋化因子受体4型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:297)，与野生型(上行SEQ IDNO：296)对齐：

实施例9:CCR-6C-C趋化因子受体6型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:299)，与野生型(上行SEQ IDNO：298)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括的跨膜结构域包括每个加下划线的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然L、I、V和F氨基酸的同源序列，如在野生型序列中阐释。

野生型序列可如上所讨论进行方法，以选择另外的跨膜结构域变体，如在实施例1中描述。可设计、改组编码序列并且表达蛋白质。可测试表达的蛋白质的配体结合，如本文所描述。

实施例10：CCR-7C-C趋化因子受体7型前体

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:301)，与野生型(上行SEQ IDNO:300)对齐：

实施例11:CCR-8C-C趋化因子受体8型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO.:303)，与野生型(上行SEQ IDNO.302)对齐：

实施例12:CCR-9C-C趋化因子受体9型同种型B

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：305)，与野生型(上行SEQ IDNO:304)对齐：

实施例13:CCR-10C-C趋化因子受体10型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：307)，与野生型(上行SEQ ID NO：306)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括的跨膜结构域包括每个加下划线的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然L、I、V和F氨基酸的同源序列，如在野生型序列中阐释。野生型序列可进行如上所讨论的方法，以选择另外的跨膜结构域变体，如在实施例1中描述。可设计、改组编码序列并且表达蛋白质。可测试表达的蛋白质的配体结合，如本文所描述。

实施例14:CXCR1趋化因子受体1型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：309)，与野生型(上行SEQ IDNO：308)对齐：

实施例15:CXR趋化因子受体1CXR1

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：311)，与野生型(上行SEQ ID NO：310)对齐：

实施例16:CXCR2趋化因子受体2型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO:313)，与野生型(上行SEQ IDNO：312)对齐：

实施例17:CCR-10C-C趋化因子受体10型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：315)，与野生型(上行SEQ ID NO：314)对齐：

实施例18:CXCR6趋化因子受体6型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：317)，与野生型(上行SEQ ID NO：316)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括的跨膜结构域包括每个加下划线的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(已经加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质，其包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然L、I、V和F氨基酸的同源序列，如在野生型序列中阐释。

野生型序列可进行的如上所讨论方法，以选择另外的跨膜结构域变体，如在实施例1中描述。可设计、改组编码序列并且表达蛋白质。可测试表达的蛋白质的配体结合，如本文所描述。

实施例19:CXCR7趋化因子受体7型

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：319)，与野生型(上行SEQ IDNO：318)对齐：

实施例20:CLR-1a趋化因子样受体1同种型a

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换所有或基本上所有的疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：321)，与野生型(上行SEQ IDNO：320)对齐：

每个预测跨膜区已经加下划线并且例证了本发明充分修饰的结构域。因此，例如，本发明包括的跨膜结构域包括每个加下划线的结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(已经加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然L、I、V和F氨基酸的同源序列，如在野生型序列中阐释。

实施例21:DARIA Duffy抗原/趋化因子受体同种型a

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：323)，与野生型(上行SEQ ID NO：322)对齐：

实施例22:CD81抗原

CD81可在调节淋巴瘤细胞生长中起到重要的作用并且与16kDa Leu-13蛋白质相互作用而形成可能参与信号转导的复合物。CD81可用作HCV的病毒受体。

为标题蛋白质重复实施例1。在跨膜结构域中用Q、T和Y(分别)替换每个疏水氨基酸L、I、V和F产生下述序列(下行SEQ ID NO：325)，与野生型(上行SEQ ID NO：324)对齐:

预测的跨膜区例证了本发明的修饰结构域并且包括(分别SEQ ID NOs：326、327、328、329、330、331、332、333)：

因此，例如，本发明包括的跨膜结构域包括每个修饰的或“mt”结构域。优选地，包括本文的TM1的蛋白质包括一个或多个(例如，所有的)细胞外和细胞内环序列(还未加下划线的序列)。另外或可选地，包括本文的TM1的蛋白质包括描述的蛋白质中的一个或多个另外跨膜区(加下划线的序列)或保留一个、两个、三个或可能四个或更多个天然V、L、I和F氨基酸的同源序列，如在野生型序列中阐释。

实施例23:QTY变体和CXCR4-QTY变体的大肠杆菌表达

1.在大肠杆菌BL21(DE3)中大规模产生CXCR4-QTY

在大肠杆菌中产生水溶性GPCR CXCR4，产率评估为～20mg纯化蛋白每升常规LB培养基。评估的生产费用是约$0.25每毫克。有利地，该方法可用于容易获得克数量的水溶性GPCR，其接着可利于它们的结构确定。

2.确定大肠杆菌细胞中在哪儿产生水溶性CXCR4-QTY

将水溶性CXCR4-QTY克隆至pET载体。我们首先进行小规模的大肠杆菌培养研究，以评估产生的CXCR4-QTY蛋白的位置(150ml培养基)。培养细胞之后，用IPTG在24℃下诱导4小时，我们收集和超声细胞并且通过在14,637xg(12,000rmp)下离心分成2个部分。我们接着使用特异性抗rho-标签单克隆抗体的蛋白质印迹分析，以检测CXCR4-QTY蛋白在哪里。我们观察到CXCR4-QTY蛋白在上清液部分中并且在小球部分中未观察到蛋白质，因此提示蛋白质是完全水溶性的。

3.大肠杆菌细胞的可溶性部分中产生的评估的产率CXCR4-QTY

我们接着进行另一150ml培养并且获得～6mg 1D4单克隆抗体-纯化的CXCR4-QTY。因为我们低估了产率(我们未预料到令人吃惊的高产率)，我们未使用足够的亲和性1D4rho-标签单克隆抗体磁珠(bead)捕获产生的CXCR4-QTY。因此，大量的CXCR4-QTY蛋白由于纯化期间未添加足够的磁珠而未与磁珠结合，并且蛋白质在流过泳道(flow-throughlane)中，并且被进一步洗掉。尽管损失严重，但是对于150ml培养物，我们仍能够获得～6mg，如从泳道8-10可见(洗脱部分)。

4.测量纯化的水溶性CXCR4-QTY蛋白的热稳定性

在大部分情况下，结构决定蛋白质的功能。因此，知道大肠杆菌中产生的纯化的CXCR4-QTY蛋白是否仍以典型的α–螺旋结构以～50％的α-螺旋正确折叠是重要的。我们使用圆二色谱(CD)进行了二级结构测量。我们观察到了纯化的CXCR4-QTY蛋白在各种温度下的CD光谱。我们测量了纯化的CXCR4-QTY蛋白的热稳定性。我们观察到纯化的CXCR4-QTY蛋白在高达55℃是相对稳定的，蛋白质仅仅部分和逐渐变性，CD信号下降是～15％。在55℃和65℃之间，至65℃变性增加，在65℃和75℃之间出现变性转变并且在75℃蛋白质几乎完全变性。

我们将温度与椭圆率在222nm下绘图，以获得纯化的水溶性CXCR4-QTY蛋白的解链温度(Tm)。从该图，我们评估了纯化的CXCR4-QTY蛋白的Tm是～67℃。该Tm提示纯化的水溶性CXCR4-QTY蛋白与许多其他可溶性蛋白相比相当稳定。该热稳定性特征促进了获得衍射晶体，因为已知热稳定性越好，晶格填充越好，并且因此获得结构的机会越好。

5.另外的G蛋白偶联受体

使用Zhang等，Water Soluble Membrane Proteins and Methods for thePreparation and Use Thereof,美国专利公开号2012/0252719A("Zhang")描述的QTY方法，我们选择了10种G蛋白偶联受体(GPCR)来设计水溶性形式。可选地，可以选择本文所述的蛋白质。

6.基因的分子克隆。

我们在无细胞蛋白质表达质粒载体pIVex2.3d和大肠杆菌pET28a和pET-duet-1质粒载体中成功确认了天然GPCR和QTY基因。

7.水溶性GPCR产生

我们已经产生了数个天然和QTY蛋白。当在无细胞系统中产生天然GPCR时，需要净化剂Brij35，没有净化剂的情况下，当生产时蛋白质沉淀。另一方面，我们在存在和没有净化剂的情况下测试了QTY变体。在没有净化剂的情况下，无细胞系统产生可溶性蛋白质。

我们将QTY变体克隆至大肠杆菌体内表达系统，pET28a和pET-duet-1质粒载体，其用于在大肠杆菌BL21(DE3)菌株中的大肠杆菌细胞蛋白质产生。我们已经纯化了数种水溶性GPCR蛋白，包括CXCR4和CCR5，我们已经将其用于二级结构分析。我们利用其天然配体CCL12(SDF1a)，已经进行了CXCR4的配体结合研究。我们进行了大肠杆菌产生和水溶性GPCRCCR5e变体的纯化。CCR5e变体具有58个氨基酸改变(～18％改变)。使用特异性单克隆抗体视紫红质标签，水溶性GPCR CCR5e变体被纯化至均匀。蓝色染色在指示纯度的SDS凝胶上显示单条带。从蛋白质尺寸标记物评估，其好像是纯的同二聚体(结合天然膜的CXCR4晶体结构是二聚体。蛋白质印记确认了CCR5e变体的单体和同二聚体在GPCR中是常见的。

8.QTY CCR5e二级结构研究。

我们获得了水溶性GPCR CCR5e的QTY变体。接着，我们使用Aviv模型410圆二色谱工具进行了二级结构分析，并且确认了GPCR QTY CCR5-e变体具有典型的α-螺旋结构。我们也在各种温度下进行了试验，以确定CCR5e变体Tm，即，水溶性CCR5e变体的热稳定性。由实验，我们确定了CCR5e变体的Tm是约46℃。该Tm对于晶体筛选实验是良好的。

9.CXCR4与CCL12(SDF1a)的配体结合研究。

为了确定设计的水溶性QTY GPCR仍保持它们的生物功能，即识别和结合它们的天然配体，我们首先使用ELISA测量，以研究水溶性CXCR4与其天然配体CCL12(也称为SDF1a)。试验浓度范围是50nM至10μM。测量的Kd是～80nM。结合天然膜的CXCR4与SDF1a的Kd是约100nM。因此，水溶性CXCR4的Kd在可接受的范围内。使用更灵敏的SPR或其他测量的进一步实验可产生更精确的Kd。

尽管已经参考了优选的实施方式具体显示和描述了本发明，但是本领域技术人员应理解，可对形式和细节上做出各种改变而不背离由所附的权利要求所包括的本发明的范围。

Claims

1.一种执行选择G蛋白偶联受体(GPCR)的水溶性变体的程序的计算机实施的方法，所述方法包括：

输入用于分析的GPCR的序列；

获得GPCR的变体，其中GPCR的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸被替换，其中：

(d)每个所述苯丙氨酸被酪氨酸(Y)替换；和，随后，

获得变体的α-螺旋二级结构结果，以验证变体中α-螺旋二级结构的保持；

获得变体的跨膜区结果，以验证所述变体的水溶性，

从而选择所述GPCR的水溶性变体。

2.权利要求1所述的方法，其中步骤(3)在步骤(4)之前进行、与步骤(4)同时进行或在步骤(4)之后进行。

3.权利要求1或2所述的方法，其中在步骤(2)中，GPCR的一个和相同TM区中的一个亚组的所述多个疏水氨基酸被替换，以产生潜在变体的文库的一个成员，并且所述多个疏水氨基酸的一个或多个不同亚组被替换，以产生文库的另外的成员。

4.权利要求3所述的方法，进一步包括基于组合评分对所述文库的所有成员排序，其中所述组合评分是α-螺旋二级结构预测结果和跨膜区预测结果的加权组合。

5.权利要求1所述的方法，进一步包括使用排序函数对所述变体排序。

6.权利要求1所述的方法，进一步包括用数据处理器执行所述方法。

7.权利要求6所述的方法，进一步包括与所述数据处理器关联的存储器。

8.权利要求5所述的方法，其中所述排序函数包括二级结构分量和水溶性分量。

9.权利要求8所述的方法，其中所述排序函数包括二级结构分量和/或水溶性分量的加权值。

10.权利要求4所述的方法，进一步包括：选择具有最高组合评分的N个成员，以形成所述TM区的潜在变体的第一文库，其中N是预定的整数(例如，3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更大)。

11.权利要求10所述的方法，进一步包括产生GPCR的1、2、3、4、5或所有6个其他TM区的潜在变体的一个文库。

12.权利要求11所述的方法，进一步包括：用来自潜在变体的文库的相应TM区替换GPCR的两个或更多个TM区，以建立组合变体的文库。

13.权利要求1-12任一项所述的方法，其中基本上所有的(例如，所有的)所述亮氨酸被谷氨酰胺替换。

14.权利要求1-13任一项所述的方法，其中基本上所有的(例如，所有的)所述异亮氨酸被苏氨酸替换。

15.权利要求1-14任一项所述的方法，其中基本上所有的(例如，所有的)所述缬氨酸被苏氨酸替换。

16.权利要求1-15任一项所述的方法，其中基本上所有的(例如，所有的)所述苯丙氨酸被酪氨酸替换。

17.权利要求1-16任一项所述的方法，其中一个或多个(例如，1、2或3个)所述亮氨酸不被替换。

18.权利要求1-17任一项所述的方法，其中一个或多个(例如，1、2或3个)所述异亮氨酸不被替换。

19.权利要求1-18任一项所述的方法，其中一个或多个(例如，1、2或3个)所述缬氨酸不被替换。

20.权利要求1-19任一项所述的方法，其中一个或多个(例如，1、2或3个)所述苯丙氨酸不被替换。

21.权利要求1-20任一项所述的方法，进一步包括产生/表达所述组合变体。

22.权利要求1-21任一项所述的方法，进一步包括测试所述组合变体的配体结合(例如，在酵母双杂交系统中)，其中选择与GPCR的配体结合相比具有基本上相同的配体结合的那些。

23.权利要求1-22任一项所述的方法，进一步包括测试所述组合变体的GPCR的生物功能，其中选择与GPCR的生物功能相比具有基本上相同的生物功能的那些。

24.权利要求1-23任一项所述的方法，其中所述组合变体的文库包括小于约2百万个成员。

25.权利要求1-24任一项所述的方法，其中所述GPCR的所述序列包括与GPCR的TM区相关的信息。

26.权利要求1-25任一项所述的方法，其中所述GPCR的所述序列获得自蛋白质结构数据库(例如，PDB、UniProt)。

27.权利要求1-26任一项所述的方法，其中基于GPCR的序列预测所述GPCR的所述TM区。

28.权利要求27所述的方法，其中使用TMHMM 2.0(使用隐马尔科夫模型的跨膜预测)软件模块预测GPCR的TM区。

29.权利要求28所述的方法，其中所述TMHMM 2.0软件模块使用寻峰的动态基线。

30.权利要求1-29任一项所述的方法，进一步包括提供GPCR的每个变体的多核苷酸序列。

31.权利要求30所述的方法，其中所述多核苷酸序列是为在宿主(例如，细菌比如大肠杆菌、酵母比如酿酒酵母或粟酒裂殖酵母、昆虫细胞比如Sf9细胞、非人哺乳动物细胞或人细胞)中的表达优化的密码子。

32.权利要求1-31任一项所述的方法，其中脚本程序包括VBA脚本。

33.权利要求1-32任一项所述的方法，其中脚本程序可用Linux系统(例如，Ubuntu12.04LTS)、Unix系统、Microsoft Windows操作系统、Android操作系统或Apple iOS操作系统操作。

34.G蛋白偶联受体(GPCR)的水溶性变体，其中：

GPCR的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸被替换，其中：

(d)每个所述苯丙氨酸被酪氨酸(Y)替换；和，随后，

变体的所有7个TM区保持α-螺旋二级结构；并且，

没有预测的跨膜区。

35.权利要求34所述的水溶性变体，包括选自SEQ ID NOs：4-11、13-20、22-29、31-38、40-47、49-56和58-64的一个或多个氨基酸序列。

36.权利要求35所述的水溶性变体，进一步包括选自SEQ ID NOs：3、12、21、30、39、48和57的一个或多个氨基酸序列。

37.权利要求35或36所述的水溶性变体，其结合CXCR4配体。

38.权利要求34所述的水溶性变体，包括选自SEQ ID NOs：69-76、78-85、87、89-96、98-105、107-114和116-123的一个或多个氨基酸序列。

39.权利要求38所述的水溶性变体，进一步包括选自SEQ ID NOs：68、77、86、88、97、106、115和124的一个或多个氨基酸序列。

40.权利要求38或40所述的水溶性变体，其结合CX3CR1配体。

41.权利要求34所述的水溶性变体，包括选自SEQ ID NOs：128-135、137-144、146-153、155-162、164-171、173和175-182的一个或多个氨基酸序列。

42.权利要求41所述的水溶性变体，进一步包括选自SEQ ID NOs：127、136、145、154、163、172、174和183一个或多个氨基酸序列。

43.权利要求41或42所述的水溶性变体，其结合CCR3配体。

44.权利要求34所述的水溶性变体，包括选自SEQ ID NOs：187-194、196-203、205-206、208、210-217、219-225、227-234的一个或多个氨基酸序列。

45.权利要求44所述的水溶性变体，进一步包括选自SEQ ID NOs：186、195、204、207、209、218、226和235的一个或多个氨基酸序列。

46.权利要求44或45所述的水溶性变体，其结合CCR5配体。

47.权利要求34所述的水溶性变体，包括选自SEQ ID NOs：236-243、245-252、254-261、263-270、272、274-281和283-290的一个或多个氨基酸序列。

48.权利要求47所述的水溶性变体，进一步包括选自SEQ ID NOs：235、244、253、262、271、273、282和291的一个或多个氨基酸序列。

49.权利要求47或48所述的水溶性变体，其结合CXCR3配体。

50.权利要求34所述的水溶性变体，包括如在下述任何一个中阐释的一个或多个跨膜结构域：SEQ ID NOs：2、67、126、185、327、293、295、297、299、301、303、305、307、309、311、313、315、317、319、321、323或325。

51.权利要求50所述的水溶性变体，其中所述水溶性变体是水溶性的并且结合同源的天然跨膜蛋白的配体。

52.在细菌(例如，大肠杆菌)中产生蛋白质的方法，包括：

(a)在适于蛋白质生产的条件下在生长培养基中培养所述细菌；

(c)从可溶性部分分离蛋白质；

其中：

(1)所述蛋白质是权利要求29-46任一项所述的变体G蛋白偶联受体(GPCR)；并且，

(2)所述蛋白质的产率是至少20mg/L(例如，30mg/L、40mg/L、50mg/L或更大)的生长培养基。

53.权利要求47所述的方法，其中所述细菌是大肠杆菌BL21，并且所述生长培养基是LB培养基。

54.权利要求47或48所述的方法，其中所述蛋白质由细菌中的质粒编码。

55.权利要求47-49任一项所述的方法，其中所述蛋白质的表达在诱导型启动子的控制下。

56.权利要求50所述的方法，其中所述诱导型启动子可被IPTG诱导。

57.权利要求47-51任一项所述的方法，其中所述裂解物通过超声产生。

58.权利要求47-52任一项所述的方法，其中所述可溶性部分通过在14,500×g或更大离心裂解物产生。

59.非瞬时计算机可读的介质，在其上储存一系列指令，以执行权利要求1-33任一项所述的方法。

60.一种数据处理系统，其可操作以选择膜蛋白的水溶性变体，所述数据处理系统包括：

数据处理器，其可操作以执行氨基酸的替换，并且其中所述系统用排序函数对蛋白质变体排序，所述排序函数包括二级结构分量和水溶性分量。

61.权利要求60所述的系统，进一步包括由系统处理的膜蛋白的文库。

62.权利要求60所述的系统，进一步包括与数据处理器关联的存储器，其储存执行替换处理器的编码的指令。

63.权利要求60所述的系统，其中所述系统可操作地处理权利要求1的步骤(a)、(b)、(c)和(d)。

64.权利要求60所述的系统，进一步包括排序函数，其是基于二级结构分量的加权组合。

65.权利要求60所述的系统，其中所述系统经网络与外部程序通讯。

66.权利要求60所述的系统，进一步包括储存水溶性变体的数据库。

67.权利要求60所述的系统，进一步包括执行动态基线处理的指令。

68.权利要求60所述的系统，进一步包括选择处理参数的界面。

69.权利要求60所述的系统，进一步包括输入权利要求35-50中阐释的序列。

70.一种用于执行选择方法的水溶性变体的程序的计算机实施的方法，所述方法包括：

操作数据处理，以鉴定用于分析的一系列膜蛋白；

获得膜蛋白的变体，其中膜蛋白的跨膜(TM)结构域α-螺旋区段(“TM区”)中的多个疏水氨基酸被替换，其中所述数据处理器：

确定变体的α-螺旋二级结构结果，以验证变体中α-螺旋二级结构的保持；

确定变体的跨膜区结果，以验证变体的水溶性；和

选择所述膜蛋白的水溶性变体。

71.权利要求70所述的方法，其中所述替换包括：

(a)疏水氨基酸选自亮氨酸(L)、异亮氨酸(I)、缬氨酸(V)和苯丙氨酸(F)；

(b)每个亮氨酸(L)独立地被谷氨酰胺(Q)、天冬酰胺(N)或丝氨酸(S)替换；

(c)每个异亮氨酸(I)和所述缬氨酸(V)独立地被苏氨酸(T)、天冬酰胺(N)或丝氨酸(S)替换；并且，

(d)每个所述苯丙氨酸被酪氨酸(Y)替换。

72.权利要求71所述的方法，其中在GPCR的一个和相同TM区中的一个亚组的所述多个疏水氨基酸被替换，以产生潜在变体的文库的一个成员，并且所述多个疏水氨基酸的一个或多个不同亚组被替换，以产生文库的另外的成员。

73.权利要求70所述的方法，进一步包括基于组合评分对所述文库的所有成员排序，其中所述组合评分是α-螺旋二级结构预测结果和跨膜区预测结果的加权组合。

74.权利要求70所述的方法，进一步包括使用排序函数对所述变体排序。

75.权利要求70所述的方法，进一步包括与所述数据处理器关联的存储器。

76.权利要求74所述的方法，其中所述排序函数包括二级结构分量和水溶性分量。

77.权利要求76所述的方法，其中所述排序函数包括二级结构分量和/或水溶性分量的加权值。

78.权利要求73所述的方法，进一步包括：选择具有最高组合评分的N个成员，以形成所述TM区的潜在变体的第一文库，其中N是预定的整数(例如，3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更大)。

79.权利要求78所述的方法，进一步包括为GPCR的1、2、3、4、5个或所有6个其他TM区产生潜在变体的一个文库。

80.权利要求79所述的方法，进一步包括：用来自潜在变体的文库的相应TM区替换GPCR的两个或更多个TM区，以建立组合变体的文库。