CN111655855A

CN111655855A - 人治疗靶标及其调节剂

Info

Publication number: CN111655855A
Application number: CN201880072708.4A
Authority: CN
Inventors: 约翰·巴克斯特尔·比金斯; 布赖恩·罗赫尔·鲍曼; 格雷戈里·L·韦尔迪
Original assignee: Life Bright Therapy Co ltd
Current assignee: Life Bright Therapy Co ltd
Priority date: 2017-09-14
Filing date: 2018-09-14
Publication date: 2020-09-11
Also published as: EP3682022A1; JP7404229B2; JP2020533991A; EP3682022A4; JP2023153953A; US20200211673A1; WO2019055816A1; US11749375B2; CA3075528A1; US20240212788A1

Abstract

本公开内容尤其提供了用于例如从真菌基因组中高效且有效地鉴定ETaG的技术。在一些实施方案中，所提供的技术可特别地用于鉴定真菌生物合成产物的哺乳动物靶标。在一些实施方案中，所提供的技术可特别地用于鉴定用于药物开发的人靶标和/或对其进行优先排序。在一些实施方案中，所提供的技术可特别地用于基于真菌的生物合成产物来开发用于人靶标的调节剂。

Description

人治疗靶标及其调节剂

相关申请的交叉引用

本申请要求于2017年9月14日提交的美国临时申请No.62/558,744的优先权，其整体通过引用并入本文。

背景技术

在人蛋白质组中鉴定所谓的“可成药(druggable)”靶标已被描述为一项“重大挑战”。参见，例如Dixon et al Curr.Opin.Chem.Biol.13：549，2009。自2011年起，报道估计仅约2％的人蛋白质已被批准的药物成功靶向，并且此外仅10％至15％的人蛋白质甚至容易被靶向(即，是“可成药的”)。参见，例如Stockwell Sci.Am 305：20，2011。

发明内容

越来越多的证据表明，一些微生物生物合成基因簇有时包含看起来不涉及通过由该簇编码的酶产生的相关生物合成产物之合成的基因(在本文中称为“过客(passenger)”基因)。在一些情况下，这样的过客基因被描述为“自保护的”，因为其编码明显可使宿主生物体对相关生物合成产物产生抗性的蛋白质。例如，在一些情况下，已经报道了编码生物合成产物的转运蛋白、作用于生物合成产物的解毒酶或活性由生物合成产物靶向的蛋白质的抗性变体的基因。参见，例如Cimermancic et al Cell 158：412，2014；KellerNat.Chem.Biol.11：671，2015。研究人员已提出，这样的基因及其功能的鉴定可用于确定通过该簇的酶合成的生物合成产物的作用。参见，例如，Yeh et al.ACS Chem.Biol.11：2275，2016；Tang et al.ACS Chem.Biol.10：2841，2015；Regueira et al.Appl，Environ.Microbiol.77：3035，2011；Kennedy et al.，Science 284：1368，1999；Lowtheret al.，Proc.Natl.Acad.Sci.USA 95：12153，1998；Abe et al，Mol.Genet.Genomics 268：130，2002。

本公开内容尤其提供了关于如本文中所述存在于生物合成基因簇中或存在于相对于所述簇中生物合成基因的邻近区中的非生物合成基因的不同观点，以及提供了关于某些这样的基因在人治疗剂中的潜在有用性的新见解。在一些实施方案中，本公开内容提供了利用这样的见解来开发和/或改善人治疗剂的技术。

本公开内容尤其提供了这样的见解：存在于生物合成基因簇中或存在于相对于所述簇中生物合成基因的邻近区中并且特别是存在于真核生物(例如，真菌，与细菌相比)生物合成基因簇中的某些非生物合成基因可代表代表具有治疗意义的靶标的人基因的同源物。本公开内容限定了表征这样的目的非生物合成基因的参数，所述基因在本文中称为“嵌入靶基因(embedded target gene)”或“ETaG”。本公开内容提供了用于鉴定和/或表征ETaG的技术、包含生物合成基因簇和/或ETaG基因序列(和任选的相关注释)的数据库、用于鉴定和/或表征对应于ETaG的人靶基因的系统，以及制备和/或使用这样的人靶基因和/或包含和/或表达这样的人靶基因的系统的方法，等等。

本公开内容提供了另外的见解：ETaG与其相关生物合成基因簇(包含生物合成基因的生物合成基因簇，该ETaG在相对于该生物合成基因的邻近区内)之间的关系提供了鉴定、设计和/或表征相应人靶基因的有效调节剂的信息。本公开内容提供了用于这样的鉴定、设计和/或表征的技术，并且还提供了实现对相关人靶基因进行调节的药剂，以及提供和/或使用这样的药剂的方法。

如上所述，本公开内容涵盖了ETaG可用作具有医学(例如，治疗)相关性的人靶标的功能性同源物(例如直向同源物)的见解。根据本公开内容，可将在真核生物(例如真菌)生物合成基因簇内或相对于该簇中生物合成基因的邻近区中的过客(即非生物合成)基因的序列与人基因的序列进行比较。对于所比较的序列，可确定(例如，定量评估和/或通过进化树可视化)核酸序列相似性、肽序列相似性和/或系统发育关系。作为替代或补充，可评估已知的结构和/或蛋白质效应物元件的保守性。在一些实施方案中，与人序列和/或保守结构和/或蛋白质效应物元件具有相对高同源性的那些过客基因可优先作为与人药物靶标一样具有意义的ETaG。

在一些实施方案中，本公开内容提供了包括以下步骤的方法：

查询核酸序列集合，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇；以及

在至少一个真菌核酸序列内鉴定嵌入靶基因(ETaG)序列，所述嵌入靶基因(ETaG)序列的特征在于，其：

在相对于所述簇中至少一个基因的邻近区内；并且

任选地与所述簇中至少一个生物合成基因共调节。

通常来说，生物合成基因簇包含一个或更多个生物合成基因。在一些实施方案中，生物合成基因簇包含一个或更多个生物合成基因和一个或更多个非生物合成基因。在一些实施方案中，非生物合成基因是调节性的，例如转录因子。在一些实施方案中，在通过生物信息学鉴定的生物合成基因簇中，非生物合成基因可以是假设基因。在一些实施方案中，生物合成基因簇的边界通过生物信息学方法例如antiSMASH来限定。在一些实施方案中，生物合成基因和非生物合成基因基于生物信息学来指定。在一些实施方案中，非生物合成基因可能具有生物合成功能，即使其通过生物信息学方法被鉴定为非生物合成基因(和/或在本公开内容中标示为非生物合成基因)。

在相对于所述簇中至少一个生物合成基因的邻近区内；并且

任选地与所述簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容涵盖了这样的认识：来自真核生物真菌的ETaG与例如其在原核生物例如某些细菌中的对应物(如果有的话)相比可与哺乳动物基因具有更高相似性。在一些实施方案中，与在进化上与人相距更远的生物体相比，真菌包含在治疗上更相关的ETaG和/或包含更多治疗相关的ETaG。

在相对于所述簇中至少一个基因的邻近区内；

与表达的哺乳动物核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节。

在相对于所述簇中至少一个生物合成基因的邻近区内；

与表达的哺乳动物核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节。

在一些实施方案中，邻近区为在簇中生物合成基因上游或下游的不超过1至100kb，例如，不超过1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90或100kb。在一些实施方案中，邻近区为在簇中生物合成基因上游或下游的不超过1至100kb，例如，不超过1、2、3、4、5、6、7、8、9或10kb。在一些实施方案中，ETaG在生物合成基因簇内。在一些实施方案中，邻近区在生物合成基因簇中的两个生物合成基因之间。

在一些实施方案中，ETaG序列与哺乳动物核酸序列同源。在一些实施方案中，哺乳动物序列是人核酸序列。在一些实施方案中，ETaG序列与人核酸序列同源。在一些实施方案中，ETaG序列与表达的哺乳动物核酸序列同源。在一些实施方案中，ETaG序列与表达的人核酸序列同源。在一些实施方案中，哺乳动物核酸例如人核酸序列与人疾病、障碍或病症相关。在一些实施方案中，这样的人核酸序列是具有治疗意义的现有靶标。在一些实施方案中，这样的人核酸序列是具有治疗意义的新靶标。在一些实施方案中，这样的人核酸序列是先前认为不易被例如小分子靶向的靶标。在一些实施方案中，通过由相关生物合成基因簇编码的酶产生的生物合成产物或其类似物是人靶标的调节剂(例如，激活剂、抑制剂等)。

在一些实施方案中，ETaG序列与表达的哺乳动物核酸序列同源，这在于：其序列或其一部分与表达的哺乳动物核酸序列的序列或其一部分具有至少50％、60％、70％、80％或90％同一性。在一些实施方案中，ETaG序列与哺乳动物核酸序列同源，这在于：由ETaG产生的mRNA或其一部分与哺乳动物核酸序列的mRNA或其一部分同源。在一些实施方案中，同源部分的长度为至少50、100、150或200个碱基对。在一些实施方案中，同源部分编码从真菌到哺乳动物保守的蛋白质或蛋白质的保守部分，例如蛋白质结构域，与功能(例如，与另一分子(例如，蛋白质、小分子等)的相互作用、酶活性等)相关的残基集合，等等。

在一些实施方案中，ETaG序列与哺乳动物核酸序列同源，这在于：由ETaG编码的产物或其一部分与由哺乳动物核酸序列编码的产物或其一部分同源。在一些实施方案中，ETaG序列与哺乳动物核酸序列同源，这在于：由ETaG或其一部分编码的蛋白质与由哺乳动物核酸序列编码的蛋白质或其一部分同源。在一些实施方案中，ETaG序列与哺乳动物核酸序列同源，这在于：由ETaG编码的蛋白质的一部分与由哺乳动物核酸序列编码的蛋白质的一部分同源。

在一些实施方案中，蛋白质的一部分是蛋白质结构域。在一些实施方案中，蛋白质结构域是酶结构域。在一些实施方案中，蛋白质结构域与一种或更多种药剂例如小分子、脂质、碳水化合物、核酸、蛋白质等相互作用。

在一些实施方案中，蛋白质的一部分是限定该蛋白质所属的蛋白质家族的功能性结构域和/或结构性结构域。在限定蛋白质家族的特定的催化结构域或结构性结构域内的氨基酸残基可基于预测性亚家族结构域架构进行选择，并且任选地通过多种测定进行验证，以用于同源性的比对分析中。

在一些实施方案中，蛋白质的一部分是对于蛋白质的功能重要的连续或不连续的关键残基的集合。在一些实施方案中，功能是酶活性，并且蛋白质的一部分是该活性所需的残基的集合。在一些实施方案中，功能是酶活性，并且蛋白质的一部分是与底物、中间体或产物相互作用的残基的集合。在一些实施方案中，残基集合与底物相互作用。在一些实施方案中，残基集合与中间体相互作用。在一些实施方案中，残基集合与产物相互作用。

在一些实施方案中，功能是与一种或更多种药剂，例如小分子、脂质、碳水化合物、核酸、蛋白质等的相互作用，并且蛋白质的一部分是该相互作用所需的残基的集合。在一些实施方案中，集合中的残基各自独立地与相互作用剂接触。例如，在一些实施方案中，集合中的每个残基独立地与相互作用小分子接触。在一些实施方案中，蛋白质是激酶且相互作用小分子是或包含核碱基，并且集合中的残基各自独立地通过例如氢键键合、静电力、范德瓦耳斯力(van der Waals force)、芳香族堆积等与核碱基接触。在一些实施方案中，相互作用剂是另一大分子。在一些实施方案中，相互作用剂是核酸。在一些实施方案中，集合中的残基是与相互作用核酸接触的那些，例如转录因子中的那些。在一些实施方案中，集合中的残基是与相互作用蛋白质接触的那些。

在一些实施方案中，蛋白质的一部分是或包含蛋白质效应物募集和/或结合的基本结构元件，例如基于人靶标的三级蛋白质结构。

蛋白质的部分，例如蛋白质结构域、负责生物功能的残基的集合等，可在物种之间，例如，在一些实施方案中，从真菌到人是保守的，如本公开内容中所举例说明的。

在一些实施方案中，蛋白质同源性基于确切的同一性，例如在给定位置的相同氨基酸残基来测量。在一些实施方案中，同源性基于一种或更多种特性，例如具有一种或更多种相同或相似特性(例如，极性、非极性、疏水性、亲水性、尺寸、酸性、碱性、芳香族等)的氨基酸残基来测量。用于评估同源性的示例性方法是本领域中公知的，并且可根据本公开内容使用，例如，MUSCLE、TCoffee、ClustalW等。

在一些实施方案中，由ETaG或其一部分编码的蛋白质(例如，本公开内容中描述的那些)与由哺乳动物核酸序列编码的蛋白质或其一部分具有至少50％、60％、70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％、或100％(当100％时其与之相同)同源性。在一些实施方案中，由ETaG或其一部分编码的蛋白质与由表达的哺乳动物核酸序列编码的蛋白质或其一部分具有至少50％、60％、70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％、或100％同源性。

在一些实施方案中，ETaG与生物合成基因簇中的至少一个生物合成基因共调节。在一些实施方案中，ETaG与生物合成基因簇中的两个或更多个基因共调节。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：当产生通过由生物合成基因簇编码的酶产生的生物合成产物(生物合成基因簇的生物合成产物)时，ETaG的表达提高或开启。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：当生物合成基因簇的生物合成产物的水平提高时，ETaG的表达提高或开启。

在一些实施方案中，ETaG基因序列任选地与同一基因组中的一个或更多个基因序列具有超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同源性。在一些实施方案中，ETaG基因序列任选地与同一基因组中的2、3、4、5、6、7、8、9或更多个基因序列具有超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同源性。在一些实施方案中，同源性超过10％。在一些实施方案中，同源性超过20％。在一些实施方案中，同源性超过30％。在一些实施方案中，同源性超过40％。在一些实施方案中，同源性超过50％。在一些实施方案中，同源性超过60％。在一些实施方案中，同源性超过70％。在一些实施方案中，同源性超过80％。在一些实施方案中，同源性超过90％。某些实例提供于附图中。

在一些实施方案中，ETaG基因序列任选地与集合中至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％真菌核酸序列中的任何表达基因序列具有不超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同一性，所述真菌核酸序列来自不同真菌菌株并且包含同源生物合成基因簇。在一些实施方案中，ETaG基因序列任选地与至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％来自不同真菌菌株在相对于同源生物合成基因簇中生物合成基因的邻近区内的真菌基因序列具有不超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同一性。在一些实施方案中，ETaG基因序列任选地与至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％来自不同真菌菌株在相对于同源生物合成基因簇中生物合成基因的邻近区内的真菌基因序列具有不超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同一性。在一些实施方案中，ETaG基因序列任选地与集合中任何真菌核酸序列中的任何表达基因序列具有不超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同一性，所述真菌核酸序列来自不同真菌菌株并且包含同源生物合成基因簇。在一些实施方案中，ETaG基因序列任选地与来自不同真菌菌株在相对于同源生物合成基因簇中生物合成基因的邻近区内的任何表达基因序列具有不超过约10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、95％或99％同一性。在一些实施方案中，不超过约10％同一性。在一些实施方案中，不超过约20％同一性。在一些实施方案中，不超过约30％同一性。在一些实施方案中，不超过约40％同一性。在一些实施方案中，不超过约50％同一性。在一些实施方案中，不超过约60％同一性。在一些实施方案中，不超过约70％同一性。在一些实施方案中，不超过约80％同一性。在一些实施方案中，不超过约90％同一性。

在一些实施方案中，人靶基因和/或其产物容易被生物合成基因簇的生物合成产物或其类似物调节，其中所述人靶基因在所述生物合成基因簇内或在相对于所述簇中生物合成基因的邻近区中具有其同源ETaG。在一些实施方案中，由人靶基因编码的蛋白质容易被生物合成基因簇的生物合成产物或其类似物调节，其中所述人靶基因在所述生物合成基因簇内或在相对于所述簇中生物合成基因的邻近区中具有其同源ETaG。因此，在一些实施方案中，本公开内容不仅提供了新的人靶标，而且还提供了用于调节这样的人靶标的方法和药剂。

在一些实施方案中，本公开内容提供了用于鉴定ETaG和/或其医学相关性例如其治疗相关性的技术，例如方法、数据库、系统等。在一些实施方案中，本公开内容提供了数据库，任选地具有多种注释的数据库，所述数据库被构造用于ETaG、相关生物合成基因簇、生物合成基因簇的相关生物合成产物和/或其类似物、相关同源哺乳动物核酸序列(例如，人基因)等的有效鉴定、检索、使用等。本公开内容尤其提供了被构造以改善例如ETaG鉴定的计算效率和/或准确性的数据库和/或序列。

例如，在一些实施方案中，构建所提供的数据库，使得鉴定和注释所有生物合成基因簇。然后，将这些簇的核酸序列从真菌基因组中的其余核酸序列中计算移出并数据库化。然后，将所得生物合成基因簇数据库用于ETaG检索。尤其地，当使用这样的数据库鉴定ETaG检索中的命中项(hit)时，该命中项为ETaG，因为仅检索了在生物合成簇(或其邻近区)中的序列。使生物合成基因簇序列与全基因组序列分开提高了信噪比，并且极大加速了ETaG检索过程。尤其地，与使用所提供的数据库相比，在全真菌基因组序列中检索ETaG频繁导致其中所鉴定的命中项是位于基因组中但不位于生物合成基因簇或其邻近区中的“持家”基因的假阳性。在一些实施方案中，从所提供的技术(例如，方法、数据库等)中鉴定的命中项例如ETaG不是持家基因。在一些实施方案中，从所提供的技术中鉴定的命中项例如ETaG是或包含与在同一基因组中的第二核酸序列(例如，基因)或其一部分共有同源性的序列。本公开内容中序列的序列同源性可以是至少20％、30％、40％、50％、60％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％。在一些实施方案中，同源性为至少50％；在一些实施方案中，至少60％；在一些实施方案中，至少70％；在一些实施方案中，至少75％；在一些实施方案中，至少80％；在一些实施方案中，至少85％；在一些实施方案中，至少90％；以及在一些实施方案中，至少95％。本公开内容的序列的一部分可包含至少5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900或1000个氨基酸残基(对于蛋白质序列)或核碱基(对于核酸序列)。在一些实施方案中，核酸序列的一部分的长度为至少10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900或1000个核碱基。在一些实施方案中，长度为至少20个核碱基。在一些实施方案中，长度为至少30个核碱基。在一些实施方案中，长度为至少40个核碱基。在一些实施方案中，长度为至少50个核碱基。在一些实施方案中，长度为至少100个核碱基。在一些实施方案中，长度为至少150个核碱基。在一些实施方案中，长度为至少200个核碱基。在一些实施方案中，长度为至少300个核碱基。在一些实施方案中，长度为至少400个核碱基。在一些实施方案中，长度为至少500个核碱基。在一些实施方案中，从所提供的技术中鉴定的命中项例如ETaG是或包含编码与由同一基因组中第二核酸序列(例如，基因)编码的产物或其一部分(例如，如本公开内容中所述的蛋白质的关键残基的集合、蛋白质结构域等)共有同源性(例如，至少50％、60％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％)的产物(例如蛋白质)的序列。如本文中所述，同源性/相似性可使用本领域技术人员所理解的多种技术来评估。在一些实施方案中，第二核酸序列是或包含持家基因。在一些实施方案中，第二核酸序列在两个或更多个物种之间共有。在一些实施方案中，ETaG虽然与第二核酸序列同源但是与该第二核酸序列不同，这在于ETaG编码提供针对其相应生物合成簇的产物(例如，小分子)的抗性的产物(例如，蛋白质)，而第二核酸序列则不是。

在一些实施方案中，本公开内容提供了包含以下的系统：

一个或更多个非暂时性机器可读存储介质，其存储代表核酸序列集合的数据，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇。

在一些实施方案中，本公开内容提供了包含以下的系统：

一个或更多个非暂时性机器可读存储介质，其存储代表核酸序列集合的数据，所述核酸序列中的每一个是或包含ETaG序列。

在一些实施方案中，集合中至少10、20、50、100、200或500个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％、或所有的核酸序列包含经索引和/或经注释的ETaG。在一些实施方案中，所提供的系统可极大地提高计算效率，因为其被构造以极大地降低待处理的数据的量。例如，作为处理一个或更多个(在一些情况下，数百或数千或甚至更多)真菌基因组的所有基因组或生物合成基因簇序列数据以检索ETaG的替代，所提供的系统可仅检索索引/标记为ETaG的基因，从而节省了用于处理未索引为ETaG的序列的时间和成本。作为补充或替代，ETaG可独立地用信息例如其相关生物合成基因簇(其包含生物合成基因，该ETaG在相对于该生物合成基因的邻近区内)、相关生物合成基因簇的生物合成产物的结构、和/或该ETaG的人同源物等进行注释。在一些实施方案中，集合中至少10、20、50、100、200或500个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％或者所有的ETaG独立地用以下至少一种进行注释：相关生物合成基因簇和ETaG的人同源物。在一些实施方案中，集合中至少10、20、50、100、200或500个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％或者所有的ETaG独立地用以下至少一种进行注释：相关生物合成基因簇、相关生物合成基因簇的生物合成产物以及ETaG的人同源物。在一些实施方案中，通过利用ETaG索引和注释来构造序列数据，所提供的系统可提供许多优点。例如，在一些实施方案中，所提供系统允许在保持数据大小和较低成本的同时利用有用的相关信息，例如其相关的生物合成基因簇和人同源物快速访问ETaG，并且反之亦然。

在一些实施方案中，所提供的方法和系统可用于人靶标的鉴定和/或表征，因为所提供的方法和系统尤其提供了生物合成基因簇、ETaG和人靶基因之间的联系。在一些实施方案中，本公开内容通过提供在本公开内容之前被认为不可成药的靶标在真菌中的同源ETaG和相关生物合成基因簇特别地提供了对该靶标的了解。在一些实施方案中，本公开内容极大地提高了在本公开内容之前被认为不可成药的靶标的可成药性，在某些情况下基本上将其转化为可成药的靶标，通过例如其在真菌中的同源ETaG、相关生物合成基因簇、相关生物合成基因簇的生物合成产物(其可直接用作人靶标的调节剂，和/或其类似物可用作人靶标的调节剂)。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征生物合成基因簇的生物合成产物或该产物的类似物的人靶标的方法。

在一些实施方案中，本公开内容提供了包括以下的方法：

鉴定ETaG的人同源物，所述ETaG在相对于生物合成基因簇中至少一个基因的邻近区内或在相对于第二生物合成基因簇中至少一个基因的邻近区内，所述第二生物合成基因簇编码产生通过由所述生物合成基因簇编码的酶产生的生物合成产物的酶；以及

任选地测定通过由所述生物合成基因簇编码的酶产生的生物合成产物或所述产物的类似物对人靶标的作用。

在一些实施方案中，本公开内容提供了包括以下的方法：

鉴定ETaG的人同源物，所述ETaG在相对于生物合成基因簇中至少一个生物合成基因的邻近区内或在相对于第二生物合成基因簇中至少一个生物合成基因的邻近区内，所述第二生物合成基因簇编码产生通过由所述生物合成基因簇编码的酶产生的生物合成产物的酶；以及

在一些实施方案中，本公开内容提供了包括以下的方法：

鉴定ETaG的人同源物，所述ETaG在相对于生物合成基因簇中至少一个基因的邻近区内；以及

任选地测定通过由生物合成基因簇编码的酶产生的生物合成产物或所述产物的类似物对人靶标的作用。

在一些实施方案中，本公开内容提供了包括以下的方法：

鉴定ETaG的人同源物，所述ETaG在相对于生物合成基因簇中至少一个生物合成基因的邻近区内；以及

在一些实施方案中，对于不包含相对于其的邻近区包含ETaG的生物合成基因的生物合成基因簇，这样的生物合成基因簇的产物(和/或其类似物)的哺乳动物靶标，例如人靶标可通过在相对于第二生物合成基因簇中生物合成基因的邻近区中的ETaG来鉴定，所述第二生物合成基因簇编码产生相同生物合成产物的酶。在一些实施方案中，第二生物合成基因簇在不同的生物体中。在一些实施方案中，第二生物合成基因簇在不同的真菌菌株中。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征生物合成基因簇的生物合成产物或该产物的类似物的人靶标的方法，其包括：

鉴定ETaG的人同源物，所述ETaG在相对于第二生物合成基因簇中至少一个生物合成基因的邻近区内，所述第二生物合成基因簇编码产生通过由所述生物合成基因簇编码的酶产生的相同生物合成产物的酶；以及

在一些实施方案中，所提供的技术可用于评估人靶标与化合物的相互作用。在一些实施方案中，本公开内容提供了用于评估人靶标与化合物的相互作用的方法，其包括：

将人靶标的核酸序列或编码人靶标的核酸序列与包含一个或更多个ETaG的核酸序列的集合进行比较。

在一些实施方案中，与ETaG的同源性(核酸水平或蛋白质水平，包括其部分)涉及该ETaG的相关生物合成基因簇及其生物合成产物。在一些实施方案中，生物合成产物与人靶标之间的这样的联系指示人靶标或由此编码的产物的相互作用和/或调节。在一些实施方案中，这样的生物合成产物与人靶标或由此编码的产物相互作用和/或对其进行调节。

在一些实施方案中，所提供的技术可用于设计和/或提供人靶标的调节剂，因为所提供的技术尤其提供了生物合成基因簇、ETaG和人靶基因之间的联系。

在一些实施方案中，本公开内容提供了化合物，所述化合物是由生物合成基因簇编码的酶的产物，其中在相对于该生物合成基因簇中至少一个基因的邻近区内存在ETaG，所述ETaG：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，所提供的化合物是由所提供的生物合成基因簇编码的酶的产物。在一些实施方案中，所提供的化合物是由所提供的生物合成基因簇编码的酶的产物的类似物。在一些实施方案中，所提供的生物合成基因簇包含图5至12和20至39之一中所示的一个或更多个生物合成基因。在一些实施方案中，所提供的生物合成基因簇是图5至12和20至39之一。在一些实施方案中，所提供的化合物是由图5至12和20至39之一中所示的所提供生物合成基因簇编码的酶的产物。在一些实施方案中，所提供的化合物是图5至12和20至39之一中所示的所提供生物合成基因簇或包含图5至12和20至39之一中所示的一个或更多个生物合成基因的生物合成基因簇的产物。在一些实施方案中，所提供的化合物是图5至12和20至39之一中所示的所提供生物合成基因簇的产物。在一些实施方案中，所提供的化合物是包含图5至12和20至39之一中所示的一个或更多个生物合成基因的所提供生物合成基因簇的产物。在一些实施方案中，所提供的化合物是由图5至12和20至39之一中所示的所提供生物合成基因簇编码的酶的产物的类似物。在一些实施方案中，所提供的化合物是包含图5至12和20至39之一中所示的一个或更多个生物合成基因的所提供生物合成基因簇的产物的类似物。在一些实施方案中，所提供的化合物调节人靶标的功能。在一些实施方案中，本公开内容提供了所提供化合物的药物组合物。在一些实施方案中，本公开内容提供了包含所提供化合物或其可药用盐的药物组合物。在一些实施方案中，本公开内容提供了包含所提供化合物或其可药用盐、以及可药用载体的药物组合物。在一些实施方案中，所提供组合物中的所提供化合物是由生物合成基因簇编码的酶的产物的类似物或其盐。在一些实施方案中，所提供组合物中的所提供化合物是由生物合成基因簇编码的酶的产物的非天然盐。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征人靶标的调节剂的方法，其包括：

提供产物或其类似物，所述产物通过由生物合成基因簇编码的酶产生，其中在相对于该生物合成基因簇中至少一个基因的邻近区内存在ETaG，所述ETaG：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

提供产物或其类似物，所述产物通过由生物合成基因簇编码的酶产生，其中在相对于该生物合成基因簇中至少一个生物合成基因的邻近区内存在ETaG，所述ETaG：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容提供了用于调节人靶标的方法，其包括：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容提供了用于治疗与人靶标相关的病症、障碍或疾病的方法，其包括向易患或患有所述病症、障碍或疾病的对象施用生物合成产物或其类似物，其中：

所述生物合成产物是生物合成基因簇的，其中在相对于该生物合成基因簇中至少一个基因的邻近区内存在ETaG，所述ETaG：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

所述生物合成产物是生物合成基因簇的，其中在相对于该生物合成基因簇中至少一个生物合成基因的邻近区内存在ETaG，所述ETaG：

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，人靶标是Ras蛋白。在一些实施方案中，人靶标包含RasGEF结构域。在一些实施方案中，人靶标包含RasGAP结构域。

在一些实施方案中，ETaG通过所提供的方法鉴定。

在一些实施方案中，产物(例如，生物合成产物)由真菌产生。在一些实施方案中，产物是无环的。在一些实施方案中，产物是聚酮化合物。在一些实施方案中，产物是萜化合物。在一些实施方案中，产物是非核糖体合成的。

在一些实施方案中，类似物是与参考物质共有一个或更多个特定结构特征、元件、组分或部分的物质。典型地，类似物显示与参考物质具有显著的结构相似性，例如共享核心或共有结构，但在某些离散方面也有所不同。在一些实施方案中，类似物是可由参考物质例如通过对参考物质进行化学操作而产生的物质。在一些实施方案中，类似物是可通过执行与产生参考物质的合成过程基本上相似(例如，与其共有多个步骤)的合成过程产生的物质。在一些实施方案中，类似物是通过或可通过执行与用于产生参考物质的合成过程不同的合成过程产生。在一些实施方案中，物质的类似物是在其可取代位置中一个或更多个处被取代的物质。

在一些实施方案中，产物的类似物包含产物的结构核心。在一些实施方案中，生物合成产物是环状的，例如单环、二环或多环的，并且产物的结构核心是或包含单环、二环或多环环系。在一些实施方案中，产物是或包含多肽，并且结构核心是多肽的骨架。在一些实施方案中，产物是或包含聚酮化合物，并且结构核心是聚酮化合物的骨架。

在一些实施方案中，类似物是经取代的生物合成产物。在一些实施方案中，类似物是或包含被如本文中所述的一个或更多个取代基取代的结构核心。

在一些实施方案中，本公开内容提供了所提供生物合成基因簇的生物合成产物或其类似物的组合物，其中ETaG存在于相对于该生物合成基因簇中至少一个基因的邻近区内。在一些实施方案中，所提供组合物是药物组合物。在一些实施方案中，所提供药物组合物包含：所提供生物合成基因簇的生物合成产物或其类似物的可药用盐，其中ETaG存在于相对于该生物合成基因簇中至少一个基因的邻近区内；以及可药用载体。

在一些实施方案中，如果一个事件或实体的存在、水平和/或形式与另一事件或实体的存在、水平和/或形式相关，则这两个事件或实体彼此相关。例如，如果特定实体(例如多肽、遗传特征、代谢物、微生物等)的存在、水平和/或形式与特定疾病、障碍或病症的发病率和/或易感性相关(例如，在相关人群中)，则认为该特定实体与该疾病、障碍或病症相关。

在一些实施方案中，疾病是癌症。在一些实施方案中，疾病是感染性疾病。在一些实施方案中，疾病是心脏病。在一些实施方案中，疾病与脂质、蛋白质、人代谢物等的水平相关。

附图说明

图1：图1示出了在狐粪青霉IBT 29486(Penicillium vulpinum IBT 29486)中鉴定的布雷菲德菌素A(Brefeldin A)ETaG。所鉴定的示例性ETaG是Sec7鸟嘌呤-核苷酸-交换-因子超家族(pfam01369)。序列相似性是使用MUSCLE比对算法计算的Sec7结构域的相似性。

图2：图2示出了在土曲霉ATCC 20542(Aspergillus terreus ATCC 20542)中鉴定的洛伐他汀(Lovastatin)ETaG。所鉴定的示例性ETaG是羟甲基戊二酰-辅酶A还原酶(HMG-CoA；pfam00368)。序列相似性是使用MUSCLE比对算法计算的HMG-CoA结构域的相似性。

图3：图3示出了在构巢曲霉FGSCA4(Aspergillus nidulans FGSCA4)中鉴定的非鲁米特(Fellutamide)ETaG。所鉴定的示例性ETaG是蛋白酶体20S β-亚基(pfam00227)。序列相似性是使用MUSCLE比对算法计算的20S β-亚基的相似性。

图4：图4示出了在膨大弯颈霉NRRL 8044(Tolypocladium inflatum NRRL 8044)中鉴定的环孢素ETaG。所鉴定的示例性ETaG是亲环蛋白型肽基-脯氨酰基顺反异构酶(pfam00160)。序列相似性是使用MUSCLE比对算法计算的亲环蛋白结构域的相似性。

图5：图5示出了在疏棉状嗜热丝孢菌ATCC 200065(Thermomyces lanuginosusATCC 200065)(公共的)中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图6：图6示出了在Talaromyces leycettanus菌株CBS 398.68中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图7：图7示出了在Sistotremastrum niveocremeum HHB9708或在Sistotremastrum suecicum HHB10207(国家林业服务(National Forestry Service))中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图8：图8示出了在双孢蘑菇贝纳特变种JB137-S8(Agaricus bisporusvar.burnettii JB137-S8)(真菌基因组库存中心(Fungal Genome Stock Center))中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图9：图9示出了在冈山灰盖鬼伞7#130(Coprinopsis cinerea okayama 7#130)(真菌基因组库存中心)中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图10：图10示出了在希金斯炭疽菌IMI 349063(Colletotrichum higginsianumIMI349063)(CABI)中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图11：图11示出了在Gyalolechia flavorubescens KoLRI002931中鉴定的RasETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图12：图12示出了在玉蜀黍平脐蠕孢ATCC 48331(Bipolaris maydis ATCC48331)中鉴定的Ras ETaG。所鉴定的示例性ETaG来自Ras家族(pfam00071)。序列相似性是使用MUSCLE比对算法计算的Ras结构域的相似性。ETaG示出在比例尺下方。

图13：图13示出了人Ras基因与某些所鉴定Ras ETaG的比对。如所示出的，人Ras基因与所示的ETaG在KRAS核苷酸结合残基的许多位置共有相同的氨基酸残基。

图14：图14示出了人Ras基因与某些所鉴定Ras ETaG的比对。如所示出的，人Ras基因与所示的ETaG于在BRAF的4A内的KRAS残基的许多位置共有相同的氨基酸残基。

图15：图15示出了人Ras基因与某些所鉴定Ras ETaG的比对。如所示出的，人Ras基因与所示的ETaG于在rasGAP的

内的KRAS残基的许多位置共有相同的氨基酸残基。

图16：图16示出了人Ras基因与某些所鉴定Ras ETaG的比对。如所示出的，人Ras基因与所示的ETaG于在SOS的

内的KRAS残基的许多位置共有相同的氨基酸残基。

图17：图17示出了其中ETaG被索引/标记(深色)的示例性序列。

图18：图18示出了在狐粪青霉IBT 29486中具有Sec7同源物的生物合成基因簇。

图19：图19示出了Sec7的序列比对。(A)示例性布雷菲德菌素A相互作用残基。(B)示例性序列比对。

图20：图20示出了例如来自疏棉状嗜热丝孢菌ATCC 200065、Aspergillusrambelli和赭曲霉(Aspergillus ochraceoroseus)的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图21：图21示出了例如来自双孢蘑菇贝纳特变种JB137-S8、双孢蘑菇H97(Agaricus bisporus H97)、冈山灰盖鬼伞、亚砖红垂暮菇FD-334(Hypholomasublateritum FD-334)的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图22：图22示出了例如来自Sistotremastrum niveocremeum HHB9708和Sistotremastrum suecicum HHB10207的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图23：图23示出了例如来自Talaromyces leycettanus菌株CBS 398.68的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图24：图24示出了例如来自坚脆嗜热子囊菌(Thermoascus crustaceus)的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图25：图25示出了例如来自玉蜀黍平脐蠕孢ATCC 48331的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图26：图26示出了例如来自希金斯炭疽菌IMI 349063的与Ras相关的示例性生物合成基因簇(CABI)。所示的Ras同源物以黑色标示。

图27：图27示出了例如来自Gyalolechia flavorubescens的与Ras相关的示例性生物合成基因簇。所示的Ras同源物以黑色标示。

图28：图28示出了例如来自产黄青霉威斯康星54-1255(Penicilliumchrysogenum Wisconsin 54-1255)和松针褐斑病菌CBS 871.95(Lecanosticta aciculaCBS 871.95)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图29：图29示出了例如来自稻大角间座壳70-15(Magnaporthe oryzae 70-15)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图30：图30示出了例如来自石膏样节皮菌CBS 118893(Arthroderma gypseum CBS118893)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图31：图31示出了例如来自Endocarpon pusillum菌株KoLRI No.LF000583的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图32：图32示出了例如来自肝色牛舌菌ATCC 64428(Fistulina hepatica ATCC64428)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图33：图33示出了例如来自出芽短梗霉普鲁兰变种EXF-150(Aureobasidiumpullulans var.pullulans EXF-150)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图34：图34示出了例如来自分枝枝顶孢普鲁兰变种EXF-150(Acremoniumfurcatum var.pullulans EXF-150)的与RasGAP相关的示例性生物合成基因簇。所示的RasGAP同源物以黑色标示。

图35：图35示出了例如来自淡紫紫霉菌株TERIBC 1(Purpureocillium lilacinumstrain TERIBC 1)和镰孢霉JS1030(Fusarium sp.JS1030)的与RasGEF相关的示例性生物合成基因簇。所示的RasGEF同源物以黑色标示。

图36：图36示出了例如来自多主棒孢霉UM 591(Corynespora cassiicola UM591)和稻大角间座壳菌株SV9610的与RasGAP相关的示例性生物合成基因簇。所示的RasGAP同源物以黑色标示。

图37：图37示出了例如来自尖孢炭疽菌菌株1 KC05_01(Colletotrichumacutatum strain 1 KC05_01)的与RasGAP相关的示例性生物合成基因簇。所示的RasGAP同源物以黑色标示。

图38：图38示出了例如来自炭团菌E7406B(Hypoxylon sp.E7406B)和葡萄间座壳分离珠DA912(Diaporthe ampelina isolate DA912)的与RasGAP相关的示例性生物合成基因簇。所示的RasGAP同源物以黑色标示。

图39：图39示出了例如来自云杉蓝状菌菌株9-3(Talaromyces piceae strain 9-3)和虫生簇孢RCEF 264(Sporothrix insectorum RCEF 264)的与RasGAP相关的示例性生物合成基因簇。所示的RasGAP同源物以黑色标示。

具体实施方式

1.定义

如本文中所用，除非另外指出，否则将应用以下定义。出于本公开内容的目的，化学元素根据Periodic Table of the Elements，CAS version，Handbook of Chemistryand Physics，75^th Ed来鉴定。另外，有机化学的一般原理描述于“Organic Chemistry”，Thomas Sorrell，University Science Books，Sausalito：1999，和“March’s AdvancedOrganic Chemistry”，5^th Ed.，Ed.：Smith，M.B.and March，J.，John Wiley&Sons，NewYork：2001中。

脂族：本文中使用的“脂族”意指完全饱和或包含一个或更多个不饱和单元的直链(即，无支链的)或支链的、经取代或未经取代的烃链、或者完全饱和或包含一个或更多个不饱和单元的经取代或未经取代的单环、二环或多环烃环，或者其组合。除非另外指出，否则脂族基团包含1至100个脂族碳原子。在一些实施方案中，脂族基团包含1至20个脂族碳原子。在另一些实施方案中，脂族基团包含1至10个脂族碳原子。在另一些实施方案中，脂族基团包含1至9个脂族碳原子。在另一些实施方案中，脂族基团包含1至8个脂族碳原子。在另一些实施方案中，脂族基团包含1至7个脂族碳原子。在另一些实施方案中，脂族基团包含1至6个脂族碳原子。在又一些实施方案中，脂族基团包含1至5个脂族碳原子，并且在又一些实施方案中，脂族基团包含1、2、3或4个脂族碳原子。合适的脂族基团包括但不限于线性或支链的、经取代或未经取代的烷基、烯基、炔基，及其杂合物。

烷基：本文中使用的术语“烷基”以其在本领域中的普通含义给出，并且可包括饱和的脂族基团，包括直链烷基、支链烷基、环烷基(脂环族基团)、经烷基取代的环烷基以及经环烷基取代的烷基。在一些实施方案中，烷基具有1至100个碳原子。在某些实施方案中，直链或支链烷基在其骨架中具有约1至20个碳原子(例如，对于直链，C₁-C₂₀；对于支链，C₂-C₂₀)，或者，约1至10个碳原子。在一些实施方案中，环烷基环在其环结构中具有约3至10个碳原子，其中这样的环为单环、二环或多环的，或者在环结构中具有约5、6或7个碳。在一些实施方案中，烷基可以是低级烷基，其中低级烷基包含1至4个碳原子(例如，对于直链低级烷基，C₁-C₄)。

芳基：单独或作为较大部分的一部分如“芳烷基”、“芳烷氧基”或“芳氧基烷基”中使用的术语“芳基”是指具有共计五至三十个环成员的单环、二环或多环环系，其中该体系中的至少一个环是芳香族的。在一些实施方案中，芳基是具有共计五至十四个环成员的单环、二环或多环环系，其中该体系中的至少一个环是芳香族的，并且其中该体系中的每个环包含3至7个环成员。在一些实施方案中，芳基为联芳基。术语“芳基”可与术语“芳环”互换使用。在本公开内容的某些实施方案中，“芳基”是指芳香族环系，其包括但不限于可具有一个或更多个取代基的苯基、联苯基、萘基、联萘基、蒽基，等等。在一些实施方案中，也包括在如本文中使用的术语“芳基”的范围内的是其中芳香环与一个或更多个非芳香环稠合的基团，例如茚满基、邻苯二甲酰亚胺基(phthalimidyl)、萘二甲酰亚胺基(naphthimidyl)、菲啶基或四氢萘基，等等，其中连接基团或连接点在芳环上。

环脂族：本文中使用的术语“环脂族”是指具有例如3至30个成员的饱和或部分不饱和的脂族单环、二环或多环环系，其中脂族环系任选地被取代。环脂族基团包括但不限于环丙基、环丁基、环戊基、环戊烯基、环己基、环己烯基、环庚基、环庚烯基、环辛基、环辛烯基、降冰片基(norbornyl)、金刚烷基(adamantyl)和环辛二烯基。在一些实施方案中，环烷基具有3至6个碳。术语“环脂族”还可包括与一个或更多个芳香环或非芳香环稠合的脂族环，例如十氢萘基或四氢萘基，其中连接基团或连接点在脂族环上。在一些实施方案中，碳环基团是二环的。在一些实施方案中，碳环基团是三环的。在一些实施方案中，碳环基团是多环的。在一些实施方案中，“环脂族”(或“碳环”或“环烷基”)是指完全饱和或包含一个或更多个不饱和单元但不是芳香族的单环C₃-C₆烃或C₈-C₁₀二环烃，或者完全饱和或包含一个或更多个不饱和单元但不是芳香族的C₉-C₁₆三环烃。

卤素：术语“卤素”意指F、Cl、Br或I。

杂脂族：术语“杂脂族”以其在本领域中的普通含义给出，并且是指其中一个或更多个碳原子被一个或更多个杂原子(例如，氧、氮、硫、硅、磷，等等)替代的如本文中所述的脂族基团。

杂烷基：术语“杂烷基”以其在本领域中的普通含义给出，并且是指其中一个或更多个碳原子被杂原子(例如，氧、氮、硫、硅、磷等)替代的如本文中所述的烷基。杂烷基的一些实例包括但不限于烷氧基、聚(乙二醇)-、烷基-取代的氨基、四氢呋喃基、哌啶基、吗啉基等。

杂芳基：单独或作为较大部分例如“杂芳烷基”或“杂芳烷氧基”的一部分使用的术语“杂芳基”和“杂芳-”是指具有例如共计5至30个环成员的单环、二环或多环环系，其中该体系中的至少一个环是芳香族的并且至少一个芳香环原子是杂原子。在一些实施方案中，杂原子是氮、氧或硫。在一些实施方案中，杂芳基是具有5至10个环原子(即，单环、二环或多环的)，在一些实施方案中，5、6、9或10个环原子的基团。在一些实施方案中，杂芳基具有在环阵列中共有的6、10或14个π电子；并且除碳原子之外还具有1至5个杂原子。杂芳基包括但不限于噻吩基、呋喃基、吡咯基、咪唑基、吡唑基、三唑基、四唑基、

唑基、异

唑基、

二唑基、噻唑基、异噻唑基、噻二唑基、吡啶基、哒嗪基、嘧啶基、吡嗪基、吲嗪基、嘌呤基、萘啶基和蝶啶基。在一些实施方案中，杂芳基是杂联芳基，例如联吡啶基等。本文中使用的术语“杂芳基”和“杂芳-”还包括其中杂芳香环与一个或更多个芳环、环脂族环或杂环基环稠合的基团，其中连接基团或连接点在杂芳香环上。一些非限制性实例包括吲哚基、异吲哚基、苯并噻吩基、苯并呋喃基、二苯并呋喃基、吲唑基、苯并咪唑基、苯并噻唑基、喹啉基、异喹啉基、噌啉基、酞嗪基、喹唑啉基、喹喔啉基、4H-喹啉基、咔唑基、吖啶基、吩嗪基、吩噻嗪基、吩

嗪基、四氢喹啉基、四氢异喹啉基以及吡啶并[2，3-b]-1，4-

嗪-3(4H)-酮。杂芳基可以是单环、二环或多环的。术语“杂芳基”可与术语“杂芳环”、“杂芳基基团”或“杂芳香族”互换使用，其中任何术语均包括任选经取代的环。术语“杂芳烷基”是指被杂芳基取代的烷基，其中烷基和杂芳基部分独立地任选被取代。

杂原子：术语“杂原子”意指不是碳或氢的原子。在一些实施方案中，杂原子是氧、硫、氮、磷、硼或硅(包括氮、硫、磷或硅的任何氧化形式；杂环的任何碱性氮或可取代氮的季铵化形式(例如，N(如在3，4-二氢-2H-吡咯基中)、NH(如在吡咯烷基中)或NR⁺(如在N-取代的吡咯烷基中))；等)。在一些实施方案中，杂原子是硼、氮、氧、硅、硫或磷。在一些实施方案中，杂原子是氮、氧、硅、硫或磷。在一些实施方案中，杂原子是氮、氧、硫或磷。在一些实施方案中，杂原子是氮、氧或硫。

杂环基：本文中使用的术语“杂环”、“杂环基”、“杂环基团”和“杂环环”可互换使用，并且是指饱和或部分不饱和并且具有一个或更多个杂原子环原子的单环、二环或多环部分(例如3至30元)。在一些实施方案中，杂原子是硼、氮、氧、硅、硫或磷。在一些实施方案中，杂原子是氮、氧、硅、硫或磷。在一些实施方案中，杂原子是氮、氧、硫或磷。在一些实施方案中，杂原子是氮、氧或硫。在一些实施方案中，杂环基是饱和或部分不饱和并且除碳原子之外还具有一个或更多个，优选1至4个如上限定的杂原子的稳定的5至7元单环或7至10元二环杂环部分。当用于提及杂环的环原子时，术语“氮”包括经取代的氮。作为一个实例，在具有选自氧、硫或氮的0至3个杂原子的饱和或部分不饱和环中，氮可以是N(如在3，4-二氢-2H-吡咯基中)、NH(如在吡咯烷基中)或⁺NR(如在N-取代的吡咯烷基中)。杂环可在产生稳定结构的任何杂原子或碳原子处与其侧基连接，并且任何环原子均可任选地被取代。这样的饱和或部分不饱和杂环基团的一些实例包括但不限于四氢呋喃基、四氢噻吩基、吡咯烷基、哌啶基、吡咯啉基、四氢喹啉基、四氢异喹啉基、十氢喹啉基、

唑烷基、哌嗪基、二

烷基、二氧戊环基、二氮杂

基、氧氮杂

基、噻氮

基(thiazepinyl)、吗啉基和奎宁环基。术语“杂环”、“杂环基”、“杂环基环”、“杂环族基团”、“杂环部分”和“杂环基团”在本文中可互换使用，并且还包括其中杂环基环与一个或更多个芳环、杂芳环或环脂族环稠合的基团，例如吲哚啉基、3H-吲哚基、色满基、菲啶基或四氢喹啉基，其中连接基团或连接点在杂脂族环上。杂环基可以是单环、二环或多环的。术语“杂环基烷基”是指被杂环基取代的烷基，其中烷基和杂环基部分独立地任选被取代。

部分不饱和的：本文中使用的术语“部分不饱和的”是指包含至少一个双键或三键的部分。术语“部分不饱和的”旨在涵盖具有多个不饱和位点的基团，但并不旨在包括芳基或杂芳基部分。

药物组合物：本文中使用的术语“药物组合物”是指与一种或更多种可药用载体一起配制的活性剂。在一些实施方案中，活性剂以适于在治疗方案中施用的单位剂量量存在，所述治疗方案在施用于相关群体时显示出统计学显著的实现预定治疗作用的概率。在一些实施方案中，可将药物组合物特别地配制为以固体或液体形式施用，包括适于以下的那些：经口施用，例如，顿服药(drench)(水性或非水性溶液剂或混悬剂)，片剂，例如靶向口含、舌下和全身吸收的那些，丸剂，散剂，颗粒剂，施加于舌的糊剂；肠胃外施用，例如通过皮下、肌内、静脉内或硬膜外注射，如例如无菌溶液剂或混悬剂、或缓释制剂；表面施加，例如如乳膏剂、软膏剂或控释贴剂或喷雾剂，其施加至皮肤、肺或口腔；阴道内或直肠内，例如如阴道栓剂(pessary)、乳膏剂或泡沫剂(foam)；舌下；眼部；经皮；或经鼻、经肺和到其他黏膜表面。

可药用的：本文中使用的词组“可药用的”是指在合理医学判断的范围内适用于与人和动物的组织接触而无过度毒性、刺激性、变应性应答或其他问题或并发症、与合理的益处/风险比相称的那些化合物、材料、组合物和/或剂型。

可药用载体：本文中使用的术语“可药用载体”意指涉及将主题化合物从身体的一个器官或部位运送或转运至身体的另一器官或部位的可药用的材料、组合物或载剂，例如液体或固体填充剂、稀释剂、赋形剂或溶剂包封材料。在与制剂的其他成分相容并且对患者无害的意义上，每种载体必须是“可接受的”。可用作可药用载体的材料的一些实例包括：糖，例如乳糖、葡萄糖和蔗糖；淀粉，例如玉米淀粉和马铃薯淀粉；纤维素及其衍生物，例如羧甲基纤维素钠、乙基纤维素和乙酸纤维素；粉化黄芪胶；麦芽；明胶；滑石；赋形剂，例如可可脂和栓剂用蜡(suppository wax)；油，例如花生油、棉籽油、红花籽油、芝麻油、橄榄油、玉米油和大豆油；二醇，例如丙二醇；多元醇，例如甘油、山梨糖醇、甘露醇和聚乙二醇；酯，例如油酸乙酯和月桂酸乙酯；琼脂；缓冲剂，例如氢氧化镁和氢氧化铝；藻酸；无热原水；等张盐水；林格液(Ringer’s solution)；乙醇；pH缓冲溶液；聚酯、聚碳酸酯和/或聚酐；以及药物制剂中使用的其他无毒的相容性物质。

可药用盐：本文中使用的术语“可药用盐”是指适用于药学背景的这样的化合物的盐，即在合理医学判断的范围内适用于与人和低等动物的组织接触而无过度毒性、刺激性、变应性应答等且与合理的益处/风险比相称的盐。

可药用盐是公知的。例如，S.M.Berge，et al.在J.Pharmaceutical Sciences，66：1-19(1977)中详细描述了可药用盐。在一些实施方案中，可药用盐包括但不限于无毒的酸加成盐，其是与无机酸例如盐酸、氢溴酸、磷酸、硫酸和高氯酸或者与有机酸例如乙酸、马来酸、酒石酸、柠檬酸、琥珀酸或丙二酸或者通过使用其他已知方法例如离子交换形成的氨基的盐。在一些实施方案中，可药用盐包括但不限于己二酸盐、藻酸盐、抗坏血酸盐、天冬氨酸盐、苯磺酸盐、苯甲酸盐、硫酸氢盐、硼酸盐、丁酸盐、樟脑酸盐(camphorate)、樟脑磺酸盐、柠檬酸盐、环戊烷丙酸盐、二葡糖酸盐、十二烷基硫酸盐、乙磺酸盐、甲酸盐、延胡索酸盐、葡庚糖酸盐、甘油磷酸盐、葡糖酸盐、半硫酸盐、庚酸盐、己酸盐、氢碘酸盐、2-羟基-乙磺酸盐、乳糖酸盐、乳酸盐、月桂酸盐、月桂基硫酸盐、苹果酸盐、马来酸盐、丙二酸盐、甲磺酸盐、2-萘磺酸盐、烟酸盐、硝酸盐、油酸盐、草酸盐、棕榈酸盐、扑酸盐、果胶酸盐(pectinate)、过硫酸盐、3-苯基丙酸盐、磷酸盐、苦味酸盐、新戊酸盐、丙酸盐、硬脂酸盐、琥珀酸盐、硫酸盐、酒石酸盐、硫氰酸盐、对甲苯磺酸盐、十一酸盐、戊酸盐等。在一些实施方案中，可药用盐包括但不限于无毒的碱加成盐，例如由所提供化合物的酸性基团(例如，寡核苷酸的磷酸酯键基团、寡核苷酸的硫代磷酸酯键基团等)与碱形成的那些。代表性碱金属盐或碱土金属盐包括钠、锂、钾、钙、镁等的盐。在一些实施方案中，可药用盐是铵盐(例如，-N(R)₃ ⁺)。在一些实施方案中，可药用盐是钠盐。在一些实施方案中，可药用盐在适当时包括使用反离子例如卤离子、氢氧根、羧酸根、硫酸根、磷酸根、硝酸根、具有1至6个碳原子的烷基、磺酸根和芳基磺酸根形成的无毒的铵、季铵和胺阳离子。

保护基：本文中使用的词组“保护基”是指保护潜在反应性官能团免于不期望的化学转化的临时取代基。这样的保护基的一些实例分别包括羧酸的酯、醇的甲硅烷基醚，以及醛和酮的缩醛和缩酮。“Si保护基”是包含Si原子的保护基，例如Si-三烷基(例如，三甲基甲硅烷基、三丁基甲硅烷基、叔丁基二甲基甲硅烷基)、Si-三芳基、Si-烷基-二苯基(例如，叔丁基二苯基甲硅烷基)或Si-芳基-二烷基(例如，Si-苯基二烷基)。通常来说，Si保护基与氧原子连接。已经综述了保护基化学领域(Greene，T.W.；Wuts，P.G.M.Protective Groups mOrganic Synthesis，5th ed.；John Wiley and Sons：Hoboken，NJ，2014)。示例性保护基(和相关的受保护部分)在下文详细描述。

受保护的羟基是本领域中公知的，并且包括在Protecting Groups in OrganicSynthesis，T.W.Greene and P.G.M.Wuts，3^rd edition，John Wiley&Sons，1999中详细描述的那些，其整体通过引用并入本文。适当保护的羟基的一些实例还包括但不限于酯、碳酸酯、磺酸酯、烯丙基醚、醚、甲硅烷基醚、烷基醚、芳基烷基醚以及烷氧基烷基醚。合适的酯的一些实例包括甲酸酯、乙酸酯、丙酸酯、戊酸酯、巴豆酸酯和苯甲酸酯。合适的酯的一些具体实例包括甲酸酯、甲酸苯甲酰酯、氯乙酸酯、三氟乙酸酯、甲氧基乙酸酯、三苯基甲氧基乙酸酯、对氯苯氧基乙酸酯、3-苯基丙酸酯、4-氧代戊酸酯、4，4-(亚乙基二硫代)戊酸酯、新戊酸酯(三甲基乙酸酯)、巴豆酸酯、4-甲氧基-巴豆酸酯、苯甲酸酯、对苄基苯甲酸酯、2，4，6-三甲基苯甲酸酯。合适的碳酸酯的一些实例包括9-芴基甲基碳酸酯、碳酸乙酯、2，2，2-三氯乙基碳酸酯、2-(三甲基甲硅烷基)乙基碳酸酯、2-(苯基磺酰基)乙基碳酸酯、碳酸乙烯酯、碳酸烯丙酯和对硝基苄基碳酸酯。合适的甲硅烷基醚的一些实例包括三甲基甲硅烷基醚、三乙基甲硅烷基醚、叔丁基二甲基甲硅烷基醚、叔丁基二苯基甲硅烷基醚、三异丙基甲硅烷基醚以及其他三烷基甲硅烷基醚。合适的烷基醚的一些实例包括甲基醚、苄基醚、对甲氧基苄基醚、3，4-二甲氧基苄基醚、三苯甲基醚、叔丁基醚和烯丙基醚、或者其衍生物。烷氧基烷基醚包括缩醛，例如甲氧基甲基醚、甲硫基甲基醚、(2-甲氧基乙氧基)甲基醚、苄氧基甲基醚、β-(三甲基甲硅烷基)乙氧基甲基醚和四氢吡喃-2-基醚。合适的芳基烷基醚的一些实例包括苄基醚、对甲氧基苄基(MPM)醚、3，4-二甲氧基苄基醚、邻硝基苄基醚、对硝基苄基醚、对卤代苄基醚、2，6-二氯苄基醚、对氰基苄基醚、2-吡啶甲基醚和4-吡啶甲基醚。

受保护的胺是本领域中公知的，并且包括在Greene(1999)中详细描述的那些。合适的单保护胺还包括但不限于芳烷基胺、氨基甲酸酯、烯丙基胺、酰胺，等等。合适的单保护氨基部分的一些实例包括叔丁基氧基羰基氨基(-NHBOC)、乙氧基羰基氨基、甲氧基羰基氨基、三氯乙氧基羰基氨基、烯丙氧基羰基氨基(-NHAlloc)、苄基氧羰基氨基(-NHCBZ)、烯丙基氨基、苄基氨基(-NHBn)、芴基甲基羰基(-NHFmoc)、甲酰氨基、乙酰氨基、氯乙酰氨基、二氯乙酰氨基、三氯乙酰氨基、苯乙酰氨基、三氟乙酰氨基、苯甲酰氨基、叔丁基二苯基甲硅烷基，等等。合适的双保护胺包括被两个独立地选自上述按照单保护胺描述的那些的取代基取代的胺，并且还包括环状酰亚胺，例如邻苯二甲酰亚胺、马来酰亚胺、琥珀酰亚胺等。合适的双保护胺还包括吡咯等、2，2，5，5-四甲基-[1，2，5]氮杂二硅杂环戊烷(2，2，5，5-tetramethyl-[1，2，5]azadisilolidine)等，以及叠氮化物。

受保护的醛是本领域中公知的，并且包括在Greene(1999)中详细描述的那些。合适的受保护醛还包括但不限于无环缩醛、环状缩醛、腙、亚胺，等等。这样的基团的一些实例包括二甲基缩醛、二乙基缩醛、二异丙基缩醛、二苄基缩醛、双(2-硝基苄基)缩醛、1，3-二

烷、1，3-二氧戊环、缩氨基脲，及其衍生物。

受保护的羧酸是本领域中公知的，并且包括在Greene(1999)中详细描述的那些。合适的受保护羧酸还包括但不限于：任选经取代的C_1-6脂族酯、任选经取代的芳基酯、甲硅烷基酯、活化酯、酰胺、酰肼，等等。这样的酯基的一些实例包括甲酯、乙酯、丙酯、异丙酯、丁酯、异丁酯、苄酯和苯酯，其中每个基团是任选经取代的。另外的合适的受保护羧酸包括

唑啉和原酸酯。

受保护的硫醇是本领域中公知的，并且包括在Greene(1999)中详细描述的那些。合适的受保护硫醇还包括但不限于二硫化物、硫醚、甲硅烷基硫醚、硫酯、硫代碳酸酯和硫代氨基甲酸酯，等等。这样的基团的一些实例包括但不限于烷基硫醚、苄基硫醚和经取代的苄基硫醚、三苯基甲基硫醚以及三氯乙氧基羰基硫酯，等等。

取代：如本文中所述，本公开内容的化合物可包含任选经取代的和/或经取代的部分。通常来说，术语“经取代的”无论前面是否有术语“任选”意指指定部分的一个或更多个氢被合适的取代基替代。除非另外指出，否则“任选经取代的”基团可在该基团的每个可取代位置具有合适的取代基，并且当任何给定结构中的多于一个位置可被选自指定组的多于一个取代基取代时，该取代基可以在每个位置相同或不同。本公开内容预见的取代基的组合优选地是使得形成稳定或化学上可行的化合物的那些。本文中使用的术语“稳定的”是指以下化合物，其当经受允许其产生、检测以及在某些实施方案中允许其回收、纯化以及用于一种或更多种本文中公开的目的的条件时基本上不改变。在一些实施方案中，一些示例性取代基描述于下文。

合适的单价取代基是卤素；-(CH₂)_0-4R^o；-(CH₂)_0-4OR^o；-O(CH₂)_0-4R^o；-O-(CH₂)_0-4C(O)OR^o；-(CH₂)_0-4CH(OR^o)₂；可被R^o取代的-(CH₂)_0-4Ph；可被R^o取代的-(CH₂)_1-4O(CH₂)_0-1Ph；可被R^o取代的-CH＝CHPh；可被R^o取代的-(CH₂)_0-4O(CH₂)_0-1-吡比啶基；-NO₂；-CN；-N₃；-(CH₂)_0- ₄N(R^o)₂；-(CH₂)₀-₄N(R^o)C(O)R^o；-N(R^o)C(S)R^o；-(CH₂)_0-4N(R^o)C(O)N(R^o)₂；-N(R^o)C(S)N(R^o)₂；-(CH₂)_0-4N(R^o)C(O)OR^o；-N(R^o)N(R^o)C(O)R^o；-N(R^o)N(R^o)C(O)N(R^o)₂；-N(R^o)N(R^o)C(O)OR^o；-(CH₂)_0-4C(O)R^o；-C(S)R^o；-(CH₂)_0-4C(O)OR^o；-(CH₂)_0-4C(O)SR^o；-(CH₂)_0-4C(O)OSi(R^o)₃；-(CH₂)_0-4OC(O)R^o；-OC(O)(CH₂)_0-4SR^o；-SC(S)SR^o；-(CH₂)_0-4SC(O)R^o；-(CH₂)_0-4C(O)N(R^o)₂；-C(S)N(R^o)₂；-C(S)SR^o；-SC(S)SR^o；-(CH₂)_0-4OC(O)N(R^o)₂；-C(O)N(OR^o)R^o；-C(O)C(O)R^o；-C(O)CH₂C(O)R^o；-C(NOR^o)R^o；-(CH₂)_0-4SSR^o；-(CH₂)_0-4S(O)₂R^o；-(CH₂)_0-4S(O)₂OR^o；-(CH₂)_0-4OS(O)₂R^o；-S(O)₂N(R^o)₂；-(CH₂)_0-4S(O)R^o；-N(R^o)S(O)₂N(R^o)₂-N(R^o)S(O)₂R^o；-N(OR^o)R^o；-C(NH)N(R^o)₂；-Si(R^o)₃；-OSi(R^o)₃；-P(R^o)₂；-P(OR^o)₂；-OP(R^o)₂；-OP(OR^o)₂；-N(R^o)P(R^o)₂；-B(R^o)₂；-OB(R^o)₂；-P(O)(R^o)₂；-OP(O)(R^o)₂；-N(R^o)P(O)(R^o)₂；-(C_1-4直链或支链亚烷基)O-N(R^o)₂；或-(C_1-4直链或支链亚烷基)C(O)O-N(R^o)₂；其中每个R^o可以如下限定进行取代，并且独立地是氢；C_1-20脂族；具有1至5个独立地选自氮、氧、硫、硅和磷的杂原子的C_1-20杂脂族；-CH₂-(C_6-14芳基)；-O(CH₂)_0-1(C_6-14芳基)；-CH₂-(5至14元杂芳环)；具有0至5个独立地选自氮、氧、硫、硅和磷的杂原子的5至20元的单环、二环或多环的饱和、部分不饱和或芳基环，或者尽管有上述限定，两个独立出现的R^o与其间插原子合在一起形成具有0至5个独立地选自氮、氧、硫、硅和磷的杂原子的5至20元的单环、二环或多环的饱和、部分不饱和或芳基环，其可如下限定进行取代。

在R^o(或通过两个独立出现的R^o与其间插原子合在一起而形成的环)上的合适单价取代基独立地是卤素；-(CH₂)_0-2R^·；-(卤代R^·)；-(CH₂)_0-2OH；-(CH₂)_0-2OR^·；-(CH₂)_0-2CH(OR^·)₂；-O(卤代R^·)；-CN；-N₃；-(CH₂)_0-2C(O)R^·；-(CH₂)_0-2C(O)OH；-(CH₂)_0-2C(O)OR^·；-(CH₂)_0-2SR^·；-(CH₂)_0-2SH；-(CH₂)_0-2NH₂；-(CH₂)_0-2NHR^·；-(CH₂)_0-2NR^· ₂；-NO₂；-SiR^· ₃；-OSiR^· ₃；-C(O)SR^·；-(C_1-4直链或支链亚烷基)C(O)OR^·；或-SSR^·，其中每个R^·是未经取代的或者在前面有“卤代”的情况下仅被一个或更多个卤素取代，并且独立地选自C_1-4脂族；-CH₂Ph；-O(CH₂)_0-1Ph；或者具有0至4个独立地选自氮、氧和硫的杂原子的5至6元的饱和、部分不饱和或芳基环。在R^o的饱和碳原子上的合适二价取代基包括＝O和＝S。

合适的二价取代基为以下：＝O；＝S；＝NNR^* ₂；＝NNHC(O)R^*；＝NNHC(O)OR^*；＝NNHS(O)₂R^*；＝NR^*；＝NOR^*；-O(C(R^* ₂))_2-3O-；或-S(C(R^* ₂))_2-3S-，其中每个独立出现的R^*选自氢；可如以下限定进行取代的C_1-6脂族；或具有0至4个独立地选自氮、氧和硫的杂原子的未经取代的5至6元饱和、部分不饱和或芳基环。与“任选经取代的”基团的邻位可取代碳结合的合适二价取代基包括：-O(CR^* ₂)_2-3O-，其中每个独立出现的R^*选自氢；可如以下限定进行取代的C_1-6脂族；或具有0至4个独立地选自氮、氧和硫的杂原子的未经取代的5至6元饱和、部分不饱和或芳基环。

在R^*的脂族基团上的合适取代基是卤素；-R^·；-(卤代R^·)；-OH；-OR^·；-O(卤代R^·)；-CN；-C(O)OH；-C(O)OR^·；-NH₂；-NHR^·；-NR^· ₂；或-NO₂，其中每个R^·是未经取代的或者在前面有“卤代”的情况下仅被一个或更多个卤素取代的，并且独立地是C_1-4脂族；-CH₂Ph；-O(CH₂)_0-1Ph；或具有0至4个独立地选自氮、氧和硫的杂原子的5至6元饱和、部分不饱和或芳基环。

在一些实施方案中，在可取代氮上的合适取代基是

或

其中每个

独立地是氢；可如下限定进行取代的C_1-6脂族；未经取代的-OPh；或具有0至4个独立地选自氮、氧和硫的杂原子的未经取代的5至6元饱和、部分不饱和或芳基环，或者尽管有上述限定，两个独立出现的

与其间插原子合在一起形成具有0至4个独立地选自氮、氧和硫的杂原子的未经取代的3至12元饱和、部分不饱和或芳基单环或二环。

在

的脂族基团上的合适取代基独立地是卤素；-R^·；-(卤代R^·)；-OH；-OR^·；-O(卤代R^·)；-CN；-C(O)OH；-C(O)OR^·；-NH₂；-NHR^·；-NR^· ₂；或-NO₂，其中每个R^·是未经取代的或者在前面有“卤代”的情况下仅被一个或更多个卤素取代，并且独立地是C_1-4脂族；-CH₂Ph；-O(CH₂)_0-1Ph；或具有0至4个独立地选自氮、氧和硫的杂原子的5至6元饱和、部分不饱和或芳基环。

不饱和的：本文中使用的术语“不饱和的”意指部分具有一个或更多个不饱和单元。

除非另外指出，否则包括所提供化合物的盐例如可药用的酸加成盐或碱加成盐、立体异构形式和互变异构形式。

2.某些实施方案的详细描述

本公开内容尤其涵盖了这样的认识：通过由真菌生物合成基因簇编码的酶产生的许多产物可用于开发针对人靶标以治疗多种疾病的治疗剂。本公开内容认识到使用真菌产物的一个挑战是鉴定其人靶标。在一些实施方案中，本公开内容提供了用于有效鉴定通过由真菌生物合成基因簇编码的酶产生的生物合成产物的人靶标的技术。在一些实施方案中，所提供的技术鉴定在生物合成基因簇中生物合成基因的邻近区中的嵌入靶基因(ETaG)，并且任选地还通过将ETaG序列与人核酸序列、特别是表达的人核酸序列(包括编码蛋白质的人基因)进行比较来鉴定通过由生物合成基因簇编码的酶产生的生物合成产物的人靶标。如本领域技术人员容易理解的，来自生物合成基因簇的生物合成产物、ETaG和人靶标之间的联系一旦建立可用于多种方法中。例如，可从通过由生物合成基因簇编码的酶产生的生物合成产物开始，到在该生物合成基因簇中生物合成基因的邻近区内的ETaG，然后到与该ETaG同源的人靶标。一旦鉴定了人靶标，可对其进行优先排序(prioritize)(即使其先前被认为是不可成药的)，并且使用本领域技术人员可用的许多方法使用生物合成产物开发人靶标的调节剂，包括任选地进一步优化生物合成产物，以用于医学用途，例如通过制备和测定产物的类似物。也可从具有治疗意义的人靶标开始，到与人靶标同源的ETaG，然后到包含生物合成基因的生物合成基因簇，相对于该生物合成基因的邻近区包含该ETaG。一旦鉴定了生物合成基因簇，就可对通过由该生物合成基因簇编码的酶产生的生物合成产物进行表征和测定以调节人靶标或其产物。根据本公开内容，可将生物合成产物用作先导物以使用本领域中的许多方法进行优化，以提供可用于许多医学目的例如治疗目的的药剂。

在无意于受任何理论限制的情况下，在一些实施方案中，本公开内容涵盖了这样的认识：来自真核生物的ETaG和/或由此编码的产物与例如其在原核生物例如细菌中的对应物(如果有的话)相比可与哺乳动物基因和/或由此编码的产物具有更高相似性；在一些实施方案中，真核生物ETaG可以在治疗上更相关。在一些实施方案中，鉴于真菌与哺乳动物在系统树中的亲缘亲近性，真菌中的ETaG可特别用于开发人治疗剂。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征ETaG的技术，所述ETaG是非生物合成基因，这在于：其不一定涉及通过由生物合成基因簇编码的酶产生的产物的合成，所述生物合成基因簇包含该ETaG，或者相对于所述生物合成基因簇的基因、在一些实施方案中，生物合成基因的邻近区包含该ETaG(由生物合成基因簇编码的酶可在无该ETaG的情况下产生生物合成产物)。在一些实施方案中，通过由生物合成基因簇编码的酶产生的产物的合成不需要ETaG，所述生物合成基因簇包含该ETaG，或者相对于所述生物合成基因簇的基因、在一些实施方案中，生物合成基因的邻近区包含该ETaG(由生物合成基因簇编码的酶可在无该ETaG的情况下产生生物合成产物)。在一些实施方案中，ETaG不涉及通过由生物合成基因簇编码的酶产生的产物的合成，所述生物合成基因簇包含该ETaG，或者相对于所述生物合成基因簇的基因、在一些实施方案中，生物合成基因的邻近区包含该ETaG(由生物合成基因簇编码的酶可在无该ETaG的情况下产生生物合成产物)。在一些实施方案中，ETaG与人基因同源或包含与人基因同源的序列，例如，与人蛋白质或序列(例如功能单元和/或结构单元，例如结构域、功能性结构性特征(螺旋、折叠片等)等)共有至少50％、55％、60％、65％、70％、75％、80％、85％、90％或95％同源性。

在一些实施方案中，ETaG与生物合成基因簇中的至少一个生物合成基因共调节。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：ETaG的表达与由生物合成基因簇的酶编码的产物的产生相关。在一些实施方案中，ETaG提供自保护功能。在一些实施方案中，ETaG编码通过生物合成基因簇的酶产生的产物的转运蛋白。在一些实施方案中，ETaG编码可使通过生物合成基因簇的酶产生的产物解毒的产物，例如蛋白质。在一些实施方案中，ETaG编码蛋白质的抗性变体，所述蛋白质的活性由通过生物合成基因簇的酶产生的产物靶向。

在一些实施方案中，本公开内容提供了包括以下的方法：

不涉及通过由生物合成基因簇编码的酶产生的产物的合成；

在相对于生物合成基因簇中至少一个生物合成基因的邻近区内；并且

任选地与生物合成基因簇中的至少一个生物合成基因共调节。

在一些实施方案中，ETaG与哺乳动物核酸序列同源。在一些实施方案中，本公开内容提供了包括以下的方法：

不涉及通过由生物合成基因簇编码的酶产生的产物的合成；

在相对于生物合成基因簇中至少一个生物合成基因的邻近区内；

与表达的哺乳动物核酸序列同源；并且

邻近区

在一些实施方案中，ETaG通常在相对于生物合成基因簇中至少一个基因的邻近区内。在一些实施方案中，ETaG在相对于生物合成基因簇中至少一个生物合成基因的邻近区内。在一些实施方案中，邻近区为在基因上游或下游的不超过1至100kb。在一些实施方案中，邻近区为在基因上游或下游的不超过1至50kb。在一些实施方案中，邻近区为在基因上游或下游的不超过1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80或90kb。在一些实施方案中，邻近区为在基因上游或下游的不超过1kb。在一些实施方案中，邻近区为在基因上游或下游的不超过5kb。在一些实施方案中，邻近区为在基因上游或下游的不超过10kb。在一些实施方案中，邻近区为在基因上游或下游的不超过15kb。在一些实施方案中，邻近区为在基因上游或下游的不超过20kb。在一些实施方案中，邻近区为在基因上游或下游的不超过25kb。在一些实施方案中，邻近区为在基因上游或下游的不超过30kb。在一些实施方案中，邻近区为在基因上游或下游的不超过35kb。在一些实施方案中，邻近区为在基因上游或下游的不超过40kb。在一些实施方案中，邻近区为在基因上游或下游的不超过45kb。在一些实施方案中，邻近区为在基因上游或下游的不超过50kb。

在一些实施方案中，ETaG在生物合成基因簇内。在一些实施方案中，ETaG不在由生物合成基因簇中第一基因和最后基因限定的区域内，而是在相对于生物合成基因簇中第一基因或最后基因的邻近区内。

同源性

在一些实施方案中，ETaG与表达的哺乳动物核酸序列同源。在一些实施方案中，哺乳动物核酸序列是表达的哺乳动物核酸序列。在一些实施方案中，哺乳动物核酸序列是哺乳动物基因。在一些实施方案中，哺乳动物核酸序列是表达的哺乳动物基因。在一些实施方案中，哺乳动物核酸是人核酸序列。在一些实施方案中，人核酸序列是表达的人核酸序列。在一些实施方案中，人核酸序列是人基因。在一些实施方案中，人核酸序列是表达的人基因。在一些实施方案中，人核酸序列是或其编码产物是具有治疗意义的现有靶标。在一些实施方案中，人核酸序列是或其编码产物是具有治疗意义的新靶标。在一些实施方案中，人核酸序列是或其编码产物是在本公开内容之前被认为不可成药的靶标。在一些实施方案中，人核酸序列是或其编码产物是在本公开内容之前被认为是不可通过小分子成药的靶标。在一些实施方案中，本公开内容提供了意想不到的发现：传统上认为不可成药的靶标可由小分子有效地调节或靶向，所述小分子是通过由生物合成基因簇编码的酶产生的生物合成产物或生物合成产物的类似物，所述生物合成基因簇包含生物合成基因，相对于所述生物合成基因的邻近区包含与靶标同源的ETaG(或其部分，或由此编码的产物和/或其部分)。

在一些实施方案中，本公开内容提供了包括以下的方法：

不涉及通过由生物合成基因簇编码的酶产生的产物的合成；

与表达的人核酸序列同源；并且

在一些实施方案中，ETaG与核酸序列共有核酸序列同源性。在一些实施方案中，ETaG序列与另一核酸序列(例如，表达的人核酸序列)同源，这在于：ETaG核酸序列或其一部分与另一核酸序列或其一部分在核酸碱基序列的水平上共有相似性。在一些实施方案中，ETaG的序列与另一核酸序列共有核酸碱基序列相似性。在一些实施方案中，ETaG的序列的一部分与另一核酸序列的一部分共有核酸碱基序列相似性。

在一些实施方案中，同源部分的长度是至少50、100、150、200、300、400、500、600、70、800、900或1000个碱基对。在一些实施方案中，长度是至少50个碱基对。在一些实施方案中，长度是至少100个碱基对。在一些实施方案中，长度是至少150个碱基对。在一些实施方案中，长度是至少200个碱基对。在一些实施方案中，长度是至少300个碱基对。在一些实施方案中，长度是至少400个碱基对。在一些实施方案中，长度是至少500个碱基对。

在一些实施方案中，同源部分编码氨基酸残基，所述氨基酸残基是所编码蛋白质的某些结构单元和/或功能单元的。例如，在一些实施方案中，同源部分可编码蛋白质结构域，其是所编码蛋白质的家族特征性的、具有酶促活性、负责与效应物相互作用，等等，如本公开内容中所述的。

用于评估核酸序列的相似性/同源性的方法是本领域中公知的，并且可根据本公开内容使用。

在一些实施方案中，ETaG与核酸序列在其编码的产物例如蛋白质中共有同源性。在一些实施方案中，ETaG与核酸序列是同源的，这在于：由ETaG编码的产物或其一部分与由该核酸序列编码的产物或其一部分共有相似性。在一些实施方案中，编码的产物是蛋白质。在一些实施方案中，由ETaG和核酸序列编码的产物在其全长上共有相似性。在一些实施方案中，由ETaG和核酸序列编码的产物在某些部分共有相似性。

在一些实施方案中，ETaG与核酸是同源的，这在于：由该ETaG或其一部分编码的蛋白质与由该核酸或其一部分编码的蛋白质共有相似性。由ETaG和核酸序列编码的蛋白质可在其全长或部分的水平上共有相似性。在一些实施方案中，同源部分中的所有氨基酸残基是连续的。在一些实施方案中，同源部分中的氨基酸残基不是全部连续的。

在一些实施方案中，蛋白质的一部分是蛋白质结构域。在一些实施方案中，蛋白质结构域形成蛋白质家族特征性的结构。在一些实施方案中，蛋白质结构域执行特征性功能。例如，在一些实施方案中，蛋白质结构域具有酶功能。在一些实施方案中，这样的功能是由ETaG编码的蛋白质与由同源核酸序列例如人基因编码的蛋白质共有的。在一些实施方案中，特征性功能是非酶的。在一些实施方案中，特征性功能是与另一些实体例如小分子、核酸、蛋白质等的相互作用。

在一些实施方案中，蛋白质的一部分是对于蛋白质功能重要的连续或不连续的氨基酸残基的集合。在一些实施方案中，功能是酶活性。在一些实施方案中，蛋白质的一部分是活性所需的残基的集合。在一些实施方案中，一部分是与底物、中间体、产物或辅因子相互作用的残基的集合。在一些实施方案中，一部分是与底物相互作用的残基的集合。在一些实施方案中，一部分是与中间体相互作用的残基的集合。在一些实施方案中，一部分是与产物相互作用的残基的集合。在一些实施方案中，一部分是与辅因子相互作用的残基的集合。

在一些实施方案中，功能是与另一实体的相互作用。在一些实施方案中，实体是小分子。在一些实施方案中，实体是脂质。在一些实施方案中，实体是碳水化合物。在一些实施方案中，实体是核酸。在一些实施方案中，实体是蛋白质。在一些实施方案中，一部分是与相互作用剂接触的氨基酸残基的集合。例如，图13示出了与Ras蛋白及其同源ETaG的核苷酸相互作用的部分(氨基酸集合)，以及图14至16示出了涉及蛋白质-蛋白质相互作用的部分。

在一些实施方案中，氨基酸残基与相互作用实体的相互作用可通过氢键键合、静电力、范德瓦耳斯力、芳香族堆积等来评估。在一些实施方案中，相互作用可通过氨基酸残基距相互作用实体的距离(例如，如在某些情况下使用的

)来评估。

在一些实施方案中，相似性在于：两个结构具有在1、2、3、4、5、6、7、8、9、10、15、20、30、40或50平方埃内的Cα骨架rmsd(均方根偏差(root mean square deviation))并且具有相同的整体折叠或核心结构域。在一些实施方案中，Cα骨架rmsd在内。

在一些实施方案中，蛋白质的一部分是或包含对于蛋白质效应物募集必不可少的结构元件。在一些实施方案中，这样的部分可基于由与ETaG同源的核酸序列(例如，与ETaG同源的编码蛋白质的人基因)编码的蛋白质的结构和/或活性数据来选择。

在一些实施方案中，蛋白质的一部分包含至少2至200、2至100、2至50、2至40、2至30、2至20、2至15、2至10、3至200、3至100、3至50、3至40、3至30、3至20、3至15、3至10、4至200、4至100、4至50、4至40、4至30、4至20、4至15、4至10、5至200、5至100、5至50、5至40、5至30、5至20、5至15或5至10个氨基酸残基。在一些实施方案中，蛋白质的一部分包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、40、50、60、70、80、90、100或150个氨基酸残基。在一些实施方案中，一部分包含至少2个氨基酸残基。在一些实施方案中，一部分包含至少3个氨基酸残基。在一些实施方案中，一部分包含至少4个氨基酸残基。在一些实施方案中，一部分包含至少5个氨基酸残基。在一些实施方案中，一部分包含至少6个氨基酸残基。在一些实施方案中，一部分包含至少7个氨基酸残基。在一些实施方案中，一部分包含至少8个氨基酸残基。在一些实施方案中，一部分包含至少9个氨基酸残基。在一些实施方案中，一部分包含至少10个氨基酸残基。在一些实施方案中，一部分包含至少15个氨基酸残基。在一些实施方案中，一部分包含至少20个氨基酸残基。在一些实施方案中，一部分包含至少25个氨基酸残基。在一些实施方案中，一部分包含至少30个氨基酸残基。

根据本公开内容，核酸序列和蛋白质序列的相似性可通过多种方法(包括本领域中已知的那些)来评估。例如，MUSCLE用于蛋白质序列。在一些实施方案中，相似性基于确切同一性，例如在给定位置的相同氨基酸残基来测量。在一些实施方案中，相似性基于一种或更多种共同特性，例如，具有一种或更多种相同或相似特性(例如，酸性、碱性、芳香族等)的氨基酸残基来测量。

在一些实施方案中，ETaG与核酸序列(例如，表达的人核酸序列)同源，这在于：ETaG与该核酸碱基序列之间的相似性不小于基于ETaG和该核酸序列的核酸序列或其部分，或者由ETaG和该核酸序列编码的蛋白质或其一部分的水平，如本文中所述的。在一些实施方案中，ETaG与核酸序列同源，这在于：ETaG与该核酸序列之间的相似性不小于基于ETaG和该核酸序列的核酸碱基序列或其部分的水平。在一些实施方案中，ETaG与核酸序列同源，这在于：ETaG与该核酸序列之间的相似性不小于基于由ETaG和该核酸序列编码的蛋白质或其一部分的水平。在一些实施方案中，水平为至少10％至99％。在一些实施方案中，水平为至少10％、20％、30％、40％、50％、60％、70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。在一些实施方案中，水平为至少10％。在一些实施方案中，水平为至少20％。在一些实施方案中，水平为至少30％。在一些实施方案中，水平为至少40％。在一些实施方案中，水平为至少50％。在一些实施方案中，水平为至少60％。在一些实施方案中，水平为至少70％。在一些实施方案中，水平为至少80％。在一些实施方案中，水平为至少90％。在一些实施方案中，水平为100％。在一些实施方案中，水平低于100％。在一些实施方案中，水平不超过90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。

在一些实施方案中，ETaG与核酸序列同源，这在于：由ETaG或其一部分编码的蛋白质具有与由该核酸序列编码的蛋白质的3维结构相似的3维结构。在一些实施方案中，相似性通过例如在1至100平方埃内，例如为5、10、20、30、40、50平方埃的Cα骨架rmsd(均方根偏差)来评估。在一些实施方案中，共有相似性的序列具有不超过10平方埃的Cα骨架rmsd，并且还具有相同的整体折叠或核心结构域。在一些实施方案中，结构相似性通过与另一实体例如小分子、核酸、蛋白质等的相互作用来评估。在一些实施方案中，结构相似性通过小分子结合来评估。在一些实施方案中，由嵌入靶基因或其一部分编码的蛋白质与由核酸序列编码的蛋白质具有相似的3维结构，这在于：与由嵌入靶基因或其一部分编码的蛋白质结合的小分子也与由该核酸序列或其一部分编码的蛋白质结合。在一些实施方案中，结合的Kd为不超过1至100(例如，为1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100)μM。

共调节

在一些实施方案中，ETaG与生物合成基因簇中的至少一个生物合成基因共调节，所述生物合成基因簇包含生物合成基因，相对于所述生物合成基因的邻近区包含该ETaG。在一些实施方案中，ETaG与生物合成基因簇共调节，所述生物合成基因簇包含生物合成基因，相对于所述生物合成基因的邻近区包含该ETaG。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：该ETaG的表达和/或由该ETaG编码的产物例如蛋白质的产生与通过由该生物合成基因簇编码的酶产生的生物合成产物的产生相关。在一些实施方案中，由ETaG编码的产物例如蛋白质的产生与通过由生物合成基因簇编码的酶的生物合成产物的产生在时间上重叠。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：当产生通过由生物合成基因簇编码的酶产生的生物合成产物时，ETaG的表达提高或开启。在一些实施方案中，ETaG与生物合成基因簇共调节，这在于：当产生通过由生物合成基因簇编码的酶产生的生物合成产物的水平提高时，ETaG的表达提高或开启。

在一些实施方案中，当产生通过由共调节的生物合成基因簇编码的酶产生的生物合成产物时，ETaG为其宿主生物体例如真菌提供了优势。例如，在一些实施方案中，由ETaG编码的蛋白质有助于将生物合成产物转运出产生该产物的细胞。在一些实施方案中，由ETaG编码的蛋白质使生物合成产物解毒，使得该生物合成产物不损害产生该生物合成产物的生物体，而是影响其他生物体的生长或存活。

在一些实施方案中，本公开内容提供了用于鉴定ETaG的多种方法。例如，在一些实施方案中，对通常来自不同真菌菌株的同源生物合成基因簇，例如其编码的酶产生相同生物合成产物(基于产物的预测(例如，基于序列的预测)和/或鉴定)的生物合成基因簇的集合进行比较。将存在于仅一个或数个生物合成基因簇(在生物合成基因簇内或在相对于生物合成基因簇中生物合成基因的邻近区内)但不存在于集合中大多数生物合成基因簇的非生物合成基因鉴定为ETaG候选物，并且任选地进一步将其与哺乳动物(例如人)核酸序列进行比较以鉴定同源哺乳动物核酸序列。在一些实施方案中，这样的方法可用于在基因组规模上，例如从许多(例如，数百、数千或甚至更多)基因组的序列中鉴定ETaG，如实施例中所示的。所鉴定的ETaG可基于其哺乳动物同源物，特别是人同源物的治疗重要性进行优先排序。在一些实施方案中，如附图中所示的，包含ETaG的生物体包含ETaG的一个或更多个同源基因。

在一些实施方案中，ETaG存在于集合中不超过1％、5％或10％的生物合成基因簇。在一些实施方案中，ETaG存在于集合中不超过1％、5％或10％的同源生物合成基因簇。在一些实施方案中，ETaG存在于集合中不超过1％、5％或10％的生物合成基因簇，所述生物合成基因簇编码产生相同生物合成产物的酶。在一些实施方案中，该百分比小于1％。在一些实施方案中，该百分比小于5％。在一些实施方案中，该百分比小于10％。

在一些实施方案中，本公开内容提供了特别有效且高效地鉴定编码具有治疗意义的靶标的人核酸的同源ETaG的方法，其通过查询所提供的核酸序列集合进行，所述核酸序列包含生物合成基因簇和/或在相对于该生物合成基因簇中生物合成基因的邻近区内的ETaG。

在一些实施方案中，本公开内容提供了如本文中所述的核酸序列集合。在一些实施方案中，本公开内容提供了核酸序列集合，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇。在一些实施方案中，本公开内容提供了核酸序列集合，所述核酸序列中的每一个存在于真菌菌株中并且包含ETaG。在一些实施方案中，本公开内容提供了核酸序列集合，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇和在相对于该生物合成基因簇中生物合成基因的邻近区内的ETaG。在一些实施方案中，包含生物合成基因簇的核酸序列不包含除相对于该生物合成基因簇中生物合成基因的邻近区和该生物合成基因簇的序列之外的序列。在一些实施方案中，本公开内容提供了包含所提供的核酸序列集合的数据库。

在一些实施方案中，所提供技术的生物合成基因簇包含编码可涉及共有至少一种共同化学属性的化合物的合成的酶的生物合成基因。在一些实施方案中，共同化学属性是环状核心结构。在一些实施方案中，共同化学属性是大环核心结构。在一些实施方案中，共同化学属性是共有的无环骨架。在一些实施方案中，共同化学属性是化合物全部属于某种类别，例如非核糖体肽(non-ribosomal peptide，NPRS)、萜、异戊二烯、生物碱等。在一些实施方案中，通过鉴定生物合成基因簇的单独ETaG，本公开内容可区分共有共同化学属性的化合物，即使其在结构上可以是相似的。

所提供的集合可具有不同大小和/或多样性。在一些实施方案中，期望具有来自更多物种的更多序列以提高ETaG和生物合成基因簇的数目。在一些实施方案中，集合包含至少100、200、300、400、500、1,000、1,500、2,000、3,000、5,000、10,000、20,000、50,000、100,000、500,000、1,000,000、1,500,000或2,000,000个包含生物合成基因簇的核酸序列。在一些实施方案中，集合包含至少100、200、300、400、500、1,000、1,500、2,000、3,000、5,000、10,000、50,000、100,000、500,000、1,000,000、1,500,000或2,000,000个生物合成基因簇。在一些实施方案中，集合包含至少100、200、300、400、500、1,000、1,500、2,000、3,000、5,000、10,000、50,000、100,000、500,000、1,000,000、1,500,000或2,000,000个与ETaG相关的生物合成基因簇(包含生物合成基因的生物合成基因簇，相对于所述生物合成基因的邻近区包含ETaG)。在一些实施方案中，集合包含至少100、200、300、400、500、1,000、1,500、2,000、3,000、5,000、10,000、50,000、100,000、500,000、1,000,000、1,500,000或2,000,000个ETaG。在一些实施方案中，所提供集合中的序列来自于来自不同物种例如不同真菌物种的至少100、200、300、400、500、1,000、1,500、2,000、3,000、5,000、10,000、20,000、50,000、100,000个基因组。

尤其地，所提供数据库和/或所提供集合如此构造以特别地提高以下的效率：例如，鉴定ETaG、鉴定与给定生物合成基因簇相关的ETaG、鉴定与给定ETAG相关的生物合成基因簇、鉴定与给定哺乳动物核酸序列(例如，人基因)同源的ETaG、鉴定与给定哺乳动物核酸序列(例如，人基因；任选地通过相关ETaG)相关的生物合成基因簇，鉴定与给定ETaG同源的哺乳动物核酸序列(例如人基因)、与给定生物合成基因簇(任选地通过相关ETaG)同源的哺乳动物核酸序列(例如人基因)，鉴定与通过由生物合成基因簇编码的酶产生的给定产物(和/或其类似物)相关的哺乳动物核酸序列(例如，人基因)(任选地通过相关ETaG和生物合成基因簇)、鉴定通过由与给定哺乳动物核酸序列(例如，人基因；任选地通过相关生物合成基因簇和ETaG)相关的生物合成基因簇编码的酶产生的产物(和/或其类似物)，等等。

例如，在一些实施方案中，在所提供的集合和/或数据库中的ETaG被索引/标记以进行检索。例如，图17(申请人指出所提供的集合和数据库可以包含数百、数千或数百万个序列)示出了来自所提供的集合和/或数据库中的示例性序列，其中ETaG被特别地索引/标记(深色)。尤其地，这样的结构特征可极大地提高例如查询效率：与其检索数十、数百或数千个基因组以查找与人目的基因同源的ETaG，可作为代替使用所提供技术以将检索集中在经索引/经标记的ETaG(例如，跳过非生物合成基因簇序列和/或非ETaG序列(例如，图17中的空箭头和在其之间的序列))以快速定位命中项(例如，图17中带圆圈的ETaG)，从而节省了检索绝大多数无关基因组信息的时间和资源。

作为补充或替代，所提供的序列集合和数据库被构造成使得ETaG可独立地用以下信息进行注释：例如，其相关生物合成基因簇(ETaG的相关生物合成基因簇是包含生物合成基因的生物合成基因簇，该ETaG在相对于所述生物合成基因的邻近区内)、通过由相关生物合成基因簇编码的酶产生的产物及其类似物、其同源哺乳动物核酸序列(例如，人基因)，等等。类似地，生物合成基因簇可独立地用以下信息进行注释：例如，其相关ETaG(生物合成基因簇的相关ETaG是在相对于该生物合成基因簇中生物合成基因的邻近区内的etg)、通过由该生物合成基因簇编码的酶产生的生物合成产物及其类似物、其相关ETaG的同源哺乳动物核酸序列及由其编码的产物，等等。通过使用索引和注释来构造序列数据，所提供的集合和数据库可提供许多优点。例如，在一些实施方案中，所提供的系统允许在保持数据大小和较低查询成本的同时利用可用的相关信息例如其相关的生物合成基因簇和人同源物快速访问ETaG，并且反之亦然。

在一些实施方案中，集合中至少10、20、50、100、200、500、1,000、2,000、2,500、5,000或10,000个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％、或者所有的ETaG独立地进行注释。在一些实施方案中，集合中至少10、20、50、100、200、500、1,000、2,000、2,500、5,000或10,000个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％、或者所有的ETaG独立地用其相关生物合成基因簇和同源哺乳动物核酸序列进行注释。在一些实施方案中，集合中至少10、20、50、100、200、500、1,000、2,000、2,500、5,000或10,000个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％、或者所有的生物合成基因簇独立地进行注释。在一些实施方案中，集合中至少10、20、50、100、200、500、1,000、2,000、2,500、5,000或10,000个、或者至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％或95％、或者所有的生物合成基因簇独立地用其相关ETaG进行注释。

在一些实施方案中，所提供的序列集合和/或数据库包含在计算机可读介质中。在一些实施方案中，本公开内容提供了系统，其包含一个或更多个非暂时性机器可读存储介质，该存储介质存储代表所提供的序列集合和/或数据库的数据。适合于包含所提供数据的非暂时性机器可读存储介质包括所有形式的非易失性存储区，包括例如半导体存储区器件，例如，EPROM、EEPROM和闪存存储区器件；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。尤其地，由于所提供的集合和数据库具有本文中所述的特定结构，所提供的系统可特别地有效。

在一些实施方案中，本公开内容提供了可执行所提供技术的计算机系统。在一些实施方案中，本公开内容提供了适于执行所提供方法的计算机系统。在一些实施方案中，本公开内容提供了适于查询所提供序列集合的计算机系统。在一些实施方案中，本公开内容提供了适于查询所提供数据库的计算机系统。在一些实施方案中，本公开内容提供了适于访问所提供数据库的计算机系统。

可用于实施全部或部分的所提供技术的计算机系统可包括多种形式的数字计算机。数字计算机的实例包括但不限于膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀锋服务器、大型计算机、智能电视和其他合适的计算机。移动设备可用于实施全部或部分的所提供技术。移动设备包括但不限于平板计算设备、个人数字助理、蜂窝电话、智能电话、数字照相机、数字眼镜和其他便携式计算设备。本文中所述的计算设备、其联系和关系以及其功能仅旨在作为实例，而并非旨在对本技术的实施进行限制。

本文中所述的全部或部分的技术及其多种修改形式可至少部分地通过由数据处理设备(例如，可编程处理器、计算机或多台计算机)执行或对其操作进行控制的计算机程序产品，例如，有形地在一个或更多个信息载体中，例如包含在一个或更多个有形的机器可读存储介质中的计算机程序来实施。

用于所提供技术的计算机程序可以以任何形式的编程语言(包括编译或解释语言)进行编写，并且其可以以任何形式(包括作为独立程序或作为模块、部分、子例程、或适用于计算环境的其他单元)进行部署。计算机程序可被部署为在一台计算机上或者于在一个站点或分布在多个站点上且通过网络互连的多台计算机上执行。

动作例如与实施程序和技术相关的动作可由执行一个或更多个计算机程序以执行所提供技术的一个或更多个可编程处理器来执行。可将全部或部分的过程作为专用逻辑电路例如FPGA(现场可编程门阵列)和/或ASIC(专用集成电路(application-specificintegrated circuit))进行实施。

适合于执行计算机程序的处理器包括例如通用和专用微处理器二者，以及任何种类的数字计算机的任意一个或更多个处理器。通常来说，处理器将从仅读存储区或随机访问存储区或二者接收指令和数据。计算机(包括服务器)的一些元件包括用于执行指令的一个或更多个处理器以及用于存储指令和数据的一个或更多个存储区器件。通常来说，计算机还将包括或有效耦合以从一个或更多个机器可读存储介质(例如用于存储数据的海量存储器件(例如，磁盘、磁光盘或光盘))接收数据或将数据传送到此，或二者皆可。适合于包含计算机程序指令和数据的非暂时性机器可读存储介质包括所有形式的非易失性存储区，包括例如半导体存储区器件，例如，EPROM、EEPROM和闪存存储区器件；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。

每个计算设备，例如平板计算机，可包含用于存储数据和计算机程序的硬盘驱动器，以及用于执行计算机程序的处理器件(例如，微处理器)和存储器(例如，RAM)。每个计算设备可包含图像捕获装置，例如静态照相机或摄像机。图像捕获装置可以是内置的或简单地可被计算设备访问。

每个计算设备可包含图形系统，该图形系统包含显示屏。显示屏例如LCD或CRT(阴极射线管)向用户显示由计算设备的图形系统生成的图像。如所公知的，在计算机显示器(例如，监视器)上的显示将计算机显示器物理转换。例如，如果计算机显示器是基于LCD的，则可通过在对用户在视觉上明显的物理转换中施加偏压来更改液晶的方向。作为另一个实例，如果计算机显示器是CRT，则可通过在也是视觉上明显的物理转换中的电子冲击来改变荧光屏的状态。每个显示屏可以是触敏的，允许用户通过虚拟键盘将信息输入到显示屏上。在一些计算设备(例如台式计算机或智能电话)上，可设置物理QWERTY键盘和滚轮，用于将信息输入到显示屏上。每个计算设备以及在其上执行的计算机程序也可以配置成接受语音命令，并响应于这样的命令而执行功能。

尤其地，所提供的技术(方法、集合、数据库、系统等)建立了生物合成基因簇、通过由生物合成基因簇编码的酶产生的产物、ETaG、ETaG的同源哺乳动物核酸序列(例如，人基因)等之间的联系。因此，在一些实施方案中，所提供的技术可特别有力地用于鉴定和/或表征通过由生物合成基因簇编码的酶产生的产物的人靶标。所提供的技术也可特别有力地用于鉴定和开发用于人靶标的调节剂。例如，在一些实施方案中，为了开发用于人靶标的治疗剂，人靶标(或编码人靶标的核酸序列)的ETaG可使用所提供的技术以及其相关生物合成基因簇和/或通过生物合成基因簇的酶产生的生物合成产物的信息快速鉴定。可进一步表征相关生物合成基因簇的产物，并且如必要的话，可制备、表征和测定其类似物以开发具有改善特性的治疗剂。所提供的技术可特别用于在本公开内容之前靶向具有挑战性和/或被认为不可成药的人靶标。

在一些实施方案中，本公开内容提供了使用所鉴定的ETaG和由此编码的产物来评估化合物的方法。在一些实施方案中，本公开内容提供了包括以下的方法：

使至少一种受试化合物与由真菌核酸序列中嵌入靶基因编码的基因产物接触，所述嵌入靶基因的特征在于，其：

对于生物合成基因簇的产物的生物合成不需要或不涉及所述生物合成；

在相对于该簇中至少一个生物合成基因的邻近区内；

与哺乳动物核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节；以及

确定：

与在不存在受试化合物时相比，在存在受试化合物时，基因产物的水平或活性改变；或者

基因产物的水平或活性与在存在对该水平或活性具有已知作用的参考剂时观察到的水平或活性相当。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征通过由生物合成基因簇编码的酶产生的产物或该产物的类似物的哺乳动物(例如，人)靶标的方法，其包括：

鉴定ETaG的人同源物，所述ETaG在相对于该生物合成基因簇中至少一个生物合成基因的邻近区内或在相对于第二生物合成基因簇中至少一个生物合成基因的邻近区内，所述第二生物合成基因簇编码产生通过由所述生物合成基因簇编码的酶产生的相同生物合成产物的酶；以及

任选地测定通过由所述生物合成基因簇编码的酶产生的产物或该产物的类似物对靶标的作用。

在一些实施方案中，本公开内容提供了使用由与ETaG同源的哺乳动物(例如，人)核酸序列编码的产物来评估化合物的方法。在一些实施方案中，本公开内容提供了包括以下的方法：

使至少一种受试化合物与由与嵌入靶基因同源的哺乳动物核酸序列编码的基因产物接触，所述嵌入靶基因的特征在于，所述嵌入靶基因：

在相对于该簇中至少一个生物合成基因的邻近区内；

与哺乳动物核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节；以及

确定：

鉴定ETaG的人同源物，所述ETaG在相对于该生物合成基因簇中至少一个生物合成基因的邻近区内，以及

任选地测定通过由该生物合成基因簇编码的酶产生的产物或该产物的类似物对靶标的作用。

在一些实施方案中，所提供的方法和系统可用于评估人靶标与化合物的相互作用。在一些实施方案中，本公开内容提供了用于评估人靶标与化合物的相互作用的方法，其包括：

将人靶标的核酸序列或编码人靶标的核酸序列与包含一个或更多个ETaG的核酸序列集合进行比较。

在一些实施方案中，通过生物合成基因簇的酶产生的化合物与由与和该生物合成基因簇相关的ETaG同源的哺乳动物(例如，人)核酸序列编码的靶标相互作用。

在一些实施方案中，所提供的技术可特别地用于设计和/或提供用于人靶标的调节剂，因为所提供的技术尤其提供了生物合成基因簇、ETaG和人靶基因之间的联系。

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，人靶标是Ras蛋白。在一些实施方案中，Ras蛋白是HRas蛋白。在一些实施方案中，Ras蛋白是KRas蛋白。在一些实施方案中，Ras蛋白是NRas蛋白。在一些实施方案中，人靶标是包含RasGEF结构域的蛋白质。在一些实施方案中，蛋白质是KNDC1、PLCE1、RALGDS、RALGPS1、RALGPS2、RAPGEF1、RAPGEF2、RAPGEF3、RAPGEF4、RAPGEF5、RAPGEF6、RAPGEFL1、RASGEF1A、RASGEF1B、RASGEF1C、RASGRF1、RASGRF2、RASGRP1、RASGRP2、RASGRP3、RASGRP4、RGL1、RGL2、RGL3、RGL4/RGR、SOS1、SOS2或人鸟嘌呤核苷酸交换因子。在一些实施方案中，蛋白质是SOS1。在一些实施方案中，蛋白质是人鸟嘌呤核苷酸交换因子。在一些实施方案中，人靶标是包含RasGAP结构域的蛋白质。在一些实施方案中，蛋白质是DAB2IP、GAPVD1、IQGAP1、IQGAP2、IQGAP3、NF1、RASA1、RASA2、RASA3、RASA4、RASAL1、RASAL2或SYNGAP1。在一些实施方案中，蛋白质是蛋白质p120。在一些实施方案中，蛋白质是人鸟嘌呤核苷酸激活因子。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征人Ras蛋白的调节剂的方法，其包括：

制备通过由生物合成基因簇编码的酶产生的化合物的类似物；

其中在相对于该生物合成基因簇中至少一个生物合成基因的邻近区内存在ETaG，所述ETaG：

与人Ras蛋白、RasGEF结构域或RasGAP结构域或者编码人Ras蛋白、RasGEF结构域或RasGAP结构域的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，包含RasGEF结构域的蛋白质调节人Ras蛋白的一种或更多种功能。在一些实施方案中，包含RasGAP结构域的蛋白质调节人Ras蛋白的一种或更多种功能。

与人Ras蛋白或编码人Ras蛋白的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征包含RasGEF结构域的蛋白质的调节剂的方法，其包括：

与RasGEF结构域或编码RasGEF结构域的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容提供了用于鉴定和/或表征包含RasGAP结构域的蛋白质的调节剂的方法，其包括：

与RasGAP结构域或编码RasGAP结构域的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，生物合成基因簇是和与Ras蛋白同源的ETaG一起示出在附图例如图5至12、和20至27之一中的示例性生物合成基因簇，或包含其中所示一个或更多个生物合成基因的生物合成基因簇。在一些实施方案中，生物合成基因簇是和与Ras蛋白同源的ETaG一起示出在附图例如图5至12、和20至27之一中的示例性生物合成基因簇。在一些实施方案中，生物合成基因簇是和与RasGEF结构域同源的ETaG一起示出在附图例如图28至33、和35之一中的示例性生物合成基因簇，或包含其中所示一个或更多个生物合成基因的生物合成基因簇。在一些实施方案中，生物合成基因簇是和与RasGEF结构域同源的ETaG一起示出在附图例如图28至33、和35之一中的示例性生物合成基因簇。在一些实施方案中，生物合成基因簇是和与RasGEF结构域同源的ETaG一起示出在附图例如图34、和36至39之一中的示例性生物合成基因簇，或包含其中所示一个或更多个生物合成基因的生物合成基因簇。在一些实施方案中，生物合成基因簇是和与RasGEF结构域同源的ETaG一起示出在附图例如图34、和36至39之一中的示例性生物合成基因簇。示例性ETaG序列在本公开内容中提供，并且尤其可用于定位和鉴定生物合成基因簇、生物合成基因等。

与人靶标或编码人靶标的核酸序列同源；并且

任选地与该簇中的至少一个生物合成基因共调节。

在一些实施方案中，本公开内容提供了用于调节Ras蛋白的方法，其包括：

提供产物或其类似物，所述产物通过由图5至12、和20至27之一中生物合成基因簇编码的酶产生。

在一些实施方案中，本公开内容提供了用于调节RasGEF蛋白的方法，其包括：

提供产物或其类似物，所述产物通过由图28至33、和35之一中生物合成基因簇编码的酶产生。

在一些实施方案中，本公开内容提供了用于调节RasGAP蛋白的方法，其包括：

提供产物或其类似物，所述产物通过由图34、和36至39之一中生物合成基因簇编码的酶产生。

在一些实施方案中，ETaG通过所提供的方法鉴定。

在一些实施方案中，通过由生物合成基因簇编码的酶产生的产物是通过该生物合成基因簇产生的次级代谢物。

在一些实施方案中，产物的类似物包含产物的结构核心。在一些实施方案中，产物是环状的，例如单环、二环或多环的。在一些实施方案中，产物的结构核心是或包含单环、二环或多环环系。在一些实施方案中，产物的结构核心包含产物的二环或多环环系中的一个环。

在一些实施方案中，产物是线性的，并且结构核心是其骨架。在一些实施方案中，产物是或包含多肽，并且结构核心是多肽的骨架。在一些实施方案中，产物是或包含聚酮化合物，并且结构核心是聚酮化合物的骨架。

在一些实施方案中，类似物是被如本文中所述的一个或更多个合适的取代基取代的产物。在一些实施方案中，类似物是被如本文中所述的一个或更多个合适的取代基取代的结构核心。

尤其地，本公开内容提供了以下示例性实施方案：

1.方法，其包括以下步骤：

对于所述生物合成基因簇的产物的生物合成不需要或不涉及所述生物合成；

在相对于所述簇中至少一个基因的邻近区内；

与哺乳动物核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节。

2.实施方案1所述的方法，其中所述ETaG序列在相对于所述簇中至少一个生物合成基因的邻近区内。

3.前述实施方案中任一项所述的方法，其中包含生物合成基因簇的核酸序列不包含除相对于所述生物合成基因簇中生物合成基因的邻近区的核酸序列和所述生物合成基因簇的核酸序列之外的序列。

4.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100kb。

5.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过50kb。

6.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过40kb。

7.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过30kb。

8.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过20kb。

9.前述实施方案中任一项所述的方法，其中邻近区为在所述簇中生物合成基因上游或下游的不超过10kb。

10.前述实施方案中任一项所述的方法，其中邻近区是在生物合成基因簇中两个生物合成基因之间的区域。

11.前述实施方案中任一项所述的方法，其中所述哺乳动物核酸序列是表达的序列。

12.前述实施方案中任一项所述的方法，其中所述哺乳动物核酸序列是基因。

13.前述实施方案中任一项所述的方法，其中所述哺乳动物核酸序列是人核酸序列。

14.前述实施方案中任一项所述的方法，其中嵌入靶基因序列与表达的哺乳动物核酸序列同源，这在于：所述嵌入靶基因序列的碱基序列或其一部分与哺乳动物核酸序列的碱基序列或其一部分具有至少50％、60％、70％、80％或90％同一性。

15.实施方案14所述的方法，其中所述序列或其一部分的长度为至少50、100、150或200个碱基对。

16.实施方案1至13中任一项所述的方法，其中嵌入靶基因序列与表达的哺乳动物核酸序列同源，这在于：由嵌入靶基因编码的产物或其一部分与哺乳动物核酸序列的产物或其一部分同源。

17.实施方案16所述的方法，其中所述产物是蛋白质。

18.实施方案16所述的方法，其中由嵌入靶基因或其一部分编码的蛋白质与由哺乳动物核酸序列或其一部分编码的蛋白质具有至少50％、60％、70％、80％或90％相似性。

19.实施方案16所述的方法，其中由嵌入靶基因或其一部分编码的蛋白质具有与由哺乳动物核酸序列或其一部分编码的蛋白质的3维结构相似的3维结构。

20.实施方案19所述的方法，其中由嵌入靶基因编码的蛋白质的一部分与由哺乳动物核酸序列编码的蛋白质的一部分具有相似的3维结构。

21.实施方案19至20中任一项所述的方法，其中所述相似是所述结构具有在10平方埃内的Cα骨架rmsd(均方根偏差)，并且具有相同的整体折叠或核心结构域。

22.实施方案19至20中任一项所述的方法，其中由嵌入靶基因或其一部分编码的蛋白质与由哺乳动物核酸序列编码的蛋白质具有相似的3维结构，这在于：与由嵌入靶基因或其一部分编码的蛋白质结合的小分子也与由哺乳动物核酸序列或其一部分编码的蛋白质结合。

23.实施方案22所述的方法，其中所述小分子与由所述嵌入靶基因和所述哺乳动物核酸序列或其一部分编码的蛋白质的结合的Kd为不超过100μM、50μM、10μM、5μM或1μM。

24.实施方案22至23中任一项所述的方法，其中所述小分子由真菌产生。

25.实施方案24所述的方法，其中所述小分子是无环的。

26.实施方案24所述的方法，其中所述小分子是环状的。

27.实施方案24至26中任一项所述的方法，其中所述小分子是由真菌产生的次级代谢物分子。

28.实施方案24至27中任一项所述的方法，其中所述小分子是非核糖体合成的。

29.实施方案24至28中任一项所述的方法，其中所述小分子是生物合成基因簇的生物合成产物。

30.实施方案16所述的方法，其中由嵌入靶基因编码的蛋白质的一部分与由表达的哺乳动物核酸序列编码的蛋白质的一部分具有至少50％、60％、70％、80％或90％相似性。

31.实施方案30所述的方法，其中所述蛋白质的所述一部分是蛋白质结构域。

32.实施方案30至31中任一项所述的方法，其中所述蛋白质的所述一部分是功能所必需的氨基酸残基集合。

33.实施方案32所述的方法，其中所述功能是酶功能。

34.实施方案33所述的方法，其中所述氨基酸残基集合接触底物。

35.实施方案33所述的方法，其中所述氨基酸残基集合接触中间体。

36.实施方案33所述的方法，其中所述氨基酸残基集合接触产物。

37.实施方案32所述的方法，其中所述功能是与另一实体的相互作用。

38.实施方案37所述的方法，其中所述实体是小分子。

39.实施方案37所述的方法，其中所述实体是脂质。

40.实施方案37所述的方法，其中所述实体是碳水化合物。

41.实施方案37所述的方法，其中所述实体是核酸。

42.实施方案37所述的方法，其中所述实体是蛋白质。

43.实施方案32至42中任一项所述的方法，其中所述集合中的所述残基中的每一个在所述实体的

内。

44.前述实施方案中任一项所述的方法，其中所述嵌入靶基因与所述簇中的至少一个基因共调节。

45.前述实施方案中任一项所述的方法，其中所述嵌入靶基因在所述集合中在来自不同真菌菌株并且包含同源或相同生物合成基因簇的所有真菌核酸序列中的80％、90％、95％或100％不存在。

46.前述实施方案中任一项所述的方法，其中所述集合包含至少100、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000、1,500,000、2,000,000或2,500,000个独立的真菌核酸序列。

47.前述实施方案中任一项所述的方法，其中所述集合包含来自至少100、500、1,000、5,000、10,000、15,000、20,000、22,000、25,000或30,000个独立真菌菌株的核酸序列。

48.前述实施方案中任一项所述的方法，其中所述ETaG序列不是持家基因。

49.前述实施方案中任一项所述的方法，其中所述ETaG序列是或包含与在同一基因组中的第二核酸序列或其一部分具有同源性的序列。

50.前述实施方案中任一项所述的方法，其中所述ETaG序列是或包含编码与由同一基因组中第二核酸序列编码的产物或其一部分具有同源性的产物的序列。

51.实施方案49或50所述的方法，其中所述同源性为至少50％、60％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％。

52.实施方案49所述的方法，其中所述同源性为至少70％。

53.实施方案49所述的方法，其中所述同源性为至少80％。

54.实施方案49所述的方法，其中所述同源性为至少90％。

55.实施方案48至54中任一项所述的方法，其中所述第二核酸序列是或包含持家基因。

56.实施方案48至55中任一项所述的方法，其中所述ETaG序列编码提供针对所述生物合成基因簇的产物的抗性的产物，而所述第二核酸序列则不是。

57.实施方案56所述的方法，其中所述ETaG序列编码提供针对所述生物合成基因簇的小分子产物的抗性的蛋白质，而由所述第二核酸序列编码的蛋白质则不是。

58.前述实施方案中任一项所述的方法，其中所述集合内的核酸序列包含生物合成基因簇，所述生物合成基因簇的生物合成基因编码涉及共有至少一种共同化学属性的化合物的合成的酶。

59.前述实施方案中任一项所述的方法，其中所述核酸序列来自多个真菌菌株。

60.前述实施方案中任一项所述的方法，其中所述共同化学属性是或包含环状体系。

61.前述实施方案中任一项所述的方法，其中所述共同化学属性是或包含大环。

62.实施方案52至61中任一项所述的方法，其中所述共同化学属性是或包含无环骨架。

63.实施方案52至62中任一项所述的方法，其中共有至少一种共同化学属性的化合物是聚酮化合物。

64.实施方案52至62中任一项所述的方法，其中共有至少一种共同化学属性的化合物是非核糖体肽。

65.实施方案52至62中任一项所述的方法，其中共有至少一种共同化学属性的化合物是生物碱。

66.实施方案52至62中任一项所述的方法，其中共有至少一种共同化学属性的化合物是萜/异戊二烯。

67.方法，其包括以下步骤：

使至少一种受试化合物与由真菌核酸序列中嵌入靶基因编码的基因产物接触，所述嵌入靶基因(ETaG)的特征在于，其：

在相对于所述簇中至少一个生物合成基因的邻近区内；

与哺乳动物核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节；以及

确定：

与在不存在所述受试化合物时相比，在存在所述受试化合物时，所述基因产物的水平或活性改变；或者

所述基因产物的水平或活性与在存在对该水平或活性具有已知作用的参考剂时观察到的水平或活性相当。

68.实施方案67所述的方法，其中所述ETaG是如实施方案1至66中任一项所述的ETaG。

69.实施方案67或68所述的方法，其中所述哺乳动物核酸序列是人Ras序列。

70.实施方案69所述的方法，其中所述哺乳动物核酸序列是KRas、HRas或NRas序列。

71.实施方案67或68所述的方法，其中所述哺乳动物核酸序列是编码RasGEF结构域的序列。

72.实施方案67或68所述的方法，其中所述哺乳动物核酸序列是编码RasGAP结构域的序列。

73.实施方案66至72中任一项所述的方法，其中所述ETaG是图1至39之一中的ETaG。

74.实施方案66至73中任一项所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

75.实施方案66至74中任一项所述的方法，其中所述受试化合物是所述生物合成基因簇的生物合成产物或其类似物。

76.方法，其包括以下步骤：

使至少一种受试化合物与由表达的哺乳动物核酸序列编码的基因产物接触，所述序列是与实施方案1至75中任一项所述的嵌入靶基因序列同源的所述表达的哺乳动物核酸序列。

77.实施方案76所述的方法，其中所述哺乳动物核酸序列是人Ras序列。

78.实施方案77所述的方法，其中所述哺乳动物核酸序列是KRas、HRas或NRas序列。

79.实施方案76或77所述的方法，其中所述哺乳动物核酸序列是编码RasGEF结构域的序列。

80.实施方案76或77所述的方法，其中所述哺乳动物核酸序列是编码RasGAP结构域的序列。

81.实施方案76至80中任一项所述的方法，其中所述ETaG是图1至39之一中的ETaG。

82.实施方案76至81中任一项所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

83.实施方案76至82中任一项所述的方法，其中所述受试化合物是所述生物合成基因簇的生物合成产物或其类似物。

84.方法，其包括：

任选地测定通过由所述生物合成基因簇编码的酶产生的产物或所述产物的类似物对所述人同源物的作用。

85.实施方案77所述的方法，其中所述ETaG是如实施方案1至66中任一项所述的ETaG。

86.用于鉴定和/或表征人靶标的调节剂的方法，其包括：

提供产物或其类似物，所述产物通过由生物合成基因簇编码的酶产生，其中在相对于所述生物合成基因簇中至少一个基因的邻近区内存在ETaG，所述ETaG：

与所述人靶标或编码所述人靶标的核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节。

87.实施方案86所述的方法，其中所述ETaG是如实施方案1至83中任一项所述的ETaG。

88.实施方案86所述的方法，其中所述人靶标是Ras蛋白。

89.实施方案88所述的方法，其中所述人靶标是KRas、HRas或NRas。

90.实施方案86所述的方法，其中所述人靶标包含RasGEF结构域。

91.实施方案86所述的方法，其中所述人靶标包含RasGAP结构域。

92.实施方案86至91中任一项所述的方法，其中所述ETaG是图1至39之一中的ETaG。

93.实施方案86至92中任一项所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

94.用于调节人靶标的方法，其包括：

提供产物或其类似物，所述产物通过由生物合成基因簇编码的酶产生，其中在相对于所述生物合成基因簇中至少一个生物合成基因的邻近区内存在ETaG，所述ETaG：

与所述人靶标或编码所述人靶标的核酸序列同源；并且

任选地与所述簇中的至少一个生物合成基因共调节。

95.实施方案94所述的方法，其中所述人靶标是Ras蛋白。

96.实施方案94所述的方法，其中所述人靶标是KRas、HRas或NRas。

97.实施方案94所述的方法，其中所述人靶标包含RasGEF结构域。

98.实施方案94所述的方法，其中所述人靶标包含RasGAP结构域。

99.实施方案94至98中任一项所述的方法，其中所述ETaG是图1至39之一中的ETaG。

100.实施方案94至99中任一项所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

101.实施方案94所述的方法，其中所述ETaG是如实施方案1至93中任一项所述的ETaG。

102.数据库，其包含：

核酸序列集合，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇；

其中所述核酸序列集合包含在计算机可读介质中。

103.实施方案102所述的数据库，其中实施方案1至101中任一项所述的一个或更多个嵌入靶基因被索引。

104.系统，其包含：

105.系统，其包含：

106.实施方案105所述的系统，其中实施方案1至101中任一项所述的一个或更多个嵌入靶基因被索引。

107.计算机系统，其适于执行实施方案1至101中任一项所述的方法。

108.计算机系统，其适于访问实施方案95至103中任一项所述的数据库。

实施例

所提供技术的一些非限制性实例在下文进行描述。

实施例1：示例性数据库的构建及其示例性用途

使用例如antiSMASH处理约2,000个报道的真菌基因组以鉴定潜在的生物合成基因簇，并将鉴定的约70,000个生物合成基因簇添加到数据库中。使用目的人靶标以查询初始数据库。例如，使用人Sec7的蛋白质序列针对初始文库进行BLAST检索以鉴定ETaG。作为替代或补充，生物合成基因簇可在其之间进行比较。例如，在一个过程中，将存在于一个或一些生物合成基因簇(在相对于所述生物合成基因簇中至少一个生物合成基因的邻近区内)但是不存在于相同生物合成产物的大多数其他同源生物合成基因簇的非生物合成基因鉴定为潜在的ETaG，并且通过在核酸水平和/或优选地在蛋白质水平上分析它们是否具有同源哺乳动物核酸序列(例如，人基因)来进一步确定。可对所鉴定的ETaG进行索引/标记和注释。可通过核苷酸序列(例如，BLASTN；tBLASTx)或蛋白质序列(例如，tBLASTn)检索数据库。

在一些实施方案中，来自人靶标的BLAST查询的结果以序列同源性强度的顺序列出，指示数据库内所有推定的命中项。然后检查所有命中生物合成基因簇的DNA序列以验证靶蛋白的一个或更多个开放阅读框(基因)同源物是否在生物合成基因簇的预测范围内。

在一些实施方案中，组合并整理每个生物合成簇的GenBank格式化序列文件(*.gbk)，通过预测算法(例如，包含antiSMASH的那些)和/或方法从其中获得ETaG蛋白序列。开放阅读框的蛋白质家族(pfam)功能可通过例如antiSMASH来预测，并且可确定每个所鉴定的ETaG与通过antiSMASH预测的其最接近的生物合成酶之间的核苷酸距离。在一些实施方案中，预测的ETaG越接近生物合成酶，该开放阅读框编码真正ETaG的可能性越高。

申请人已经成功地鉴定了多个具有相关ETaG的生物合成基因簇，包括数个包含真正ETaG的生物合成基因簇(针对环孢素、非鲁米特、洛伐他汀、霉酚酸和布雷菲德菌素的生物合成基因簇)。

在一些实施方案中，本公开内容涵盖了这样的认识：ETaG可用作推定人靶蛋白的功能同源物(直向同源物)。在一些实施方案中，将推定ETaG命中项的蛋白质序列与人靶标直向同源物的序列进行比较。例如，在寻找人蛋白A的ETaG的项目中，发现了n个包含推定蛋白A同源物的生物合成基因簇，并且将所有n个预测的ETaG蛋白与人蛋白A进行比对。在一些实施方案中，在比对分析中仅使用在限定ETaG/靶标的pfam边界的特定催化结构域或结构性结构域(例如，基于预测性亚家族结构域架构)内的氨基酸。通过将所有ETaG与人靶蛋白进行比对，将ETaG序列直接与其人对应物进行比较，以其系统发育关系产生定量相关数据(例如，肽序列相似性和/或进化树可视化)。另外的分析可包括蛋白质效应物募集/结合的基本结构元件的保守性/相似性，例如，基于对人靶标的三级蛋白质结构的检查。例如，在一些实施方案中，将比对的序列与对应于在相应接合蛋白的4埃内的靶蛋白残基的PDB晶体结构进行比较。不期望受任何理论束缚，在其中这些结构基序在真菌ETaG内保守的情况下，这可指示以下的可能性提高：由ETaG相关生物合成基因簇产生的代谢物是真菌靶蛋白和人靶蛋白二者的效应物，并且产生的代谢物可以是针对人靶标的药物候选物或用于药物开发的先导物。在一些实施方案中，对于靶向人靶标，使用以上分析对ETaG及其相关生物合成基因簇以及由该生物合成基因簇产生的代谢物进行优先排序。

实施例2：用于人靶标-Sec7的调节剂

尤其地，本公开内容提供了用于鉴定人靶标的调节剂的技术。在一些实施方案中，利用人序列来查询所提供的数据库以鉴定在其邻近区中存在人序列的同源物的生物合成基因簇。

例如，尤其地，本公开内容提供了其生物合成产物可调节Sec7功能的生物合成基因簇。为了鉴定用于人Sec7结构域的调节剂，使用Sec7蛋白序列查询数据库，例如实施例1中提供的数据库。在具有相关生物合成基因簇的狐粪青霉IBT 29486中鉴定出示例性Sec7同源ETaG-该ETaG在相对于该生物合成基因簇中生物合成基因之一的邻近区中。参见图1、图18和图19。尤其地，所鉴定的生物合成基因簇与布雷正青霉(Eupenicilliumbrefeldianum)中布雷菲德菌素A的生物合成基因簇共有同源性，并且预期产生布雷菲德菌素A。因此，布雷菲德菌素A被鉴定为Sec7的候选调节剂和/或其调节剂的先导化合物。如果期望的话，该结果可根据本公开内容任选地通过以下进行验证：表达狐粪青霉IBT 29486的生物合成基因簇，分离并表征其产物，并随后使用本领域中可用的多种方法针对Sec7测定产物的功能。由于已报道布雷菲德菌素A靶向人GBF1的Sec7结构域，因此该实施例举例说明了所提供的技术可成功地用于鉴定人靶标的调节剂。

实施例3：洛伐他汀、非鲁米特和环孢素的ETaG

所提供的技术可用于鉴定多种实体的ETaG。例如，如本文中所证明的，所提供的技术可有效地用于鉴定与洛伐他汀、非鲁米特和环孢素相关的EtaG。示例性结果示出于图2至4中。

实施例4：用于人靶标-Ras的调节剂

尤其地，本公开内容提供了其生物合成产物可调节以下蛋白质的一种或更多种功能的生物合成基因簇：Ras蛋白和/或包含RasGEF结构域(例如，KNDC1、PLCE1、RALGDS、RALGPS1、RALGPS2、RAPGEF1、RAPGEF2、RAPGEF3、RAPGEF4、RAPGEF5、RAPGEF6、RAPGEFL1、RASGEF1A、RASGEF1B、RASGEF1C、RASGRF1、RASGRF2、RASGRP1、RASGRP2、RASGRP3、RASGRP4、RGL1、RGL2、RGL3、RGL4/RGR、SOS1、SOS2等)和/或RasGAP结构域(DAB2IP、GAPVD1、IQGAP1、IQGAP2、IQGAP3、NF1、RASA1、RASA2、RASA3、RASA4、RASAL1、RASAL2、SYNGAP1等)的蛋白质。Ras蛋白(例如HRas、KRas和NRas)与许多人癌症有关，但众所周知地是药物发现的难点靶标。尤其地，本公开内容提供了用于开发Ras调节剂(包括Ras抑制剂)的技术。

使用人Ras序列查询所提供的数据库，例如实施例1的数据库。从不同菌株中鉴定出8个与人Ras蛋白具有不同序列相似性水平的示例性ETaG。相关生物合成基因簇编码产生不同类型的化合物的酶。参见图5至12和图20至27。所鉴定ETaG编码的蛋白质可与人Ras蛋白高度同源。例如，核苷酸结合残基的相似性参见图13，BRAF相互作用残基参见图14，rasGAP相互作用残基参见图15，以及SOS相互作用残基参见图16。

类似地，鉴定了生物合成产物可调节RasGEF和RasGAP结构域的生物合成基因簇。如本文中所证明的，所鉴定的示例性生物合成基因簇可包含涉及多种类型的部分/产物，例如，萜、PKS、NRPS等的合成的基因和/或模块。例如，所鉴定的生物合成基因簇以及RasGEF和RasGAP同源物，参见图28至39。

所鉴定的示例性ETaG序列列于下文：

图5：疏棉状嗜热丝孢菌，Ras ETaG序列：

图6：Talaromyces leycettanus CBS 398.68，Ras ETaG序列：

图7：Sistotremastrum niveocremeum，Ras ETaG序列：

Sistotremastrum suecicum，Ras ETaG序列：

图8：双孢蘑菇贝纳特变种JB137-S8，Ras ETaG序列：

图9：冈山灰盖鬼伞，Ras ETaG序列：

图10：希金斯炭疽菌，Ras ETaG序列：

图11：Gyalolechia flavorubescens KoLRI002931，Ras ETaG序列：

图12：玉蜀黍平脐蠕孢ATCC 48331，Ras ETaG序列：

图18：狐粪青霉IBT 29486，Sec7 ETaG序列：

图20：疏棉状嗜热丝孢菌ATCC 200065，Ras ETaG序列：

Aspergillus rambelli，Ras ETaG序列：

赭曲霉，Ras ETaG序列：

图21：双孢蘑菇贝纳特变种JB137-S8，Ras ETaG序列：

双孢蘑菇H97，Ras ETaG序列：

冈山灰盖鬼伞，Ras ETaG序列：

亚砖红垂暮菇FD-334，Ras ETaG序列：

图22：Sistotremastrum niveocremeum，Ras ETaG序列：

Sistotremastrum suecicum，Ras ETaG序列：

图23：Talaromyces leycettanus CBS 398.68，Ras ETaG序列：

图24：坚脆嗜热子囊菌，Ras ETaG序列：

图25：玉蜀黍平脐蠕孢ATCC 48331，Ras ETaG序列：

图26：希金斯炭疽菌IMI 349063，Ras ETaG序列：

图27：Gyalolechia flavorubescens，Ras ETaG序列：

图28：松针褐斑病菌CBS 871.95，RasGEF ETaG序列：

产黄青霉威斯康星54-1255，RasGEF ETaG序列：

图29：稻大角间座壳70-15，RasGEF ETaG序列：

图30：石膏样节皮菌CBS 118893，RasGEF ETaG序列：

图31：Endocarpon pusillum菌株KoLRI No.LF000583，RasGEF ETaG序列：

图32：肝色牛舌菌ATCC 64428，RasGEF ETaG序列：

图33：出芽短梗霉普鲁兰变种EXF-150，RasGEF ETaG序列：

图34：分枝枝顶孢，RasGAP ETaG序列：

图35：淡紫紫霉菌株TERIBC 1，RasGEF ETaG序列：

链孢霉JS1030，RasGEF ETaG序列：

图36：多主棒孢霉UM 591，RasGAP ETaG序列：

稻大角间座壳菌株SV9610，RasGAP ETaG序列：

图37：尖孢炭疽菌菌株1 KC05_01，RasGAP ETaG序列：

图38：炭团菌E7406B，RasGAP ETaG序列：

葡萄间座壳分离珠DA912，RasGAP ETaG序列：

图39：云杉蓝状菌菌株9-3，RasGAP ETaG序列：

虫生簇孢RCEF 264，RasGAP ETaG序列：

利用所鉴定的生物合成基因簇，根据本公开内容，可利用多种方法来鉴定和表征通过这些生物合成基因簇的酶产生的化合物(例如，Clevenger，et al.，Nat.Chem.Bio.，13，895-901(2017)和其中引用的参考文献中描述的那些)。所述化合物一旦鉴定出就可以对其进行测定以评估其调节人Ras蛋白的能力。作为补充或替代，所述化合物可用作先导化合物以制备用于例如SAR研究的更多类似物，以进一步改善用于调节Ras活性的亲和力、效力、选择性等。预期将由与所鉴定ETaG相关的生物合成基因簇开发有用的化合物。

尽管本文中已经描述和举例说明了多个实施方案，但是本领域普通技术人员将容易地想到用于执行本公开内容中所述功能和/或获得本公开内容中所述结果和/或一个或更多个优点的多种其他手段和/或结构，并且这样的变化方案和/或修改方案中的每一个均被认为包括在内。更一般地，本领域技术人员将容易地理解，本文中所述的所有参数、尺寸、材料和配置均意在是示例性的，而且实际参数、尺寸、材料和/或配置将取决于使用本公开内容的教导的一个或更多个具体应用。本领域技术人员将认识到或仅使用常规实验就能够确定本公开内容中所述的公开内容的具体实施方案的许多等同方案。因此，应当理解，前述实施方案仅通过实例给出，并且所提供的技术(包括所要求保护的那些)可以以除具体描述和要求保护的之外的方式进行实践。另外，如果两个或更多个特征、系统、制品、材料、套件和/或方法不是相互矛盾的，则这样的特征、系统、制品、材料、套件和/或方法的任意组合包括在本公开内容的范围内。

Claims

1.方法，其包括以下步骤：

对于所述生物合成基因簇的产物的生物合成是不需要的或不涉及所述生物合成；

在相对于所述簇中至少一个基因的邻近区内；

是与哺乳动物核酸序列同源的；并且

任选地与所述簇中的至少一个生物合成基因共调节。

2.权利要求1所述的方法，其中所述ETaG序列在相对于所述簇中至少一个生物合成基因的邻近区内。

3.权利要求2所述的方法，其中包含生物合成基因簇的核酸序列不包含除相对于所述生物合成基因簇中生物合成基因的邻近区的核酸序列和所述生物合成基因簇的核酸序列之外的序列。

4.权利要求3所述的方法，其中邻近区在所述簇中生物合成基因上游或下游的不超过1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100kb。

5.权利要求4所述的方法，其中所述哺乳动物核酸序列是人核酸序列。

6.权利要求5所述的方法，其中嵌入靶基因序列是与表达的哺乳动物核酸序列同源的，这在于：所述嵌入靶基因序列的碱基序列或其一部分与哺乳动物核酸序列的碱基序列或其一部分具有至少50％、60％、70％、80％或90％同一性。

7.权利要求6所述的方法，其中所述序列或其一部分的长度为至少50、100、150或200个碱基对。

8.权利要求5所述的方法，其中嵌入靶基因序列是与表达的哺乳动物核酸序列同源的，这在于：由嵌入靶基因或其一部分编码的蛋白质是与哺乳动物核酸序列或其一部分编码的蛋白质同源的。

9.权利要求8所述的方法，其中所述由嵌入靶基因或其一部分编码的蛋白质与由哺乳动物核酸序列或其一部分编码的蛋白质具有至少50％、60％、70％、80％或90％相似性。

10.权利要求9所述的方法，其中由嵌入靶基因或其一部分编码的蛋白质与由哺乳动物核酸序列编码的蛋白质具有相似的3维结构，这在于：与由嵌入靶基因或其一部分编码的蛋白质结合的小分子也与由哺乳动物核酸序列或其一部分编码的蛋白质结合。

11.权利要求10所述的方法，其中所述小分子与由所述嵌入靶基因和所述哺乳动物核酸序列或其一部分编码的蛋白质的结合的Kd为不超过100μM、50μM、10μM、5μM或1μM。

12.权利要求10所述的方法，其中所述小分子是生物合成基因簇的生物合成产物。

13.权利要求5所述的方法，其中由嵌入靶基因编码的蛋白质的一部分与由表达的哺乳动物核酸序列编码的蛋白质的一部分具有至少50％、60％、70％、80％或90％相似性，其中所述蛋白质的一部分是蛋白质结构域。

14.前述权利要求中任一项所述的方法，其中所述嵌入靶基因在所述集合中来自不同真菌菌株并且包含同源或相同生物合成基因簇的所有真菌核酸序列中的80％、90％、95％或100％中不存在。

15.权利要求14所述的方法，其中所述集合包含来自至少100、500、1,000、5,000、10,000、15,000、20,000、22,000、25,000或30,000个独立真菌菌株的核酸序列。

16.方法，其包括以下步骤：

对于生物合成基因簇的产物的生物合成是不需要的或不涉及所述生物合成；

在相对于所述簇中至少一个生物合成基因的邻近区内；

是与哺乳动物核酸序列同源的；并且

任选地与所述簇中的至少一个生物合成基因共调节；以及

确定：

与在不存在所述受试化合物的情况相比，在存在所述受试化合物的情况下，所述基因产物的水平或活性发生改变；或者

所述基因产物的水平或活性与在存在对所述水平或活性具有已知作用的参考剂的情况下观察到的水平或活性相当。

17.权利要求16所述的方法，其中所述ETaG是如权利要求1至15中任一项所描述的ETaG。

18.权利要求17所述的方法，其中所述哺乳动物核酸序列是人Ras序列。

19.权利要求16所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

20.权利要求16所述的方法，其中所述受试化合物是所述生物合成基因簇的生物合成产物或其类似物。

21.方法，其包括以下步骤：

使至少一种受试化合物与由表达的哺乳动物核酸序列编码的基因产物接触，所述序列是与权利要求1至15中任一项所述的嵌入靶基因序列同源的表达的哺乳动物核酸序列。

22.权利要求21所述的方法，其中所述哺乳动物核酸序列是人Ras序列。

23.权利要求21所述的方法，其中所述ETaG是图1至39之一中的ETaG。

24.权利要求21所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

25.权利要求21所述的方法，其中所述受试化合物是所述生物合成基因簇的生物合成产物或其类似物。

26.方法，其包括：

任选地测定通过由生物合成基因簇编码的酶产生的产物或所述产物的类似物对所述人同源物的作用。

27.权利要求26所述的方法，其中所述ETaG是如权利要求1至15中任一项所描述的ETaG。

28.用于鉴定和/或表征人靶标的调节剂的方法，其包括：

是与所述人靶标或编码所述人靶标的核酸序列同源的；并且

任选地与所述簇中的至少一个生物合成基因共调节。

29.权利要求28所述的方法，其中所述ETaG是如权利要求1至15中任一项所描述的ETaG。

30.权利要求28所述的方法，其中所述人靶标是Ras蛋白。

31.权利要求28所述的方法，其中所述ETaG是图1至39之一中的ETaG。

32.权利要求28所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

33.用于调节人靶标的方法，其包括：

是与所述人靶标或编码所述人靶标的核酸序列同源的；并且

任选地与所述簇中的至少一个生物合成基因共调节。

34.权利要求33所述的方法，其中所述人靶标是Ras蛋白。

35.权利要求33所述的方法，其中所述ETaG是图1至39之一中的ETaG。

36.权利要求33所述的方法，其中所述生物合成基因簇是图1至39之一中的生物合成基因簇。

37.权利要求33所述的方法，其中所述ETaG是如权利要求1至15中任一项所描述的ETaG。

38.数据库，其包含：

其中所述核酸序列集合包含在计算机可读介质中。

39.权利要求38所述的数据库，其中权利要求1至37任一项中的一个或更多个嵌入靶基因被索引。

40.系统，其包含：

一个或更多个非暂时性机器可读存储介质，其存储有代表核酸序列集合的数据，所述核酸序列中的每一个存在于真菌菌株中并且包含生物合成基因簇。

41.系统，其包含：

一个或更多个非暂时性机器可读存储介质，其存储有代表核酸序列集合的数据，所述核酸序列中的每一个是或包含ETaG序列。

42.权利要求41所述的系统，其中权利要求1至37任一项中的一个或更多个嵌入靶基因被索引。

43.适于执行权利要求1至37中任一项所述的方法的计算机系统，或者适于访问权利要求34至39中任一项所述的数据库的计算机系统。

44.示例性实施方案1至108中任一项所述的方法、数据库或系统。