DNA编码动态分子库的合成与筛选方法
技术领域
本发明涉及DNA编码的分子库,尤其涉及DNA编码的动态分子库的合成与筛选方法。
背景技术
当代药物研发中,针对疾病的药物靶点,通过构建大型的候选药物分子库,进行高通量、大规模筛选是新药研发中不可或缺的手段。当今世界上主要的制药公司均拥有大型的分子库和大规模的筛选平台用于新药研发。然而,传统的分子库和筛选平台成本高昂、技术门槛高、管理运行复杂,成为高通量筛选发展和应用中的严重制约。近5年来,DNA编码分子库技术逐渐发展起来,成为药物研发中的新兴筛选方法。在DNA编码分子库中,每一个化合物与一个特异性的DNA链相连接,成为一个特异的条形码,实现对化合物的特异性编码。DNA编码分子库能够在极小的体系中,实现千万乃至上亿级的高通量筛选。筛选结果可以通过PCR扩增和DNA测序进行解码分析,已获得先导化合物用于进一步药物研发。近年来,DNA编码分子库已经得到新药研发领域中的广泛认可和应用,成为新药研发中的一种重要支撑技术。
与常规高通量筛选分子库相比,DNA编码分子库的一个主要特点为能够在微升级的体系中,包含上千万至几十亿级别的不同的化合物,从而使高通量筛选变得简单而快捷,由1-2年的筛选周期降为1-2周。此外,常规高通量筛选分子库仅能够达到6-7百万个化合物,而DNA编码分子库则远远地超过了这个量级。
然而,对DNA编码分子库来说,如何高效的合成分子库中的数量如此之多的化合物,并且准确地在每一个不同化合物上连接不同的DNA条形码,是该领域中的一个技术核心。现有技术中有多种编码化合物的方法,包括组合化学中传统的“split-pool-split”方法、DNA模板控制合成、DNA routing、DNA双链连接等多种方法。然而,这些方法所合成的均为静态分子库,即每个化合物在分子库中所占的比例不变,其中能够与靶点蛋白结合的化合物的占比小;在对靶点进行筛选时,需要用物理洗脱的方法将与蛋白质结合和不与蛋白质结合的化合物分离。该方法所用的蛋白靶点需要修饰,并且需要固载,操作复杂,成本高。
发明内容
本发明解决的技术问题是:现有方法所合成的DNA编码分子库均为静态分子库,化合物在分子库中所占的比例不变,能够与靶点蛋白结合的化合物的占比小;筛选时,蛋白靶点需要固载,并采用物理洗脱的方法分离,操作复杂,成本。
本发明的目的是:提供一种化合物在分子库中所占比例不固定的动态DNA编码分子库,该动态分子库是在溶液中形成,能快速富集与靶点蛋白结合的化合物,无需固载,简化操作,降低成本,缩短研发周期。
具体来说,针对现有技术的不足,本发明提供了如下技术方案:
一方面,本发明提供了一种DNA编码的动态分子库的合成方法,该方法包括以下步骤:
(a)结构单元与含有修饰基团的DNA连接,其中,每个结构单元含有至少两个活性基团,所述结构单元被分为A组结构单元和B组结构单元;
(b)A组结构单元中的每个结构单元上的一个活性基团与B组结构单元中的每个结构单元上的一个活性基团发生可逆化学反应。
优选的,所述修饰基团能够与结构单元中的活性基团反应。
优选的,所述结构单元与含有修饰基团的DNA连接的反应包括炔基与叠氮基反应生成三氮唑官能团、醛或酮与氨反应生成亚胺、两个巯基反应生成二硫键、氨基与酰氯或羧酸反应生成酰胺键、氨基与异氰酸酯反应生成carbamate连接,或者通过N-羟基琥珀酰亚胺连接修饰基团氨基与结构单元中的活性基团氨基中的一种或两种。
优选的,所述结构单元与含有修饰基团的DNA连接的反应为修饰基团氨基与结构单元中的活性基团羧基反应生成酰胺键。
优选的,步骤(b)的反应选自醛或酮与胺反应、两个巯基反应、亲和试剂与不饱和烯烃反应、肼与醛或酮反应以及Diels-Alder反应中的一种。
优选的,步骤(b)的反应为醛与胺反应。
优选的,步骤(b)的反应条件为加热至90-95℃,退火至室温。
优选的,在90-95℃下维持1-2分钟,室温下维持5-10分钟。
优选的,步骤(b)的反应底物用量按照化学计量比计算。
另一方面,本发明提供了从前述合成方法制备的DNA编码的动态分子库中选出一种化合物的筛选方法,该方法包括以下步骤:
(c)加入靶蛋白,与靶蛋白结合的结构单元富集;
(d)平衡锁定;
(e)分离和纯化;
(f)PCR扩增,DNA测序解码;
(g)确定筛选出来的化合物结构。
优选的,根据步骤(b)的反应类型确定平衡锁定方法,所述平衡锁定方法包括加入还原剂、酸、氧化剂或者调节pH值,或者降低温度中的一种。
优选的,所述平衡锁定方法为加入还原剂。
优选的,所述分离和纯化方法包括凝胶电泳法。
优选的,根据编码化合物的DNA碱基序列来设计PCR扩增引物。
又一方面,本发明还提供了前述DNA编码的动态分子库的合成方法和从合成所得的分子库中筛选化合物的方法在药物筛选中的应用。
与现有技术相比,本发明的效果和益处在于:通过可逆的动态化学反应,各个基团之间进行排列组合,在同一溶液中自发形成分子库中的各个化合物,能快速富集与靶点蛋白结合的化合物,且体系无需固载,操作简单,成本降低,研发周期缩短。
附图说明
图1为DNA编码动态分子库的合成及与靶点结合的化合物筛选过程;
图2为被筛选化合物的解码过程;
图3为实施例1所述分子库的合成与筛选结果;
图4为实施例1所述分子库筛选过程中的凝胶电泳图。
具体实施方式
本专利描述了一种新型的动态DNA编码分子库的合成方法,将编码DNA引入到动态组合化学中,通过连接有编码DNA的结构单元之间的动态可逆化学反应实现动态分子库的高效合成。
本发明所述动态分子库是组合化学分子库的另一种类型,动态分子库中的化合物并非事先合成的,而是在体系中加入简单的结构基团;这些基团之间,通过可逆的化学反应进行排列组合,从而在同一溶液中自发形成分子库中的各个化合物。在动态分子库中,化合物的生成和解离在时刻进行着,处于热力学控制的动态平衡之下。在加入蛋白质靶点之后,蛋白质靶点与化合物结合,促进动态平衡的移动,分子库的成分发生变化,对蛋白质具有强结合力的化合物被富集,而不与蛋白质结合的化合物的含量降低。通过对加入蛋白质靶点之前之后的平衡移动进行分析,即可识别出与蛋白质靶点结合的化合物。
具体而言,本发明所述的DNA编码的动态分子库的合成步骤包括:结构单元与含修饰基团的DNA连接,其中,每个结构单元含有至少两个活性基团,所述结构单元被分为A组结构单元和B组结构单元;A组结构单元中的每个结构单元上的一个活性基团与B组结构单元中的每个结构单元上的一个活性基团发生可逆化学反应,反应条件为加热、退火。
从本发明所述的DNA编码的动态分子库中选出一种与靶蛋白结合的化合物的筛选方法包括加入靶蛋白,富集与靶蛋白结合的化合物;根据可逆化学反应类型确定平衡锁定的方法,平衡锁定方法选自加入还原剂、酸、氧化剂或者调节pH值,或者降低温度中的一种;利用凝胶电泳分离纯化与靶蛋白结合的化合物,该化合物带有单链DNA;利用PCR扩增与靶蛋白结合的化合物的编码DNA,纯化PCR产物后进行DNA测序;根据测序结果查找该碱基序列对应的化合物分子,从而确定被筛选出的化合物结构。利用化学合成方法重新合成筛选出来的能够与靶蛋白结合的化合物,该化合物不带有DNA,对化合物进行系列结构表征以及与靶蛋白结合力的实验研究,进一步验证本发明所述动态分子库在药物筛选中的应用。
在本发明的一优选实施例中,分子库由A组和B组两组双链DNA编码的结构单元组成,每组分别有m和n个不同的结构单元。在分子库合成之前,首先将这两组结构单元分别以m和n个不同的DNA标签对结构单元进行直接编码。在A组和B组的结构基团上,分别带有能够发生可逆化学反应的官能团FA和FB,因此A组和B组的结构基团之间发生的化学反应个数为A组结构单元与B组结构单元的排列组合,即能够形成一个包含有m x n个化合物的分子库,该分子库中的每一个化合物即被两个结构单元上的两条DNA中的编码区域中的碱基序列所编码。其中,A组和B组结构单元之间的可逆化学反应条件为加热、退火,反应类型包括但不限于醛或酮和胺生成亚胺的反应,巯基之间形成二硫键的反应,亲和试剂与不饱和烯烃之间的加成反应,肼和醛或酮之间的缩合反应以及Diels-Alder反应。
所述A组和B组结构单元的数量可以均为2,合成含2x2个化合物的分子库;也可以均为10,合成含10x10个化合物的分子库;还可以均为100,合成含100x100个化合物的分子库;结构单元的数量根据实际需要确定,即本发明所述方法可以根据实际需要来合成大小不同的动态分子库。
利用分子库筛选化合物时,仅需要将分子库与蛋白质靶点进行孵育。在有蛋白质靶点存在的情况下,化合物与靶点的结合将促进动态平衡的转移,促进与靶点结合力强的结构单元之间的反应,而不与靶点结合的结构单元之间的反应将减少,从而实现对分子库中化合物的富集。在能够与靶点结合的化合物富集之后,将平衡锁定。在平衡锁定之后,通过凝胶电泳对已经连接在一起的A组和B组DNA链进行分离纯化,纯化后,DNA双链被打开,因此所获得的化合物上现仅有单链DNA。由于A链和B链DNA分别带有各自的引物结合区域,因此可以直接对分离出的DNA进行PCR扩增,再进行高通量测序对A链和B链的编码区域进行解码,根据获得的DNA条码查找对应的化学基团,即可获得A组和B组中被筛选出来的结构基团的具体化学结构。
利用含有已知的能够与已知的蛋白靶点结合的结构单元按照本发明所述的方法合成分子库,并进行化合物筛选。筛选得到的化合物确实为预期的能够与已知靶点蛋白结合的化合物,验证了本发明所述动态分子库合成方法和筛选方法的可靠性。
本发明所述分子库的合成,仅需要将A组和B组经DNA编码的结构单元按化学计量比例混合,A组和B组的结构单元直接进行排列组合的可逆化学反应,在同一溶液中生成m xn个不同的化合物(m和n分别指A组结构单元和B组结构单元中的结构单元的数量),操作非常简单。采用双链DNA编码化合物可以避免A组和B组DNA之间的耦合,避免DNA自身对化合物之间可逆化学反应的影响。
以下通过具体实施例对本发明作进一步说明。
实验中所用试剂和仪器的规格、型号与厂家见表1和表2。
表1试剂的规格和厂家
试剂 |
规格 |
厂家 |
对醛基苯甲酸 |
AR |
百灵威 |
对氨甲基苯甲酸 |
AR |
百灵威 |
含氨基修饰的DNA |
AR |
上海生工 |
碳酸脱氢酶CA-Ⅱ |
AR |
百灵威 |
氰基硼氢化钠 |
AR |
百灵威 |
DNA聚合酶 |
AR |
NEB |
EDC |
AR |
百灵威 |
NHS |
AR |
百灵威 |
磷酸缓冲液 |
AR |
百灵威 |
DMSO |
AR |
百灵威 |
DNA聚合反应预混溶液 |
AR |
NEB |
三乙胺 |
AR |
百灵威 |
乙酸 |
AR |
百灵威 |
三氟乙酸 |
AR |
百灵威 |
Glycogen |
AR |
Sigma |
醋酸钠 |
AR |
百灵威 |
柠檬酸铵 |
AR |
Fluka |
PBS缓冲液 |
AR |
Bio-rad |
溴乙锭 |
AR |
Sigma |
PCR纯化试剂盒 |
100T |
Bio-rad |
表2仪器的型号和厂家
实施例1
本实施例合成了一个含有100x100个化合物的动态分子库,其中A组和B组结构单元各含100个化合物,且其中的A1与B1为已知的能够与模型靶点蛋白碳酸脱氢酶CA-II结合的结构单元,A1中能够发生可逆化学反应的活性基团为醛基,B1中对应的互补活性基团为氨基。在编码DNA的A链和B链中分别用TAAC和TCCG编码,其它结构单元则以其它序列编码。具体来说,DNA编码的动态分子库的合成步骤包括:
(a)结构单元与DNA通过酰胺键连接
A组结构单元与B组结构单元均以羧酸的形式存在,均与DNA通过酰胺键连接,实验中通过384孔板进行平行操作,能够快速实现384组结构单元与DNA的连接反应。以结构单元A1和B1为例(A1和B1的结构见化学式1和化学式2),首先将A1或B1溶于无水二甲基亚砜(DMSO),制备浓度为900mM的溶液。同时将1-(3-二甲氨基丙基)-3-乙基碳二亚胺(EDC)和N-羟基琥珀酰亚胺(NHS)分别溶于无水DMSO中,浓度也分别为900mM。将三个溶液以1:1:1的比例混合,在室温下振荡1小时,实现对羧酸的活化。
取40μL活化的羧酸溶液,将其直接加入80μL 5’-胺基DNA的溶液(100μM,pH=7.2;100mM磷酸缓冲液)之中。该混合液在37℃下反应1小时后,加入乙醇,沉淀分离DNA。分离出来的DNA包括与结构单元结合的DNA以及未反应的DNA,再通过HPLC纯化出产物“结构单元-DNA”,并进行质谱表征。A1和B1分别与5’-胺基DNA反应后的HPLC测定条件相同,如表3所示,测定结果分别见表4和表5。
表3 A1和B1分别与5’-胺基DNA反应后的HPLC测定条件
表4 A1与5’-胺基DNA反应后的HPLC测定结果
编号 |
时间(min) |
峰面积 |
峰高 |
峰宽 |
面积% |
1 |
2.964 |
95.6 |
4.5 |
0.2685 |
0.485 |
2 |
3.445 |
79.9 |
3.3 |
0.3556 |
0.405 |
3 |
3.765 |
366.4 |
65.5 |
0.0853 |
1.858 |
4 |
14.372 |
675.1 |
30.4 |
0.3113 |
3.422 |
5 |
17.935 |
17512.7 |
344 |
0.7419 |
88.776 |
6 |
21.163 |
997 |
133.1 |
0.1154 |
5.054 |
表5 B1与5’-胺基DNA反应后的HPLC测定结果
编号 |
时间(min) |
峰面积 |
峰高 |
峰宽 |
面积% |
1 |
3.964 |
117.8 |
28.2 |
0.0628 |
0.304 |
2 |
4.187 |
94.4 |
15.9 |
0.0874 |
0.244 |
3 |
13.54 |
252.1 |
16.4 |
0.2219 |
0.651 |
4 |
14.045 |
6387.9 |
350 |
0.2549 |
16.497 |
5 |
14.573 |
31870.5 |
1754 |
0.264 |
82.304 |
HPLC测定结果表明A1与DNA连接后的保留时间为17.935min,B1与DNA连接后的保留时间为14.573min。
标记所有结构单元的DNA仅编码区的序列不同,以A1和B1为例,所述与A1相连的A链DNA的碱基序列如SEQ ID NO.1所示;与B1相连的B链DNA的碱基序列如SEQ ID NO.2所示。
SEQ ID NO.1:ATGGCAGGCTACGAA TAAC CTGGAGCCAATAAGC
SEQ ID NO.2:ATGGCAGGCTACGAATCCG CTGGAGCCAATAAGC
(b)A组和B组结构单元反应
将连有DNA的A组和B组结构单元按照1:1的摩尔比加入pH=6.5,浓度为100mM的磷酸缓冲液之中,得到的A组和B组结构单元浓度均为1.0μM。将该溶液加热到90℃并维持1分钟,再缓慢退火至室温,维持5分钟;加热过程共5分钟,退火过程共30分钟。此加热/退火过程即完成了A组和B组结构单元的反应,即合成得到了DNA编码的动态分子库。该分子库包含A1与B1反应的产物,即通过A1中的醛基与B1中的氨基反应形成亚胺来连接A1和B1结构单元。
本实施例还包括从所述的含100x100个化合物的动态分子库中筛选出与模型靶点蛋白碳酸脱氢酶CA-II结合的结构单元,其筛选步骤包括:
(c)加入靶蛋白,富集与靶蛋白结合的结构单元
将合成得到的分子库进一步冷却至4℃,加入蛋白质靶点CA-II,蛋白质的最终浓度为2μM。溶液在4℃保持6小时,使体系充分达到动态平衡。
(d)平衡锁定
体系充分平衡后,加入还原剂NaBH3CN(最终浓度10mM),保持4℃反应16小时,动态平衡生成的亚胺被还原为胺基,从而锁定平衡。
用2倍体积的40%醋酸溶液淬灭锁定平衡的还原反应,即完成了分子库对靶点蛋白CA-II的筛选过程,筛选得到的化合物能够与靶点蛋白CA-II结合,且同时带有A链和B链DNA。
(e)分离和纯化
平衡锁定之后,通过10%或15%的TBE-Urea PAGE变性凝胶电泳,将已经连在一起的A链-B链偶合物(能够与靶点蛋白CA-II结合)与独立的A链和B链进行分离(见图4)。由于凝胶电泳的强变性条件,所分离出的DNA已经为单链。在凝胶电泳结束后,将A链-B链偶合物的胶条切出,用1x PB(磷酸缓冲液)进行萃取。萃取出连在一起的A链-B链偶合物,直接用乙醇进行沉淀纯化。
(f)PCR扩增与DNA测序解码
将沉淀纯化后的A链-B链偶合物重新溶解于水中,稀释到浓度为1nM,取10μL进行PCR扩增。PCR扩增的实验步骤如下:向体系中加入5μL PCR引物(5μM),1μL浓度为1mM的dNTP混合物,10μL 5x反应缓冲溶液以及0.5μL高保真DNA聚合酶,将PCR体系的总体积稀释到50μL。再按照92℃30秒,55℃1分钟,72℃30秒的反应条件循环扩增29次,然后通过3%琼脂糖凝胶电泳进行纯化分离,并进一步通过PCR纯化试剂盒提纯得到最终PCR产物。对PCR产物进行定量之后,取10ng/μL的PCR产物溶液,直接送DNA测序。
所述引物包括正向引物和反向引物,其序列分别如SEQ ID NO.3和SEQ ID NO.4所示。
正向引物序列SEQ ID NO.3:TACCG TCCGA TGCTT
反向引物序列SEQ ID NO.4:GCTTA TTGGC TCCAG
(h)确定所筛化合物的结构
用DNA测序仪测序的样品除上述的分子库对靶点的筛选样品之外,还将一个“筛选前”分子库样品也送样测序作为对照。该对照样品为与筛选样品经过同样的筛选过程,但是没有加入蛋白质靶点。通过对照样品来避免筛选结果中的假阳性现象,即排除非加入的靶点蛋白引起的化合物富集。
从图3可以看到,在筛选前整个分子库中,在两个编码区的DNA序列并没有显出TAAC和TCCG的序列,说明结构单元A1与B1的反应产物在分子库中并没有被富集。
经靶蛋白筛选的样品用DNA测序仪测试后发现,在两个编码区中TAAC和TCCG的序列被富集,大大超过了其它的背景序列,说明分子库中和CA-II结合的结构单元被富集,即加入靶蛋白CA-II后筛选出来的与化合物连接的A链和B链DNA编码区分别为TAAC和TCCG(见图3),分别对应结构单元A1和B1,从而确定与靶蛋白CA-II结合的化合物结构如化学式3所示,该化合物为公知的能够与靶蛋白CA-II结合的化合物,说明本发明的筛选方法很准确。
以上数据充分证明了本发明所述DNA编码动态分子库技术的可行性。在新药研究领域,筛选出与靶点蛋白结合的化合物至关重要,本发明提供了快速、准确的动态分子库合成与筛选方法,具有重大意义。
以上通过实施例描述了本发明的具体实施方式,本领域技术人员应理解的是,上文实施例仅出于举例的目的,不应认为以此限定本发明之保护范围,本领域技术人员在不脱离本发明精神的前提下可以对其进行修改、变化或替换,但是,依照本发明所作的各种等同变化,仍属于本发明所涵盖的范围。
SEQUENCE LISTING
<110> 杭州阿诺生物医药科技股份有限公司
<120> DNA编码动态分子库的合成与筛选方法
<130> OICN160100
<160> 4
<170> PatentIn version 3.5
<210> 1
<211> 34
<212> DNA
<213> 人工序列
<400> 1
atggcaggct acgaataacc tggagccaat aagc 34
<210> 2
<211> 34
<212> DNA
<213> 人工序列
<400> 2
atggcaggct acgaatccgc tggagccaat aagc 34
<210> 3
<211> 15
<212> DNA
<213> 人工序列
<400> 3
taccgtccga tgctt 15
<210> 4
<211> 15
<212> DNA
<213> 人工序列
<400> 4
gcttattggc tccag 15