CN101785003A - 表示n-连接的聚糖结构的系统和方法 - Google Patents

表示n-连接的聚糖结构的系统和方法 Download PDF

Info

Publication number
CN101785003A
CN101785003A CN200880103416A CN200880103416A CN101785003A CN 101785003 A CN101785003 A CN 101785003A CN 200880103416 A CN200880103416 A CN 200880103416A CN 200880103416 A CN200880103416 A CN 200880103416A CN 101785003 A CN101785003 A CN 101785003A
Authority
CN
China
Prior art keywords
glycan
letter
branch
character
residue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880103416A
Other languages
English (en)
Inventor
李东烨
法拉茨·优素菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN101785003A publication Critical patent/CN101785003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Abstract

本发明披露了一种用于表示一般在哺乳动物细胞培养物的分泌糖蛋白中发现的N-连接聚糖结构的固定长度的字母-数字编码。该编码使用预先分配的字母-数字索引来表示连接到核心聚糖结构的不同分支的单糖。本分支-中心表示法可使结构可视化,而编码的数字特性使其成为机器可读的。可定义差分算子来定量鉴别聚糖结构以用于进一步的研究。该编码可以检索格式被整合到信息管理系统中。本发明还提供了使用固定长度字母-数字编码表示至少部分寡糖结构的方法。

Description

表示N-连接的聚糖结构的系统和方法
相关申请的引用
本专利申请是基于2007年6月15日提交的美国临时专利申请第60/929,163号,并且要求其优先权,其全部内容以引用方式结合于本文作为参考。
技术领域
本发明涉及描述能够被计算机简单存储和翻译的聚糖结构的系统。
背景技术
聚糖是寡糖的复合链,其在细胞的若干种结构和调节功能中起到关键的作用。虽然聚糖被认为是继DNA和蛋白质之后最重要的分子类型之一,但支持和促进其研究的信息学方法的发展已经落后于现有的其他类型数据。只是在近些年,信息学资源的可利用度才有所提高,如用于分析聚糖结构和它们的相互作用的聚糖数据库和算法(Pérez S,Mulloy B(2005)“Prospects for glycoinformatics.”CurrOpin Struct Biol 15:517-524“(“Pérez et al.”)。这种差距主要是由于,与DNA和蛋白质较为简单的线性结构相比,糖类的结构复杂。核苷酸和氨基酸残基可分别由4个或20个字母表示,而聚糖序列由大量的基本残基组成,并且包含连接和分支的附加信息(von derLieth CW(2004)“An endorsement to create open databases foranalytical data of complex carbohydrates.”J Carbohydr Chem23:277-297(“von der Lieth I”);Laine RA(1994)“A calculation of allpossible oligosaccharide isomers both branched and linear yields 1.05x10(12)structures for a reducing hexasaccharide:the Isomer Barrier todevelopment of single-method saccharide sequencing or synthesissystems.”Glycobiology 6:759-767)。因此,若干个研究项目都遭遇到了缺乏能够提供其他研究人员自由使用的并且在不同应用中可共同使用的聚糖资料的适合数字格式的问题(von der Lieth CW,Bohne-Lang A,Lohmann KK,Frank M(2004)“Bioinformatics forglycomics:status,methods,requirements and perspectives.”BriefBioinform 5:164-178)。因此,开发容易被科学家们理解且是计算机可读的简单、灵活和多元的表示聚糖结构的数字格式是必要的(Brazma A,Krestyaninova M,Sarkans U(2006)“Standards forsystems biology.”Nat Rev Genet 7:593-605.)。
目前有若干种可用的描述聚糖结构的系统命名法,图1a-图1d示出了其中的一些。IUPAC-IUBMB(国际纯粹和应用化学联盟和国际生物化学与分子生物学联盟)提供了完整描述聚糖结构的扩充文本或缩写文本格式(McNaught AD(1997)“Nomenclature ofcarbohydrates”(recommendations 1996).Adv Carbohydr ChemBiochem 52:43-177)。缩写的三字母编码表示独立的单糖单位,每个单位伴随一个端基异构体描述符、以及立体化学信息和连接信息。但是,IUPAC的描述是含混不清的,不能以计算机可读的格式充分概括性地描述所有的聚糖。为了克服该局限,开发了LINUCS(糖序列独特描述的线性标记法,LInear Notation for Unique description ofCarbohydrate Sequences)从而通过根据配糖连接信息来扩展的IUPAC的描述来产生聚糖的线性表示(Bohne-Lang A,Lang E,Forster T,von der Lieth CW(2001)“LINUCS:linear notation forunique description of carbohydrate sequences.”Carbohydr Res336:1-11)。另一种可用的格式是Glycominds’Linear CodeTM,其开发了用于确定分支级别的具体查询表(Banin E,Neuberger Y,Altshuler Y,Halevi A,Inbar O,Nir D,Dukler A(2002)“A novel linearcode nomenclature for complex carbohydrates.”Trends GlycosciGlycotechnol 14:127-137)。在这种表示形式中,单糖单元和连接可以由1至2个字母表示。最近,作为数据描述语言的XML逐渐普及,这也使得提出了基于XML来表示聚糖结构,如GLYDE(SahooSS,Thomas C,Sheth A,Henson C,York WS(2005)“GLYDE-anexpressive XML standard for the representation of glycan structure.”Carbohydr Res 340:2802-2807)和CabosML(Kikuchi N,KameyamaA,Nakaya S,Ito H,Sato T,Shikanai T,Takahashi Y,Narimatsu H(2005)“The carbohydrate sequence markup language(CabosML):anXML description of carbohydrate structures.”Bioinformatics21:1717-1718)。还存在其他可用于描述聚糖结构的格式,它们已经在别处进行了综述(Pérez et al;von der Leith I;Toukach P,Joshi HJ,Ranzinger R,Knirel Y,von der Lieth CW (2007)“Sharing ofworldwide distributed carbohydrate-related digital resources:onlineconnection of the bacterial carbohydrate structure database andGLYCOSCIENCES.de.”Nucleic Acids Res 35:D280-286)。
哺乳动物细胞系用于产生重组蛋白是理想的,其需要例如糖基化的翻译后修饰。因为糖基化对诸如折叠、稳定性和效力之类的多种生物学特性有影响,所分泌的蛋白的质量取决于连接的聚糖结构的一致性。因此,致力于研究复杂的糖基化反应途径从而控制蛋白质糖基化的多样性是非常活跃的研究领域。
本发明涉及针对这些和其他问题的解决方法。
发明内容
因此,本发明的基本目的是提供容易被计算机存储和翻译的描述聚糖结构的紧凑记法(compact notation)。
本发明的另一个目的是提供聚糖结构的简化字母数字表示法,其能够促进计算机辅助分析工具的发展从而研究这些复杂途径。
本发明的另一个目的是提供能够代替文本表示对聚糖结构的简化字母数字表示法。
本发明的另一个目的是提供表示至少部分寡糖的结构的方法。
本发明的这些和其目的是通过用于描述N-连接聚糖结构(其通常在如中华仓鼠卵巢细胞(CHO)之类的工程哺乳动物细胞系分泌的糖蛋白中发现)的字母-数字编码来实现的,其在后文中被称为“GlycoDigit编码(GlycoDigit code)”。
在本发明的一个方面,使用6个字符的字母-数字编码来描述基于连接至核心结构的不同分支的单糖链的聚糖结构。在本发明的另一个方面,GlycoDigit编码中的结构由7位数字-字母对表示14个字符的固定全长。字母-数字编码的数字组成可以发展差分算子和算法,从而方便进行基于每种结构的独有的字母-数字编码的聚糖的比较。
所属领域的技术人员在阅读包括附图的本说明书时能够明白本发明的其他目标、特性和优势。
附图说明
通过阅读以下的优选实施方式的详细描述通过参考附图,可以更好地理解本发明,其中全文中相似的参考数字表示相似的元素,
其中:
图1a是N-连接聚糖结构的字符表示,其使用牛津大学糖生物研究所(英国)提出的系统命名法的字符来绘图表示结构。
图1b是图1A的N-连接聚糖结构的全文字表示。
图1c是使用LINUCS格式的图1A的N-连接聚糖结构的表示。
图1d是使用Linear CodeTM的图1A的N-连接聚糖结构的表示。
图2描述了所有的共用一个共同的五糖核心结构的N-连接聚糖共有的五糖核心结构,以及其他的糖分支可连接的可能位点。
图3示出了图2的核心结构的可能分支,和对于本发明的GlycoDigit编码的第一种实施方式的6字符的字母-数字编码,链的每个数字的对应位置。
图4a是复合型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第一种实施方式的对应的表示。
图4b是高甘露糖型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第一种实施方式的对应的表示。
图4c是杂合型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第一种实施方式的对应的表示。
图5a是复合型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第二种实施方式的对应的表示。
图5b是高甘露糖型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第二种实施方式的对应的表示。
图5c是杂合型N-连接聚糖的绘图表示和其使用本发明的GlycoDigit编码的第二种实施方式的对应的表示。
图6a-图6f示出了图6a中表示的复合型结构对应的GlycoDigit编码的分步表示,使用了本发明的GlycoDigit编码的第二种实施方式。
图7显示了使用差分算子来发现两种聚糖之间的结构差异,使用其对应于本发明第一种实施方式的GlycoDigit编码。
图8显示了使用差分算子来发现复合型聚糖结构和杂合型N-连接聚糖结构之间的结构差异,使用它们对应于本发明第一种实施方式的GlycoDigit编码。
图9显示了两种聚糖和从一种结构转化为另一种所需的反应步骤,使用本发明的GlycoDigit编码的第一种实施方式。
图10显示了用于填入聚糖反应的邻接矩阵的isrxn和rxm矩阵函数的伪代码。
图11a是可视化的64个二分支聚糖的整理后数据集的聚糖和反应连接的网状系统,其被设计为分级的方式。
图11b是图11a中指定区域11b的放大图。
图12a是可视化的1024个通常在CHO细胞中分泌的复合型聚糖的完整糖基化网状系统,其被设计为分级的方式。
图12b是图12a中指定区域12b的放大。
图12c是图12a中指定区域12c的放大。
图13是图1a、图2、图3、图4a-图4c、图5a-图5f、图6a-图6f、图7、图8和图9中使用的字符的示意。
具体实施方式
在描述附图所示的本发明的优选实施方式中,基于清楚说明的目的使用了特定的术语。但是,不希望本发明被限定于如此选择的特定术语,应理解每个特定元素包括所有以相似方式作用从而达到相似目的的技术等效物。
方法
本发明的一个方面是表示至少部分寡糖的结构的方法。优选地,该表示法是被计算机容易储存和分析的。如下所述,本发明的方法可以被应用于产生本文所述的特定“GlycoDigit”编码,但是应认识到它还可以用于产生寡糖结构的不同表示。
本发明的方法的第一部分包括表示系统的产生,包含以下步骤:
(a)选择基础寡糖结构;
(b)确定步骤(a)中选择的基础结构上的可能的取代点的数目,并且给每个取代点分配位置;
(c)为步骤(b)的取代点分配二字符编码,其中“字符”表示任何唯一的标识符,该二字符编码具有第一字符和第二字符;
(d)为二字符中的第一字符分配一个或多个唯一的标识符,为二字符的第二字符分配一个或多个唯一的标识符,从而第一字符和第二字符一起唯一地识别了步骤(b)中识别的特定取代点上的残基;和
(e)对每个取代点重复步骤(d),从而步骤(b)中识别的每个取代点具有一组二字符编码,其识别该取代点可能的残基。
在步骤(a)中,选择基础寡糖结构。优选地,该基础结构存在于许多感兴趣寡糖结构中。该基础结构“越大”(即,感兴趣的寡糖中的共有结构特征的数目越大),所需的表示系统就越简单。
在步骤(b)中,识别了基本结构上的每个可能的取代点。通常,给每个取代点分配一个数字,从1至x,其对应于最终结构表示中的位置。取代点的数目越大,该方法可表示的结构就越复杂。在步骤(c)中,选择了二字符编码,其中“字符”表示任何唯一的标识符。通常,一个字符是数字且一个是字母,但是两个都可以是数字或字母。也可使用非罗马字母表,例如俄语、希腊语、希伯来语等。
在步骤(d)中,分配步骤(c)中选择的字符的意义。在下文中详细讨论其对于GlycoDigit编码的实施例,但是可以使用任何系统。每个二字符组的意义的组合用于特异性地限定在每个预先选择的取代点存在的残基。重要的是,应注意,标识符未必能够确定特定取代点的每个单独的可能残基,只要涵盖所有感兴趣的残基即可。在步骤(e)中,对于步骤(b)中识别的每个取代点重复步骤(d)。
所要求保护的方法的第二部分包括将以上开发的系统应用于特定的寡糖:
(f)检查包含步骤(a)中选择的基础寡糖结构和可选的一个或多个该基础结构上的残基的寡糖结构的结构;和
(g)为步骤(f)的寡糖结构上的残基分配二字符编码从而与步骤(d)和(e)中发展的二字符编码相匹配,并且将它们记录在步骤(b)中分配的位置。
所属领域的技术人员会明白通过使用该方法可以应用下文中详细描述的GlycoDigit编码。
N-连接的聚糖结构
N-连接糖基化发生在所有带有N-连接聚糖的真核细胞中,共用图2中描绘的共有的五糖核心结构。数个单糖链可以以不同的连接位置通过不同的糖基转移酶的作用连接到该核心结构。N-连接聚糖结构可以为高甘露糖、复合或杂合亚型。高甘露糖型N-连接聚糖只包含连接至核心结构的甘露糖(Man)残基,而复合型N-连接聚糖具有连接至核心的N-乙酰葡糖胺(GlcNAc)残基。杂合亚型包含GlcNAc和未取代的甘露糖残基的分支(Varki A等.(eds)(1999)Essentials of glycobiology.New York(USA):Cold Spring HarborLaboratory Press(“Varki等”)。
在本发明的第一种实施方式中,如图4a-4图c所示,六字符字母-数字编码用于描述图2所示的基于连接至核心结构的不同分支的单糖链的聚糖结构。开始的四个字母对应于连接到上部和下部的核心甘露糖残基的四个可能的链,而第五和第六个字母各自分别表示平分型GlcNAc和海藻糖基团。图3显示了核心结构的可能的分支,还有链的每个字母的对应位置。
如果分支是复合型的,开始的四个分支由奇数表示,而高甘露糖型分支由字母表示。末端为GlcNAc、半乳糖或神经氨酸残基的复合分支分别由数字3、5、7表示。杂合型和高甘露糖型N-连接聚糖的甘露糖残基由字母A-F表示,每个字母被指定为偶数,即A=2,B=4,C=6等。对于每个分支,字母值对应于连接到该分支的甘露糖残基数目的二倍,即A=2表示连接了一个甘露糖残基,B=4表示连接了两个甘露糖残基等。如果分别存在平分型GlcNAc和海藻糖残基,第五和第六个字符具有的值为3。如果不存在分支,其对应数字是1。定义了其他的规则,其限定了可连接到结构的甘露糖残基的数目,并且其允许了哪种复合型和高甘露糖型分支的组合。通过这些定义,GlycoDigit编码可被用于描述5100种聚糖的结构。
糖基转移酶是依次地每次给聚糖结构增加一个单糖的酶。六个GlcNAc转移酶(GlcNAcT I-VI)可将GlcNAc以不同的连接添加到三个核心甘露糖。如图2所示,在α1-3连接的核心甘露糖上,GlcNAcT I和IV分别以β1-2和β1-4连接添加残基。与此相似,在α1-6连接的核心甘露糖上,GlcNAcT II、V和VI分别添加以β1-2、β1-6和β1-4连接的残基。此外。一个平分型GlcNAc可通过β1-4连接到中心核心甘露糖上(Campbell C,Stanley P(1984)“A dominantmutation to ricin resistance in Chinese hamster ovary cells inducesUDP-GlcNAc:glycopeptide beta-4-N-acetylglucosaminyltransferase IIIactivity.”J Biol Chem 259:13370-13378;Sburlati AR,Umana P,PratiEG,Bailey JE(1998)“Synthesis of bisected glycoforms of recombinantIFN-beta by over-expression ofbeta-1,4-N-acetylglucosaminyltransferase III in Chinese hamster ovarycells.”Biotechnol Prog 14:189-192(“Sburlati et al”);Umana P,Jean-Mairet J,Moudry R,Amstutz H,Bailey JE(1999)“Engineeredglycoforms of an antineuroblastoma IgG1 with optimizedantibody-dependent cellular cytotoxic activity.”Nat Biotechnol17:176-180(“Umana等”))。最后,海藻糖残基可以α1-6连接到核心GlcNAc,其与蛋白质上的天冬酰胺氨基酸连接(Varki等)。
基于这些七种可能的间接位点,本发明的第二种实施方式,如图5a-图5c所示,GlycoDigit编码使用七个数字-字母对来表示聚糖结构。GlycoDigit编码的第二种实施方式的每个数字-字母对应于从图2所显示的核心结构连接的分支。开始的六个数字-字母对对应于连接至上部和下部核心甘露糖残基的六个可能的分支。通过第六个数字-字母对表示甘露糖之间的平分型GlcNAc,最后的第七个位置对应于可连接到核心或边缘GlcNAc残基的海藻糖分子。每个对的数字部分对应于连接该分支的单糖的数目,而字母充当包含关于连接类型和添加的特定糖分子的附加信息的表的索引。
表1列出了在GlycoDigit编码的第二种实施方式中每个数字-字母对对应于哪个连接。可通过使用开始的四个数字-字母对对应于连接到图2所示的核心结构中的两个甘露糖残基中的每个的α1-2、α1-3和α1-6连接的甘露糖链来表示高甘露糖型和杂合型结构。为了区别复合型和高甘露糖型分支,通过字母代替数字来表示甘露糖残基的数目。因此,含有一个GlcNAc分子的分支可以‘1a’表示,而含有一个甘露糖残基的分支可以‘Aa’表示。更高的字母对应于分支中甘露糖的更高数量,即B=2,C=3,D=4等。如果没有聚糖以特定的分支连接,则其被表示为‘0x’。字母‘u’被预留表示以未知连接的单糖。因为第六个数字-字母对表示平分型GlcNAc,只有两个可能的值:根据是否连接分子为‘0x’或‘1a’。最后的数字-字母对用于计算连接到核心结构的海藻糖残基或连接到分支GlcNAc分子的任何边缘海藻糖的数目。更多关于可加入到结构的聚糖的类型的细节会在下文中进行描述。
Figure GPA00001029691400111
GlcNAc、半乳糖和聚乳糖胺链
在GlcNAc残基加入到核心结构之后,数个其他的单糖可依次连接它。半乳糖(Gal)残基通过β1-4连接到GlcNAc,则该分支表示为表2列出的‘2a’。该Galβ1-4GlcNAc结构被称为乳糖胺单元,额外的乳糖胺单元可通过β1-3连接到第一结构从而形成聚乳糖胺链。GlycoDigit编码的第二种实施方式允许在一个单独分支中存在的乳糖胺单元达到四个。虽然第一GlcNAc和半乳糖部分可以被独立添加,其后的增加被限制于它们必须以单独的乳糖胺单元一起被添加。这个事实反映在表2中,其中对于只有乳糖胺单元的分支分配的数字数值是偶数。因此,具有两个乳糖胺单元的分支被表示为‘4a’;三个单元为‘6a’等。半乳糖还可以通过β1-3连接到GlcNAc从而形成新型乳糖胺单元(Varki等)。GlycoDigit编码不允许重复的新型乳糖胺单元,第一单元可以表示为‘2b’,如表2列出。最外部的半乳糖可具有如海藻糖或唾液酸的最终的单糖连接它。
Figure GPA00001029691400121
末端残基
分支最外端的半乳糖残基可以被添加几个末端单糖。因为偶数被用于表示半乳糖单元的存在,在GlycoDigit编码的第二种实施方式中,奇数(3、5、7和9)用于表示不同的末端糖。表3列出了可以以数种不同的连接位置添加到最外部半乳糖的单糖。
Figure GPA00001029691400122
唾液酸是添加到最外侧半乳糖的最普遍类型的聚糖,通常以α2-3或α2-6连接。虽然唾液酸具有很大多样性,N-乙酰神经氨酸(NeuNAc)和N-羟乙酰神经氨酸(NeuGc)是发现的最普遍的唾液酸。小鼠产生的糖蛋白几乎只具有NeuGc,而CHO细胞是大部分的NeuNA和少量NeuGc的混合物(Baker KN,Rendall MH,HillsAE,Hoare M,Freedman RB,James DC(2001)“Metabolic control ofrecombinant protein N-glycan processing in NSO and CHO cells.”Biotechnol Bioeng 73:188-202).NeuGc不存在于人体中而且包含它的糖蛋白对人体实际上是免疫的。(Irie A,Koyama S,Kozutsumi Y,Kawasaki T,Suzuki A(1998)“The molecular basis for the absence ofN-glycolylneuraminic acid in humans.”J Biol Chem273:15866-15871)。在表3中,字母“a”至“f”被分配表示以各种连接的NeuNAc和NeuGc。α2-8连接的唾液酸,其连接到α2-3唾液酸,目前不在GlycoDigit编码的第二种实施方式中表示。
其他的可连接到最外部半乳糖的末端残基是海藻糖(以字母“g”表示)和额外的α1-3连接的半乳糖(以字母“h”表示)。在某些血型抗原中,如Lewis Y和Lewis B抗原,发现以α1-2连接到末端半乳糖的海藻糖单元(Varki等)。小鼠细胞中的α1-3半乳糖基转移酶将额外的末端半乳糖残基连接到β1-4连接的半乳糖上(Butler M(2006)“Optimisation of the cellular metabolism of glycosylation forrecombinant proteins produced by mammalian cell systems.”Cytotechnology 50:57-76)。该Galα1-3Galβ1-4GlcNAc结构在人体内是产生高度免疫性的(Jenkins N,Parekh RB,James DC(1996)“Getting the glycosylation right:implications for the biotechnologyindustry.”Nat Biotechnol 14:975-981)。
海藻糖基化
GlycoDigit编码的第二种实施方式中的最末数字-字母对用于表示核心GlcNAc和连接到核心结构上的分支中的最外部GlcNAc残基上的海藻糖基化。海藻糖通过α1-6连接到核心GlcNAc残基上,而边缘的海藻糖基化可通过α1-3或α1-4连接来产生(Ma B,Simala-Grant JL,Taylor DE(2006)“Fucosylation in prokaryotes andeukaryotes.”Glycobiology 16:158R-184R)。重要的是,应注意,该数字-字母对只计算了连接到GlcNAc的海藻糖分子,未包括连接到最外部半乳糖的海藻糖,其被包括在表示末端残基的情况中。最后的数字-字母对的数字部分计算连接到结构中的GlcNAc的海藻糖分子,而字母用于表示哪个分支被海藻糖基化并通过哪种连接。为了使编码尽可能保持简明,不是所有可能的海藻糖基化位点的组合都表示在GlycoDigit编码的第二种实施方式中。只有分支中最外端的GlcNAc残基可以被海藻糖基化。此外,如果超过一个的分支被海藻糖基化,则必须以相同类型的连接所有的海藻糖残基。因此,具有两个以α1-3连接到外部分支的海藻糖残基的结构是可能,而具有一个以α1-3连接和另外一个以α1-4连接的海藻糖是不可能的。表4列出了GlycoDigit编码的第二种实施方式表示的海藻糖基化的所有的组合。
Figure GPA00001029691400141
Figure GPA00001029691400151
结果
通过GlycoDigit编码表示N-连接聚糖
GlycoDigit编码可以用于表示复合型、高甘露糖型和杂合型N-连接聚糖。图4a-图4c描述了不同亚类型的三种不同的N-连接聚糖结构和它们对应的使用GlycoDigit编码的第一种实施方式的表示,图5a-图5c描述了三种不同的聚糖结构和它们对应的GlycoDigit编码的第二种实施方式的表示。在图4a-图4c和图5a-图5c的所有图中,带圆圈的数字表示分支的位置;不带圆圈的数字表示每个分支的末端单糖;下划线的字母-数字编码是每种结构的GlycoDigit编码表示。图4a-图4c中的阴影部分是所有N-连接聚糖共有的核心结构。
图4a是具有以下数字用于编码的复合型N-连接聚糖:
第1个数字=7:分支末端为NeuNAc(N-乙酰神经氨酸)
第2个数字=3:分支末端为GlcNAc(N-乙酰葡糖胺)
第3个数字=5:分支末端为半乳糖
第4个数字=1:不存在分支
第5个数字=1:没有平分型GlcNAc连接到该分支
第6个数字=3:海藻糖连接到该结构
因此图4a中的结构的最终编码是(735113)。可以通过查询表I中的数字的数值来推导每个分支中连接的单糖的详细的连接信息。图4b中显示了高甘露糖型聚糖结构的编码。每个数字的数值是基于连接到每个分支的甘露糖残基的数目。重要的是应注意该格式可以允许最高9个的甘露糖残基连接到结构中,因为这是分泌的哺乳动物糖蛋白的情况,如此后所述。图4b中的结构包含最高可允许的甘露糖的数目。图4c中显示了杂合型聚糖结构和其对应的编码。如方法中所述,四链(antennary)N-连接聚糖的分支1和2,分支3和4必须分别是同一类型的,即或者都是甘露糖,或者都是复合型。例如,具有带有甘露糖残基的分支1和带有GlcNAc残基的分支2是不可能的。
本文描述的规则不是要涵盖所有种类的N-连接聚糖结构。已经发现某些脊椎动物的结构具有5个分支,第三分支连接到上部核心甘露糖(Varki等)。在CHO细胞中,已观察到了相似的分支存在,但是只是作为糖基化途径中的中间步骤(Butler M.2006.“Optimisation of the cellular metabolism of glycosylation forrecombinant proteins produced by mammalian cell systems.”Cytotechnology,50:57-76)。此外,在其他的种类中观察到了可能的连接的若干种其他变化(Schachter H,Brockhausen I,Hull E.1989.“High-performance liquid chromatography assays forN-acetylglucosaminyltransferases involved in N-and O-glycansynthesis.”Methods Enzymol.,179:351-397)。尽管如此,GlycoDigit编码充分适用于大多数一般用于产生重组蛋白的哺乳动物种类。
GlycoDigit编码的第一种实施方式提供了产生所有可能的聚糖结构的简单方法。对于分支1至4,有10种可能的字母-数字字符可用于表示分支结构(1、3、5、7、A、B、C、D、E和F),而对于第5和第6分支有两个可能的数字(1、3)。因此,在本发明GlycoDigit编码的6个数字-字母对的实施方式中,可产生和表示10×10×10×10×2×2=40,000种不同的结构。但是,这些结构不是所有都是合理的。可通过下文中描述的规则排除不合理的结构,这样产生了在GlycoDigit编码的6字符字母-数字实施方式中的被认为是理论上合理的聚糖结构的4860种N-连接聚糖结构。当然,可以进一步完善该规则从而产生与合适的哺乳动物细胞系有关的聚糖类群。
表5总结了GlycoDigit编码的第一种实施方式中(6个字符字母-数字)的每个数字的定义,还显示了完全的分支结构和端基异构(或异头,anomeric)连接的信息。空白单元表示值对于该数字位置是不可能的。
Figure GPA00001029691400181
定义了三个附加规则从而通过GlycoDigit编码的6字符字母-数字实施方式来描述CHO细胞的分泌蛋白质的N-聚糖结构。
规则1:对于哺乳动物细胞分泌的高甘露糖和杂合亚型,连接到核心结构的甘露糖残基的最高可能值为6,这使得结构中的甘露糖残基的总数等于9(计算了三甘露糖基核心的三个残基)(Varki等)。
规则2:GlycoDigit编码的6字符字母-数字实施方式只允许单独分支中最多有6个甘露糖。
规则3:对于杂合型结构,分支1和2,及分支3和4必须分别是相同的类型,即或者都是甘露糖,或者都是复合型。
图5a的复合型聚糖结构是三链结构,具有连接在与α1-3连接甘露糖相连的分支上的Lewis Y型抗原决定基。在7个数字-字母对实施方式中,对于该结构的GlycoDigit编码是[0x 3g 1a 3a 0x 0x 2c]。图5b中的Man9GlcNAc2结构是高甘露糖型结构,其是内质网和高尔基体中的所有进一步糖基化反应的起点。由于甘露糖残基由字母而不是数字表示,该结构对应的编码是[Ba 0x Ba Ba 0x 0x 0x]。图5c中显示的杂合型结构具有两个高甘露糖型分支和两个复合型分支。唾液酸化的路易斯寡糖X(sialylLewis X)结构存在于具有连接到分支GlcNAc的海藻糖残基的第一复合型分支中,而显示双乳糖胺链在第二分支中。如图所示,该结构通过GlycoDigit编码表示为[3a 4a Aa Ba 0x 1a 2a]。
图6a-图6f显示了图5a的复合型结构的对应GlycoDigit编码(7个数字-字母的实施方式)的分步表示。每个数字-字母对可以如下编码:
从第一个数字-字母对开始,在对应的分支是空的情况下,因此表示为‘0x’。
见连接到α1-3核心甘露糖的第二分支,其具有三个残基并且终止于末端海藻糖;其表示为如表3列出的‘3g’。
第三个数字-字母位置的分支具有一个GlcNAc残基并且表示为‘1a’。
第四分支具有三个残基,终止于α2-3连接的唾液酸。该分支的编码是‘3a’。
第五和第六分支是空的,因此它们都被表示为‘0x’。
最后一个数字-字母位置的值为‘2c’,因为除了核心海藻糖,还有以α1-3连接到第二分支中的GlcNAc的海藻糖残基(见表4)。连接到这个分支中的半乳糖的海藻糖被表示在第二分支的编码中,不计算在这里。
因此整体结构的编码为[0x 3g 1a 3a 0x 0x 2c]。
应注意,GlycoDigit编码不是针对提供在所有种类中发现的所有可能的聚糖结构的全面涵盖。而其主要关注于在如CHO细胞的哺乳动物细胞系中的分泌糖蛋白中发现的结构,而且仍然保持可扩展性。基于此原因,选择7个数字-字母对用于表示GlcNAc残基核心结构上的6个连接位点以及具有描述所连接的海藻糖分子的能力。目前GlycoDigit编码能够表示其中存在甘露糖、GlcNAc、半乳糖、海藻糖和唾液酸残基的结构。它能区别NeuNAc和NeuGc;并且能够表示末端半乳糖和海藻糖。几种不在CHO细胞中自然表达的结构已经在工程CHO细胞系中产生。这包括平分型GlcNAc(Sburlati et al;Umana et al]repeating lactosamine chains(Sasaki H,Bothner B,Dell A,Fukuda M(1987)“Carbohydrate structure oferythropoietin expressed in Chinese hamster ovary cells by a humanerythropoietin cDNA.”J Biol Chem 262:12059-12076)和Lewis血型结构(Thomas LJ,Panneerselvam K,Beattie DT,Picard MD,Xu B,Rittershaus CW,Marsh Jr HC,Hammond RA,Qian J,Stevenson T,Zopf D,Bayer RJ(2004)“Production of a complement inhibitorpossessing sialyl Lewis X moieties by in vitro glycosylationtechnology.”Glycobiology 14:883-893;Barrabés S,Pagès-Pons L,Radcliffe CM,Tabarès G,Fort E,Royle L,Harvey DJ,Moenner M,Dwek RA,Rudd PM,De Llorens R,Peracaula R(2007)“Glycosylationof serum ribonuclease 1 indicates amajor endothelial origin and revealsan increase in core fucosylation in pancreatic cancer.”Glycobiology17:388-400)。
对于第二种实施方式,如果必需额外的分支来涵盖其他情况,可以增加更多的数字-字母对来编码表示它们。此外,用于表示额外的连接信息的基于索引的字母可以方便增加其他连接和残基类型选择。相反,在少于7个分支或如果不需要连接信息的情况下,编码可以简化。GlycoDigit编码的主要重点是在该编码保持数字组成,其能充当几种计算应用的基础这一事实。
GlycoDigit编码的应用
比较聚糖结构
BLAST的发展(Altschul SF,Gish W,Miller W,Myers EW,Lipman DJ(1990)“Basic local alignment search tool.”J Mol Biol215:403-410)(“Altschul et al”)提供了生物学家已提出的基本问题的解决方法,即怎样测量核苷酸和蛋白质不同序列之间的相似性。但是,由于聚糖的分支结构,这样的算法不能直接应用于聚糖的比较。最近,已经开发了几种方法来比较聚糖(Aoki KF,Yamaguchi A,Ueda N,Akutsu T,Mamitsuka H,Goto S,Kanehisa M(2004)“KCaM(KEGG Carbohydrate Matcher):a software tool for analyzing thestructures of carbohydrate sugar chains.”Nucleic Acids Res32:W267-272(“Aoki et al”);Aoki KF,Mamitsuka H,Akutsu T,Kanehisa M(2005)“A score matrix to reveal the hidden links inglycans.”Bioinformatics 21:1457-1463),但是该研究领域仍然在其初始阶段。在GlycoDigit编码的6和7个数字-字母对的实施方式中,我们定义了差分算子,Δ,其可以使不同聚糖结构之间的比较简单化。
图7描述了复合型和杂合型N-连接聚糖结构和其对应于GlycoDigit编码的6个字符字母-数字实施方式的GlycoDigit编码。这些结构之间存在两种不同;第一种是缺少连接到分支6的海藻糖残基,而第二种结构没有连接到分支3的半乳糖残基。得到的结构之间的差异值为(0 0 2 0 0 -2)。得到的编码不是合理的聚糖结构,但是提供了关于两种输入结构之间的差异的信息。0值表示两种结构上的分支是完全相同的,而非0值表示分支是不同的。偶数表示被比较的两个分支是同一类型的,都是复合型或都是高甘露糖型。奇数表示将复合型分支和高甘露糖型分支进行比较。以上实施例的结果证明两种结构之间在第3和第6分支中具有差异。
定义查询表(表6)为使用差分算子的结果来寻找结构之间的特定残基和连接的差异。对于被比较的每个分支,针对所有可能得到的差异值,索引两个输入结构的较大的数字。例如,只考虑复合型结构,具有值为7(NeuNAc)的分支只能与值为7(NeuNAc)、5(Gal)、3(GlcNAc)和1的比较,表示得到的差异值只能为0、±2、±4和±6(见表6的差异值栏)。0值表示没有变化,不记录在查询表中。对于这些可能的差异值中的每一个,表中列出了必须改变的连接以得到从第一到第二的结构。对于正差异值,必须去除连接,而对于负值,则添加连接。表6是对于复合型N-连接聚糖的单独分支之间的比较的查询表。使用图7中获得的结果编码,可以发现两种结构之间的确切差异值。对于每种结构中第3分支的数字,我们可见两个数字中较大的是5,差异值是2。查询表中对应的突出单元显示在第二结构中去除经β1→4连接的GlcNAc残基。与之相似的第6分支,其显示经α1→6连接增加了海藻糖残基。
查询表6还包含了对不同结构的单独分支之间的差异值必需的反应步骤的数目的信息。可通过将两个分支之间的差异值的绝对值除以2获得每个分支的所需反应步骤的数目。对于以上的实施例,必须实施两个反应步骤从而将第一种结构转化为第二种结构,即去除GlcNAc残基和增加海藻糖。
完整的查询表还包含当输入的都是高甘露糖型时,比较分支时出现的改变的信息。例如,在具有数字B(值为4)和D(值为8)的高甘露糖型结构的两个分支的比较中,差异值为4,可以描述为在第一种结构中增加两个甘露糖残基。杂合型聚糖结构中的复合型和高甘露糖型分支之间的比较更为复杂。为了将高甘露糖型结构转化为复合型,在连接任何其他的单糖之前,必须去除所有的甘露糖残基。比较由数字C和7表示的分支,显示在总共6个反应步骤中,必须去除3个甘露糖残基,增加GlcNAc、半乳糖和NeuNAc。
图8描绘了复合型和杂合型N-连接聚糖结构和它们对应于7字母-数字对实施方式的GlycoDigit编码。结构之间具有三个差异值:第一个缺少连接到核心GlcNAc的海藻糖残基;第二个缺少较低分支中的半乳糖残基;最后,两种结构的第4分支是不同的类型。如图8所示,得到的两种结构之间的差异值为[ 0 1 0 5 0 0 -1]。差分算子只比较编码中的数字值而忽略字母值。如此,得到的编码提供了两种结构之间差异值的信息。0值表示两种结构上的分支是完全相同的,而非0值表示分支不同。当高甘露糖型分支与复合型分支比较时,出现了特殊的情况。在这种情况下,定义分支之间的差异值为该分支的两个数字值的和。以上的实施例的结果证明两种结构在第2、第4和第7分支位置上具有差异值。
来自差分算子的结果编码可用于计算对于7个数字-字母对实施方式中将一种结构转化为另外一种结构必需的反应步骤的数目。差异编码中的数字的绝对值的相加值显示了将第一种结构转化为第二种结构需要的反应数目。从差异编码,我们可以计算步骤数目为7(0+1+0+5+0+0+1)。在比较两个复合型分支的情况中,如果分支的差异值为正,则表示必须增加聚糖作为转化的部分,而负差异值表示必须去除聚糖。杂合型聚糖结构中的复合型和高甘露糖型分支之间的比较更为复杂。为了将高甘露糖型分支转化为复合型,在连接任何其他的单糖之前,必须首先去除所有的甘露糖残基。各自比较两种结构中的由数字B和3表示的第4分支显示在总共5个反应步骤中,必须去除两个甘露糖残基,增加GlcNAc、半乳糖和NeuNAc。表1至表3可用于发现对于每个数字增加了什么单糖并且以哪种连接。该信息可反过来用于发现当将一种结构转化为另外一个时,去除哪个连接。
两个N-连接聚糖结构之间的距离测量
方程式(1)表示对GlycoDigit编码的6个字符的字母-数字实施方式,以反应距离的形式比较两个合理的聚糖结构的算法:
Figure GPA00001029691400241
方程式(1)
使用该算法,可以简单地算出两种结构之间的接近值,可以确定从一种结构转化为另外一种结构所需反应步骤的数目,如后文所述。应注意,该值只是一个单纯的近似值,不具有任何明确的生物学意义。
图9显示了两个聚糖和从一种结构转化为另外一种所需的反应步骤。其结构由编码(7 1 1 1 1 1)和(1 1 1 7 1 1)表示,具有84.2%的相似值。
对于开始的4个分支,将具有6个甘露糖残基的分支转化为具有末端NeuNAc残基的分支所需的反应的最高数目是9个反应。因此,可能的反应的最高值是(9×4)再加上一个对应分支5的平分型GlcNAc和分支6的海藻糖中的每一个的反应,即38个可能的反应。则可定义该值为
Figure GPA00001029691400251
方程式(2)
使用图7中的第一种和最后的两种结构作为实施例,两种结构之间以反应步骤而言的差异值是2。因此,可以计算两种结构之间的接近度为
Figure GPA00001029691400252
方程式(3)
将图9的第一种结构转化为最后一种需要6个反应步骤。因此,使用方程式(1)计算的图9的第一种和最后一种结构之间的接近度为84.2%。但是,这些结构只是中间形式,最终结构总是合理的。注意,图9中的第一结构和最终转化的结构互为异构体,并且可能是生物学不能区别的,一个不能由84.2%的相似性值表现的事实。需要进行深入的工作从而建立生物学上更加相关的计算系统。已经开发了基于网络的图形界面从而执行现有的算法并提供直觉结果,如后文所描述的。
构建糖基化网络
可认为糖基化反应网络具有代表聚糖结构的节点和显示可能的酶作用的边缘的图形。单一的聚糖结构可以起到多种反应的底物的作用,还可作为几种反应的终产物,因此产生了高度分支的网络。聚糖网络的另外一个典型特征是怎样认为任意的中间结构是终产物并且产生自然系统中见到的多种结构。将这样的网络可视化可以提高我们对糖基化途径的理解,并且可以充当电脑模拟实验的基础。
为了方便存储和处理,创造对称邻接矩阵来存储反应对。创造5100x5100矩阵,每个(i,j)值记录聚糖i是否与聚糖j反应。0值表示这两个聚糖之间没有反应,而1值表示具有反应联系。如上所述的与第一种实施方式相关的差分算子Δ用于产生填入邻接矩阵的一对函数;在MATLAB中运行这些函数,图10中示出了它们对应的伪代码版本。函数isrxn采用两个聚糖结构作为输入,如果将一种结构转化为另外一种需要一步且只需一步反应,返回1。聚糖结构的完整列表传送到rxn_matrix函数,其产生邻接矩阵并且每当两个聚糖之间有一步反应时就在其填入1。
为了将糖基化网络可视化,聚糖从基础核心结构开始排列并增加糖残基直到结构被完全唾液酸化。根据从核心结构分离每个聚糖的反应步骤的数目来将聚糖进行分类。对于复合型聚糖,核心结构可表示为GlycoDigit编码的第一种实施方式的111111,而末端为编码777733表示的完全唾液酸化的结构。可视化的算法在每个类别中绘制单独的聚糖结构,然后在那些具有反应连接的结构之间连线。
创造了两个聚糖结构数据集来试验可视化算法。第一个集合是由GlycoDigit编码产生的具有19372个反应对的完整的5100种理论聚糖。还创造了只包含64种结构和160个反应的小得多的集合,其含有那些只具有开始的4个分支中的两个的复合型聚糖。在两种情况中,得到的网络显示了高度分支的树形结构,其首先分支然后汇合。在网络的开端,有许多连接导致分叉特性的糖的可能的位点,但是随着这些被填充,可能的选择的数目下降,网络汇合到最终的几种结构。最初的网络呈现树形结构,具有15个水平的深度,而较小的集合具有9个水平的深度。表7中总结了两种情况的每个水平中的聚糖和反应的数目。图11a和图11b显示了第二个数据集的网络分布。
Figure GPA00001029691400261
Figure GPA00001029691400271
从KEGG可获得给聚糖结构增加和去除单糖单元所涉及的一系列酶(Kanehisa M.,Goto S.,Hattori M.,Aoki-Kinoshita K.F.,ItohM.,Kawashima S.,Katayama T.,Araki M.,and Hirakawa M.“Fromgenomics to chemical genomics:new developments in KEGG.”NucleicAcids Res.,34:D354-357,2006)。从GlycoDigit编码的第一种实施方式获得了所有3种亚型的5100种理论聚糖,对于通过酶反应连接在一起的聚糖结构对,产生了19732个反应对。
使用GlycoDigit编码的第二种实施方式的数字索引,构建了N-连接糖基化网络,其可被表示为具有分别对应于聚糖结构和反应步骤的节点和边缘的图形,如图12a-图12c所示。
使用GlycoDigit编码的第二种实施方式,我们列举了通常在CHO细胞中分泌的所有可能的复合型聚糖结构,从核心结构开始,其被表示为[0x 0x 0x 0x 0x 0x 0x]。通过在GlycoDigit编码中每个数字增加1来显示如GlcNAc、半乳糖、海藻糖和唾液酸的糖残基通过相关糖基转移酶的酶作用依次连接到核心结构,从而简单地实现这种列举。该过程一直持续,直到聚糖变成四链完全唾液酸化的具有核心海藻糖基化的结构,以编码[3a 3a 3a 3a 0x 1a 1a]表示,由此产生了1024种复合型聚糖和4096个连接两个相继的聚糖的反应步骤。
为了将构建的网络可视化,以分级的方式来排列得到的图形。首先,根据连接的糖的数目,所有的聚糖被分至不同等级的层中。核心结构[0x 0x 0x 0x 0x 0x 0x]起始作为第一层,随后为由对每个核心结构增加一个糖的聚糖构成第二层,如此直到包含完全唾液酸化的聚糖结构[3a 3a 3a 3a 0x 1a 1a]的最后一层。一旦所有的聚糖位于它们对应的层中,将该网络图形中连接聚糖对的相关反应边缘可视化。图12a-图12c显示了得到的网络,其是高度分支的机构,其中网络中的单独的聚糖结构表示为节点,而边缘表示两个聚糖之间的酶反应步骤。应注意,目前的网络是CHO细胞中的糖基化途径的近似图,因为在网络构建过程中没有充分考虑酶的需要和限制(Hossler P,Goh LT,Lee MM,Hu WS(2006)“GlycoVis:visualizingglycan distribution in the protein N-glycosylation pathway inmammalian cells.”Biotechnol Bioeng 95:946-960(Hossler et al I”)。
大多数生物途径通常是复杂的,将它们的结构可视化是研究其的最有用的步骤之一。本文所描述的网络可被用于确定连接聚糖结构的可能的途径,或发现比以前所知的更短的途径。在目前的模式中,从一种结构到另外一种通常有几种可能的途径,但是这些途径不一定总是生物学合理的。根据要被模拟的种类,可以结合聚糖可以实际反应而形成其他的附加规则从而使该网络更实际。该算法的模块特性可以使使用者定义自己的反应对模型并且将其可视化。
代谢流分析是从可视界面的存在充分得益的应用。可以给数据模型增加额外的信息从而可以进行途径的电脑模拟重建。可视化系统提供了建立用于此类分析的模型的良好基础。它可以通过交互使用者界面而实施以整合实验数据并且提供基于网络浏览器的服务。
讨论
对糖组信息学(glycome informatics)的研究正在缓慢地追上已经在其他“组学(omics)”领域产生的进展。如本文所述,本发明的GlycoDigit编码是基于预先定义的通常在大多数哺乳动物细胞中发现的N-连接聚糖的分支结构。与其他的聚糖的标准文本表示相比,GlycoDigit编码短的多而且更加直觉化,因为它注重的是分支而不像以前的方法描述单独的单糖单元。例如,以图2中的各种格式表示的聚糖结构可通过GlycoDigit编码的7数字实施方式被简单地编码为[0x 2a 1a 3a 0x 0x 1a]来代表其结构。与其他较长和基于文本的标准不同,较短的表示更易于手工输入并且不易于产生印刷或格式错误。
虽然GlycoDigit编码可能不能提供对所有可能的聚糖结构的全面涵盖,但它是可改编的,可以根据使用者的需要被定制。例如,通过调整数字-字母对的数目,可增加或减少结构中可允许的分支的数目,同时可在字母索引中增加更多的选择来表示不同的连接信息。GlycoDigit编码还是可交互操作的,这可以使其以可检索的格式被整合到实验室糖信息管理系统中,从而提供给生物医学或生物技术应用有用的资源(Hashimoto K,Goto S,Kawano S,Aoki-Kinoshita KF,Ueda N,Hamajima M,Kawasaki T,Kanehisa M(2006)“KEGG as a glycome informatics resource.”Glycobiology16:63R-70R;Lutteke T,Bohne-Lang A,Loss A,Goetz T,Frank M,vonder Lieth CW(2006)“GLYCOSCIENCES.de:an Internet portal tosupport glycomics and glycobiology research.”Glycobiology16:71R-81R;Raman R,Venkataraman M,Ramakrishnan S,Lang W,Raguram S,Sasisekharan R(2006)“Advancing glycomics:implementation strategies at the consortium for functional glycomics.”Glycobiology 16:82R-90R)。因此,相关的聚糖结构可被简单地存储、获得、检索和快速转换为它们的图形格式。
对糖基化途径进行研究从而控制糖基化的多样性是能够从GlycoDigit编码获益的另外一个领域。取代聚糖结构的基于文本表示的简化数字表示法可以进一步促进计算机辅助分析工具的发展从而研究这样的复杂网络(Hossler等I)。本文所描述的GlycoDigit编码格式可以被方便地应用于聚糖相互作用的网络的构建和可视化。基于文本的表示法不能方便地提供这种应用性。此外,以反应步骤的形式来描述聚糖之间的差异,并且具有如图8a-图8c所示的可能的聚糖结构的全面列表,这些可以提供给用于发展糖基化途径的数学模型的基础(Hossler P,Mulukutla BC,Hu WS(2007)“Systemsanalysis of N-glycan processing in mammalian cells.”PLoS ONE2(8):e713;Krambeck FJ,Betenbaugh MJ(2005)“A mathematicalmodel of N-linked glycosylation.”Biotechnol Bioeng 92:711-728;Umana P,Bailey JE(1997)“A mathematical model of N-linkedglycoform biosynthesis.”Biotechnol Bioeng 55:890-908)。
需要进行的进一步工作是在GlycoDigit编码的背景下定义聚糖结构中相似性的生物学有意义的测量。因为蛋白质结构也是这种情况,希望聚糖结构的相似性会表示功能也有相似性(Altschul et al;Aoki et al;Bertozzi CR,Kiessling LL(2001)“Carbohydrates andglycobiology review:chemical glycobiology.”Science291:2357-2364)。本发明的GlycoDigit编码还是可扩展的,允许更多各种范围的N-连接聚糖结构的表示。
根据上述的内容,所属领域的技术人员了解,可以对本发明的上述的实施方式的改进和变化。因此,应该理解在所附权利要求和其等效物的范围内,除了如特别描述的,可以以其他方式实施本发明。

Claims (32)

1.一种用于表示至少一部分寡糖的系统,所述系统包含固定长度的字母-数字编码,其中所述编码表示连接至所述寡糖的残基的数目和位置。
2.根据权利要求1所述的系统,其进一步包含结合了可检索格式的所述编码的信息管理系统。
3.根据权利要求1所述的系统,其中,所述寡糖是N-连接的聚糖结构。
4.根据权利要求3所述的系统,其中,所述N-连接的聚糖结构是复合型、高甘露糖型和杂合型中的一种。
5.根据权利要求1所述的系统,其中,所述残基选自由甘露糖、N-乙酰葡糖胺、半乳糖、海藻糖和唾液酸残基构成的组。
6.根据权利要求1所述的系统,其中,所述编码的所述数字部分表示连接到N-连接的聚糖核心结构的分支的单糖的数目。
7.根据权利要求1所述的系统,其中,所述字母部分表示连接到N-连接的聚糖核心结构的连接类型和特定的糖分子。
8.根据权利要求1所述的系统,其中,所述编码包含分别表示N-连接的聚糖核心结构上的6个连接位点的6个字母-数字字符。
9.根据权利要求8所述的系统,其中,如果所述分支是复合型,则所述N-连接的聚糖核心结构的开始4个分支由奇数表示,而高甘露糖分支由字母表示。
10.根据权利要求9所述的系统,其中:
末端为GlcNAc、半乳糖或神经氨酸残基的复合型分支分别由数字3、5或7表示;
杂合型和高甘露糖型N-连接的聚糖的甘露糖残基由字母A-F表示,每个字母A、B、C、D、E和F分别被指定为偶数2、4、6、8、10和12;
对于每个分支,字母值对应于连接到该分支的甘露糖残基数目的二倍;
如果存在平分型GlcNAc和海藻糖残基,则第五和第六个字符分别是值为3的数字;和
如果不存在分支,则其对应数字是1。
11.根据权利要求1所述的系统,其中,所述编码包含7个字母-数字对。
12.根据权利要求11所述的系统,其中,第一至第五个字母-数字对分别对应于N-连接的聚糖核心结构上的5个连接位点,第六个字母-数字对表示甘露糖之间的平分型GlcNAc,第七个位置对应于可连接到所述核心或边缘GlcNAc残基的海藻糖分子。
13.根据权利要求12所述的系统,其中:
每个字母-数字对的数字部分对应于连接到由字母-数字对表示的分支的单糖的数目;和
每个字母-数字对的字母部分作为包含关于连接类型和增加的特定糖分子的附加信息表的索引。
14.根据权利要求11所述的系统,其中,所述第七个字母-数字对表示连接于所述寡核苷酸的N-乙酰葡糖胺残基上的海藻糖基化。
15.根据权利要求1所述的系统,其中,所述寡糖是N-聚糖结构,并且是哺乳动物细胞培养物分泌的糖蛋白。
16.根据权利要求1所述的系统,其中,所述系统进一步包括定义用于定性鉴别聚糖结构的差分算子。
17.一种用于表示至少一部分寡糖结构的方法,包含以下步骤:
(a)选择基础寡糖结构;
(b)识别步骤(a)中选择的所述基础结构上的可能取代点的数目,并为每一个取代点分配一个位置;
(c)为步骤(b)的取代点分配二字符的编码,其中“字符”表示任意唯一的标识符,所述二字符编码具有第一字符和第二字符;
(d)为所述二字符编码的所述第一字符分配一个或多个唯一的标识符,并为所述二字符的所述第二字符分配一个或多个唯一的标识符,以使得所述第一字符和所述第二字符一起唯一地识别步骤(b)中识别的特定取代点上的残基;
(e)对于每个取代点重复步骤(d),以使得步骤(b)中识别的每个取代点具有一组二字符编码,其识别所述取代点的可能的残基;
(f)检查包含步骤(a)中选择的所述基础寡糖结构的寡糖结构的结构和在所述基础结构上的可选的一个或多个残基;和
(g)为步骤(f)的所述寡糖结构上的所述残基分配所述二字符编码,以匹配在步骤(d)和步骤(e)中发展的所述二字符编码,并在步骤(b)中分配的位置上记录它们。
18.根据权利要求17所述的方法,其中,步骤(a)的所述基础寡糖结构是N-连接的聚糖结构。
19.根据权利要求18所述的方法,其中,所述N-连接的聚糖结构是复合型、高甘露糖型和杂合型中的一种。
20.根据权利要求17所述的方法,其中,在步骤(d)中被所述第一和第二字符唯一识别的所述残基选自由甘露糖、N-乙酰葡糖胺、半乳糖、海藻糖和唾液酸残基构成的组。
21.根据权利要求18所述的方法,其中,步骤(c)的所述第一字符是数字。
22.根据权利要求21所述的方法,其中,所述数字表示连接到N-连接的聚糖核心结构的取代点的单糖的数目。
23.根据权利要求21所述的方法,其中,步骤(c)的第二字符是字母。
24.根据权利要求23所述的方法,其中,所述字母表示连接的类型和连接至N-连接的聚糖核心结构的取代点的特定糖分子。
25.根据权利要求19所述的方法,其中,在步骤(b)中选择6个取代点。
26.根据权利要求25所述的方法,其中,如果分支是由字母表示的复合型和高甘露糖型分支,则所述N-连接的聚糖核心结构的开始的4个取代点由奇数表示。
27.根据权利要求19所述的方法,其中,在步骤(b)中选择7个取代点。
28.根据权利要求27所述的方法,其中,第一至第五个取代点字母-数字对表示N-连接的聚糖核心结构上的5个连接位点,第六个取代点表示甘露糖之间的平分型GlcNAc,第七个取代点对应于能够连接到所述核心或边缘GlcNAc残基的海藻糖分子。
29.根据权利要求28所述的方法,其中,步骤(c)的所述第一字符是数字。
30.根据权利要求29所述的方法,其中,步骤(c)的所述第二字符是字母。
31.根据权利要求30所述的方法,其中:
第一个字符数字对应于连接到由二字符编码表示的取代点分支的单糖的数目;和
第二个字符字母作为包含关于连接类型和增加的特定糖分子的附加信息表的索引。
32.根据权利要求18所述的方法,其中,所述寡糖是N-聚糖结构,并且是哺乳动物细胞培养物分泌的糖蛋白。
CN200880103416A 2007-06-15 2008-06-13 表示n-连接的聚糖结构的系统和方法 Pending CN101785003A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US92916307P 2007-06-15 2007-06-15
US60/929,163 2007-06-15
PCT/SG2008/000212 WO2008153504A1 (en) 2007-06-15 2008-06-13 System and method for representing n-linked glycan structures

Publications (1)

Publication Number Publication Date
CN101785003A true CN101785003A (zh) 2010-07-21

Family

ID=40129970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880103416A Pending CN101785003A (zh) 2007-06-15 2008-06-13 表示n-连接的聚糖结构的系统和方法

Country Status (5)

Country Link
US (1) US20100185699A1 (zh)
EP (1) EP2162836A1 (zh)
JP (1) JP2010530021A (zh)
CN (1) CN101785003A (zh)
WO (1) WO2008153504A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052801A (zh) * 2017-11-30 2018-05-18 中国科学院计算技术研究所 一种基于正则表达式的n糖结构库构建方法与系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2370539C (en) * 1999-04-23 2009-01-06 Massachusetts Institute Of Technology System and method for notating polymers
IL152683A0 (en) * 2000-05-19 2003-06-24 Glycominds Ltd System and method for carbohydrate sequence presentation, comparison and analysis
AU2002238821A1 (en) * 2001-03-16 2002-10-03 Glycominds Ltd. System and method for creating a series of three dimensional glycan structures databases and their applications

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052801A (zh) * 2017-11-30 2018-05-18 中国科学院计算技术研究所 一种基于正则表达式的n糖结构库构建方法与系统
CN108052801B (zh) * 2017-11-30 2020-06-26 中国科学院计算技术研究所 一种基于正则表达式的n糖结构库构建方法与系统

Also Published As

Publication number Publication date
EP2162836A1 (en) 2010-03-17
JP2010530021A (ja) 2010-09-02
WO2008153504A1 (en) 2008-12-18
US20100185699A1 (en) 2010-07-22

Similar Documents

Publication Publication Date Title
Shriver et al. Glycomics: a pathway to a class of new and improved therapeutics
Hayes et al. Synthesis of glycosides by glycosynthases
André et al. Lectins: getting familiar with translators of the sugar code
National Research Council et al. Transforming glycoscience: a roadmap for the future
Seeberger Chemical glycobiology: why now?
Kawano et al. Prediction of glycan structures from gene expression data based on glycosyltransferase reactions
Benkoulouche et al. Harnessing glycoenzyme engineering for synthesis of bioactive oligosaccharides
Perez et al. Multifaceted computational modeling in glycoscience
Ludwig et al. Lectinology 4.0: altering modular (ga) lectin display for functional analysis and biomedical applications
Perez et al. Glycosaminoglycans: what remains to be deciphered?
Lang et al. Applications of mass spectrometry to structural analysis of marine oligosaccharides
Gabius et al. What is the sugar code?
Shao et al. Modernized uniform representation of carbohydrate molecules in the Protein Data Bank
Gupta et al. Automated network generation and analysis of biochemical reaction pathways using RING
Jung et al. Annotation of glycoproteins in the SWISS‐PROT database
Copoiu et al. The current structural glycome landscape and emerging technologies
McDonald et al. In silico analysis of the human milk oligosaccharide glycome reveals key enzymes of their biosynthesis
CN101785003A (zh) 表示n-连接的聚糖结构的系统和方法
Thomès et al. Mammalian milk glycomes: Connecting the dots between evolutionary conservation and biosynthetic pathways
Puri et al. Understanding glycomechanics using mathematical modeling: a review of current approaches to simulate cellular glycosylation reaction networks
Toukach et al. Bacterial, plant, and fungal carbohydrate structure databases: daily usage
JN et al. Impact of polarization on the ring puckering dynamics of hexose monosaccharides
Lee et al. GS-align for glycan structure alignment and similarity measurement
Sindelar Genomics, other “OMIC” technologies, precision medicine, and additional biotechnology-related techniques
Hashimoto et al. A Global Representation of the Carbohydrate Structures A Tool for the Analysis of Glycan

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100721