CN112567465A - 复杂分子子结构的识别系统、装置和方法 - Google Patents

复杂分子子结构的识别系统、装置和方法 Download PDF

Info

Publication number
CN112567465A
CN112567465A CN201980054026.5A CN201980054026A CN112567465A CN 112567465 A CN112567465 A CN 112567465A CN 201980054026 A CN201980054026 A CN 201980054026A CN 112567465 A CN112567465 A CN 112567465A
Authority
CN
China
Prior art keywords
vertex
edge
graph
microprocessor
molecular weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980054026.5A
Other languages
English (en)
Other versions
CN112567465B (zh
Inventor
A·弗里德曼
A·巴格奇
于翔
M·卡西拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merck Sharp and Dohme BV
Original Assignee
Merck and Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merck and Co Inc filed Critical Merck and Co Inc
Publication of CN112567465A publication Critical patent/CN112567465A/zh
Application granted granted Critical
Publication of CN112567465B publication Critical patent/CN112567465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明的实施方式提供一种计算机实现的系统和方法,所述系统和方法用于基于所选复杂分子的最小可裂解单元(MCU)生成和搜索包含所选复杂分子的所有潜在子结构(例如代谢物)的数据库,其中生成的数据库中的每个记录都适当地定义了每个子结构的分子量和物理排列。本发明的实施方式也提供用户界面和搜索引擎,所述用户界面和搜索引擎用于基于查询分子量(或查询分子量的范围)搜索数据库,以识别具有与查询分子量或范围匹配的总分子量的所有子结构。本发明的实施方式也能够向最终用户操作的显示装置发送所选复杂分子的每个已识别子结构的描述和/或图形表示。

Description

复杂分子子结构的识别系统、装置和方法
技术领域
本发明涉及用于识别复杂分子,特别是诸如生物分子的大分子的子结构的系统、装置和方法。
背景技术
药物化合物的子结构(例如代谢产物)的识别和表征是药物发现的重要组成部分,影响药物的生物活性,往往导致代谢物的生物利用度降低,毒性增强。了解这些代谢物的结构并定义代谢转化的特定位点是有用的,例如,在指导先导化合物或候选药物的合成优化以克服稳定性和毒性问题方面。
目前的代谢物鉴定(MetID)方法在没有事先了解其结构的情况下,无法系统地表征大分子的代谢物,如来自生物基质的治疗性蛋白质和肽(TPPs)的代谢物。尽管一些现成的小分子MetID软件,如MASSCAP、SEQUEST和MassMetaSite,可用于表征小分子药物和小线性肽的代谢物,但这种软件还不能与更大的生物分子,如大的非线性肽/蛋白质的MetID,完全兼容。至少存在三个原因:(i)大多数小分子MetID软件不能正确地解卷大分子的单种同位素峰,从而导致不正确的输入质量值;(ii)大多数小分子MetID软件使用的是为小分子药物设计的基于原子的算法,典型的大生物分子(如TPP)的原子数比小分子通常多1-2个数量级,这就给这种基于原子的算法带来了巨大的计算复杂度;和(iii)对于小分子MetID有用的信息,例如细胞色素P450代谢途径或质量缺陷过滤器,不适用于大分子,因为大分子具有不同的代谢过程,而传统的小分子软件通常不考虑这些过程。
基于原子的分子表示的计算复杂性会阻碍计算机分析。根据给定计算机中RAM的容量,识别具有超过1000万代谢物的分子的所有代谢物所需的处理可能会使计算机陷入困境。根据发明人的经验,1GB的RAM可以处理大约一百万个子结构。给定的复杂大分子的理论代谢物的个数常常超过1000万。
另外,用于分析蛋白质结构的传统软件,例如,基于蛋白质组学的软件,通常计算酰胺和二硫键的裂解,不能处理大分子(如TPP)的完全不可预测的代谢概况,其包括不可预测的修饰(+Oxy、+P、+Met等)、非天然氨基酸、体内二硫键干扰、非天然连接体和非特异性蛋白水解裂解。
因此,需要能够解码非线性肽和大分子的系统和方法,并且需要不仅便于从生物基质中的蛋白质背景区分大分子(例如治疗性肽或蛋白质)的代谢物,而且便于阐明感兴趣的代谢物的结构的系统和方法。对生成和显示大分子代谢物结构的系统和方法也有相当大的需求。
发明内容
本发明的实施方式通过提供用于识别分子的子结构(例如代谢物),特别是迄今为止难以识别和表征的大分子(例如生物分子)的子结构的系统、设备和方法,解决了上述需要。事实上,数据解释一直是并将继续是目前肽/蛋白质代谢物识别的瓶颈。
本发明适用于且可用于识别所有类型分子的子结构。所选分子可以是大分子、巨大分子或小分子。巨大分子包括但不限于基于氨基酸的分子,例如肽、多肽、抗体、蛋白质、酶、免疫球蛋白、脂质、核酸、碳水化合物、寡核苷酸、多核苷酸、多糖和聚合物。所选分子也可以是共轭分子和交联分子。
小分子包括分子量相对较低的有机分子,无论是自然产生的还是人工产生的(例如通过化学合成)。本发明的实施方式可用于分析具有生物活性的小分子,因为它们在动物、优选哺乳动物、更优选人类中产生局部或全身效应。在某些实施方式中,小分子的分子量小于或等于900道尔顿。
一般来说,本发明的实施方式可由科学家(例如化学家和生物化学家)用于识别复杂分子的代谢物和其他子结构,并确定此类代谢物和其他子结构的相关化学结构。因此,本发明的实施方式可被认为在药物开发和设计中极其有用。
如本文所使用的,所有的氨基酸三字母和单字母名称符合本领域标准的那些名称,并列举如下:
丙氨酸Ala A精氨酸Arg R天冬酰胺Asn N天冬氨酸Asp D半胱氨酸Cys C谷氨酸Glu E谷氨酰胺Gln Q甘氨酸Gly G组氨酸His H异亮氨酸Ile I亮氨酸Leu L赖氨酸Lys K甲硫氨酸Met M苯丙氨酸Phe F脯氨酸Pro P丝氨酸Ser S苏氨酸Thr T色氨酸Trp W酪氨酸TyrY缬氨酸Val V
本发明的示例性系统、设备和方法结合了小分子MetID和Top Down蛋白质组学方法,并且提供了一种快速有效的方法,不仅用于识别和存储给定分子的子结构(例如代谢物)的穷举池,而且也提供已识别的代谢物的结构特征和代谢物的化学结构或组成的可视化。本发明的示例性系统、设备和方法通过显著改进计算机系统识别和表征复杂分子的子结构和代谢物所需的搜索时间而改进了常规计算机系统的操作。与需要耗费数周或数月的常规计算机化方法相比,配置为根据本发明实施方式操作的计算机系统可以在数小时内识别和表征数以亿计的子结构。子结构可以存储在诸如计算机存储器之类的电子介质中、在计算机监视器上显示、打印或传送至另一计算机系统以供进一步分析。本发明所实现的显著减少的处理时间将在推进药物设计和开发的领域中起到有价值和实际的作用。
子结构所属的分子称为“所选分子”。本发明采用独特的系统来表示所选分子。具体而言,所选分子以定义的最小可裂解单元(本文中称为MCU)来描述,其由称为最小可裂解单元图(MCU图)的图来表示。MCU图又由存储在计算机系统的存储器中的数据结构中的数据表示。如本文所述,最小可裂解单元是不允许发生切割/裂解(无代谢过程)的分子的一部分。最小可裂解单元可包括所选分子的相邻代谢裂解位点之间的一组原子。举例来说,蛋白质或肽分子的最小可裂解单元可包含例如单个氨基酸或一段氨基酸。例如,环肽的最小可裂解单元可包含环肽的核心区域。最小可裂解单元方法便于以更简单的方式定义感兴趣的分子,例如,通过尝试将复杂蛋白质结构简化为线性肽域来降低其复杂性。最小可裂解单元方法允许用户定义一个模块,该模块消除了对MCU内有裂解,因此不起作用的代谢物的追踪。
所选分子可能有许多不同的MCU图,这取决于给定研究的目标和MCU的定义。例如,如果研究的目标是识别酰胺键断裂产生的所有代谢物,那么MCU被定义为每个单独的氨基酸残基,这是因为用户将不会考虑超出单个氨基酸的进一步代谢。作为另一个实例,如果研究的目标是识别环肽的活性代谢物,则肽的环区域也将被包括为MCU,因为活性代谢物必须具有完整的环区域,并且在环区域内不需要考虑进一步的代谢。
迄今为止,研究人员和科学家们还没有认识到从MCU图中提取的线图是识别分子的子结构(如代谢物)的有效方法。本发明人已经发现线图作为子结构识别系统、设备和方法特别有用。重要的是,本发明者认识到MCU图的线图的诱导连通子图的全域完全且唯一地表示由相应MCU图表示的分子的子结构和代谢物的整个全域。换言之,MCU图的线图的诱导连通子图集合与相应MCU图所表示的分子的代谢物集合之间存在一对一的关系。这种关系是可行的,因为它允许使用一种算法来识别所选分子的代谢物的整个全域。该算法的实际应用极大地提高了用于识别所选分子的代谢物的整个全域的计算机系统的功能。
在运行本发明一个实施方式的第一阶段中,用户输入所选分子数据,包括(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接。所选分子数据可以以所选分子的MCU图或所选分子的另一表示形式提供,例如化学结构或具有顶点和边缘注释的绘图,该注释包括MCU的标识、连接MCU的键的类型和MCU的分子量。系统使用这种输入来填充所选分子的MCU图数据结构。合适的MCU图数据结构包括数组、邻接矩阵、邻接列表、关联矩阵或关联列表。
基于MCU图数据结构,系统随后生成所选分子的不同表示,即线图,并将表示线图的数据存储在线图数据结构中,这在本发明的子结构识别过程中特别有用,下文将更详细地描述。合适的线图数据结构也包括邻接矩阵、邻接列表、关联矩阵或关联列表。
然后,系统使用合适的图形遍历算法(如图27所示)遍历线图数据结构,以识别所选分子的诱导连通子图(ICS)的完整集合。图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。对于每个ICS,系统创建并填充包含分子量字段、顶点数据字段和边缘数据字段的ICS记录。然后,系统计算并存储对应于每个诱导连通子图的总分子量,并将分子量连同每个ICS记录的顶点和边缘数据一起存储在分子量字段中,以便随后可以根据分子量来搜索和找到每个记录。存储在每个ICS记录中的数据代表所选分子的一个子结构。在一些实施方式中,系统也可配置为计算并在每个ICS记录中存储所选分子转化为所选分子的子结构所必须发生的生物转化(即,断裂的共价键)的数目。
在运行的第二阶段,系统从用户(可能是也可能不是第一个用户)接收分子量,其中输入的分子量由用户通过实验或从另一来源或装置(如质谱仪)获得而被预先确定。系统搜索存储在数据库中且包含ICS分子量、顶点数组值和边缘数组值的ICS记录,以查找具有与查询分子量匹配的分子量的ICS记录,如果找到,则显示、打印或向用户传输ICS记录中的信息。任选地,系统也可以基于每个记录中的顶点和边缘数据来显示、打印或传输匹配的诱导连通子图的结构的图形表示。优选地,根据所选分子转化为匹配子结构所必须发生的生物转化次数,与给定的查询分子量匹配的子结构按排名顺序列出和/或显示。
本发明的子结构识别系统、设备和方法可用于识别所选分子的代谢物以及所选分子的其他子结构。例如,为表征完整的蛋白质,通常采用气体破碎技术来获得前体蛋白离子的碎片离子。每个碎片离子可以看作是前体离子的子结构。为了正确表征前体蛋白离子的结构,基于每个碎片离子的质量或分子量值,需要正确地指定每个碎片离子的结构。本发明的系统、设备和方法可用于建立碎片离子的质量值与其气相结构之间的关系。
在一个方面中,本发明提供一种用于识别所选分子的子结构的系统,所述系统包括a)微处理器,b)存储器,c)所述存储器中的应用程序,d)用于与最终用户通信的用户界面。应用程序包括程序指令,当由微处理器执行时其将使所述微处理器(i)接收并在所述存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接;(ii)基于所选分子数据,创建并在所述存储器中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;(iii)基于MCU图数据,生成并在所述存储器中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个线图(LG)顶点和多个线图(LG)边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;(iv)对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图。每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,其中LG顶点和LG边缘的连通子集及其物理排列一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置。
应用程序还包括程序指令,对于线图数据结构中表示的每个诱导连通子图,该指令在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充。对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。优选地,所述系统也计算并在每个ICS记录中存储将所选分子转化为该ICS记录的顶点数据、边缘数据和分子量表示的子结构所需的生物转化次数(即生物转化计数)。将生物转化计数与每个ICS记录中的其他数据一起存储允许根据生物转化计数搜索和/或排列搜索结果。
用户界面包括程序指令,当由微处理器执行时其将使所述微处理器(i)接收来自最终用户的查询分子量;(ii)基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。
在本发明的一些实施方式中,所述系统还包括用户界面中的程序指令,当由微处理器执行时,其将使所述微处理器a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据从计算机系统存储的线图的诱导连接子图在计算机系统的存储器中生成图形表示;和(ii)将图形表示传送至最终用户操作的显示装置。
在本发明的附加的实施方式中,所述系统还包括应用程序中的程序指令,当由微处理器执行时其将使所述微处理器a)接收针对分子量的指定的公差,b)使用指定的公差来计算和定义用于搜索数据库的分子量的范围,c)根据查询分子量和范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录在分子量字段中具有在定义的分子量的范围内的总分子量,和d)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户的显示装置上向最终用户演示。优选地,应用程序的程序指令被进一步配置为对搜索结果进行排序并按照生物转化计数的递增顺序显示它们,因此,首先显示需要最少数量的生物转化的诱导连通子图(即,在列表顶部,并且在需要更多数量的生物转化的匹配诱导连通子图之前)。
在本发明的一些实施方式中,所选分子数据通过执行应用程序中的指令获得,所述指令被配置成解析存储在计算机系统的存储器中的作为链表、或数组、或邻接矩阵、或图形图像文件、化学绘图文件(例如,
Figure BDA0002942825900000071
file from Cambridge
Figure BDA0002942825900000072
PerkinElmer,Inc.,Waltham,MA,USA)、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件、或二进制数据文件、或.SMI文件、或.HELM文件、或.CHELM文件或.XHELM文件的信息。
键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
在本发明的一些实施方式中,a)所选分子数据包括元素组成数据,所述元素组成数据表示(A)每个最小可裂解单元中的元素单元的集合,(B)与最小可裂解单元中的元素单元的集合连接的元素键的集合,(C)每个元素单元的元素分子量,和(D)最小可裂解单元的MCU连接性概要,所述MCU连接性概要表示最小可裂解单元中元素单元和元素键的相对位置以及它们之间的连接。在这些实施方式中,在数据库中创建的ICS记录还包括填充有一个或多个元素单元标识符的元素单元字段。应用程序还包括程序指令,当由微处理器执行时其将使所述微处理器(a)接收来自最终用户的查询元素单元,(ii)基于所述查询元素单元搜索数据库,以识别在元素单元字段中具有与所述查询元素单元匹配的元素单元标识符的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以在最终用户操作的显示装置上呈现。
在另一个方面中,本发明提供一种使用微处理器生成便于识别所选分子的子结构的数据库的系统,所述系统包括:a)存储器,b)微处理器,c)用于接收和存储所选分子数据的输入模块,所选分子数据表示(A)所选分子中最小可裂解单元的集合,(B)与所选分子中最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子中最小可裂解单元和键的连接性概要,所述连接性概要表示最小可裂解单元和键的相对位置以及它们之间的连接,d)MCU图模块,配置为基于所选分子数据在存储器中创建所选分子的最小可裂解单元图数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中的最小可裂解单元连接的键,e)线图模块,配置为生成并在存储器中存储由表示MCU图的线图的线图数据填充的线图数据结构,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点,f)图形遍历模块,配置为对线图数据结构中的线图数据运行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和g)子图数据库生成器,(i)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和(ii)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。
所述系统还包括用于与最终用户通信的用户界面和所述存储器中的搜索引擎,二者都具有程序指令,当由微处理器执行时其将使所述微处理器(i)接收来自最终用户的查询分子量,(ii)基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录;和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。
在本发明的一些实施方式中,用户界面还包括程序指令,当由微处理器执行时其将使所述微处理器a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图的诱导连通子图的图形表示;和b)将所述图形表示传送至最终用户操作的显示装置。
在本发明的一些实施方式中,应用程序还包括程序指令,当由微处理器执行时其将使所述微处理器a)接收针对分子量的指定的公差,b)使用指定的公差来计算和定义用于搜索数据库的分子量的范围,c)基于查询分子量和范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录在分子量字段中具有在定义的分子量的范围内的总分子量,和d)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以呈现给最终用户。
在另一个方面中,本发明提供一种使用微处理器和存储器装置生成数据库以便于识别所选分子的子结构的系统。所述方法包括以下步骤:a)接收并在存储器装置中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接,b)基于所选分子数据,创建并在存储器装置中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;c)基于MCU图数据,生成并在存储器装置中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点,d)在微处理器中对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置。对于线图数据结构中表示的每个诱导连通子图,所述方法还包括步骤e)在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和f)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。
在本发明的一些实施方式中,所述方法还包括a)基于所选分子的连接性概要、顶点数据字段中的顶点值和边缘数据字段中的边缘值,用微处理器生成线图的诱导连通子图的图形表示;和b)将图形表示传送至显示装置。
在附加的方面中,本发明提供一种使用邻接矩阵生成数据库以便于识别所选分子的子结构的系统。在该方面中,所述系统包括a)微处理器,b)存储器装置;和c)程序指令,其用于使所述微处理器(i)接收表示所选分子的化学图形和注释的数据,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型,(ii)生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有一个字段,为该字段在该对之间存在边缘的情况下赋予第一值或在该对之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中边缘表示与所选分子的最小可裂解单元连接的键,(iii)由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有一个字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中顶点表示所选分子的最小可裂解单元之间的键,(iv)由最小可裂解单元邻接矩阵生成边缘到顶点邻接矩阵,所述边缘到顶点邻接矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有一个字段,为该字段所述边缘和顶点相互连接的情况下赋予第一值或所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键,(v)使用图形遍历算法遍历线图邻接矩阵和边缘到顶点图形邻接矩阵,以确定所选分子的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和(vi)计算并在所述数据库中存储每个诱导连通子图的分子量,其中每个诱导连通子图的分子量通过检索诱导连通子图的每个顶点的分子量并求和来计算。
在另一个方面中,本发明提供一种使用微处理器以便于识别所选分子的子结构的用于生成数据库的系统,所述系统包括a)图形输入模块,用于接收所选分子的化学图和注释,所述注释识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量、和(C)与所选分子的最小可裂解单元连接的键的类型,b)矩阵生成器模块,用于生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有一个字段,为该字段在该对之间存在边缘的情况下赋予第一值或在该对之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中边缘表示与所选分子的最小可裂解单元连接的键,c)线图矩阵生成器模块,用于由最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有一个字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中顶点表示所选分子的最小可裂解单元之间的键,d)边缘到顶点矩阵生成器模块,用于由最小可裂解单元邻接矩阵生成边缘到顶点矩阵,所述边缘到顶点矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有一个字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键,e)图形遍历引擎,通过使用深度优先或广度优先搜索来遍历邻接矩阵和边缘到顶点矩阵,从而基于线图邻接矩阵和边缘到顶点矩阵中的赋值生成并在数据库中存储线图邻接矩阵的诱导连通子图;和f)分子量计算器模块,用于计算并在数据库中存储每个诱导连接子图的分子量,其中每个诱导连通子图的分子量通过检索诱导连通子图每个顶点的分子量并求和来计算。
在又一个方面中,本发明提供一种使用微处理器识别所选分子的子结构的方法。所述方法包括:a)在微处理器上执行图形输入模块,以接收所选分子的化学图形和注释,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量,和(C)与所选分子的最小可裂解单元连接的键的类型,b)在微处理器上执行矩阵生成器以生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有一个字段,为该字段赋予在该对之间存在边缘的情况下赋予第一值或在该对之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中边缘表示与所选分子的最小可裂解单元连接的键,c)在微处理器上执行线图矩阵生成器模块以由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有一个字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中顶点表示所选分子的最小可裂解单元之间的键,d)在微处理器上执行边缘到顶点矩阵生成器模块以由最小可裂解单元邻接矩阵生成边缘到顶点矩阵,所述边缘到顶点矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有一个字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键,e)在微处理器上执行图形遍历引擎,以通过使用图形搜索遍历邻接矩阵和边缘到顶点矩阵,从而生成并存储线图邻接矩阵的诱导连通子图,和f)在微处理器上执行分子量计算器模块,以计算并在数据库中存储由图形遍历引擎生成的每个诱导连接子图的分子量,其中每个诱导连通子图的分子量通过检索诱导连通子图每个顶点的分子量并求和来计算。
在又一个方面中,本发明提供一种使用微处理器在计算机系统的存储器中创建和搜索数据库以识别所选分子的化学子结构的设备。所述设备包括:a)输入模块,b)数据库生成模块,和c)搜索引擎。
输入模块包括程序指令,当由微处理器执行时其使所述微处理器接收并在所述存储器装置中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接。
数据库生成模块包括程序指令,当由微处理器执行时其使所述微处理器(i)基于选定的分子数据,创建并在存储器中存储所选分子的V2V邻接矩阵,所述V2V邻接矩阵包括多个V2V向量,其中所述多个V2V向量由V2V值的集合填充,所述V2V值被选择用于针对所选分子中的每对顶点识别所述顶点对是否通过所选分子中的键相互连接,(ii)基于V2V邻接矩阵生成并在存储器中存储所选分子的边缘到顶点(E2V)邻接矩阵,所述E2V邻接矩阵包括多个E2V向量,其中所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对V2V邻接矩阵中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子中直接相互连接,(iii)基于E2V邻接矩阵中的数据生成并在存储器中存储边缘到边缘(E2E)邻接矩阵,所述E2E邻接矩阵包括多个E2E向量,其中所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子中的顶点直接相互连接;(iv)对E2V邻接矩阵中的E2V值和E2E邻接矩阵中的E2E值执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置和所述每个诱导连通子图中每个边缘的边缘位置,(v)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和(vi)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量。
搜索引擎包括程序指令,当由微处理器执行时其使所述微处理器(i)接收指定的分子量,(ii)搜索数据库以查找至少一个ICS记录,其中分子量字段中的总分子量等于指定的分子量,和(iii)将所述至少一个ICS记录的顶点数据字段的顶点值和边缘数据字段的边缘值传送至显示装置。
在本发明的一些实施方式中,所述设备还包括存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时将使所述微处理器检索和使用所述至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
在本发明的一些实施方式中,所述设备还包括存储在存储器中的MCU库,其包括用于所定义的MCU的MCU属性的集合,该MCU属性的集合包括a)所定义的MCU中的成分列表,或b)所定义的MCU成分的分子量,或c)所定义的MCU的化学结构,d)所定义的MCU的通用名称,或e)以上引用的MCU属性中的两个或更多个的任意组合。
在本发明的一些实施方式中,E2E图的每个诱导连通子图都具有边缘和顶点的连通集,以及所述边缘和顶点的连通集的物理排列,对于所选分子的代谢物、或所选分子的分解代谢产物、或所选分子的气相碎片、或所选分子的降解物或所选分子的子结构,它们一起唯一对应于元素的连通集和所述元素的连通集的物理排列。
在又一个方面中,本发明提供一种使用微处理器在计算机系统的存储器中创建数据库以便于识别所选分子的化学子结构的设备,所述设备包括a)存储在存储器中的输入模块和ii)存储在存储器中的数据库生成模块。
输入模块包括程序指令,当由微处理器执行时其使所述微处理器接收并在存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接。
数据库生成模块包括程序指令,当由微处理器执行时其使所述微处理器(i)基于连接性概要,创建并在存储器中存储所选分子的边缘到顶点(E2V)图,所述E2V图包括多个E2V向量,其中所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对所选分子中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子的连接性概要中直接相互连接,(ii)基于E2V图中的数据,生成并在存储器中存储边缘到边缘(E2E)图,所述E2E图包括多个E2E向量,其中所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子的连接性概要中的顶点直接相互连接,(iii)对E2V图和E2E图执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置以及所述每个诱导连通子图中每个边缘的边缘位置,(iv)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和(v)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量。
在本发明的一些实施方式中,所述设备还包括存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时将使所述微处理器检索和使用所述至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
在另一个方面中,本发明提供一种使用微处理器搜索数据库以查找并向显示装置发送信息的设备,所述信息描述了所选分子的化学子结构的组合部分的集合和所述组合部分的物理排列。所述设备包括a)数据库的电子接口,该数据库包括多个ICS记录,每个ICS记录包括分子量字段、顶点数据字段和边缘数据字段,其中所述顶点数据字段由顶点值填充,这些顶点值被配置为指示表示所选分子的连接性概要的线图的诱导连通子图中每个顶点的顶点位置,所述边缘数据字段由配置为指示诱导连接子图中每条边缘的边缘位置的边缘值填充,b)配置为用于使微处理器接收指定的分子量的输入模块,c)具有程序指令的搜索引擎,当由微处理器执行时其将使微处理器使用数据库的电子接口来查找至少一个ICS记录,该至少一个ICS记录中分子量字段中的总分子量等于指定的分子量;和d)存储在存储器中的输出模块,其被配置成将所述至少一个ICS记录的顶点数据字段的顶点值和边缘数据字段的边缘值传送至显示装置。
在所述设备的一些实施方式中,搜索引擎还包括程序指令,当由微处理器执行时其将使所述微处理器a)接收针对分子量的指定的公差,b)使用指定的公差来计算和定义用于搜索数据库的分子量的范围,和c)搜索数据库以查找至少一个ICS记录,其中分子量字段中的总分子量在所定义的分子量的范围内。
在本发明的一些实施方式中,所述设备还包括a)所选分子的连接性概要,b)所选分子的元素列表,和c)存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时将使所述微处理器使用所述至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
在本发明的一些实施方式中,所述图形表示包括a)化学结构图表,或b)MCU图图表,或c)顶点到顶点(V2V)图形图表,或d)边缘到边缘(E2E)图形图表,或e)边缘到顶点(E2V)图形图表,或f)线图图表,或g)上述图表中两种或更多种的组合。
在本发明的附加的实施方式中,所述设备还包括数据库;和存储在存储器中的数据库生成模块,其包含程序指令,当由微处理器执行时其使所述微处理器i)基于连接性概要,创建并在存储器中存储所选分子的边缘到顶点(E2V)图,所述E2V图包括多个E2V向量,其中所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对所选分子中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子的连接性概要中直接相互连接,和(ii)基于E2V图中的数据,生成并在存储器中存储边缘到边缘(E2E)图,所述E2E图包括多个E2E向量,其中所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子的连接性概要中的顶点直接相互连接,(iii)对E2V图和E2E图执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置以及所述每个诱导连通子图中每个边缘的边缘位置,(iv)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和(v)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量。
附图说明
图1示出了通过举例说明本发明实施方式中的数据流的高级流程图。
图2示出了通过举例说明本发明另一个实施方式中的数据流的高级总体流程图,其中表示各种类型的图的数据结构是邻接矩阵。
图3示出了高级流程图,该流程图举例说明了用于计算并在诱导连通子图(ICS)数据库中存储与由本发明实施方式导出的每个诱导连通子图相关联的生物转化计数的算法。
图4示出了高级框图,该高级框图说明了配置为根据本发明示例性实施方式运行的复杂分子子结构识别系统的架构的示例。
图5示出了根据本发明实施方式的可存储在数据库中的示例性诱导连通子图(ICS)记录。
图6是流程图,该流程图根据本发明的一个实施方式说明了由微处理器执行的确定根据本发明的实施方式的所选分子的代谢物的化学结构的步骤。
图7是说明根据本发明实施方式的用于生成MCU图的算法的流程图。
图8是说明根据本发明一个实施方式的用于生成MCU图的线图的算法的流程图。
图9A说明了可由图7的过程生成的所选假设分子的最小可裂解单元图;图9B说明了根据本发明的实施方式生成的所选假设分子的示例性MCU图数据结构;图9C说明了可生成以表示所选假设分子的示例性线图;图9D说明了示例性线图数据结构,即图9C中显示的线图的邻接矩阵(E2E)。图9E是两个示例性诱导连通子图的高级图,它们可以通过遍历假设的所选分子的线图数据结构来生成。
图10A示出了利拉鲁肽分子的MCU图。图10B是人肠促胰高血糖素样肽-1(GLP-1)受体激动剂衍生物,利拉鲁肽的MCU图的对应线图。
图11是具有本发明的系统、设备和方法可以在其上操作的二硫化物交联键的示例性所选分子肽A的化学结构。
图12A和12B示出了根据本发明实施方式生成的肽A的MCU图。
图12C示出了根据本发明实施方式生成的肽A的MCU图数据结构(邻接矩阵)。
图13A是肽A的MCU图的线图,图13B示出了根据本发明生成的相应的线图数据结构。
图14示出了由肽A的MCU图生成的边缘到顶点数据结构。
图15A和15B示出了根据本发明的实施方式生成的存储在数据库中的示例性ICS记录,包括分子量字段、顶点数组字段和边缘数组字段。
图16是根据本发明的一个实施方式说明了搜索诱导连通子图的数据库以识别所选分子的子结构的步骤的流程图。
图17A示出了根据本发明的实施方式生成的肽A的子结构的MCU图;图17B示出了与图17A的MCU图中描述的子结构相对应的化学结构。
图18A和19A示出了根据本发明的实施方式生成的肽A的两个子结构的MCU图;图18B和19B分别示出了与图18A和19A的MCU图中描绘的子结构对应的化学结构。
图20A和21A示出了根据本发明的实施方式生成的肽A的两个子结构的MCU图;图20B和21B分别示出了与图20A和21A的MCU图中描绘的子结构对应的化学结构。
图22A示出了图6的过程可在其上运行的地特胰岛素的化学结构。图22B和22C是根据本发明的实施方式生成的地特胰岛素的MCU图。
图23示出了根据本发明生成的地特胰岛素的MCU图数据结构。
图24是与地特胰岛素的MCU图数据结构对应的线图。
图25示出了根据本发明的实施方式生成的地特胰岛素的线图数据结构。
图26示出了根据本发明实施方式的由MCU图数据结构生成的边缘到顶点数据结构。
图27示出了根据本发明实施方式的用于从存储在MCU图邻接矩阵中的MCU图数据填充子结构数据库的示例性MatLab代码程序指令。
图28示出了说明由图27中所示的示例性代码执行的算法的流程图。
图29是地特胰岛素在大鼠肾膜孵育中潜在代谢物的实验同位素包膜,其在1076.2866Th([M+5H])处具有单一同位素的m/z,分子量为5376.3965Da。
图30A-30D示出了根据本发明的实施方式生成的四个示例性数据库条目(ICS记录)。
图31A和31B示出了地特胰岛素的线图数据结构的诱导连通组图的MCU图。
图31C-31F示出了与图30A-30D中所示的顶点数组和边缘数组对应的诱导连通子图的MCU图。
图32A、32B、33A和33B示出了根据图6至图16中所示的本发明的实施方式生成的四种地特胰岛素代谢物的拟议的化学结构。
图34A是图31F中所示结构的代谢裂解图,地特胰岛素的代谢物;图34B是图31F中所示代谢物的MS/MS y2-y7离子光谱;图34C是图31F中所示地特胰岛素代谢物的MS/MS碎片图。
具体实施方式
一般来说,本发明的实施方式可由科学家(例如化学家和生物化学家)用于识别复杂分子的子结构(例如分子的代谢物)并确定其相关的化学结构。本发明的实施方式可用于药物开发和设计。
图1示出了通过举例说明本发明实施方式中的数据流的高级流程图。如图1所示,第一用户使用第一最终用户计算机系统115和输入模块125向系统提供所选分子数据,所选分子数据包括所选分子的已定义MCU的集合、MCU的分子量和所选分子的连接性概要。连接性概要指示最小可裂解单元和键的相对位置,以及所选分子中MCU和键之间的任何连接。MCU图数据结构生成器130用表示所选分子的MCU图的数据来创建和填充MCU图数据结构。MCU图数据结构生成器130将MCU图数据存储在与系统相关联的存储装置(图1中未示出)中。线图数据结构生成器135检索来自MCU图数据结构的MCU图数据,并使用它来创建和填充线图数据结构。
然后,图形遍历模块140使用适当的图形遍历算法来遍历线图数据结构中的数据,以生成诱导连通子图数据147,其表示可以从线图数据结构中的线图数据所表示的线图导出的所有诱导连通子图。子图数据库生成器145使用诱导连接子图数据147和所选分子数据(特别是分子量)来构建和填充子图数据库150。子图数据库150包括多个ICS记录,每个记录至少包括由诱导连通子图的顶点数据填充的顶点数据字段、由诱导连通子图的边缘数据填充的边缘数据字段、由诱导连通子图的分子量填充的分子量字段和生物转化计数字段,该生物转化计数字段填充有表示将所选分子转化为由存储在每个ICS记录的顶点、边缘和分子量字段中的值表示的子结构所需的生物转化数目(定义如下)的值。子图数据库生成器145基于最终用户提供的所选分子数据中MCU的分子量来计算每个诱导连接子图的分子量。
如图1所示,生物转化计数可由与子图数据库生成器145相关联的生物转化处理器149来计算,生物转化处理器149被配置成执行生物转化计数算法,如图3中描绘并在下面更详细地描述的算法。图5示出了根据本发明实施方式的可存储在子图数据库150中的示例性诱导连接子图(ICS)记录。
在建立子图数据库150之后(其可具有数百万条记录),第二用户可以使用第二最终用户计算机系统160和用户界面165基于给定的查询分子量(或给定的分子量的范围)来搜索数据库150。查询分子量(或重量的范围)被传递给搜索引擎170,其使得系统从子图数据库150检索具有与查询分子量相等或落在指定分子量的范围内的分子量的所有记录的顶点数据和边缘数据。可视化工具175使用顶点数据和边缘数据来生成诱导连通子图的图形表示,该图形表示经由用户界面165传输到由第二用户操作的显示装置162。在优选的实施方式中,如果存在与查询质量(或范围)匹配的两个或更多个诱导连通子图,则可视化工具175和用户界面165运行以根据其各自的生物转化字段中的值对匹配的诱导连通子图进行排序,并且以排序顺序显示匹配的诱导连通子图。注意,第一最终用户计算机系统和第二最终用户计算机系统在一些实施方式中可以包括相同的计算机系统。换言之,系统可以被配置成使用相同的计算机系统来启动系统的数据库生成和数据库搜索功能。
图2示出了通过举例说明本发明另一个实施方式中的数据流的高级总体流程图,其中表示各种类型的图的数据结构是邻接矩阵。如图2所示,总体数据流基本上与图1所示的系统中的总体数据流相同,不同之处在于顶点到顶点(V2V)邻接矩阵生成器230使用所选分子数据来生成和存储V2V图形数据,边缘到边缘(E2E)图形邻接矩阵生成器235使用V2V图形数据来生成和存储E2E图形数据,边缘到顶点(E2V)图形邻接矩阵生成器237使用V2V图形数据来生成和存储E2V图形数据。
图3示出了高级流程图,该流程图举例说明了用于计算并在ICS数据库中存储与由系统创建的顶点数组数据和边缘数组数据表示的每个诱导连通子图相关联的生物转化计数的算法。为了本公开的目的,“生物转化”被定义为两个MCU之间的共价键的断裂。
通常,多个代谢物将在搜索中匹配给定的查询质量,这取决于搜索查询中指定的公差范围,例如,在±5ppm范围内,±4ppm范围内,±2ppm范围内,或给定搜索质量周围的某个其他限制范围。在这类情况下,过滤(或至少优先处理)搜索中返回的代谢物列表通常是有效和可取的,以便更可能由所选分子生成的代谢物显示在搜索结果中返回的代谢物列表的顶部,即,它们先被显示,然后在显示不太可能由所选分子产生的代谢物。因为代谢物通常是酶促产生的,而且酶通常一次水解一个键,因此可以合理地假设,通过破坏所选分子中最少数量的键而生成的代谢物也是最有可能由所选分子产生的代谢物,而不管代谢物是在体内还是在实验室中产生的。在气相破碎过程中发生了类似的连续破碎过程。一次断裂一个键,最弱的键先断裂,然后是下一个最弱的键断裂,依此类推。
因此,本发明的实施方式,特别是,子图数据库生成器可包括生物转化处理器(例如计算机程序指令集),其被配置为对于ICS数据库中表示的每个诱导连接子图(即,每个代谢物),对将所选分子转化为特定代谢物所需的生物转化的数目(或断裂的共价键)进行计数并存储在ICS数据库中。另外,搜索引擎被适当地配置为使用存储的生物转化计数以及查询质量以按排名顺序来检索和显示搜索结果中的代谢物,其中具有较低生物转化计数值的代谢物排名高于具有最高生物转化计数值的代谢物。在一些实施方式中,系统也可被配置为过滤搜索结果,使得那些需要超过指定的最大生物转化次数的代谢物将从搜索结果中过滤出来并且不呈现在用户的显示装置上。
例如,假设所选分子是线性肽A-N-T-G-F-A-N-G-G,与查询质量匹配的代谢物之一是A-N-T-G-F,与查询质量匹配的另一代谢物是T-G-F-A-N。显然,从所选分子中获得A-N-T-G-F代谢物需要一个断键,而获得T-G-F-A-N代谢物需要两个断键。在这种情况下,搜索查询模块的用户界面将使A-N-T-G-F代谢物的排名高于T-G-F-A-N代谢物。
本发明的实施方式被配置为产生ICS数据库,该ICS数据库包括表示可从所选分子生成的每个子结构的ICS记录。每个ICS记录至少包括顶点数组、边缘数组和生物转化计数字段。因此,如图3所示,计算和存储ICS数据库中表示的每个子结构的生物转化数量的一种算法如下进行:
步骤305-选择ICS数据库中的第一条ICS记录;
步骤310-识别所选ICS记录中的边缘数组;
步骤315-通过识别边缘数组中的所有0来识别缺失的边缘;
步骤320-通过将其初始值设置为零,初始化所选ICS记录的生物转化计数字段;
步骤325-对于边缘数组中的每个缺失边缘,如果缺失边缘与子结构中的至少一个顶点相邻,则将生物转化计数字段中的值增加1;
步骤330-在ICS数据库中选择下一条ICS记录;以及
步骤335-重复上述步骤310至330,直到计算出生物转化计数值并将其存储在ICS数据库中的每个ICS记录中。
在一些情况下,所选分子的结构包括由切割顶点分开的两个单体(单体A和单体B)。对于跨越切割顶点的所选分子的子结构或代谢物,生物转化次数是将所选分子转化为单体A所需的生物转化次数与将所选分子转化为单体B所需的生物转化次数之和。
根据该算法,存储在生物转化计数字段中的值随后可由本发明的实施方式用于对搜索结果进行排序和/或过滤,使得最有可能生成的子结构是向最终用户列出或显示的唯一子结构,或者使得最有可能生成的子结构被列出或显示在列表的顶部(即,排在在不太可能生成的子结构之前)。
图4示出了高级框图,该高级框图说明了配置为根据本发明示例性实施方式运行的复杂分子子结构识别系统的架构的示例。复杂分子子结构识别系统405可根据一般目的实施或在专用计算机系统上实施,所述计算机系统例如包括个人计算机系统、笔记本计算机、膝上型计算机、平板计算机或手持计算机系统、启用因特网的智能电话或个人数字辅助计算装置,或其中一种或多种的任何组合。典型地,复杂分子子结构识别系统405包括中央处理单元(CPU)或微处理器425、主存储器410(也称为随机存取存储器(或RAM))和非易失性辅助存储器存储区域420(例如,硬盘驱动器、闪存驱动器或CD-ROM驱动器)。如图4所示,复杂分子子结构识别系统405也可以包括网络接口430,例如,有线以太网局域网适配器、802.11a/g/n WiFi适配器、通用串行总线(USB)适配器和/或蓝牙无线数据通信适配器,提供与其他计算机系统、外围设备(如打印机)和/或数据通信网络的数据通信。程序代码(例如,包括应用程序412的代码)和程序数据(例如,所选分子数据485)可以从非易失性辅助存储区域420加载到主存储器410(即,加载到RAM),并提供给微处理器425以供执行。在应用程序412的控制下运行,微处理器425可以生成结果并将其存储在辅助存储器存储区域420中,以便随后访问、显示、输出和/或传送至其他计算机系统、其他计算机程序和/或其他数据通信网络。
在应用程序412的软件模块的控制下由微处理器425执行的子结构识别处理的结果被存储在辅助存储器存储区域420中,因此它可以根据需要通过人类用户经由在应用程序412中的用户界面模块460的控制下运行的一个或多个最终用户输入装置495(例如,键盘、鼠标、触笔、触摸屏等)和一个或多个最终用户输出装置498(例如,显示装置、打印机、平板显示屏或智能手机显示屏)与复杂分子子结构识别系统405交互而被查看、导航和修改。辅助存储器存储区域420及其包含的数据可以集成到与微处理器425、主存储器410、应用程序412和软件模块435、440、445、450、455、460、465、470、475和480相同的物理机器中,如图4所示。然而,在辅助存储器存储区域420中示出的一部分或全部数据和/或数据库也可以按照分布式排列驻留在独立的计算机系统上,而不脱离所要求保护的本发明的范围。
网络接口430可用于建立到远程服务器和机器(例如,质谱仪装置)的连接,远程服务器和机器包含或生成要处理的附加输入数据(图4中未示出),以及被认为对执行处理有用或必要的多个电子文件和文档。网络接口430还可以提供到由希望访问和使用本发明的复杂分子子结构识别系统405的其他人类用户操作的远程终端和远程计算机系统(未示出)的连接。
主存储器410可以包括但不限于一个或多个本地或远程的、固定的或可移动的、永久的或临时的、磁的或光的、随机存取存储器(RAM)区域、高速缓冲存储器区域或磁盘驱动器,包含用于控制微处理器425的功能以执行识别如本文所述的复杂分子子结构的方法的多个程序模块。这些模块中的每一个可以包括以传统编程语言作为源代码编写的计算机软件程序、议程或过程,并且可以呈现以供微处理器425执行。源代码以及对象和字节代码的各种实现可以存储在计算机可读存储介质(例如DVD、CDROM、软盘或存储卡)上,或者由传输介质或载波实施。
应用程序412包括计算机软件程序模块435、440、445、450、455、460、465、470、475和480的集合,如下所述,每个均包含程序指令使微处理器425根据需要执行各种特定任务、接收各种类型的输入数据(例如所选分子数据485)以及执行以下描述的算法从而生成、存储、传送和显示与本文描述的识别过程相关联的MCU图、线图、诱导连通子图、子结构可视化、生物转化数据、边缘数据和顶点数据。这些软件模块是灵活的,可以配置为接收、处理和输出各种不同类型的输入和输出,包括但不限于化学结构图文件、图像和其他电子文档、图形、布局和架构。下面将更详细地描述应用程序412中的计算机软件模块435、440、445、450、455、460、465、470、475和480中的每一个的目的和功能。
应用程序412包括输入模块435、MCU图数据结构生成器模块440、线图数据结构生成器模块445、图形遍历模块450、子图数据库生成器模块455、用户界面模块460、搜索引擎模块465、可视化工具模块470、生物转化处理器模块475和一个或多个附加数据处理模块480。输入模块435包括程序指令,当由微处理器425执行时,该程序指令使得微处理器425接收并在辅助存储器存储区域420中存储所选分子数据485,所选分子数据485表示(A)所选分子的定义的最小可裂解单元的集合,(B)与所选分子中最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,以及(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及它们之间的连接。输入模块435也可以包括程序指令,当由微处理器425执行时,该程序指令使得微处理器425接收、扫描、解析和/或存储所选分子的化学图中表示的数据,该图包括的注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型。
MCU图数据结构生成器440用表示所选分子的MCU图的数据来创建和填充MCU图数据结构(其示例如图9D所示)。MCU图数据结构生成器440通常将MCU图数据存储在辅助存储器存储区域420中或与复杂分子子结构识别系统405连接或相关联的某些其它存储器存储区域(图4中未示出)中。线图数据结构生成器445由MCU图数据结构检索MCU图数据,并使用它来创建和填充线图数据结构,该线图数据结构也存储在辅助存储器存储区域420中,或与复杂分子子结构识别系统405连接或相关联的某些其它存储器存储区域(图4中未示出)中。
然后,图形遍历模块450使用合适的图形遍历算法遍历线图数据结构中的数据,以产生诱导连通子图数据147,其表示可以从线图数据结构中的线图数据表示的线图导出的所有诱导连通子图。子图数据库生成器455使用诱导连通子图数据147和所选分子数据485(特别是分子量)来构建和填充有在辅助存储器存储区域420中存储的子图数据库490。如图4所示,子图数据库490包括多个ICS记录,每个记录至少包括由诱导连接子图的顶点数据填充的顶点数据字段、由诱导连通子图的边缘数据填充的边缘数据字段、由诱导连通子图的分子量填充的分子量字段和由表示将所选分子转化为子结构(由存储在每个ICS记录的顶点、边缘和分子量字段中的值表示)所需的生物转化数(定义见上文)的值填充的生物转化计数字段。子图数据库生成器455基于最终用户提供的所选分子数据485中的MCU的分子量来计算每个诱导连接子图的分子量。生物转化处理器475根据图3中所示并在上面详细描述的算法来确定每个诱导连通子图的生物转化。
在第一用户建立子图数据库490之后,第二用户(或第一用户)可操作一个或多个最终用户输入装置495以激活用户界面460,从而基于给定的查询分子量(或给定的分子量的范围)搜索子图数据库490。查询分子量(或重量的范围)被传递给搜索引擎465,搜索引擎465使得系统从子图数据库490检索具有与查询分子量相等或落在指定分子量的范围内的分子量的所有记录的顶点数据和边缘数据。因此,用户界面模块460和搜索引擎模块465一起包括程序指令,当由微处理器425执行时该程序指令将使微处理器425(i)接收来自最终用户的查询分子量;(ii)基于查询分子量搜索子图数据库490,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面460以在最终用户操作的最终用户输出装置498(例如监视器)上呈现。
可视化工具模块470包括程序指令,当由微处理器425执行时,该程序指令将使微处理器425使用子图数据库490中所识别的ICS记录的顶点数据和边缘数据来生成所识别的诱导连接子图的图形表示,其经由用户界面460传送至由第二用户操作的最终用户输出装置498。在优选的实施方式中,如果存在与查询质量(或范围)匹配的两个或更多个诱导连通子图,则可视化工具模块470和用户界面460中的程序指令运行以根据其各自的生物转化字段中的值对匹配的诱导连通子图进行排序,并在最终用户输出装置498上按排名顺序显示匹配的诱导连通子图。
附加数据处理模块480可以包括,例如,数据库管理程序(未示出),其创建、组织和促进将ICS记录存储在子图数据库490中和从子图数据库490检索ICS记录。可以使用任何类型的数据库管理程序,包括平面文件系统、层次数据库、关系型数据库或分布式数据库,如加利福尼亚州红木海岸的Oracle公司提供的那些数据库。
在一些实施方式中,复杂分子子结构识别系统405能够充当服务器,其被配置为通过数据通信网络(未示出)使用诸如因特网浏览器的标准web浏览器与客户端计算设备通信,其可包括因特网和万维网。在这些实施方式中,复杂分子子结构识别系统405可以使用多个可用web服务器应用或程序中的任意一个来实现,例如包括可由华盛顿雷蒙德的Microsoft Corporation获得的互联网信息服务(IIS)。
图5示出了根据本发明实施方式的可存储在数据库中的示例性诱导连通子图(ICS)记录。如图5所示,辅助存储器存储区域420的子图数据库490中的每个ICS记录可包括与所选分子的每个诱导连接子图相关联的多个不同数据字段,包括但不限于,用于存储每个诱导连通子图的指定标识符的分子标识符字段505、用于存储每个诱导连通子图的指定标识符的子结构标识符字段510、用于存储每个诱导连通子图的顶点数据和边缘数据的诱导连通子图字段515(通常是数组集)、用于存储诱导连通子图的总分子量的分子量字段520、用于存储每个诱导连通子图的生物转化计数的生物转化计数字段525、用于存储元素组成数据的元素组成字段530以及用于存储与每个诱导连通子图相关联的其他属性的一个或多个其他字段535。
图6是根据本发明实施方式的过程或计算机程序的步骤或功能的代表,它们可存储在主存储器440中并由微处理器425执行,从而进行识别所选分子的代谢物的功能。
为了本公开和方便的目的,图6中所示的过程可被视为本发明的系统运行的第一阶段,它利用所选分子的图形表示的数据结构来识别所选分子的代谢物。通常,图6说明了为所选分子的MCU图和线图生成数据结构的过程。使用图形遍历算法遍历线图数据结构,生成表示所选分子的子结构的诱导连通子图的数据结构。
由于在本公开中描述了图6所示的过程的步骤,因此将参考图7至15,其中示出了相对于示例性所选分子的步骤的结果。
现在转到图6,本发明的子结构ID过程600包括多个步骤,其结果提供所选分子的子结构的详尽集合。假想的所选分子的结构显示在图9A中。在步骤605,系统接收包括所选分子数据的所选分子的表示。所选分子数据包括所选分子中的最小可裂解单元、与所选分子中的最小可裂解单元连接的键、每个最小可裂解单元的分子量以及所选分子的连接性概要。所述连通性概要指示最小可裂解单元和键的相对位置以及它们之间的连接。所选分子的表示可以是MCU图的形式。图9A示出根据本发明可被接收的假设分子的示例性MCU图。图9A的MCU图的每个顶点1、2、3、4和5表示假设分子的最小可裂解单元。图9A中,由连接MCU图的顶点的黑线表示的每条边缘表示连接所选分子的最小可裂解单元的键。
在本发明的替代性实施方式中,在过程的第一步中,所接收的所选分子的表示不是MCU图,而是包含所选分子的结构、式、图或其它合适表示的化学图表文件。在此实例中,在步骤615,系统基于分子的化学结构和用户定义的MCU,或基于所选分子数据,生成所选分子的MCU图和相应的MCU图数据结构。MCU图可以从化学图形文件生成,例如ChemDraw文件、化学表文件或分子的HELM表示(用于复杂大分子的分层编辑语言)。化学图形文件也可以使用简化的分子-输入行-输入系统(SMILES)生成。
如图7所示,假设的所选分子的MCU图可以如下生成:在步骤705,为所选分子的每个最小可裂解单元分配一个顶点。在步骤710,为每个顶点赋予一个标识符或值。例如,该标识符或值可以是数值。如图9A所示,假设的所选分子有5个顶点。顶点被赋予数值1、2、3、4和5。在步骤715,为连接所选分子的MCU的每个键添加边缘。所选的假设分子的MCU图的边缘由连接顶点的黑线表示。
系统生成的MCU图数据结构优选为邻接矩阵或邻接列表。图9A中表示的所选假设分子的示例性MCU邻接矩阵显示在图9B中。MCU图的邻接矩阵是一个顶点到顶点矩阵(V2V)。顶点到顶点矩阵包括数据结构,在本发明的示例性实施方式中,该数据结构被配置为所选分子的n个元素成分或n个最小可裂解单元的n×n矩阵。如果两个顶点相互连接或相邻,则矩阵中的每个插槽都包含1(一)的数值,如果两个顶点不相邻,则包含0。所选假设分子的V2V矩阵的行和列都标记为1到5,以表示相应MCU图中存在的5个顶点。举例来说,如图9B所示,顶点1和2是相邻的,如矩阵的第1行第2列中的说明“1”所示。另一方面,顶点1和5不相邻,如矩阵第1行第5列中的说明“0”所示。
回到图6,在步骤620,系统为了表示所选分子的线图,从MCU图数据结构生成线图数据结构(也称为“键图数据结构”或“边缘图数据结构”)。为了便于理解,在图9C中描绘了与假设分子MCU图邻接矩阵相对应的线图。通常,线图编码过程以使得(i)线图的每个顶点表示所选分子的MCU之间的共价键,和(ii)当且仅当对应的共价键传入MCU图中的同一MCU时,线图的两个顶点通过边缘连接。
如图8的流程图所示,生成线图的算法如下进行:在步骤805,基于每条边缘连接的端点,从假设的所选分子的MCU图中的边缘构造线图的顶点。基于为相应MCU图的顶点赋予的值,线图的每个顶点被赋予唯一的指标,例如数值。线图的顶点对应于MCU的边缘。对于所选假设分子的线图,图9C的顶点A对应于连接图9A的MCU图的顶点1和2的边缘;顶点B对应于连接图9A的MCU图的顶点1和3的边缘;图9C的顶点C对应于连接图9A的MCU图的顶点1和4的边缘;图9C的顶点D对应于连接图9A的MCU图的顶点2和5的边缘。图9C的顶点E对应于连接图9A的MCU图的顶点4和3的边缘;图9C的顶点F对应于连接图9A的MCU图的顶点4和5的边缘。
本发明的系统生成的线图数据结构优选为线图邻接矩阵或邻接列表。在本发明的一个实施方式中,线状图数据结构是由计算机代码自动生成的,例如由上述线状图数据结构生成器445(如图4所示)之类的线状图数据结构生成程序或边缘到顶点(E2V)矩阵生成程序生成。
通常,线图有两种类型的邻接矩阵,即边缘到边缘矩阵和边缘到顶点矩阵。对于每个矩阵,可以使用0和1(0,1)的表示法来描述所选分子的成分之间的连接(赋值为“1”)或其缺乏(赋值为“0”)。(0,1)表示法只是可用于矩阵的表示法的一个实例。可以理解,可以选择并使用许多其他表示法来表示存在或不存在连接。可以适当地使用允许区分所选分子的成分之间是否存在连接的任何表示法。
边缘到边缘矩阵包括数据结构,在本发明的示例性实施方式中,该数据结构被配置为所选分子的n个元素成分或n个最小可裂解单元的n×n矩阵。如果边缘E1和边缘E2相邻,则矩阵中的每个插槽包含数值1(一);如果两个边缘之间不相邻,则包含0(零)。
边缘到顶点矩阵包括数据结构,在本发明的示例性实施方式中,该数据结构被配置为所选分子的n个元素成分或最小可裂解单元的n×n矩阵。如果一条边缘和一个给定的顶点相邻,则矩阵中的每个插槽都包含数值1(一);如果二者之间不相邻,则包含0(零)。
图9D中阐述了与图9A中表示的所选假设分子的MCU图和MCU图数据结构相对应的示例性线图邻接矩阵(E2E)。图14中阐述了用于所选分子肽A的根据本发明的示例性E2V矩阵。E2V矩阵是13×12矩阵,编号为1到13的行表示图12A的肽AMCU图和图12C的MCU图数据结构中的边缘,编号为1到12的列表示图12A的肽AMCU图和图12C的数据结构的顶点。
在步骤625,系统使用包含程序指令的图形遍历程序,当由微处理器执行时,该程序指令使微处理器执行图形遍历算法的步骤,以遍历线图的E2E和E2V矩阵,从而产生并存储线图的诱导连通子图。图9E示出了由图9A的MCU图表示的所选假设分子的两个诱导连接子图的高级表示。
在本发明的一个实施方式中,图形搜索是深度优先搜索。过程如下进行:首先,将线图数据结构的各个顶点添加为连通分量。其次,对于任何连通分量,(i)其顶点索引被定义为其组成顶点的最小索引;(ii)其相邻顶点被识别;(iii)将新的连通分量添加到连通分量列表中,该分量被定义为当前连通分量与其具有高于当前连通分量索引的索引的每个相邻顶点的并集;和(iv)搜索(遍历线图邻接矩阵)以归纳方式进行,直到所有连通分量都被枚举。在非递减顶点索引方向上的特定搜索方向保证了无限循环的缺乏。
当枚举连通分量(诱导连接子图)时,系统在步骤630创建并在辅助存储器中的数据库(例如图4所示且上面描述的子图数据库490)中存储诱导连接子图记录(ICS记录)。ICS记录包含分子量字段、顶点数据字段和边缘数据字段。图15A和15B示出了根据本发明的一些实施方式,可能存储在所选分子肽A的每个ICS记录中的分子量数据、顶点数据和边缘数据的实例。
在图6的步骤635,系统计算并存储与每个诱导连通子图对应的总分子量,并将分子量存储在数据库中的ICS记录的分子量字段中。在完成步骤630和635时,所有诱导连通子图已被枚举和存储,并且相应的分子量已被计算和存储,优选地在一个或多个数据库中。这完成了本发明的代谢物识别过程的第一阶段,该阶段可被称为子结构数据库构建阶段。
重要的是,本发明人认识到MCU图的每个诱导连接子图(例如图9A中所示的MCU图)是由MCU图表示的所选分子的子结构。实际上,存在多个子结构,其对应于MCU图的每个诱导连接子图,例如图9A中所示的MCU图。写出MCU图的诱导连通子图时未考虑多个子结构。因此,MCU图的诱导连通子图池低估了由MCU图(例如图9A的MCU图)表示的分子的子结构池。
然而,本发明人也认识到,由所选分子的线图的数据结构表示的线图的诱导连通子图的列表完全且唯一地表示所选分子的整个子结构池。这种特性既新颖又可行,因为它产生的算法有助于识别所选分子的整个代谢物池,从而改进了用于识别复杂分子的所有子结构的传统计算机系统的运行。
图10A示出了所选分子利拉鲁肽的化学结构。图10B示出了利拉鲁肽的相应的MCU图。如图10B所示,本实例中的用户定义的MCU是氨基酸残基。因为在该实例中,除了一个氨基酸之外,对任何进一步的新陈代谢都没有兴趣,所以MCU图的每个顶点都是一个氨基酸残基,顶点B除外。顶点B代表脂肪酸链。在这个实例中,不允许进一步的新陈代谢发生。因此,顶点B也是MCU。
图10A中阐述的表示的构造块是原子,而图10B中MCU图的构造块是MCU。图10A的基于原子的表示的一个优点是它揭示了结构的化学细节。然而,其缺点是基于原子的表示的复杂性在于,它对于用于计算子结构数据库和理论代谢物数据库而言通常过于复杂。MCU表示通过允许用户忽略化学结构的不相关细节来克服这个问题。
图11示出了肽A的化学结构,这是一种含有2个二硫键的12个氨基酸的肽。
图12A和12B示出了根据本发明实施方式生成的肽A的MCU图。在该实例中,选择肽A的MCU作为氨基酸。因此,不允许超过氨基酸水平的裂解。如图12A所示,分子中有12个氨基酸,因此MCU图中有12个顶点,用带圈的字母表示。MCU图有13个边缘,其在图12A中由连接所有顶点到其他顶点的实黑线表示。
图12B是肽A的另一MCU图,其顶点由带圈数字而不是带圈的字母表示。
肽A的MCU图数据结构如图12C所示。数据结构包括12x 12的邻接矩阵,该矩阵包含12个顶点中的每一个的行和每一行的12列。每个顶点之间是否存在键用1,0表示法指示,其中1表示存在键或连接,0表示不存在键或连接。例如,顶点1连接至顶点2,因此第2列中为1,但是不连接至任何其他顶点,因此其余11列中的每列均列出零。作为附加实例,顶点2连接至顶点1、3和7,因此对应于顶点2的行的1、3和7各列中的每一列均为1。
图13A示出了可以根据本发明实施方式生成的肽A的线图。线图的顶点表示为圆圈,编号为1至12。为便于理解,顶点包含单个字母的氨基酸和肽内的位置,表示肽A的MCU图的给定边缘的端点。相应的MCU图数据结构如图13B所示。相应的E2V矩阵数据结构如图14所示。在E2V矩阵中,边缘表示为第1至13行,顶点表示为第1至12列。
图15A和15B示出了在根据本发明实施方式生成的子图数据库中存储的ICS记录的示例性数据,包括分子量字段、顶点数组字段和边缘数组字段。ICS记录表示肽A的线图的诱导连接子图。如图15A的第3行和第4行所示,两个ICS记录中的两个显示相同的分子量,但在顶点数据字段中显示不同的顶点值,在边缘数据字段中显示不同的边缘值。因此,由本发明实施方式生成的子图数据库的配置允许系统区分具有相同分子量的ICS(以及由此所选分子的子结构)。
图16示出了根据本发明一个实施方式执行的示例性搜索过程的步骤的流程图。可以与本发明运行的第一阶段异步地执行搜索。搜索过程利用在运行的第一阶段创建的存储的诱导连通子图记录的数据库。在步骤1605,系统接收查询分子量。在步骤1610和1615,系统使用查询分子量搜索在步骤630和635生成的存储的诱导连接子图记录的数据库,以便识别具有与查询分子量匹配的分子量字段值的诱导连接子图记录,即,在分子量字段中具有在查询分子量的指定范围内的分子量的记录,优选在查询分子量的5ppm内、更优选在查询分子量的4ppm内、更优选在查询分子量的2ppm内。在一些实施方式中,可通过搜索引擎模块(即,计算机程序)来执行对诱导连接子图记录的搜索,所述搜索引擎模块包括程序指令,该程序指令被配置成使微处理器在本发明运行的第一阶段期间由存储在子图数据库中的ICS记录搜索和检索数据。查询分子量通常是所选分子的子结构的实验观察或已知分子量。可以使用诸如质谱、特别是微分质谱等技术来生成分子量查询。
在步骤1615,系统向用户显示数据库中已识别的诱导连通子图记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值。该步骤通过顶点值和边缘值从所识别的ICS记录传送到用户界面,以在由最终用户操作的显示装置上呈现来实现。
在本发明的附加实施方式中,系统可以使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据来产生线图的诱导连通子图的图形表示,并将该图形表示传送到由最终用户操作的显示装置。参见图16的步骤1620。图形表示可以是由诱导连通子图记录表示的子结构的MCU图或化学结构图。注意,如步骤1620所述,显示图形表示是可选步骤,取决于用户是否希望看到图形表示,或者是否对接收(或被呈现)线图的诱导连通子图的顶点值和边缘值感到满意。
图17A示出了由肽A的线图的诱导连通子图(ICS)表示的图形表示,即MCU图。子结构的分子量为192.0569道尔顿。图17B示出了由图17A的MCU图表示的子结构的相应化学结构。
图18A和19A示出了由肽A的线图的ICS表示的图形表示,即MCU图。MCU图表示分子量为220.0882道尔顿的肽A的子结构。图18B和19B分别示出由图18A和19A的MCU图表示的子结构的相应化学结构。
图20A和21A示出了由肽A的线图的ICS表示的图形表示,即MCU图。MCU图表示分子量为1271.42道尔顿的肽A的子结构。图20B和21B分别示出由图20A和图21A的MCU图表示的子结构的相应化学结构。
图22A示出另一所选分子-即地特胰岛素-的化学结构。图22B和22C描绘地特胰岛素的MCU图。在图22B的MCU图中,MCU包括单个氨基酸残基和元素组成。元素组成(C12H26O1)由带圆圈的Z表示。图22C显示由带圆圈的X表示的部分分子已被提取到单个MCU中。对分子的提取区域的裂解不感兴趣的用户可使用该方法来定制将由本发明产生的子结构池。
图23示出根据本发明生成的地特胰岛素的MCU图数据结构。邻接矩阵为50×51矩阵。
图24示出地特胰岛素的图22B中表示的MCU图的线图。线图有52个顶点,由赋予给它的数值指定。
图25示出了图23中所述的MCU图数据结构生成的地特胰岛素的线图数据结构。数据结构为52×52邻接矩阵。
图26描绘从图23所示的MCU图数据结构根据本发明生成的边缘到顶点数据结构。
图27示出了示例性MatLab代码程序指令,该程序指令被配置成执行图形遍历算法,以由存储在MCU图邻接矩阵中的MCU图数据填充子结构数据库。如图27所示,代码接收存储在MCU图邻接矩阵数据结构E2V中的输入数据和存储在线图邻接矩阵数据结构J中的数据。注意,后者可能源于前者。因此,可以编写由图27所示的MatLab代码表示的算法,使得其仅需要来自MCU图邻接矩阵数据结构的数据来填充ICS数据库。
图28示出了由图27所示的示例性代码执行的算法的流程图。如图28所示,用于遍历图形数据结构以填充子图数据库的算法包括以下步骤:首先,在步骤2805,将表示结构中存在的每个单独边缘的数据添加到数据库中。然后,在步骤2810,对于数据库中存在的每个边缘,将该边缘的所有子代子结构递归地添加到数据库中。接下来,在步骤2815,对于数据库中已经存在的每个子结构(即,每个母代子结构),识别其近邻并将每个近邻逐个添加到母结构中,并且在步骤2820,重复步骤2810、2815和2820,直到没有更多的子结构添加到数据库。
图29是地特胰岛素在大鼠肾膜孵育中潜在代谢物的实验同位素包膜,其在1076.2866Th([M+5H])处具有单一同位素的m/z,分子量为5376.3965Da。根据图16所示的流程图说明的算法,使用分子量作为查询分子量来搜索ICS记录的数据库。对数据库进行二进制搜索,以识别就有在2ppm内与查询分子匹配的分子量的ICS记录。
图30A-30D显示了在数据库的二进制搜索中生成的四个示例性数据库条目(ICS记录),其包含表示地特胰岛素的诱导连通子图的顶点数组和边缘数组。其中三个ICS分子量为5376.4044,一个ICS分子量为5376.3945。
图31A和31B示出了地特胰岛素的线图数据结构的诱导连接子图的MCU图。
图31C-31F分别示出了与图30A-30D中所示的顶点数组和边缘数组对应的诱导连通子图的MCU图。
图32A、32B、33A和33B分别示出了与图30A-30D中所示的顶点数组和边缘数组对应的四个诱导连通子图的提议的化学结构。
图34A是图31F中所示结构的代谢裂解图,地特胰岛素的代谢物;图34B是为验证图31F所示代谢物的结构而生成的MS/MS y2-y7离子光谱。MS/MS产生的y2-y7离子系列与图31F所示的结构一致,而不是与图31C、31D和31F所示的结构一致。图34C是图31F中所示的地特胰岛素的代谢物的MS/MS碎片图。在图34C中,代谢裂解位点、异构裂解位点、保留MCU、离去MCU、yn离子和bn离子表示如下:
Figure BDA0002942825900000371
虽然已经参考具体实施例详细描述了本发明,但是对于本领域技术人员来说,在本发明的范围内进行的各种修改是显而易见的。因此,本发明的范围不应受到本文所描述的实施例的限制,而应受到下面提出的权利要求的限制。

Claims (62)

1.一种用于识别所选分子的子结构的系统,所述系统包括:
a)微处理器;
b)存储器;
c)所述存储器中的包括程序指令的应用程序,当由微处理器执行时所述应用程序将使所述微处理器:
(i)接收并在所述存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接,
(ii)基于所选分子数据,创建并在所述存储器中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键,
(iii)基于MCU图数据,生成并在所述存储器中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点,
(iv)对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及
所选分子中最小可裂解单元和键的所述连通子集的相对位置,
(v)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和
(vi)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量;
d)用于与最终用户通信的用户界面;和
e)所述用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:
(i)接收来自所述最终用户的查询分子量,
(ii)基于所述查询分子量搜索所述数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和
(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。
2.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:
a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图的诱导连通子图的图形表示;和
b)将图形表示传送至最终用户操作的显示装置。
3.根据权利要求1所述的系统,所述系统还包括所述应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器
c)接收针对分子量的指定的公差;
d)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;
e)根据查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录具有在分子量字段中的、落入定义的分子量的范围内的总分子量;和
f)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以呈现给所述最终用户。
4.根据权利要求1所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。
5.根据权利要求1所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
6.根据权利要求1所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。
7.根据权利要求1所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。
8.根据权利要求1所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。
9.根据权利要求1所述的系统,其中,所选分子是小分子。
10.根据权利要求1所述的系统,其中,所选分子是大分子。
11.根据权利要求10所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。
12.根据权利要求1所述的系统,其中:
a)所选分子数据包括元素组成数据,所述元素组成数据表示(A)每个最小可裂解单元中的元素单元的集合,(B)与最小可裂解单元中的元素单元的集合连接的元素键的集合,(C)每个元素单元的元素分子量,和(D)最小可裂解单元的MCU连接性概要,所述MCU连接性概要表示最小可裂解单元中元素单元和键的相对位置以及元素单元和键之间的连接;和
b)在数据库中创建的ICS记录还包括填充有一个或多个元素单元标识符的元素单元字段;和
c)所述应用程序还包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器:
(i)接收来自最终用户的查询元素单元,
(ii)基于所述查询元素单元搜索数据库,以识别在元素单元字段中具有与所述查询元素单元匹配的元素单元标识符的ICS记录,和
(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以在最终用户操作的显示装置上呈现。
13.一种使用微处理器生成包含所选分子的子结构的数据库的系统,所述系统包括:
a)存储器;
b)微处理器;
c)所述存储器中的输入模块,当由微处理器执行时所述输入模块使所述微处理器接收和存储选定的分子数据,所述选定的分子数据表示(A)所选分子中最小可裂解单元的集合,(B)与所选分子中最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子中最小可裂解单元和键的连接性概要,所述连接性概要表示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
d)所述存储器中的MCU图模块,当由微处理器执行时所述MCU图模块将使所述微处理器基于所选分子数据在所述存储器中创建所选分子的最小可裂解单元图数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;
e)所述存储器中的线图模块,当由微处理器执行时所述线图模块将使所述微处理器生成并在所述存储器中存储由表示用于MCU图的线图的线图数据填充的线图数据结构,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;
f)所述存储器中的图形遍历模块,当由微处理器执行时所述图形遍历模块将使所述微处理器对线图数据结构中的线图数据运行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包括线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和
g)所述存储器中的子图数据库生成器,当由微处理器执行时所述子图数据库生成器将使所述微处理器:
(i)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和
(ii)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。
14.根据权利要求13所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。
15.根据权利要求13所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
16.根据权利要求13所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。
17.根据权利要求10所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。
18.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。
19.根据权利要求13所述的系统,所述系统还包括:
a)用于与最终用户通信的用户界面;
b)所述存储器中的具有程序指令的搜索引擎,当由微处理器执行时所述搜索引擎将使所述微处理器
(i)接收来自所述最终用户的查询分子量,
(ii)基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和
(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。
20.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:
a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图的诱导连通子图的图形表示;和
b)将所述图形表示传送至最终用户操作的显示装置。
21.根据权利要求1所述的系统,所述系统还包括应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器
a)接收针对分子量的指定的公差;
b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;
c)基于查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录在分子量字段中具有在定义的分子量的范围内的总分子量;和
d)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以呈现给所述最终用户。
22.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、广度优先搜索算法、反向搜索算法、树搜索算法或上述图形遍历算法中两种或更多种的组合。
23.根据权利要求13所述的系统,其中,所选分子是小分子。
24.根据权利要求13所述的系统,其中,所选分子是大分子。
25.根据权利要求13所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。
26.一种使用微处理器和存储器装置识别所选分子的子结构的方法,所述方法包括:
a)使用所述微处理器,接收并在所述存储器装置中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
b)使用所述微处理器,基于所选分子数据,创建并在所述存储器装置中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;
c)使用所述微处理器,基于MCU图数据,生成并在所述存储器装置中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;
d)在所述微处理器上对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;
e)使用所述微处理器,对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和
f)使用所述微处理器,对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。
27.根据权利要求26所述的方法,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。
28.根据权利要求26所述的方法,所述方法还包括:
a)通过所述微处理器接收查询分子量;
b)使用所述微处理器,基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和
c)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值的表示传送到显示装置。
29.根据权利要求28所述的方法,所述方法还包括:
a)使用所述微处理器,基于所选分子的连接性概要、顶点数据字段中的顶点值和边缘数据字段中的边缘值,生成线图的诱导连通子图的图形表示;和
b)将所述图形表示传送至显示装置。
30.根据权利要求26所述的方法,其中,所选分子是小分子。
31.根据权利要求26所述的方法,其中,所选分子是大分子。
32.根据权利要求26所述的方法,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。
33.根据权利要求26所述的方法,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
34.一种生成数据库以便于识别所选分子的子结构的系统,所述系统包括:
a)微处理器;
b)存储器装置;和
c)所述存储器装置上的程序指令,所述程序指令用于使所述微处理器:
(i)接收表示所选分子的化学图形和注释的数据,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量、和(C)与所选分子的最小可裂解单元连接的键的类型;
(ii)生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;
(iii)由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中,顶点表示所选分子的最小可裂解单元之间的键;
(iv)由最小可裂解单元邻接矩阵生成边缘到顶点邻接矩阵,所述边缘到顶点邻接矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键;
(v)使用图形遍历算法遍历线图邻接矩阵和边缘到顶点图形邻接矩阵,以确定所选分子的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和
(vi)计算并在所述数据库中存储每个诱导连通子图的分子量,其中,每个诱导连通子图的分子量通过检索诱导连通子图的每个顶点的分子量并求和来计算。
35.一种使用微处理器和存储器装置生成数据库以便于识别所选分子的子结构的系统,所述系统包括:
a)图形输入模块,用于接收所选分子的化学图和注释,所述注释识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型;
b)位于存储器装置上的矩阵生成器模块,能够由微处理器执行以使微处理器生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;
c)位于存储器装置上的线图矩阵生成器模块,可由微处理器执行以使所述微处理器由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中,顶点表示所选分子的最小可裂解单元之间的键;
d)位于存储器装置上的边缘到顶点矩阵生成器模块,能够由微处理器执行以使微处理器由最小可裂解单元邻接矩阵生成边缘到顶点矩阵,所述边缘到顶点矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键;
e)能够由微处理器执行的图形遍历引擎,以通过使用深度优先或广度优先搜索使微处理器遍历邻接矩阵和边缘到顶点矩阵,从而基于线图邻接矩阵和边缘到顶点矩阵中的赋值生成并在数据库中存储线图邻接矩阵的诱导连通子图;和
f)能够由微处理器执行的分子量计算器模块,使微处理器计算并在数据库中存储每个诱导连接子图的分子量,其中,每个诱导连通子图的分子量通过检索诱导连通子图每个顶点的分子量并求和来计算。
36.一种使用微处理器识别所选分子的子结构的方法,所述方法包括:
a)在微处理器上执行图形输入模块,以接收所选分子的化学图形和注释,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型;
b)在微处理器上执行矩阵生成器模块以生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;
c)在微处理器上执行线图矩阵生成器模块以由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中,顶点表示所选分子的最小可裂解单元之间的键;
d)在微处理器上执行边缘到顶点矩阵生成器模块以由最小可裂解单元邻接矩阵生成边缘到顶点矩阵,所述边缘到顶点矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键;
e)在微处理器上执行图形遍历引擎,以通过使用图形搜索遍历线图邻接矩阵和边缘到顶点矩阵,从而生成并存储线图邻接矩阵的诱导连通子图;和
f)在微处理器上执行分子量计算器模块,其计算并在数据库中存储由图形遍历引擎生成的每个诱导连接子图的分子量,其中,每个诱导连通子图的分子量通过检索诱导连通子图的每个顶点的分子量并求和来计算。
37.一种使用微处理器在计算机系统的存储器中创建和搜索数据库以识别所选分子的化学子结构的设备,所述设备包括:
a)存储在存储器中的输入模块;
b)存储在存储器中的数据库生成模块;和
c)存储在存储器中的搜索引擎;
d)其中,所述输入模块包括程序指令,当由微处理器执行时所述程序指令使所述微处理器接收并在所述存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
e)其中,所述数据库生成模块包括程序指令,当由微处理器执行时所述程序指令使所述微处理器:
(i)基于选定的分子数据,创建并在存储器中存储所选分子的V2V邻接矩阵,所述V2V邻接矩阵包括多个V2V向量,其中,所述多个V2V向量由V2V值的集合填充,所述V2V值被选择用于针对所选分子中的每对顶点识别该对顶点是否通过所选分子中的键相互连接;
(ii)基于V2V邻接矩阵生成并在存储器中存储所选分子的边缘到顶点(E2V)邻接矩阵,所述E2V邻接矩阵包括多个E2V向量,其中所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对V2V邻接矩阵中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子中直接相互连接,和
(iii)基于E2V邻接矩阵中的数据生成并在存储器中存储边缘到边缘(E2E)邻接矩阵,所述E2E邻接矩阵包括多个E2E向量,其中所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子中的顶点直接相互连接;和
(iv)对E2V邻接矩阵中的E2V值和E2E邻接矩阵中的E2E值执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置和所述每个诱导连通子图中每个边缘的边缘位置,
(v)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中,所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和
(vi)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量;和
f)其中,所述搜索引擎包括程序指令,当由微处理器执行时所述程序指令使所述微处理器:
(i)接收指定的分子量,
(ii)搜索数据库以查找至少一个ICS记录,其中,分子量字段中的总分子量等于指定的分子量,和
(iii)将所述至少一个ICS记录的顶点数据字段的顶点值和边缘数据字段的边缘值传送至显示装置。
38.根据权利要求37所述的设备,所述设备还包括存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器检索和使用所述至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
39.根据权利要求38所述的设备,其中,所述图形表示包括:
a)化学结构图表,或
b)MCU图图表,或
c)顶点到顶点(V2V)图形图表,或
d)边缘到边缘(E2E)图形图表,或
e)边缘到顶点(E2V)图形图表,或
f)线图图表,或
g)上述图表中两种或更多种的组合。
40.根据权利要求37所述的设备,其中,在数据库生成模块的控制下由微处理器执行的图形遍历算法包括:
a)深度优先搜索算法,或
b)广度优先搜索算法,或
c)反向搜索算法,或
d)树搜索算法,或
e)上述图形遍历算法中两种或更多种的任意组合。
41.根据权利要求37所述的设备,其中,所述搜索引擎还包括程序指令,当由微处理器执行时所述程序指令使所述微处理器:
a)接收针对分子量的指定的公差;
b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;和
c)搜索数据库以查找至少一个ICS记录,其中,分子量字段中的总分子量在所定义的分子量的范围内。
42.根据权利要求37所述的设备,所述设备还包括存储在存储器中的MCU库,其包括用于所定义的MCU的MCU属性的集合,该MCU属性的集合包括:
a)所定义的MCU中的成分列表,或
b)所定义的MCU的成分的分子量,或
c)所定义的MCU的化学结构,
d)所定义的MCU的通用名称,或
e)以上提及的MCU属性中的两个或更多个的任意组合。
43.根据权利要求37所述的设备,其中,E2E图的每个诱导连通子图都具有边缘和顶点的连通集,以及所述边缘和顶点的连通集的物理排列,其唯一对应于用于对于所选分子的代谢物、或所选分子的分解代谢产物、或所选分子的气相碎片、或所选分子的降解物或所选分子的子结构的元素的连通集和所述元素的连通集的物理排列。
44.根据权利要求37所述的设备,其中,所选分子是小分子。
45.根据权利要求37所述的设备,其中,所选分子是大分子。
46.根据权利要求45所述的设备,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。
47.一种在计算机系统的存储器中创建和搜索数据库以识别所选分子的化学子结构的设备,所述设备包括:
a)微处理器;
b)存储在所述存储器中的输入模块;
c)存储在所述存储器中的数据库生成模块;和
d)其中,所述输入模块包括程序指令,当由微处理器执行时所述程序指令使所述微处理器接收并在存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
e)其中,所述数据库生成模块包括程序指令,当由微处理器执行时所述程序指令使所述微处理器:
(i)基于连接性概要,创建并在存储器中存储所选分子的边缘到顶点(E2V)图,所述E2V图包括多个E2V向量,其中所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对所选分子中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子的连接性概要中直接相互连接,和
(ii)基于E2V图中的数据,生成并在存储器中存储边缘到边缘(E2E)图,所述E2E图包括多个E2E向量,其中,所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子的连接性概要中的顶点直接相互连接;和
(iii)对E2V图和E2E图执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置以及所述每个诱导连通子图中每个边缘的边缘位置,
(iv)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中,所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和
(v)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量。
48.根据权利要求47所述的设备,所述设备还包括存储在存储器中的具有程序指令的搜索引擎,当由微处理器执行时所述程序指令使所述微处理器:
a)由指定的分子量接收;
b)搜索数据库以查找至少一个ICS记录,其中,分子量字段中的总分子量等于指定的分子量;和
c)将所述至少一个ICS记录的顶点数据字段的顶点值和边缘数据字段的边缘值传送至显示装置。
49.根据权利要求48所述的设备,其中,所述搜索引擎还包括程序指令,当由微处理器执行时所述程序指令使所述微处理器:
a)接收针对分子量的指定的公差;
b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;和
c)搜索数据库以查找所述至少一个ICS记录,其中,分子量字段中的总分子量在定义的分子量的范围内。
50.根据权利要求47所述的设备,所述设备还包括存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器检索和使用至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
51.根据权利要求47所述的设备,其中,所述图形表示包括:
a)化学结构图表,或
b)MCU图图表,或
c)顶点到顶点(V2V)图形图表,或
d)边缘到边缘(E2E)图形图表,或
e)边缘到顶点(E2V)图形图表,或
f)线图图表,或
g)上述图表中两种或更多种的组合。
52.根据权利要求47所述的设备,其中,在数据库生成模块的控制下由微处理器执行的图形遍历算法包括:
a)深度优先搜索算法;或
b)广度优先搜索算法;或
c)反向搜索算法;或
d)树搜索算法;或
e)上述图形遍历算法中两种或更多种的任意组合。
53.根据权利要求47所述的设备,所述设备还包括存储在存储器中的MCU库,其包括用于所定义的MCU的MCU属性的集合,该MCU属性的集合包括:
a)所定义的MCU中的成分的列表;或
b)所定义的MCU的成分的分子量;或
c)所定义的MCU的化学结构;
d)所定义的MCU的通用名称;或
e)以上提及的MCU属性中的两个或更多个的任意组合。
54.根据权利要求47所述的设备,其中,E2E图的每个诱导连通子图都具有边缘和顶点的连通集,以及所述边缘和顶点的连通集的物理排列,其唯一对应于用于所选分子的代谢物、或所选分子的分解代谢产物、或所选分子的气相碎片、或所选分子的降解物或所选分子的子结构的元素的连通集和所述元素的连通集的物理排列。
55.根据权利要求47所述的设备,其中,所选分子是小分子。
56.根据权利要求47所述的设备,其中,所选分子是大分子。
57.根据权利要求47所述的设备,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。
58.一种用于搜索数据库以查找并向显示装置发送信息的设备,所述信息描述了所选分子的化学子结构的组合部分的集合和所述组合部分的物理排列,所述设备包括:
a)微处理器;
b)数据库的电子接口,该数据库包括多个ICS记录,每个ICS记录包括分子量字段、顶点数据字段和边缘数据字段,其中,所述顶点数据字段由顶点值填充,所述顶点值被配置为指示表示所选分子的连接性概要的线图的诱导连通子图中每个顶点的顶点位置,所述边缘数据字段由配置为指示诱导连接子图中每个边缘的边缘位置的边缘值填充;
c)配置为用于使微处理器接收指定的分子量的输入模块;
d)具有程序指令的搜索引擎,当由微处理器执行时所述程序指令将使微处理器使用数据库的电子接口来查找至少一个ICS记录,所述至少一个ICS记录中分子量字段中的总分子量等于指定的分子量;和
e)存储在存储器中的输出模块,其被配置成使微处理器将所述至少一个ICS记录的顶点数据字段的顶点值和边缘数据字段的边缘值传送至显示装置。
59.根据权利要求58所述的设备,其中,所述搜索引擎还包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器
a)接收针对分子量的指定的公差;
b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;和
c)搜索数据库以查找至少一个ICS记录,所述至少一个ICS记录中分子量字段中的总分子量在所定义的分子量的范围内。
60.根据权利要求58所述的设备,所述设备还包括:
a)所选分子的连接性概要;
b)所选分子的元素列表;和
c)存储在存储器中的可视化工具模块,其包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器使用所述至少一个ICS记录的连接性概要、元素列表、顶点数据字段中的顶点值和边缘数据字段中的边缘值,以生成并在显示装置上显示所述至少一个ICS记录的诱导连接子图的图形表示。
61.根据权利要求60所述的设备,其中,所述图形表示包括:
a)化学结构图表,或
b)MCU图图表,或
c)顶点到顶点(V2V)图形图表,或
d)边缘到边缘(E2E)图形图表,或
e)边缘到顶点(E2V)图形图表,或
f)线图图表,或
g)上述图表中两种或更多种的组合。
62.根据权利要求58所述的设备,所述设备还包括:
a)数据库;和
b)存储在存储器中的数据库生成模块,其包含程序指令,当由微处理器执行时所述程序指令使所述微处理器:
(i)基于连接性概要,创建并在存储器中存储所选分子的边缘到顶点(E2V)图,所述E2V图包括多个E2V向量,其中,所述多个E2V向量由E2V值的集合填充,所述E2V值被选择用于针对所选分子中的每个边缘-顶点对识别所述每个边缘-顶点对的边缘和顶点是否在所选分子的连接性概要中直接相互连接,和
(ii)基于E2V图中的数据,生成并在存储器中存储边缘到边缘(E2E)图,所述E2E图包括多个E2E向量,其中,所述多个E2E向量由E2E值的集合填充,所述E2E值被选择用于针对所选分子中的每一对边缘识别所述每一对边缘是否通过所选分子的连接性概要中的顶点直接相互连接;和
(iii)对E2V图和E2E图执行图形遍历算法,以确定E2E图的每个诱导连通子图、所述每个诱导连通子图中每个顶点的顶点位置以及所述每个诱导连通子图中每个边缘的边缘位置,
(iv)对于E2E图的所述每个诱导连通子图,在数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中,所述顶点数据字段由配置为指示诱导连通子图中所述每个顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中所述每个边缘的边缘位置的边缘值填充,和
(v)使用连接性概要、所选分子的元素的分子量的集合以及每个诱导连接子图的ICS记录来计算并在每个ICS记录的分子量字段中存储该ICS记录的诱导连接子图的总分子量。
CN201980054026.5A 2018-06-11 2019-06-11 复杂分子子结构的识别系统、装置和方法 Active CN112567465B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862683582P 2018-06-11 2018-06-11
US62/683,582 2018-06-11
US201862752152P 2018-10-29 2018-10-29
US62/752,152 2018-10-29
US201862770252P 2018-11-21 2018-11-21
US62/770,252 2018-11-21
PCT/US2019/036449 WO2019241178A1 (en) 2018-06-11 2019-06-11 Complex molecule substructure identification systems, apparatuses and methods

Publications (2)

Publication Number Publication Date
CN112567465A true CN112567465A (zh) 2021-03-26
CN112567465B CN112567465B (zh) 2024-02-20

Family

ID=68842307

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980052328.9A Active CN112534508B (zh) 2018-06-11 2019-06-11 用于标识复杂分子子结构的割点法
CN201980054026.5A Active CN112567465B (zh) 2018-06-11 2019-06-11 复杂分子子结构的识别系统、装置和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201980052328.9A Active CN112534508B (zh) 2018-06-11 2019-06-11 用于标识复杂分子子结构的割点法

Country Status (6)

Country Link
US (2) US20210257046A1 (zh)
EP (2) EP3794597A4 (zh)
JP (2) JP7349454B2 (zh)
CN (2) CN112534508B (zh)
CA (2) CA3103253A1 (zh)
WO (2) WO2019241178A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090834A (zh) * 2021-11-09 2022-02-25 支付宝(杭州)信息技术有限公司 一种图搜索方法、装置及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112534508B (zh) * 2018-06-11 2024-03-01 默沙东有限责任公司 用于标识复杂分子子结构的割点法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021139A2 (en) * 2000-09-08 2002-03-14 Oxford Glycosciences (Uk) Ltd. Automated identification of peptides
US20070213278A1 (en) * 2004-06-24 2007-09-13 Chi-Huey Wong Arrays with cleavable linkers
US20130337456A1 (en) * 2007-04-13 2013-12-19 Sequenom, Inc. Comparative sequence analysis processes and systems
US20140045273A1 (en) * 2012-08-09 2014-02-13 Perkinelmer Health Sciences, Inc. Methods and apparatus for identification of polymeric species from mass spectrometry output
CN104765984A (zh) * 2015-03-20 2015-07-08 同济大学 一种生物质谱数据库快速建立与搜索的方法
US20160153060A1 (en) * 2013-07-09 2016-06-02 Tech-Knowhow Corp. Method for species identification by using molecular weights of nucleic acid cleavage fragments
WO2017131911A1 (en) * 2016-01-26 2017-08-03 Raghoottama Pandurangi Compositions and methods for sensitizing low responsive tumors to cancer therapy
CN107077592A (zh) * 2014-03-28 2017-08-18 威斯康星校友研究基金会 高分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
US20170254813A1 (en) * 2014-11-25 2017-09-07 Ventana Medical Systems, Inc. Proximity assays using chemical ligation and hapten transfer

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2542343C (en) 2003-10-14 2017-05-09 Sachin Ahuja Method and device for partitioning a molecule
US7197402B2 (en) * 2004-10-14 2007-03-27 Highchem, Ltd. Determination of molecular structures using tandem mass spectrometry
WO2008058923A2 (en) * 2006-11-13 2008-05-22 N.V. Organon A system and method to identify the metabolites of a drug
US9149309B2 (en) * 2012-03-23 2015-10-06 Yale University Systems and methods for sketching designs in context
US20130325354A1 (en) * 2012-05-18 2013-12-05 Marshall Siegel Computerized method for correlating and elucidating chemical structures and substructures using mass spectrometry
KR20140145753A (ko) * 2013-06-14 2014-12-24 주식회사 켐에쎈 기준 분자들의 물성 값 및 분자 표현자에 기반한 분자간 근원적 상관성을 이용하여 혼합물을 구성하는 각 분자들의 물성 값을 예측하는 방법
WO2015187095A1 (en) * 2014-06-02 2015-12-10 Agency For Science, Technology And Research A diagnostic and therapeutic tool for cancer
EP3234805A4 (en) * 2014-12-19 2017-10-25 Microsoft Technology Licensing, LLC Graph processing in database
EP3304067B1 (en) * 2015-05-29 2024-05-22 Waters Technologies Corporation Metabolic pathway and metabolite identification
US10318526B2 (en) * 2016-07-05 2019-06-11 Zymergen Inc. Complex chemical substructure search query building and execution
CN112534508B (zh) * 2018-06-11 2024-03-01 默沙东有限责任公司 用于标识复杂分子子结构的割点法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021139A2 (en) * 2000-09-08 2002-03-14 Oxford Glycosciences (Uk) Ltd. Automated identification of peptides
US20070213278A1 (en) * 2004-06-24 2007-09-13 Chi-Huey Wong Arrays with cleavable linkers
US20130337456A1 (en) * 2007-04-13 2013-12-19 Sequenom, Inc. Comparative sequence analysis processes and systems
US20140045273A1 (en) * 2012-08-09 2014-02-13 Perkinelmer Health Sciences, Inc. Methods and apparatus for identification of polymeric species from mass spectrometry output
US20160153060A1 (en) * 2013-07-09 2016-06-02 Tech-Knowhow Corp. Method for species identification by using molecular weights of nucleic acid cleavage fragments
CN107077592A (zh) * 2014-03-28 2017-08-18 威斯康星校友研究基金会 高分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
US20170254813A1 (en) * 2014-11-25 2017-09-07 Ventana Medical Systems, Inc. Proximity assays using chemical ligation and hapten transfer
CN104765984A (zh) * 2015-03-20 2015-07-08 同济大学 一种生物质谱数据库快速建立与搜索的方法
WO2017131911A1 (en) * 2016-01-26 2017-08-03 Raghoottama Pandurangi Compositions and methods for sensitizing low responsive tumors to cancer therapy

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ERIC EZAN, FRANCOIS BECHER & FRANCOIS FENAILLE: "Assessment of the metabolism of therapeutic proteins and antibodies", 《EXPERT OPINION ON DRUG METABOLISM & TOXICOLOGY》》, vol. 10, no. 8, XP055878200, DOI: 10.1517/17425255.2014.925878 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090834A (zh) * 2021-11-09 2022-02-25 支付宝(杭州)信息技术有限公司 一种图搜索方法、装置及设备

Also Published As

Publication number Publication date
EP3794597A1 (en) 2021-03-24
WO2019241178A1 (en) 2019-12-19
CA3103229A1 (en) 2019-12-19
US20210257046A1 (en) 2021-08-19
EP3794599A4 (en) 2022-02-23
JP7349454B2 (ja) 2023-09-22
WO2019241191A1 (en) 2019-12-19
CN112534508A (zh) 2021-03-19
CN112567465B (zh) 2024-02-20
CA3103253A1 (en) 2019-12-19
CN112534508B (zh) 2024-03-01
JP7349455B2 (ja) 2023-09-22
US11854664B2 (en) 2023-12-26
JP2021527255A (ja) 2021-10-11
EP3794597A4 (en) 2022-02-23
JP2021527254A (ja) 2021-10-11
EP3794599A1 (en) 2021-03-24
US20210265024A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
Deng et al. Protein structure prediction
US20030187587A1 (en) Database
Dou et al. A comprehensive review of the imbalance classification of protein post-translational modifications
Esquivel-Rodriguez et al. Pairwise and multimeric protein–protein docking using the LZerD program suite
US7991730B2 (en) Methods for similarity searching of chemical reactions
Shekhar et al. CryoFold: Determining protein structures and data-guided ensembles from cryo-EM density maps
CN112567465B (zh) 复杂分子子结构的识别系统、装置和方法
CA2942106A1 (en) Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
Liu et al. PSP: million-level protein sequence dataset for protein structure prediction
Olson et al. Enhancing sampling of the conformational space near the protein native state
Choi et al. Browsing large scale cheminformatics data with dimension reduction
US8504302B2 (en) Template constrained fragment alignment used to identify fragments of similar shape and activity in drug development
Hutter Graph-based similarity concepts in virtual screening
Ibtehaz et al. Align-gram: rethinking the skip-gram model for protein sequence analysis
Cho COMBINE: a novel drug discovery platform designed to capture insight and experience of users
Ellingson et al. Accelerating virtual high-throughput ligand docking: screening one million compounds using a petascale supercomputer
Yu et al. Prediction of drug-target binding affinity based on multi-scale feature fusion
Pal et al. Visualizing and Annotating Hi-C Data
Wei et al. invMap: a sensitive mapping tool for long noisy reads with inversion structural variants
Li Computational protein structure prediction using deep learning
WO2022164897A9 (en) Systems and methods for targeted molecular design
Beynon Enabling proteomics: the need for an extendable ‘workbench’for user‐configurable solutions
Smietana et al. Current Requirements for Informatics Data Systems for Drug Discovery and Development.
Pang Efficient search and comparison algorithms for 3D protein binding site retrieval and structure alignment from large-scale databases
Bhattacharya Probabilistic graphical models for protein structure prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220909

Address after: new jersey

Applicant after: MERCK SHARP & DOHME B.V.

Address before: new jersey

Applicant before: MERCK SHARP & DOHME LTD.

GR01 Patent grant
GR01 Patent grant