CN115050421A - 一种肿瘤新生抗原及靶向药信息的存储方法 - Google Patents
一种肿瘤新生抗原及靶向药信息的存储方法 Download PDFInfo
- Publication number
- CN115050421A CN115050421A CN202210592774.2A CN202210592774A CN115050421A CN 115050421 A CN115050421 A CN 115050421A CN 202210592774 A CN202210592774 A CN 202210592774A CN 115050421 A CN115050421 A CN 115050421A
- Authority
- CN
- China
- Prior art keywords
- information
- relationship
- representing
- epitope
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种肿瘤新生抗原及靶向药信息的存储方法,包括如下步骤:整理肿瘤新生抗原及靶向药信息的分析过程,理清分析流程中每个步骤产生的关键信息对象,以及它们之间的关联关系,并依据形成的关系网络进行建模;基于建模结果设立节点,并在相互关联的节点间建立代表关系的边,以便后续进行实际数据存储;从待提取信息的数据库,电子表格文件、原始数据文件或数据接口信息来源中抽提出待存储于节点和边上的数据,并它们分别存储于图数据库对应的节点或边中。本发明能够显著缩小记录信息所需的存储空间,减少信息查询时间,使得回溯信息更为方便,与传统信息存储方法相比,该方法使得数据构架的调整更改更为灵活便捷,能够节省人力物力。
Description
技术领域
本发明涉及生物信息技术领域,特别是一种基于图数据库的肿瘤新生抗原及靶向药信息的存储方法。
背景技术
随着科技的发展,我们已逐步进入针对个人的精准诊疗、个体化诊疗的时代。目前,精准医疗与个体化诊疗开展的基础是个体基因组的测序及分析,而这一过程将产生数量级远超传统诊疗手段的信息及数据。这些互相关联的海量数据不仅带来了信息存储和管理的困难,而且使查询和使用这些数据的难度增加。例如在设计新生抗原疫苗时,需要首先对患者进行测序,然后对测序数据进行分析,检测患者的突变。突变会涉及基因、转录本等信息,不同的突变又会产生不同的抗原表位和新生抗原,不同的抗原表位和人类白细胞抗原(human leukocyte antigen,缩写HLA)分子的亲和力又不同。而不同的患者又具有不同的HLA分型。对于靶向药来说,因不同的靶向药针对的靶点不同,其与患者的基因和突变也存在复杂的多对多的关系。以上数据在使用时均需要进行快速的关联查询。因此在设计数据库架构时就必须充分考虑数据间的关联性、潜在的查询需求及查询海量数据对数据库性能要求等问题。图数据库是基于图论为数据基础的数据管理系统。它的组成包含代表对象的节点,以及代表关系的边。图的存储方式可以整合多源异构数据。图数据库在处理关联性强的数据以及天然的图问题场景时具有强大的关联查询性能优势。因为传统关系型数据库在进行关联查询时需要进行连接操作,涉及到大量的IO操作及内存消耗。而图数据库对关联查询有针对性的优化,能防止局部数据的查询引发全部数据的读取,可以高效查询关联数据。常用的图数据库包括FlockDB、Galaxybase、Neo4j、AllegroGrap、GraphDB、InfiniteGraph、HugeGraph、StellarDB,这些数据库将结构化数据存储在网络(从数学角度叫做图)上而不是表中。如将图数据库应用到个体化诊疗数据中,将有利于数据的存储、查询和使用,本发明解决这样的技术难题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于图数据库的肿瘤新生抗原及肿瘤靶向药信息的存储方法。采用该方法能够显著减少记录信息所需的存储空间,缩短信息查询所需时间,使得回溯信息更为方便。与传统信息存储方法相比,该方法使得数据库构架的调整更改更为灵活便捷,能够节省人力物力。
为了实现上述目标,本发明采用如下的技术方案:
一种肿瘤新生抗原及靶向药信息的存储方法,包括如下步骤:
步骤一,整理肿瘤新生抗原及靶向药信息的分析过程,理清分析流程中每个步骤产生的关键信息对象,以及它们之间的关联关系,并依据形成的关系网络进行建模;
步骤二,基于建模结果设立节点,并在相互关联的节点间建立代表关系的边,以便后续进行实际数据存储;
步骤三,从待提取信息的数据库,电子表格文件、原始数据文件或数据接口信息来源中抽提出待存储于节点和边上的数据,并将这些数据存储于图数据库的节点或边中。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,所述的图数据包含FlockDB、Galaxybase、Neo4j、AllegroGrap、GraphDB、InfiniteGraph、HugeGraph、StellarDB中的一种。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,
步骤二中所述设立的节点包括:分析、突变、基因、转录本、氨基酸改变、野生型长肽、突变型长肽、HLA基因型、野生型表位、突变型表位、新生抗原长肽。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,
步骤二中所述节点间建立代表关系的边包括:在“分析信息”及“突变”之间设立代表“胚系检出”及“体细胞检出”关系的边;在“突变”与“基因”之间建立代表“属于”关系的边;在“分析信息”和“基因”之间建立代表“包含”关系的边;在“分析信息”和“转录本”之间建立代表“包含”关系的边;在“基因”和“转录本”之间建立代表“包含”关系的边;在“转录本”和“氨基酸改变”之间建立代表“包含”关系的边;在“突变”和“氨基酸改变”之间建立代表“注释”关系的边;在“氨基酸改变”和“野生型长肽”之间建立代表“解析”关系的边;在“氨基酸改变”和“突变型长肽”之间建立代表“解析”关系的边;在“突变型长肽”和“野生型长肽”之间建立代表“配对”关系的边;在“突变型长肽”和“突变型表位”之间建立代表“生成”关系的边;在“野生型长肽”和“野生型表位”之间建立代表“生成”关系的边;在“突变型表位”和“野生型表位”之间建立代表“配对”关系的边;在“分析信息”和“HLA基因型”之间建立代表“基因型鉴定”关系的边;在“HLA基因型”和“突变型表位”之间建立代表“亲和力”关系的边;在“HLA基因型”和“野生型表位”之间建立代表“亲和力”关系的边;在“突变型表位”和“新生抗原长肽”之间建立代表“构成”关系的边。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,存储于图数据库的节点或边中的数据包括:
各个节点储存的信息如下:
分析信息节点中存储:能特征性地代表一次分析过程的信息;
突变节点中存储:能代表突变特征的信息;
基因节点中存储:能特征性地表示该基因及说明该基因功能的信息;
转录本节点中存储:能代表转录本特征的信息;
氨基酸改变节点中存储:能够准确解释突变造成的实际影响的信息;
突变型长肽节点中存储:包含突变引起的氨基酸改变的长肽氨基酸序列,以及该序列的固有性质信息;
野生型长肽节点中存储:与突变型长肽配对的,未经突变引起氨基酸改变的长肽氨基酸序列,以及代表该序列的固有性质信息;
HLA基因型节点中存储:通过各种实验手段鉴定得到的HLA基因型;
突变型表位节点中存储:包含突变引起的氨基酸改变的表位氨基酸序列,以及该序列的固有性质信息;
野生型表位节点中存储:与突变型表位配对的,未经突变引起氨基酸改变的表位氨基酸序列,以及代表该序列的固有性质信息;
新生抗原长肽节点中存储:新生抗原肽的氨基酸序列,以及该序列的固有性质信息。
各个代表关系的边中存储的信息见下:
在“分析信息”及“突变”之间的代表“胚系检出”及“体细胞检出”关系的边中存储:代表突变在分析中的检出情况信息;
在“分析信息”和“基因”之间的代表“包含”关系的边中存储:在代表基因表达量计算情况的信息;
在“分析信息”和“转录本”之间的代表“包含”关系的边:代表转录本表达量计算情况的信息;
在“突变型长肽”和“突变型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“野生型长肽”和“野生型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“分析信息”和“HLA基因型”之间代表“基因型鉴定”关系的边中存储:代表分析中HLA基因型鉴定情况的信息;
在“HLA基因型”和“突变型表位”之间代表“亲和力”关系的边中存储:能描述特定基因型的HLA分析与表位之间亲和力情况的信息;
在“HLA基因型”和“野生型表位”之间代表“亲和力”关系的边中存储:能描述特定基因型的HLA分析与表位之间亲和力情况的信息。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,存储于图数据库的节点或边中的数据包括:
各个节点储存的信息如下:
分析信息节点中存储:分析时间、数据来源、分析编号、使用参考基因组的信息;
突变节点中存储:突变类型、突变位置、突变碱基、参考碱基、突变编号的信息;
基因节点中存储:基因编号、基因名称、基因功能、基因所在通路的信息;
转录本节点中存储:转录本编号、转录本特异性的信息;
氨基酸改变节点中存储:转录本改变、氨基酸改变、阅读框改变情况的信息;
突变型长肽节点中存储:包含突变引起的氨基酸改变的长肽氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量;
野生型长肽节点中存储:与突变型长肽配对的,未经突变引起氨基酸改变的长肽氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
HLA基因型节点中存储:通过血清学分型法、序列特异性寡核苷酸杂交法、毛细管测序或高通量测序法鉴定得到的HLA基因型;
突变型表位节点中存储:包含突变引起的氨基酸改变的表位氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
野生型表位节点中存储:与突变型表位配对的,未经突变引起氨基酸改变的表位氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
新生抗原长肽节点中存储:新生抗原肽的氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息。
各个代表关系的边中存储的信息见下:
在“分析信息”及“突变”之间的代表“胚系检出”及“体细胞检出”关系的边中存储:在分析中检出的突变频率、覆盖深度、使用软件的信息;
在“分析信息”和“基因”之间的代表“包含”关系的边中存储:在分析中检出的表达量数值、使用软件的信息;
在“分析信息”和“转录本”之间的代表“包含”关系的边:在分析中检出的表达量数值信息、使用软件的信息;
在“突变型长肽”和“突变型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“野生型长肽”和“野生型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“分析信息”和“HLA基因型”之间代表“基因型鉴定”关系的边中存储:在分析中检出的等位基因表达量、杂合性缺失、适用软件的信息;
在“HLA基因型”和“突变型表位”之间代表“亲和力”关系的边中存储:亲和力数值、测算亲和力的方法包括软件、实验或信息来源的信息;
在“HLA基因型”和“野生型表位”之间代表“亲和力”关系的边中存储:亲和力数值、测算亲和力的方法包括软件、实验或信息来源的信息。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,步骤二中所述设立的节点还包括靶向药物。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,步骤二中所述节点间建立代表关系的边还包括:在“突变”和“靶向药物”之间建立代表“作用”关系的边;在“基因”和“靶向药物”之间建立代表“作用”关系的边。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,存储于图数据库的节点或边中的数据还包括:
各个节点储存的信息如下:
靶向药物节点中储存:与肿瘤靶向药相关的信息;
各个代表关系的边中存储的信息见下:
在“突变”和“靶向药物”之间代表“作用”关系的边上存储:能够代表突变与药物间作用关系的信息;
在“基因”和“靶向药物”之间代表“作用”关系的边上存储:能够代表基因与药物间作用关系的信息。
前述的一种肿瘤新生抗原及靶向药信息的存储方法,存储于图数据库的节点或边中的数据还包括:
各个节点储存的信息如下:
靶向药物节点中储存:药物名称,药物介绍,药物类型,审批信息,药物靶点,药物生产厂商;
各个代表关系的边中存储的信息见下:
在“突变”和“靶向药物”之间代表“作用”关系的边上存储:突变与药物的作用关系包括适用、抑制信息,相互作用关系的来源包括生物信息数据库、文献、药物批文信息;
在“基因”和“靶向药物”之间代表“作用”关系的边上存储:基因与药物的作用关系包括促进、抑制信息、作用关系的来源包括生物信息数据库、文献、药物批文信息。
本发明的有益之处在于:
本发明通过使用图数据库保存数据,减小了占据的存储空间;
本发明通过对个体肿瘤新生抗原的分析的流程中各个环节的信息进行梳理,以及与靶向药之间的关联,再对梳理出来的数据网络进行建模,使得能够实时回溯新生抗原以及靶向药的相关信息,缩短信息查询所需时间,提高分析流程各环节数据的查询效率;同时也能方便的更新关系模型与数据,更为便捷,节省人力物力。
附图说明
图1是本发明的发明内容步骤一对分析流程中的数据网络进行建模的示意图;
图2是本发明实施例1步骤二在Neo4j图数据库设立节点以及边之间的关系结构示意图;
图3是本发明将信息保存到Neo4j图数据之后的存储形式示意图;
图4是本发明将所有数据存储到Neo4j图数据库后,在Neo4j提供的Web操作界面上看到的存储结果示意图;
图5是本发明以Gene为例的原始存储形式示意图;
图6是本发明图2为基础增加建立文献节点的关系结构图;
图7是本发明实施例4通过基因突变寻找候选靶向药的展示图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
以下实施例图数据库选自:Neo4j图数据库。
实施例1
本发明的基于Neo4j图数据库的数据存储方法,包括如下步骤:
步骤一,通过对个体的基因组测序数据及新生抗原、靶向药分析流程中各个环节产生的信息进行梳理,对梳理出来的数据网络进行建模,如图1所示。
步骤二,基于建模结果在Neo4j图数据库设立节点,并在相互关联的节点间建立代表关系的边,以便后续进行实际数据存储。
如图2所示,为了保存患者的分析过程信息,设立Analysis(分析信息)节点,为了保存患者的检测结果,设立Variant(突变)、Gene(基因)、Transcript(转录本)、HGVS(氨基酸改变)、HLA(HLA基因型)节点,为了保存患者分析的表位信息,设立WildFlankingAA(野生型长肽)、MutFlankingAA(突变型长肽)、WildEpitope(野生型表位)、MutEpitope(突变型表位)、Neoantigen(新生抗原长肽)节点,为了保存药物信息,设立Drug(靶向药物)节点。
节点间设立的关系边包括:为了保存突变在分析中的检出情况,在“Analysis”及“Variant”之间设立代表“hasGerm(胚系检出)”及“hasSomatic(体细胞检出)”关系的边;为了保存突变与基因之间的关联关系,在“Variant”与“Gene”之间建立代表“in(属于)”关系的边;为了保存分析中检出基因的表达量等信息在“Analysis”和“Gene”之间建立代表“has(包含)”关系的边;为了保存分析中检出转录本的表达量等信息在“Analysis”和“Transcript”之间建立代表“hasTrans(包含)”关系的边;为了保存基因和转录本之间的关联关系,在“Gene”和“Transcript”之间建立代表“contain(包含)”关系的边;为了保存转录本的突变之间的关联关系,在“Transcript”和“HGVS”之间建立代表“own(包含)”关系的边;为了保存突变在基因组的位置和标准命名之间的关联关系,在“Variant”和“HGVS”之间建立代表“format(注释)”关系的边;为了保存突变和长肽以及不同类型长肽之间的关联关系,在“HGVS”和“WildFlankingAA”之间建立代表“generate_wild(解析)”关系的边;在“HGVS”和“MutFlankingAA”之间建立代表“generate_mut(解析)”关系的边;在“WildFlankingAA”和“MutFlankingAA”之间建立代表“flankPair(配对)”关系的边;为了保存长肽和表位以及不同表位之间的关联关系,在“MutFlankingAA”和“MutEpitope”之间建立代表“separate(生成)”关系的边;在“WildFlankingAA”和“WildEpitope”之间建立代表“separate(生成)”关系的边;在“MutEpitope”和“WildEpitope”之间建立代表“epiPair(配对)”关系的边;为了保存患者的HLA基因型鉴定情况,在“Analysis”和“HLA”之间建立代表“typing”关系的边;为了保存表位和HLA基因型的亲和力情况,在“HLA”和“MutEpitope”之间建立代表“affinity(亲和力)”关系的边;在“HLA”和“WildEpitope”之间建立代表“affinity(亲和力)”关系的边;为了保存新生抗原肽和表位之间的关联关系,在“MutEpitope”和“Neoantigen”之间建立代表“generate(构成)”关系的边;为了保存药物和作用靶点之间的关联关系,在“Variant”和“Drug”之间建立代表“target(作用)”关系的边;在“Gene”和“靶向Drug”之间建立代表“target(作用)”关系的边。
步骤三,从待提取信息的数据库,电子表格文件、原始数据文件或数据接口等信息来源中抽提出待存储于节点和边上的数据,并它们分别存储于准备好的节点或边中:
1.将分析时间、数据来源、分析编号、使用参考基因组等能特征性地代表一次分析过程的信息存储到Analysis节点中;
2.将突变类型、突变位置、突变碱基、参考碱基、突变编号等能代表突变特征的信息存储到Variant节点中;
3.将基因编号、基因名称、基因功能、基因所在通路等能特征性地表示该基因及说明该基因功能的信息存储到Gene节点中;
4.将转录本编号、转录本特异性等能代表转录本特征的信息存储到Transcript节点中;
5.将转录本改变、氨基酸改变、阅读框改变情况等能够准确解释突变造成的实际影响的信息存储到HGVS节点中;
6.将包含突变引起的氨基酸改变的长肽氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息存储到MutFlankingAA节点中;
7.将与突变型长肽配对的,未经突变引起氨基酸改变的长肽氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息存储到WildFlankingAA节点中;
8.将通过各种鉴定HLA基因型的技术手段包括血清学分型法、序列特异性寡核苷酸杂交法、毛细管测序或高通量测序法鉴定得到的HLA基因型存储到HLA节点中;
9.将包含突变引起的氨基酸改变的表位氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息存储到MutEpitope节点中;
10.将与突变型表位配对的,未经突变引起氨基酸改变的表位氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息存储到WildEpitope节点中;
11.将新生抗原肽的氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息存储到Neoantigen节点中;
12.将药物名称,药物介绍,药物类型,审批信息,药物靶点,药物生产厂商等药物信息存储到Drug节点中;
13.将分析中检出的突变频率、覆盖深度、使用软件等代表突变在分析中的检出情况信息存储到hasSomatic或hasGerm关系中;
14.将分析中检出的表达量数值、使用软件等代表基因表达量计算情况的信息存储到has关系中;
15.将分析中检出的表达量数值信息、使用软件等代表转录本表达量计算情况的信息存储到hasTrans关系中;
16.将表示表位在长肽上位置的信息存储到separate关系中;
17.将本次分析中检出的等位基因表达量、杂合性缺失、适用软件等代表分析中HLA基因型鉴定情况的信息存储到typing关系中;
18.将亲和力数值、测算亲和力的方法(软件、实验或信息来源)等能描述特定基因型的HLA分析与表位之间亲和力情况的信息存储到affinity关系中;
19.将突变与药物的相互作用关系(适用/抑制)、相互作用关系的来源(生物信息数据库/文献/药物批文)等能够代表突变与药物间相互作用关系的信息存储到target关系中;
20.将基因与药物的相互作用关系(促进/抑制)、相互作用关系的来源(生物信息数据库/文献/药物批文)等能够代表基因与药物间相互作用关系的信息存储到target关系中。最终形成的数据情况见图3与图4。
当需要对患者进行疫苗肽药物设计时,通过上述保存的数据,可快速检索到其检测到的新生抗原肽以及新生抗原肽关联的表位、突变等综合信息。
要对患者进行靶向药物选择时,通过对基因与药物的关系数据以及突变与药物的关系数据进行检索,可快速查询到合适的靶向药物。
实施例2
将一个样本的数据存储到Neo4j图数据中,该样本共检出1,698个突变,鉴定得到新生抗原表位14,505条,这些数据的原始条目总数达279,971条。若将这些数据存储为目前常见的文本文件,如图5所示,其占用的存储空间大小为130MB;若存储到目前最流行的关系型数据库——SQL数据库中(以SQLite为例),则需要87MB;而同样的数据若存储到Neo4j数据库中,仅需要占用55MB的存储空间,为文本文件存储方式所需存储空间的42.3%,SQL数据库SQLite所需存储空间的63.2%。可见使用Neo4j可以有效地节约存储空间。当需要存储的样本数量巨大时,使用Neo4j这类图数据库进行相关信息存储能够节约下非常可观的存储空间。
图数据库与SQL数据库相比,不会因为数据量的增长而降低查询速度。根据DB-engines的排名,Mysql是目前使用最广泛的数据库之一,因此使用该数据库作为对比,通过在Neo4j图数据库和MySQL数据库中存储同样的30例分析信息进行数据库信息查询速度的比较。MySQL数据库中的信息存储表包括突变信息表和抗原表位信息表。在突变信息表中存储突变唯一标识、染色体、位置、参考碱基、突变碱基等信息,在抗原表位信息表中存储野生型长肽序列、突变型长肽序列、野生型表位、突变型表位、HLA、突变唯一标识等信息。当需要查询突变型表位所对应的突变信息,如突变所在的染色体、位置、参考碱基、突变碱基时,在两种数据库都没有建立索引的情况下,同一硬件下操作使用Neo4j的对应信息查询时间为193毫秒,而使用MySQL的对应查询时间为657秒,约为Neo4j所需查询时间的3400倍以上。可见当存储的样本量大时,使用Neo4j这类图数据库能够大大地减少查询所需信息花费的时间。
实施例3
考察当需要向数据库增加新关联数据时,使用图数据库Neo4j和目前最流行的关系型数据库MySQL的差别。
假设现因为信息溯源的应用需求,需要在数据库中额外记录突变、靶向药和突变型表位在文献中报道的情况。以该需求为例分别演示两种数据库需要进行的操作。
若在实施例1中构建的数据结构基础上实现上述目标,需设立文献节点存储文献的固有信息如文献的doi编号、题录、摘要及关键词等,同时可将文献中与突变、靶向药和突变型表位有关的文段记录在文献节点与相应节点之间的边上。因此,具体需要执行的操作是,建立文献节点Doc,并在文献节点与突变、靶向药和突变型表位间建立代表“记录”关系的Rec,之后分别将需要存储的信息置于节点或关系中即可(如图6所示)。可见使用Neo4j达到目的较为简便,且只需处理和操作新增的信息,不需要对原来的数据结构进行大范围的修改,没有引入其它冗余信息。
对于MySQL,若在实施例2中描述的MySQL数据结构基础上实现目标,首先需进行数据结构的重新设计。
第一步是评价现有表格是否适合存储新增加的数据:数据库中已存在3张表格,分别存储了突变信息、抗原表位信息以及靶向药信息。现待添加的文献信息可能与突变、抗原表位以及靶向药都相关,如果直接在各表内增加新的列进行信息存储,则3张表中可能存在大量重复冗余的文献固有信息。因此宜单独设表存储文献固有信息,并将文献与突变、抗原表位以及靶向药相关的文段分别存储于对应的数据表中。
之后,对于新设立的文献固有信息表,还须进一步根据可能的查询需求设计表的格式:
1.若只有根据文献查询对应的突变、抗原表位以及靶向药的需求,则文献信息表需设立doi编号、题录、摘要、关键词、突变编号、抗原表位编号、靶向药编号7列,前4列均为文献需要揭露的固有信息,后3列则是与该文献有关的突变、抗原表位及靶向药的对应数据编号,用于基于编号查找相应数据条目。原有的突变、抗原表位以及靶向药表中则全部增加文献信息列,用于存储文献中与该条目相关的文段。
2.若既需要通过文献查突变、抗原表位及靶向药信息,也需要通过具体的突变、抗原表位及靶向药信息回溯与之相关的文献信息,除了设立文献信息表并在突变、抗原表位及靶向药信息存储表中增加文献信息列外,还需要增加文献编号列,以通过记录的编号查询相关的文献信息。
最后,在完成了前述设计后,还需对现有方案进行信息冗余程度的评估。若认为当前方案可能引入较多的冗余信息,造成较大的存储浪费,则还需要进一步将已设计好表格中的部分内容拆分出来单独设立表,并再次依据潜在的查询需要设立他们之间的关系信息。
在完成最终的方案设计后,则可使用SQL语句根据新设计的结构进行表的设立和信息的存储。若新设计的数据结构中包含对旧数据结构的拆分和重设,则还需要进行相应的数据结构调整。
由此可见,在使用图数据库Neo4j处理和存储关系较为复杂的数据时,只要理清数据间的基本逻辑关系,即可按照该逻辑关系对数据进行整理和存储。而使用流行的关系型数据库MySQL进行相应复杂数据的处理时,则需在理清基本逻辑关系后,进一步进行数据结构设计,设计的过程中不仅要考虑基本的逻辑关系,还需要考虑后续的查询需求、查询效率、以及数据冗余程度,操作难度上更大;一旦发生新增关联数据这类需求,还要再次进行数据结构设计,操作繁复,浪费人力物力。因此,使用图数据库来处理和存储关系较为复杂的数据更为便捷、可以节省人力物力。
可见使用Neo4j这类图数据库进行大量复杂的生物信息例如肿瘤新生抗原及靶向药信息的存储能够大大提升数据存储效率,减小所需存储空间,缩短数据管理及信息查询的时间,更为便捷,可以节省人力物力。
实施例4
将该数据库应用于实际的临床治疗,当需要对患者进行候选靶向药物选择时,通过对基因与药物的关系数据进行检索,可快速查询到合适的靶向药物。例如患者检出了EGFR基因上的突变,通过在该数据库中查询EGFR的关联药物,可找到20种相应的候选靶向药。如图7所示。
Claims (10)
1.一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,包括如下步骤:
步骤一,整理肿瘤新生抗原及靶向药信息的分析过程,理清分析流程中每个步骤产生的关键信息对象,以及它们之间的关联关系,并依据形成的关系网络进行建模;
步骤二,基于建模结果设立节点,并在相互关联的节点间建立代表关系的边,以便后续进行实际数据存储;
步骤三,从待提取信息的数据库,电子表格文件、原始数据文件或数据接口信息来源中抽提出待存储于节点和边上的数据,并将这些数据存储于图数据库的节点或边中。
2.根据权利要求1所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,所述的图数据包含FlockDB、Galaxybase、Neo4j、AllegroGrap、GraphDB、InfiniteGraph、HugeGraph、StellarDB中的一种。
3.根据权利要求1所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,步骤二中所述设立的节点包括:分析、突变、基因、转录本、氨基酸改变、野生型长肽、突变型长肽、HLA基因型、野生型表位、突变型表位、新生抗原长肽。
4.根据权利要求3所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,步骤二中所述节点间建立代表关系的边包括:在“分析信息”及“突变”之间设立代表“胚系检出”及“体细胞检出”关系的边;在“突变”与“基因”之间建立代表“属于”关系的边;在“分析信息”和“基因”之间建立代表“包含”关系的边;在“分析信息”和“转录本”之间建立代表“包含”关系的边;在“基因”和“转录本”之间建立代表“包含”关系的边;在“转录本”和“氨基酸改变”之间建立代表“包含”关系的边;在“突变”和“氨基酸改变”之间建立代表“注释”关系的边;在“氨基酸改变”和“野生型长肽”之间建立代表“解析”关系的边;在“氨基酸改变”和“突变型长肽”之间建立代表“解析”关系的边;在“突变型长肽”和“野生型长肽”之间建立代表“配对”关系的边;在“突变型长肽”和“突变型表位”之间建立代表“生成”关系的边;在“野生型长肽”和“野生型表位”之间建立代表“生成”关系的边;在“突变型表位”和“野生型表位”之间建立代表“配对”关系的边;在“分析信息”和“HLA基因型”之间建立代表“基因型鉴定”关系的边;在“HLA基因型”和“突变型表位”之间建立代表“亲和力”关系的边;在“HLA基因型”和“野生型表位”之间建立代表“亲和力”关系的边;在“突变型表位”和“新生抗原长肽”之间建立代表“构成”关系的边。
5.根据权利要求4所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,存储于图数据库的节点或边中的数据包括:
各个节点储存的信息如下:
分析信息节点中存储:能特征性地代表一次分析过程的信息;
突变节点中存储:能代表突变特征的信息;
基因节点中存储:能特征性地表示该基因及说明该基因功能的信息;
转录本节点中存储:能代表转录本特征的信息;
氨基酸改变节点中存储:能够准确解释突变造成的实际影响的信息;
突变型长肽节点中存储:包含突变引起的氨基酸改变的长肽氨基酸序列,以及该序列的固有性质信息;
野生型长肽节点中存储:与突变型长肽配对的,未经突变引起氨基酸改变的长肽氨基酸序列,以及代表该序列的固有性质信息;
HLA基因型节点中存储:通过各种实验手段鉴定得到的HLA基因型;
突变型表位节点中存储:包含突变引起的氨基酸改变的表位氨基酸序列,以及该序列的固有性质信息;
野生型表位节点中存储:与突变型表位配对的,未经突变引起氨基酸改变的表位氨基酸序列,以及代表该序列的固有性质信息;
新生抗原长肽节点中存储:新生抗原肽的氨基酸序列,以及该序列的固有性质信息。
各个代表关系的边中存储的信息见下:
在“分析信息”及“突变”之间的代表“胚系检出”及“体细胞检出”关系的边中存储:代表突变在分析中的检出情况信息;
在“分析信息”和“基因”之间的代表“包含”关系的边中存储:在代表基因表达量计算情况的信息;
在“分析信息”和“转录本”之间的代表“包含”关系的边:代表转录本表达量计算情况的信息;
在“突变型长肽”和“突变型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“野生型长肽”和“野生型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“分析信息”和“HLA基因型”之间代表“基因型鉴定”关系的边中存储:代表分析中HLA基因型鉴定情况的信息;
在“HLA基因型”和“突变型表位”之间代表“亲和力”关系的边中存储:能描述特定基因型的HLA分析与表位之间亲和力情况的信息;
在“HLA基因型”和“野生型表位”之间代表“亲和力”关系的边中存储:能描述特定基因型的HLA分析与表位之间亲和力情况的信息。
6.根据权利要求5所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,存储于图数据库的节点或边中的数据包括:
各个节点储存的信息如下:
分析信息节点中存储:分析时间、数据来源、分析编号、使用参考基因组的信息;
突变节点中存储:突变类型、突变位置、突变碱基、参考碱基、突变编号的信息;
基因节点中存储:基因编号、基因名称、基因功能、基因所在通路的信息;
转录本节点中存储:转录本编号、转录本特异性的信息;
氨基酸改变节点中存储:转录本改变、氨基酸改变、阅读框改变情况的信息;
突变型长肽节点中存储:包含突变引起的氨基酸改变的长肽氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量;
野生型长肽节点中存储:与突变型长肽配对的,未经突变引起氨基酸改变的长肽氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
HLA基因型节点中存储:通过血清学分型法、序列特异性寡核苷酸杂交法、毛细管测序或高通量测序法鉴定得到的HLA基因型;
突变型表位节点中存储:包含突变引起的氨基酸改变的表位氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
野生型表位节点中存储:与突变型表位配对的,未经突变引起氨基酸改变的表位氨基酸序列,以及代表该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息;
新生抗原长肽节点中存储:新生抗原肽的氨基酸序列,以及该序列的pH值、等电点、亲疏水性、酸碱性、不同溶剂中带电情况、分子量信息。
各个代表关系的边中存储的信息见下:
在“分析信息”及“突变”之间的代表“胚系检出”及“体细胞检出”关系的边中存储:在分析中检出的突变频率、覆盖深度、使用软件的信息;
在“分析信息”和“基因”之间的代表“包含”关系的边中存储:在分析中检出的表达量数值、使用软件的信息;
在“分析信息”和“转录本”之间的代表“包含”关系的边:在分析中检出的表达量数值信息、使用软件的信息;
在“突变型长肽”和“突变型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“野生型长肽”和“野生型表位”之间代表“生成”关系的边中存储:表示表位在长肽氨基酸序列上位置的信息;
在“分析信息”和“HLA基因型”之间代表“基因型鉴定”关系的边中存储:在分析中检出的等位基因表达量、杂合性缺失、适用软件的信息;
在“HLA基因型”和“突变型表位”之间代表“亲和力”关系的边中存储:亲和力数值、测算亲和力的方法包括软件、实验或信息来源的信息;
在“HLA基因型”和“野生型表位”之间代表“亲和力”关系的边中存储:亲和力数值、测算亲和力的方法包括软件、实验或信息来源的信息。
7.根据权利要求5所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,步骤二中所述设立的节点还包括靶向药物。
8.根据权利要求7所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,步骤二中所述节点间建立代表关系的边还包括:在“突变”和“靶向药物”之间建立代表“作用”关系的边;在“基因”和“靶向药物”之间建立代表“作用”关系的边。
9.根据权利要求8所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,存储于图数据库的节点或边中的数据还包括:
各个节点储存的信息如下:
靶向药物节点中储存:与肿瘤靶向药相关的信息;
各个代表关系的边中存储的信息见下:
在“突变”和“靶向药物”之间代表“作用”关系的边上存储:能够代表突变与药物间作用关系的信息;
在“基因”和“靶向药物”之间代表“作用”关系的边上存储:能够代表基因与药物间作用关系的信息。
10.根据权利要求9所述的一种肿瘤新生抗原及靶向药信息的存储方法,其特征在于,存储于图数据库的节点或边中的数据还包括:
各个节点储存的信息如下:
靶向药物节点中储存:药物名称,药物介绍,药物类型,审批信息,药物靶点,药物生产厂商;
各个代表关系的边中存储的信息见下:
在“突变”和“靶向药物”之间代表“作用”关系的边上存储:突变与药物的作用关系包括适用、抑制信息,作用关系的来源包括生物信息数据库、文献、药物批文信息;
在“基因”和“靶向药物”之间代表“作用”关系的边上存储:基因与药物的作用关系包括促进、抑制信息,作用关系的来源包括数据库、文献、药物批文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592774.2A CN115050421A (zh) | 2022-05-27 | 2022-05-27 | 一种肿瘤新生抗原及靶向药信息的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592774.2A CN115050421A (zh) | 2022-05-27 | 2022-05-27 | 一种肿瘤新生抗原及靶向药信息的存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115050421A true CN115050421A (zh) | 2022-09-13 |
Family
ID=83159310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210592774.2A Pending CN115050421A (zh) | 2022-05-27 | 2022-05-27 | 一种肿瘤新生抗原及靶向药信息的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050421A (zh) |
-
2022
- 2022-05-27 CN CN202210592774.2A patent/CN115050421A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Enright et al. | Protein families and TRIBES in genome sequence space | |
US6553317B1 (en) | Relational database and system for storing information relating to biomolecular sequences and reagents | |
CN109686439B (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
CN107169310B (zh) | 一种基因检测知识库构建方法及系统 | |
KR101117603B1 (ko) | 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법 | |
US20030225773A1 (en) | System for analyzing occurrences of logical concepts in text documents | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
Cleal et al. | Dysgu: efficient structural variant calling using short or long reads | |
Yang et al. | Tcrklass: a new k-string–based algorithm for human and mouse tcr repertoire characterization | |
Pascual-García et al. | Cross-over between discrete and continuous protein structure space: insights into automatic classification and networks of protein structures | |
Steenwyk et al. | orthofisher: a broadly applicable tool for automated gene identification and retrieval | |
US20020132258A1 (en) | Knowledge database and method for constructing knowledge database | |
KR101839572B1 (ko) | 질병 관련 유전자 관계 분석 장치 및 방법 | |
Patil et al. | CellKb Immune: a manually curated database of hematopoietic marker gene sets from 7 species for rapid cell type identification | |
WO2007038414A2 (en) | Mining protein interaction networks | |
CN117174182A (zh) | 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法 | |
Garrels | Yeast genomic databases and the challenge of the post-genomic era | |
CN115050421A (zh) | 一种肿瘤新生抗原及靶向药信息的存储方法 | |
KR20190000341A (ko) | 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법 | |
CN116312764A (zh) | 变异危害性分级装置、方法及其应用 | |
Patil et al. | CellKb Immune: a manually curated database of mammalian immune marker gene sets optimized for rapid cell type identification | |
CN112687326A (zh) | 一种基因与表型关联知识库、构建方法及其应用 | |
Tayyebi et al. | Scalable sequence-informed embedding of single-cell ATAC-seq data with CellSpace | |
CN115410676A (zh) | 一种个体信息和诊疗信息的存储方法 | |
Krause | Large scale clustering of protein sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |