CN110008217B - 一种面向基因组突变数据的存储和索引处理方法 - Google Patents

一种面向基因组突变数据的存储和索引处理方法 Download PDF

Info

Publication number
CN110008217B
CN110008217B CN201910277498.9A CN201910277498A CN110008217B CN 110008217 B CN110008217 B CN 110008217B CN 201910277498 A CN201910277498 A CN 201910277498A CN 110008217 B CN110008217 B CN 110008217B
Authority
CN
China
Prior art keywords
mutation
genome
information
key
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910277498.9A
Other languages
English (en)
Other versions
CN110008217A (zh
Inventor
许雄
禹黎
张刘牛
徐根明
赵谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yearth Biotechnological Co ltd
Original Assignee
Hunan Yearth Biotechnological Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yearth Biotechnological Co ltd filed Critical Hunan Yearth Biotechnological Co ltd
Priority to CN201910277498.9A priority Critical patent/CN110008217B/zh
Publication of CN110008217A publication Critical patent/CN110008217A/zh
Application granted granted Critical
Publication of CN110008217B publication Critical patent/CN110008217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于基因数据分析技术领域,具体涉及一种面向基因组突变数据的存储和索引处理方法。本发明提供了按照突变位点信息检索某个突变、按照单个或多个基因名称检索其相关的突变列表、按照单个或多个基因组区域检索其相关的突变列表等多种快速检索方式,为遗传病辅助诊断领域快速找到致病性的位点,肿瘤靶向用药指导领域快速找到肿瘤突变相关的靶向药提供了极大便利,显著减小了基因组数据分析和解读的处理时间,极大降低了基因组突变数据的分析难度。

Description

一种面向基因组突变数据的存储和索引处理方法
技术领域
本发明属于基因数据分析技术领域,具体涉及一种面向基因组突变数据的存储和索引处理方法。
背景技术
现有技术中基因组突变数据一般以vcf/bcf文件格式存储于本地,vcf/bcf文件的索引是基于binning indexing算法和文件指针实现的对基因组突变数据按区域索引,且只支持vcf/bcf输出格式。
数据的存储索引技术有很多种,但目前基因组突变的存储没用用到主流的SQL或NoSQL数据库来存储。通常突变的筛选采用常用的vcftools、vcflib、bcftools或自研脚本来实现,功能比较单一,个性化筛选定制比较困难。
GA4GH虽然定义了突变数据通过RESTful API来获取突变数据,但并没有定义突变数据在后端的具体存储格式和索引方法。
现有技术存在以下问题:
1)vcf/bcf文件只能对少量样本以文件形式存储,且基于文件指针的索引的方式并不高效,除了按基因组区域索引外,很难做到按突变位点ID、基因名称等其他形式进行索引。
2)当样本量达到一定程度的时候,很难实时计算在大量样本中某个指定位点的突变频率,很难根据某一表型筛选出某种指定表型相关联的突变的集合,或者根据某一疾病名称查找曾经记录过的致病性位点。
3)当样本量增大的时候,需要用大量的vcf/bcf文件来存储,占用的存储资源也慢慢增多。想要挖掘更多数据,解析vcf文件也会变得相当复杂。
发明内容
针对现有技术的不足,本发明提出一种面向基因组突变数据的存储和索引的处理方法,目的是减少基因组数据分析和解读的处理时间,降低基因组突变数据的分析难度。
本发明的一种面向基因组突变数据的存储和索引的处理方法,按照以下步骤进行:
(1)将肿瘤基因检测、遗传病辅助诊断获得的全基因组、全外显子组或者靶向区域捕获测序的数据分析出的突变信息作为样本,将一到多个样本组成的单个或多个vcf文件存储于内存型数据库redis;所述的存储于redis中的数据类型为sortedsets或hash;
(2)通过多种方式在内存型数据库redis中进行检索,所述的多种方式包括对指定样本的突变位点进行检索、按照疾病名称对所有位点进行检索、按基因名称进行检索、按突变位点信息进行检索,通过内存型数据库redis统计出突变型或者致病性基因型的人群频率。
其中,所述的hash存储每个突变位点的具体信息,key为由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型所组成的中间用“-”拼接而成的字符串,field为突变位点注释的名称、value为突变位点注释的内容,有多个field及其对应的value。
所述的sortedsets存储多层级的索引信息。
所述的对指定样本的突变位点进行检索时,sortedsets的存储结构为:Sortedsets的key为样本名称,score为0,value为此样本中所有突变位点的ID的集合,此ID由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型四个字段中间用“-”拼接而成的字符串组成。
所述的按照疾病名称对所有位点进行检索时,sortedsets的存储结为:Sortedsets的key为疾病名称,score为0,value为此疾病中所有突变位点的ID的集合。
所述的按基因名称检索时,先用key-value检索的方式找到基因对应的区域,然后再按区域检索,此时基因信息的存储结构为hash,key为基因名称,三个field分别问chr、start、end,分别表示染色体标号、基因组起始坐标、基因组终止坐标,三个value分别为此基因组的具体位置。
所述的按突变位点信息检索的时候,直接用hash的key,即突变ID来检索,或者建立其他类型,如hash类型的ID的索引来查询某个指定的突变位点。
所述的样本的突变信息共用一套hash的key,当多个样品具有有相同的突变,共用一个key时,在field字段添加不相同的信息,相同的信息则覆盖。
所述的统计出突变型或者致病性基因型的人群频率是在通过用redis的hgetallkey这个命令取得这个位点的所有基因型实现的。
可选择性地对hash和sortedsets的key进行位编码,以节省内存型数据库redis的内存空间。
可选择性使用nodejs、python flask/dijango、go、c++类web server建立后端RESTful API,通过网页页面请求的方式检索数据库。
与现有技术相比,本发明的特点和有益效果是:
本发明通过多角度、多层级筛选,不仅仅可按基因组区域筛选,还能按突变位点坐标、突变ID、基因名称、染色体核型区间等方式筛选突变;
本发明可将诸如clinvar、HGMD for public等公共突变数据库存储在本系统并保持更新;
本发明涉及的测序类型不限于全外显子组测序、全基因组测序或靶向区域捕获测序,存储的基因组突变数据涉及点突变和插入缺失突变。
本发明存储的基因组突变可以是人的生殖细胞突变、肿瘤体细胞突变,也可以是其他物种包括有参考基因组信息的动物、植物、微生物的突变数据。
本发明可进行大量样本的数据挖掘;
(1)实时统计已有样品中任意位点的基因型人群频率
(2)统计某项疾病发病率
(3)疾病大队列数据分析,挖掘可能存在疾病相关的新致病位点或基因
(4)基因型-表型关联分析
(5)通过表型关键字直接检索出积累的阳性样本的致病性位点,辅助后续样本解读
(6)通过某个位点查询以前是否有报告过是否是阳性致病位点。
附图说明
图1是本发明的内存型数据库页面示意图。
具体实施方式
本发明解决了海量基因组突变数据的存储和检索问题。主要通过将基因组测序原始数据经bwa+samtools+picard+GATK等best practice分析后产生的vcf突变数据存储于内存型数据库中,通过将多个样本vcf文件逐一导入数据库,按我们需要的检索方式建立索引,从而实现基因组突变信息的检索和挖掘。
现结合具体实施例对本发明进行进一步说明。
实施例1
本实施例的处理步骤流程如下:
步骤1突变检测:
本实施例不需要特殊的突变检测方法,应用者可根据自有的基因突变检测流程得到突变信息,但突变信息存储格式要求为标准的vcf格式文件,示例中应用的是测序原始数据经bwa+samtools+picard+GATK等Best Practice分析得到的标准vcf文件。
步骤2导入突变信息:
将vcf文件导入redis数据库,需要以hash类型存储突变,key由染色体编号、向左补0的长度为9位的position、参考基因组的基因型、突变基因型四个字段中间用“-”拼接而成的字符串组成,field为突变位点注释的名称、value为突变位点注释的内容,可以有多个field及其对应的value。实际应用时可将标准vcf格式转换为tsv格式再通过程序进行存储。
步骤3导入需要的索引信息:
根据本发明说明书部分的发明内容介绍,将需要的索引信息以sortedsets类型存储。当按基因组区域对指定样本的突变位点进行检索的时候,Sortedsets的key为样本名称,score为0,value为此样本中所有突变位点的ID的集合,此ID与hash的key一样由染色体编号、向左补0的长度为9位的position、参考基因组的基因型、突变基因型四个字段中间用“-”拼接而成的字符串组成。
当按照疾病名称对所有位点进行检索的时候,sortedsets的存储结为:Sortedsets的key为疾病名称,score为0,value为此疾病中所有突变位点的ID的集合。
当按基因名称检索的时候我们需要先用key-value检索的方式找到基因对应的区域,然后再按区域检索。此时基因信息的存储结构为hash,key为基因名称,三个field分别问chr、start、end,分别表示染色体标号、基因组起始坐标、基因组终止坐标,三个value分别为此基因组的具体位置。
当按突变位点信息检索的时候,我们可直接用hash的key(突变ID)来检索,也可建立其他类型的ID的索引(hash类型)来查询某个指定的突变位点。
步骤4建立命令行工具或RESTful API
编写API连接数据库,对数据库中存储的信息进行查询。
步骤5建立前端检索查询页面,发送查询请求
编写前端检索查询页面,通过按钮发送查询请求,返回数据库突变信息进行展示。
步骤6标记致病性位点存储到阳性致病位点的索引
选定致病性位点后可为致病性位点建立索引,根据索引可以查找标记过的致病性位点。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种面向基因组突变数据的存储和索引的处理方法,其特征在于按照以下步骤进行:
(1)将肿瘤基因检测、遗传病辅助诊断获得的全基因组、全外显子组或者靶向区域捕获测序的数据分析出的突变信息作为样本,将一到多个样本组成的单个或多个vcf文件存储于内存型数据库redis;存储于redis中的数据类型为sortedsets或hash;所述的hash存储每个突变位点的具体信息,key为由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型所组成的中间用“-”拼接而成的字符串,field为突变位点注释的名称、value为突变位点注释的内容,有多个field及其对应的value;所述的sortedsets存储多层级的索引信息;
(2)通过多种方式在内存型数据库redis中进行检索,所述的多种方式包括对指定样本的突变位点进行检索、按照疾病名称对所有位点进行检索、按基因名称进行检索、按突变位点信息进行检索,通过内存型数据库redis统计出突变型或者致病性基因型的人群频率;所述的对指定样本的突变位点进行检索时,sortedsets的存储结构为:sortedsets的key为样本名称,score为0,value为此样本中所有突变位点的ID的集合,此ID由染色体编号、向左补0的长度为9位的position、参考基因组的基因型和突变基因型四个字段中间用“-”拼接而成的字符串组成;所述的按照疾病名称对所有位点进行检索时,sortedsets的存储结构为:sortedsets的key为疾病名称,score为0,value为此疾病中所有突变位点的ID的集合;按基因名称检索时,先用key-value检索的方式找到基因对应的区域,然后再按区域检索,此时基因信息的存储结构为hash,key为基因名称,三个field分别为chr、start、end,分别表示染色体标号、基因组起始坐标、基因组终止坐标,三个value分别为此基因组的具体位置;按突变位点信息检索的时候,直接用hash的key,即突变ID来检索,或者建立hash类型的ID的索引来查询某个指定的突变位点。
2.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法,其特征在于所述的样本的突变信息共用一套hash的key,当多个样品具有相同的突变,共用一个key时,在field字段添加不相同的信息,相同的信息则覆盖。
3.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法,其特征在于所述的统计出突变型或者致病性基因型的人群频率是在通过用redis的hgetall key这个命令取得这个位点的所有基因型实现的。
4.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法,其特征在于对hash和sortedsets的key进行位编码,以节省内存型数据库redis的内存空间。
5.根据权利要求1所述的一种面向基因组突变数据的存储和索引的处理方法,其特征在于使用nodejs、python flask/dijango、go、c++类web server建立后端RESTful API,通过网页页面请求的方式进行检索。
CN201910277498.9A 2019-04-08 2019-04-08 一种面向基因组突变数据的存储和索引处理方法 Active CN110008217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910277498.9A CN110008217B (zh) 2019-04-08 2019-04-08 一种面向基因组突变数据的存储和索引处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910277498.9A CN110008217B (zh) 2019-04-08 2019-04-08 一种面向基因组突变数据的存储和索引处理方法

Publications (2)

Publication Number Publication Date
CN110008217A CN110008217A (zh) 2019-07-12
CN110008217B true CN110008217B (zh) 2021-11-30

Family

ID=67170380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910277498.9A Active CN110008217B (zh) 2019-04-08 2019-04-08 一种面向基因组突变数据的存储和索引处理方法

Country Status (1)

Country Link
CN (1) CN110008217B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718277B (zh) * 2019-09-02 2022-06-14 浙江大学 一种基于双向快速索引的多级临床基因组变异数据存储方法
CN112489729A (zh) * 2020-12-04 2021-03-12 北京诺禾致源科技股份有限公司 基因数据查询方法及装置、非易失性存储介质
CN115662523B (zh) * 2022-10-21 2023-06-20 哈尔滨工业大学 面向群体基因组索引表示与构建的方法及设备
CN115391284B (zh) * 2022-10-31 2023-02-03 四川大学华西医院 基因数据文件快速识别方法、系统和计算机可读存储介质
CN116246715B (zh) * 2023-04-27 2024-04-16 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598775B (zh) * 2014-12-31 2018-10-16 北京邮电大学 一种rna编辑事件识别方法
CN106503235B (zh) * 2016-11-07 2019-04-05 云南大学 基于Spark平台的XP-EHH算法的分布式处理实现方法
CN107194208B (zh) * 2017-04-25 2020-10-02 荣联科技集团股份有限公司 一种基因分析注释方法和装置
WO2018213843A1 (en) * 2017-05-19 2018-11-22 Indiana University Research And Technology Corporation Genotyping using high throughput sequencing data
CN107480468B (zh) * 2017-07-06 2020-10-02 荣联科技集团股份有限公司 基因样本分析方法及电子设备

Also Published As

Publication number Publication date
CN110008217A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008217B (zh) 一种面向基因组突变数据的存储和索引处理方法
Dobin et al. Optimizing RNA-Seq mapping with STAR
RU2398273C2 (ru) Объединение многомерных выражений и расширений глубинного анализа данных для извлечения информации из кубов olap
CA2930597A1 (en) Methods for the graphical representation of genomic sequence data
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
WO2018090468A1 (zh) 视频节目的搜索方法和装置
US10241979B2 (en) Accelerated detection of matching patterns
US20220115139A1 (en) Formatting and storage of genetic markers
CN104969221B (zh) 格式化数据库中的半结构化数据
JPH11353313A (ja) 情報検索方法及び情報自動分類方法並びに情報分析方法
CN112071385A (zh) 基于人工智能的罕见病辅助分析方法、装置及存储介质
Berendzen et al. The legume information system and associated online genomic resources
Yi et al. SPTEdb: a database for transposable elements in salicaceous plants
CN107451280A (zh) 数据打通方法、装置及电子设备
Martorelli et al. Fungal metabarcoding data integration framework for the MycoDiversity DataBase (MDDB)
JP3530842B2 (ja) 核酸塩基配列アセンブル装置及びその動作方法
CN111415702B (zh) 建立分子结构与活性数据库的方法
CN113535962B (zh) 数据入库方法、装置、电子装置、程序产品及存储介质
WO2020213736A1 (ja) 情報処理装置、情報処理方法、プログラム、及び記憶媒体
CN110476215A (zh) 用于多序列文件的签名-散列
JP2021515569A (ja) Rnaシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法
JP2019168787A (ja) 検索支援装置、検索支援方法、及び検索支援プログラム
CN112286874B (zh) 一种基于时间的文件管理方法
CN110908989B (zh) 一种应用于数据清洗工具的数据匹配方法
Linck et al. Speciation and gene flow across an elevational gradient in New Guinea kingfishers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant