CN101430742B - 一种组装基因组的方法 - Google Patents

一种组装基因组的方法 Download PDF

Info

Publication number
CN101430742B
CN101430742B CN2008102183389A CN200810218338A CN101430742B CN 101430742 B CN101430742 B CN 101430742B CN 2008102183389 A CN2008102183389 A CN 2008102183389A CN 200810218338 A CN200810218338 A CN 200810218338A CN 101430742 B CN101430742 B CN 101430742B
Authority
CN
China
Prior art keywords
node
short
bruijn
sequential value
short string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102183389A
Other languages
English (en)
Other versions
CN101430742A (zh
Inventor
李瑞强
阮珏
朱红梅
李松岗
王俊
杨焕明
汪建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2008102183389A priority Critical patent/CN101430742B/zh
Publication of CN101430742A publication Critical patent/CN101430742A/zh
Priority to PCT/CN2009/001427 priority patent/WO2010066115A1/zh
Application granted granted Critical
Publication of CN101430742B publication Critical patent/CN101430742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于基因工程技术领域,提供了一种组装基因组的方法,所述方法包括下述步骤:接收测序序列;分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到所述短串的左、右连接关系;将得到的各所述短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点;根据构建的de Bruijn图对基因组进行组装。在本发明中,通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串及短串的左、右连接关系,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点,实现了一种组装基因组的方法,能对大基因组进行组装,占用内存小、速度快。

Description

一种组装基因组的方法
技术领域
本发明属于基因工程技术领域,尤其涉及一种组装基因组的方法。 
背景技术
新测序技术产生的短序列有两个特点: 
1.序列长度短; 
2.数据量大。 
长序列组装常用的phrap等软件均基于序列间的交叠(overlap)来拼接,在短序列上的运算量太大,没有实际应用价值。新兴的短序列组装软件中成功处理短序列的,例如velvet等,基于de Bruijn图。但是,由于受内存、时间等的限制,现有短序列组装软件只能组装较小的原核生物基因组,对于大基因组,例如真核生物基因组,特别是哺乳动物基因组数据,均不能组装。 
发明内容
本发明实施例的目的在于提供一种组装基因组的方法,旨在解决现有短序列组装软件不能组装大基因组的问题。 
本发明实施例是这样实现的,一种组装基因组的方法,所述方法包括下述步骤: 
接收测序序列; 
分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到所述短串的左、右连接关系; 
将得到的各所述短串的序列值,左、右连接关系及其连接数量存储为deBruijn图的一个节点; 
根据构建的de Bruijn图对基因组进行组装; 
所述de Bruijn图的一个节点中存储互补的两短串,节点的序列值取互补的两短串中较小的序列值。 
在本发明实施例中,通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到短串的左、右连接关系,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点,实现了一种组装基因组的方法,能对大基因组进行组装,占用内存小、速度快。 
附图说明
图1是本发明实施例提供的短序列组装中构建图的方法的实现流程图; 
图2是本发明实施例提供的节点存储内容的示意图; 
图3本发明实施例提供的短序列组装中构建图的系统的结构图。 
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 
在本发明实施例中,通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到短串的左、右连接关系,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点。 
图1示出了本发明实施例提供的短序列组装中构建图的方法的实现流程, 详述如下: 
在步骤S101中,接收测序序列; 
在步骤S102中,分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串(kmer),并得到短串的左、右连接关系; 
在步骤S103中,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点。 
在本发明实施例中,测序序列的碱基长度为25-75,切割成固定碱基长度为21-31的短串。当然,切割得到的短串的长度小于测序序列的长度,其长度可以根据测序序列的长度和实际情况设定。de Bruijn图中每个节点使用相应位存储其序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。这里,用16字节存储de Bruijn图上的各节点,其存储格式如下: 
[seq:64,left_links:24,right_links:24,...]; 
其中,seq存储短串的序列值,序列值的计算方法是使用2位存储一个核苷序列,A用00表示,G用01表示,C用10表示,T用11表示,顺序编码下去生成一个占64位的整数值,并且,考虑到对于偶数长度的短串,其互补短串可能为它自己,例如短串GATC的互补短串为GATC自己。为了防止这种混淆,短串的长度均为奇数,由于本发明实施例中数据结构的限制,短串的长度不大于31;left_links用24位存储其左连接关系及数量,将24位分割成4个6位,即A:6,T:6,G:6,C:6,分别用6位存储与该短串存在左连接的碱基A、T、G或C的连接数量,每种连接数量的取值范围为[0,63];right_links用24位存储其右连接关系及数量,将24位分割成4个6位,即A:6,T:6,G:6,C:6,分别用6位存储与该短串存在右连接的碱基A、T、G或C的连接数量,每种连接数量的取值范围为[0,63];其后面的8位可以用于存储其他值,例如,可以存储删除标记closed,以标识该短串是否被删除;也可以存储使用标记in_use,以标识该短串是否被使用过,还可以存储其他标识。这样,根据节点中存储的短串序列值、存在左连接的各碱基的连接数量和存在右连接 的各碱基的连接数量即可构建de Bruijn图中各节点的连接关系。 
例如,短串甲为AAAAAAAA存在右连接的碱基T的连接数量为19,与其右连接碱基T的短串乙为AAAAAAAT,等于短串甲左移一个碱基并加上与其连接的碱基T,并且与短串甲连接的短串乙有19个,节点中存储右连接碱基T的连接数量的存储内容如图2所示。 
上述步骤S103具体为: 
步骤1.根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点; 
步骤2.如果没有查询到相应节点,则添加节点; 
步骤3.如果查询到相应节点,则更新该相应节点的连接关系。 
在本发明实施例中,使用哈希表存储de Bruijn图的各节点,哈希键为序列值,值为节点。例如取一短串为AAAAAAAA,其序列值为0x0000,将其序列值0x0000作为键在哈希表中查询是否已存有相应节点,如果没有查询到相应节点,则添加节点存储到哈希表中,其值中的seq为该短串的序列值0x0000,并根据该短串相邻的短串将该节点中相应左、右相连碱基的连接数量置为1;如果查询到已存有相应节点,则更新相应节点的连接关系,即根据与该短串相邻的短串更新该节点中相应左、右相连碱基的连接数量,将与该短串有连接的碱基的相应连接数量加1。完成后,执行步骤1,查找下一个短串,直至完成全部短串的查找。 
在本发明实施例中,使用哈希表可以在O(1)的时间内完成查找节点、插入节点(即存储节点)和更新节点连接关系。更新节点连接关系等同于查找节点,并更新查找到的节点的左、右相连碱基的连接数量,所以时间复杂度依然为O(1)。 
为了降低存储de Bruijn图中节点所需的空间,作为本发明的一个优选实施例,只用de Bruijn图中的一个节点存储互补的两短串,节点的序列值取互补的两短串中较小的序列值。如果一个的短串的序列值小于其互补短串的序列值, 则de Bruijn图中的节点存储该短串的序列值,seq存储该短串的序列值,与其左连接碱基的相应连接数量更新到left_links,与其右连接碱基的相应连接数量更新到right_links;如果一个的短串的序列值大于其互补短串的序列值,则deBruijn图中的节点存储其互补短串的序列值,seq存储其互补短串的序列值,与其右连接碱基的相应连接数量更新到left_links,与其左连接碱基的相应连接数量更新到right_links。操作图时,可以在程序中使用一个附加的变量来标记我们使用的是互补的两短串的哪一个。并且,在沿图遍历时,只需要程序维持一个这样的变量,就可以正确地得到路径中所有节点的正方向。当然,de Bruijn图中节点的序列值也可以存储互补的两短串中较大的序列值。 
为了加快构建图的速度,作为本发明的另一个优选实施例,使用多个哈希表唯一存储de Bruijn图中的不同节点,并采用不同线程访问不同的哈希表。 
在本发明实施例中,建立8个哈希表,读入一定数目的原始序列,采用8个线程对读入的原始测序列进行多线程切割、短串求互补,在数据收集完毕后,采用8个线程进行插入更新节点,其中每个线程只处理固定前缀的序列值。每个哈希表存储指定前缀的序列值,并且一个哈希表只有一个线程访问,以保证节点存储的唯一性。 
采用上述本发明实施例提供的压缩的数据结构,可以将节点信息(即序列值)和节点的连接信息(即边)组合在一起,从一个节点的值可以得到该节点上的短串、与该短串相邻的短串的序列值及其数量。 
当然,也可以用其他结构来存储de Bruijn图的各节点,例如可以用数结构来存储,使用哈希表存储各节点在内存和使用上与用树状结构存储近似,但是使用哈希表存储各节点在访问和修改速度上都明显优于树的存储结构。 
选取非洲人基因组重测序数据,经纠错处理后,序列数据量254G碱基,切割成25碱基长度的定长短串后,短串的总数目(包括正反向序列)为7G条,采用本发明实施例提供的方法构建de Bruijn图,内存最大使用值为110G,共消耗23CPU小时,其中,CPU的参数为Quad-Core AMD Opteron(tm)Processor 83562.2GHZ。 
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等,该程序用来执行如下步骤: 
1.接收测序序列; 
2.分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到短串的左、右连接关系; 
3.将得到的各短串的序列值,左、右连接关系及其连接数量存储为deBruijn图的一个节点。 
图3示出了本发明实施例提供的短序列组装中构建图的系统的结构,为了便于说明仅示出了与本发明实施例相关的部分。 
该系统可以用于短序列组装中,其中: 
接收单元301,接收测序序列。 
序列切割单元302,分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到短串的左、右连接关系,其实现方式如上所述,不再赘述。 
构图单元303,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点。在本发明实施例中,构图单元303在de Bruijn图的节点中使用相应位存储其序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量,采用哈希表存储de Bruijn图的节点,其中哈希键为序列值,值为节点。 
其中,构图单元303包括: 
查询模块3031,根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点。 
节点添加模块3032,在查询模块3031没有查询到相应节点时,添加节点, 其实现方式如上所述,不再赘述。 
连接更新模块3033,在查询模块3031查询到相应节点时,更新该相应节点的连接关系,其实现方式如上所述,不再赘述。 
为了降低存储de Bruijn图中节点所需空间,作为本发明的一个优选实施例,构图单元303使用de Bruijn图中的一个节点存储互补的两短串,节点的序列值取互补的两短串中较小的序列值,其实现方式如上所述,不再赘述。 
为了加快构建图的速度,作为本发明的另一个优选实施例,构图单元303采用多个哈希表唯一存储de Bruijn图中的不同节点,并采用不同线程访问不同的哈希表。 
在本发明实施例中,通过分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到短串的左、右连接关系,将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点,实现了一种短序列组装中构建图的方法,能对大基因组进行组装,占用内存小、速度快。 
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。 

Claims (5)

1.一种组装基因组的方法,其特征在于,所述方法包括下述步骤:
接收测序序列;
分别将接收到的测序序列逐个碱基滑动切割得到固定碱基长度的短串,并得到所述短串的左、右连接关系;
将得到的各所述短串的序列值,左、右连接关系及其连接数量存储为deBruijn图的一个节点;
根据构建的de Bruijn图对基因组进行组装;
所述de Bruijn图的一个节点中存储互补的两短串,节点的序列值取互补的两短串中较小的序列值。
2.如权利要求1所述的方法,其特征在于,所述de Bruijn图的节点使用相应位存储所述短串的序列值、存在左连接的各碱基的连接数量和存在右连接的各碱基的连接数量。
3.如权利要求1所述的方法,其特征在于,所述将得到的各短串的序列值,左、右连接关系及其连接数量存储为de Bruijn图的一个节点的步骤具体为:
根据得到的短串的序列值在已存储的节点中查询是否已存有相应节点;
如果没有查询到相应节点,则添加节点;
如果查询到相应节点,则更新所述相应节点的连接关系。
4.如权利要求1所述的方法,其特征在于,采用哈希表存储所述de Bruijn图的各节点,其中哈希键为所述序列值,值为所述节点。
5.如权利要求4所述的方法,其特征在于,采用多个哈希表唯一存储所述de Bruijn图的不同节点,并采用不同线程访问不同的哈希表。
CN2008102183389A 2008-12-12 2008-12-12 一种组装基因组的方法 Active CN101430742B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008102183389A CN101430742B (zh) 2008-12-12 2008-12-12 一种组装基因组的方法
PCT/CN2009/001427 WO2010066115A1 (zh) 2008-12-12 2009-12-11 一种降低短序列组装过程的时间复杂度的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102183389A CN101430742B (zh) 2008-12-12 2008-12-12 一种组装基因组的方法

Publications (2)

Publication Number Publication Date
CN101430742A CN101430742A (zh) 2009-05-13
CN101430742B true CN101430742B (zh) 2011-06-29

Family

ID=40646135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102183389A Active CN101430742B (zh) 2008-12-12 2008-12-12 一种组装基因组的方法

Country Status (2)

Country Link
CN (1) CN101430742B (zh)
WO (1) WO2010066115A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430742B (zh) * 2008-12-12 2011-06-29 深圳华大基因研究院 一种组装基因组的方法
US8223043B2 (en) 2009-12-23 2012-07-17 Industrial Technology Research Institute Method and apparatus for compressing nucleotide sequence data
WO2012171213A1 (zh) * 2011-06-17 2012-12-20 深圳华大基因科技有限公司 一种基因组组装方法和系统
WO2013004005A1 (zh) * 2011-07-05 2013-01-10 深圳华大基因科技有限公司 组装测序片段的方法
US8751166B2 (en) * 2012-03-23 2014-06-10 International Business Machines Corporation Parallelization of surprisal data reduction and genome construction from genetic data for transmission, storage, and analysis
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US10353869B2 (en) 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
CN103258145B (zh) * 2012-12-22 2016-06-29 中国科学院深圳先进技术研究院 一种基于De Bruijn图的并行基因拼接方法
CN103093121B (zh) * 2012-12-28 2016-01-27 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
CN103699819B (zh) * 2013-12-10 2016-09-07 深圳先进技术研究院 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
CN104751015B (zh) * 2013-12-30 2017-08-29 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法
CN106067824B (zh) * 2016-06-02 2019-11-05 洛阳晶云信息科技有限公司 一种基于二联密码子的测序数据压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004055709A3 (en) * 2002-12-13 2005-04-14 Applera Corp Methods for identifying, viewing, and analyzing syntenic and orthologous genomic regions between two or more species
US6952651B2 (en) * 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
CN101196921A (zh) * 2007-12-24 2008-06-11 北京大学 用于近似查询的长序列数据降维方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430742B (zh) * 2008-12-12 2011-06-29 深圳华大基因研究院 一种组装基因组的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952651B2 (en) * 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
WO2004055709A3 (en) * 2002-12-13 2005-04-14 Applera Corp Methods for identifying, viewing, and analyzing syntenic and orthologous genomic regions between two or more species
CN101196921A (zh) * 2007-12-24 2008-06-11 北京大学 用于近似查询的长序列数据降维方法

Also Published As

Publication number Publication date
WO2010066115A1 (zh) 2010-06-17
CN101430742A (zh) 2009-05-13

Similar Documents

Publication Publication Date Title
CN101430742B (zh) 一种组装基因组的方法
CN110457319B (zh) 区块链状态数据存储方法及装置、电子设备
CN103150394B (zh) 面向高性能计算的分布式文件系统元数据管理方法
Rahman et al. Representation of k-mer sets using spectrum-preserving string sets
CN110347684B (zh) 基于区块链的分级存储方法及装置、电子设备
JP2022547956A (ja) ブロックチェーンデータをインデックスする方法およびブロックチェーンデータを格納する方法
CN105117355A (zh) 存储器、存储器系统及其数据处理方法
CN101577662B (zh) 一种基于树形数据结构的最长前缀匹配方法和装置
CN1983266B (zh) 闪速类介质中存储事务记录的文件系统
CN110275864B (zh) 索引建立方法、数据查询方法及计算设备
CN104794177B (zh) 一种数据存储方法及装置
CN1318960C (zh) 用于进行寄存器重命名的处理器的方法
US20120124216A1 (en) Address generation and cluster extension in distrubted systems using tree method
CN103164490A (zh) 一种不固定长度数据的高效存储实现方法和装置
CN104424199A (zh) 搜索方法和装置
CN103051543A (zh) 一种路由前缀的处理、查找、增加及删除方法
US9065469B2 (en) Compression match enumeration
CN104731886A (zh) 一种海量小文件的处理方法及系统
CN109033278A (zh) 数据处理方法、装置、电子设备及计算机存储介质
Goldwasser et al. Linear-time algorithms for computing maximum-density sequence segments with bioinformatics applications
Dasari et al. Multi-start heuristics for the profitable tour problem
CN107451070A (zh) 一种数据的处理方法和服务器
CN103207866A (zh) 一种基于分块策略的文件存储方法及系统
CN103077214A (zh) 文件存储方法及装置
WO2013054588A1 (ja) 情報処理装置、データストア操作方法、データ構築装置、データ構築方法、データ結合装置、データ結合方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130826

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518083 SHENZHEN, GUANGDONG PROVINCE TO: 518000 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130826

Address after: 518000 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Patentee after: BGI Technology Solutions Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen