CN108710784A - 一种基因转录变异几率及变异方向的算法 - Google Patents

一种基因转录变异几率及变异方向的算法 Download PDF

Info

Publication number
CN108710784A
CN108710784A CN201810469702.2A CN201810469702A CN108710784A CN 108710784 A CN108710784 A CN 108710784A CN 201810469702 A CN201810469702 A CN 201810469702A CN 108710784 A CN108710784 A CN 108710784A
Authority
CN
China
Prior art keywords
read
indel
seed
reference sequences
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810469702.2A
Other languages
English (en)
Inventor
邵莉
佟艳辉
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd
Original Assignee
Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd filed Critical Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd
Priority to CN201810469702.2A priority Critical patent/CN108710784A/zh
Publication of CN108710784A publication Critical patent/CN108710784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因转录变异几率及变异方向的算法,海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战,若直接将短序列比对到参考序列上会出现两个问题,一个是映射过程中计算复杂需要很长时间,另一个是当read在参考序列上存在匹配时,read将会映射到其在参考序列的第一个匹配,这通常不是最佳匹配,为了解决以上两个问题,本发明先对滑窗方法产生的参考序列的seed集合进行构建哈希表,然后在比对时利用哈希表对read进行定位先对滑窗方法产生的参考序列的seed集合进行构建哈希表,由于参考序列信息量大,而哈希表耗内存,因此在创建哈希表的同时对序列进行了二进制压缩,使得内存占用大大减少。

Description

一种基因转录变异几率及变异方向的算法
技术领域
本发明涉及高通量测序的生物信息领域,具体是一种基因转录变异几率及变异方向的算法。
背景技术
随着高通量测序技术的诞生和迅猛发展,测序成本越来越低,通量越来越大,极大地促进了对生物信息学的研究,基于序列比对,对基因变异几率和方向有助于找到与疾病相关的一些位点,为后续的疾病病理确定,治疗方案探索有重要意义,但是海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战,若直接将短序列比对到参考序列上会出现两个问题,一个是映射过程中计算复杂需要很长时间,另一个是当read在参考序列上存在匹配时,read将会映射到其在参考序列的第一个匹配,这通常不是最佳匹配,为了解决以上两个问题,本发明先对滑窗方法产生的参考序列的seed集合进行构建哈希表,然后在比对时利用哈希表对read进行定位,由于参考序列信息量大,而哈希表创建耗内存,因此在创建哈希表的同时对序列进行了二进制压缩,使得内存占用大大减少,提高分析的速率,在InDel检测过程中同样存在两个问题,一个是高通量测序技术产生的read的长度很短,更不用说作为read的子序列的种子,因此一个seed在定位时往往会定位到参考序列的多个位置上,另一个是InDel在read上的分布是随机的,有时出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升InDel检浉的正确性,本发明提出先对read采用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点,并且为了降低候选位点的假阳性,本发明引入supportNum,在后续的评估过程中基于supportNum设定域值,缩小了最终InDel候选集的范围。
发明内容
本发明的目的在于提供一种基因转录变异几率及变异方向的算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基因转录变异几率及变异方向的算法,操作步骤如下:
一.哈希表创建
哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表,具体步骤为:
第一步,为了方便后续处理,把参考序列读入一个一维字符数组file_buffer中,file_buffer全程都在内存中,如果参考序列中包含设定块,则跳过设定'块并且记录设定块的起始位置以及设定块的长度。
第二步,用滑窗方法对字符数组file_buffer中的每个碱基分别进行二进制压缩和seed构建,并且对seed进行哈希表构建。
二.模拟数据
为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据。
三.read定位
由于read相对于参考序列来说很短,直接将read比对到参考序列上时,会遇到过早定位到不正确的位点的情况,因此在进行比对之前,我们需要先对read进行定位,为后续的比对选出几个候选的比对位点,为read定位就需要用到构建好的哈希表,在read上选出长度为seed_length的一段连续子序列(seed),先对子序列进行定位得到候选位置,read的长度很短,更不用说作为read的子序列的seed,因此一个seed在定位时往往会定位到参考序列上的多个位置上,造成定位结果不准确,并且本发明十对的是InDel数据,小的InDel在read上的分布是随机的,可能出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升后续比对中检测InDel的正确性,减少InDel检测结果的假阴性,本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点。
四.短序列的比对算
针对高通量测序的数据特点,研究人员开发了一些基于短序列的比对算法,这些算法主要引入了Burrows-Wheeler转换法(Burrows-Wheeler Transform)或空位种子索引法(Spaced-Seed Indexing)来实现。
1.Burrows-Wheeler转换法
Burrows–Wheeler变换是一个被应用在数据压缩技术(如bzip2)中的算法,该算法于1994年被Michael Burrows和David Wheeler在位于加利福尼亚州帕洛阿尔托的DEC系统研究中心发明。它的基础是之前Wheeler在1983年发明的一种没有公开的转换方法,当一个字符串用该算法转换时,算法只改变这个字符串中字符的顺序而并不改变其字符。如果原字符串有几个出现多次的子串,那么转换过的字符串上就会有一些连续重复的字符,这对压缩是很有用的。该方法能使得基于处理字符串中连续重复字符的技术的编码更容易被压缩。
2.空位种子索引法(Spaced-Seed Indexing)
空位种子索引法首先对read进行切分,然后选取其中一段或几段作为种子建立索引,再通过查找索引和延展匹配来实现对read定位,同样也允许一定程度的错配。
3.InDelDetetion算法
输入:需要比对的read集合,read定位到参考序死上的位点集合position,哈希表hashTable,参考序列file_buffer。
输出:InD l_de ste ction数组,其中第二列记录read集合对立的InDel位置,第一列记录InDel的supportNum。
五.结果评估
目前很多生物信息学的重要刊物都要求通过真实数据实验和模拟数据实验来对InDel检测方法进行评价,其中对真实数据的InDel检测的基本流程包括:
1.对个体基因组进行测序得到相应的测序片段。
2.将前一步骤中生成的测序片段比对到参考基因组上。
3.在比对结果中寻找异常并进行分析判断InDel。
由于当前还不存在一个具有完整变异注释的个体基因组,因此对真实数据的实验并不能实现对InDel检测方法的评价,所以对于InDel检测方法的评价还需要依赖于模拟数据实验,基于模拟数据的InDel检测及评价的基本流程包括:1)构造一个包含InDel的个体基因组,并且记录InDel位点信息;2)对个体基因组进行模拟测序生成测序片段;3)将测序片段比对到参考基因组上得到比对结果,记录实验检沙到的InDel位点;4)第1步聚中的InDel位点信息与第3步骤中检测到的InDel位点信息进行比较,基于评价指标得到InDel检河方法的性能评价。
六.最优F值
选择Inde1检测软件,模拟染色体变异和序列。利用工具进行Inde1检测,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则。
七.深入学习与探讨
最优F值的方法是基于软件的一致结果,因而会舍弃仅由单个软件检测到的Inde1,而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20%,全部舍弃严重影响回收率。为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性,本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果,我们以所有原始数据为训练集,以检测Inde1的所用软件,Inde1的类型,Inde1所处重复序列类型,支持Inde1检测结果的读段数量(覆盖度)为训练特征,准确率和召回率为训练目标。利用训练集我们可以训练得到一个使回收率和召回率尽可能高的模型。
附图说明
图1为一种基因转录变异几率及变异方向的算法中基因变异信息获取流程图。
图2为一种基因转录变异几率及变异方向的算法中比对InDel检测算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~2,本发明实施例中,一种基因转录变异几率及变异方向的算法,步骤如下:
一.哈希表创建
哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表,具体步骤为:
第一步,为了方便后续处理,把参考序列读入一个一维字符数组file_buffer中,file_buffer全程都在内存中,如果参考序列中包含设定块,则跳过设定'块并且记录设定块的起始位置以及设定块的长度。
第二步,用滑窗方法对字符数组file_buffer中的每个碱基分别进行二进制压缩和seed构建,并且对seed进行哈希表构建。
二.模拟数据
为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据。
三.read定位
由于read相对于参考序列来说很短,直接将read比对到参考序列上时,会遇到过早定位到不正确的位点的情况,因此在进行比对之前,我们需要先对read进行定位,为后续的比对选出几个候选的比对位点,为read定位就需要用到构建好的哈希表,在read上选出长度为seed_length的一段连续子序列(seed),先对子序列进行定位得到候选位置,read的长度很短,更不用说作为read的子序列的seed,因此一个seed在定位时往往会定位到参考序列上的多个位置上,造成定位结果不准确,并且本发明十对的是InDel数据,小的InDel在read上的分布是随机的,可能出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升后续比对中检测InDel的正确性,减少InDel检测结果的假阴性,本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点,基于以上讨论,本发明设计的定位算法Location:
输入:需要比对的read,哈希表hashTable输出:read定位到参考序列上的位置集合。
1.对read用滑窗法找出所有的长度seed_length的子序列,并且分别对这些子序列进行进制压缩成seed,得到一个seed集合U2={U1*U2...U}(n≥0),n为集合中seed的个数。
2.对seed集合2中的每一个元素Ui(1≤i≤n),搜索哈希表hashTable,如果存在键值为Ui;的项,则读取该项对应的在参考序列上的位点,对于每一个Ui,得到的位点集合为positioni={p',..,p,"},m为Ui,对应位点集合中元素个数。
3.read在参考序列上定位的候选位点为每个seed对应位点集合的集合position={position1,position2,...positionn,}。
四.短序列的比对算
针对高通量测序的数据特点,研究人员开发了一些基于短序列的比对算法,这些算法主要引入了Burrows-Wheeler转换法(Burrows-Wheeler Transform)或空位种子索引法(Spaced-Seed Indexing)来实现。
1.Burrows-Wheeler转换法
Burrows–Wheeler变换是一个被应用在数据压缩技术(如bzip2)中的算法,该算法于1994年被Michael Burrows和David Wheeler在位于加利福尼亚州帕洛阿尔托的DEC系统研究中心发明。它的基础是之前Wheeler在1983年发明的一种没有公开的转换方法,当一个字符串用该算法转换时,算法只改变这个字符串中字符的顺序而并不改变其字符。如果原字符串有几个出现多次的子串,那么转换过的字符串上就会有一些连续重复的字符,这对压缩是很有用的。该方法能使得基于处理字符串中连续重复字符的技术的编码更容易被压缩。
2.空位种子索引法(Spaced-Seed Indexing)
空位种子索引法首先对read进行切分,然后选取其中一段或几段作为种子建立索引,再通过查找索引和延展匹配来实现对read定位,同样也允许一定程度的错配。
3.InDelDetetion算法
输入:需要比对的read集合,read定位到参考序死上的位点集合position,哈希表hashTable,参考序列file_buffer。
输出:InD l_de ste ction数组,其中第二列记录read集合对立的InDel位置,第一列记录InDel的supportNum。
五.结果评估
目前很多生物信息学的重要刊物都要求通过真实数据实验和模拟数据实验来对InDel检测方法进行评价,其中对真实数据的InDel检测的基本流程包括:
1.对个体基因组进行测序得到相应的测序片段。
2.将前一步骤中生成的测序片段比对到参考基因组上。
3.在比对结果中寻找异常并进行分析判断InDel。
由于当前还不存在一个具有完整变异注释的个体基因组,因此对真实数据的实验并不能实现对InDel检测方法的评价,所以对于InDel检测方法的评价还需要依赖于模拟数据实验,基于模拟数据的InDel检测及评价的基本流程包括:1)构造一个包含InDel的个体基因组,并且记录InDel位点信息;2)对个体基因组进行模拟测序生成测序片段;3)将测序片段比对到参考基因组上得到比对结果,记录实验检沙到的InDel位点;4)第1步聚中的InDel位点信息与第3步骤中检测到的InDel位点信息进行比较,基于评价指标得到InDel检河方法的性能评价。
六.最优F值
选择Inde1检测软件,模拟染色体变异和序列。利用工具进行Inde1检测,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则。
七.深入学习与探讨
最优F值的方法是基于软件的一致结果,因而会舍弃仅由单个软件检测到的Inde1,而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20%,全部舍弃严重影响回收率。为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性,本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果,我们以所有原始数据为训练集,以检测Inde1的所用软件,Inde1的类型,Inde1所处重复序列类型,支持Inde1检测结果的读段数量(覆盖度)为训练特征,准确率和召回率为训练目标。利用训练集我们可以训练得到一个使回收率和召回率尽可能高的模型。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基因转录变异几率及变异方向的算法,其特征在于,操作步骤如下:
一.哈希表创建:
哈希表是根据关键码值而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表;
二.模拟数据:
为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据;
三.read定位:
由于read相对于参考序列来说很短,直接将read比对到参考序列上时,会遇到过早定位到不正确的位点的情况,因此在进行比对之前,我们需要先对read进行定位,为后续的比对选出几个候选的比对位点,为read定位就需要用到构建好的哈希表,在read上选出长度为seed_length的一段连续子序列(seed),先对子序列进行定位得到候选位置,read的长度很短,更不用说作为read的子序列的seed,因此一个seed在定位时往往会定位到参考序列上的多个位置上,造成定位结果不准确,并且本发明十对的是InDel数据,小的InDel在read上的分布是随机的,有时会出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升后续比对中检测InDel的正确性,减少InDel检测结果的假阴性,本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点;
四.短序列的比对算:
针对高通量测序的数据特点,研究人员开发了一些基于短序列的比对算法,这些算法主要引入了Burrows-Wheeler转换法(Burrows-Wheeler Transform)或空位种子索引法(Spaced-Seed Indexing)来实现;
五.结果评估:
目前很多生物信息学的重要刊物都要求通过真实数据实验和模拟数据实验来对InDel检测方法进行评价,其中对真实数据的InDel检测的基本流程包括:
(1)对个体基因组进行测序得到相应的测序片段;
(2)将前一步骤中生成的测序片段比对到参考基因组上;
(3)在比对结果中寻找异常并进行分析判断InDel;
六.最优F值
选择Inde1检测软件,模拟染色体变异和序列,利用工具进行Inde1检测,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则;
七.深入学习与探讨
最优F值的方法是基于软件的一致结果,因而会舍弃仅由单个软件检测到的Inde1,而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20%,全部舍弃严重影响回收率,为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性,本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果,我们以所有原始数据为训练集,以检测Inde1的所用软件,Inde1的类型,Inde1所处重复序列类型,支持Inde1检测结果的读段数量为训练特征,准确率和召回率为训练目标,利用训练集我们可以训练得到一个使回收率和召回率尽量高的模型。
CN201810469702.2A 2018-05-16 2018-05-16 一种基因转录变异几率及变异方向的算法 Pending CN108710784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810469702.2A CN108710784A (zh) 2018-05-16 2018-05-16 一种基因转录变异几率及变异方向的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810469702.2A CN108710784A (zh) 2018-05-16 2018-05-16 一种基因转录变异几率及变异方向的算法

Publications (1)

Publication Number Publication Date
CN108710784A true CN108710784A (zh) 2018-10-26

Family

ID=63868998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810469702.2A Pending CN108710784A (zh) 2018-05-16 2018-05-16 一种基因转录变异几率及变异方向的算法

Country Status (1)

Country Link
CN (1) CN108710784A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841264A (zh) * 2019-01-31 2019-06-04 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN110517727A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 序列比对方法及系统
CN111627496A (zh) * 2020-05-09 2020-09-04 苏州浪潮智能科技有限公司 一种哈希表的压缩方法、系统及相关装置
CN112259167A (zh) * 2020-10-22 2021-01-22 深圳华大基因科技服务有限公司 基于高通量测序的病原体分析方法、装置和计算机设备
CN114550820A (zh) * 2022-02-28 2022-05-27 桂林电子科技大学 一种基于WFA算法的第三代测序RNA-seq比对方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN107609350A (zh) * 2017-09-08 2018-01-19 厦门极元科技有限公司 一种二代测序数据分析平台的数据处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202991A (zh) * 2016-06-30 2016-12-07 厦门艾德生物医药科技股份有限公司 一种基因组多重扩增测序产物中突变信息的检测方法
CN107609350A (zh) * 2017-09-08 2018-01-19 厦门极元科技有限公司 一种二代测序数据分析平台的数据处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐楠: "蛋白质关系网络中的络合物发现算法的研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
汪晓丹: "基于短序列比对的InDel检测算法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
甘杨兰等: "《面向基因组分析的数据挖掘算法研究》", 31 August 2017 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841264A (zh) * 2019-01-31 2019-06-04 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN109841264B (zh) * 2019-01-31 2022-02-18 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN110517727A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 序列比对方法及系统
CN110517727B (zh) * 2019-08-23 2022-03-08 苏州浪潮智能科技有限公司 序列比对方法及系统
CN111627496A (zh) * 2020-05-09 2020-09-04 苏州浪潮智能科技有限公司 一种哈希表的压缩方法、系统及相关装置
WO2021227555A1 (zh) * 2020-05-09 2021-11-18 苏州浪潮智能科技有限公司 一种哈希表的压缩方法、系统及相关装置
CN111627496B (zh) * 2020-05-09 2022-05-17 苏州浪潮智能科技有限公司 一种哈希表的压缩方法、系统及相关装置
CN112259167A (zh) * 2020-10-22 2021-01-22 深圳华大基因科技服务有限公司 基于高通量测序的病原体分析方法、装置和计算机设备
CN112259167B (zh) * 2020-10-22 2022-09-23 深圳华大基因科技服务有限公司 基于高通量测序的病原体分析方法、装置和计算机设备
CN114550820A (zh) * 2022-02-28 2022-05-27 桂林电子科技大学 一种基于WFA算法的第三代测序RNA-seq比对方法
CN114550820B (zh) * 2022-02-28 2024-05-03 桂林电子科技大学 一种基于WFA算法的第三代测序RNA-seq比对方法

Similar Documents

Publication Publication Date Title
CN108710784A (zh) 一种基因转录变异几率及变异方向的算法
CN109344250B (zh) 基于医保数据的单病种诊断信息快速结构化方法
US8832139B2 (en) Associative memory and data searching system and method
US7640256B2 (en) Data collection cataloguing and searching method and system
US6633817B1 (en) Sequence database search with sequence search trees
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
CN110600135A (zh) 一种基于改进随机森林算法的乳腺癌预测系统
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Nakaya et al. Extraction of correlated gene clusters by multiple graph comparison
CN113642613B (zh) 基于改进樽海鞘群算法的医学疾病特征选择方法
Li et al. SENIES: DNA shape enhanced two-layer deep learning predictor for the identification of enhancers and their strength
CN114121145A (zh) 一种基于多源迁移学习的噬菌体启动子预测方法
JP4461240B2 (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
Maruf et al. DNN-Boost: Somatic mutation identification of tumor-only whole-exome sequencing data using deep neural network and XGBoost
CN114566215A (zh) 一种双端成对的剪接位点预测方法
Huang et al. An Approach of Suspected Code Plagiarism Detection Based on XGBoost Incremental Learning
Awe et al. Enhanced Deep Convolutional Neural Network for SARS-CoV-2 Variants Classification
CN117746997B (zh) 一种基于多模态先验信息的顺式调控模体识别方法
CN116343923B (zh) 一种基因组结构变异同源性识别方法
Sánchez Practical Transcriptomics: Differential gene expression applied to food production
Sengupta et al. Classification and identification of fungal sequences using characteristic restriction endonuclease cut order
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
Choi et al. CELLama: Foundation Model for Single Cell and Spatial Transcriptomics by Cell Embedding Leveraging Language Model Abilities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181026