CN109698011B - 基于短序列比对的Indel区域校正方法及系统 - Google Patents
基于短序列比对的Indel区域校正方法及系统 Download PDFInfo
- Publication number
- CN109698011B CN109698011B CN201811593542.9A CN201811593542A CN109698011B CN 109698011 B CN109698011 B CN 109698011B CN 201811593542 A CN201811593542 A CN 201811593542A CN 109698011 B CN109698011 B CN 109698011B
- Authority
- CN
- China
- Prior art keywords
- indel
- comparison result
- region
- information
- read line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于短序列比对的Indel区域校正方法及系统,本发明的校正步骤包括:读取比对结果文件确定indel区域,针对每一个indel区域依次找出突变的最小重复单元、迭代构建待处理扩展区、重构候选基因组序列,然后在比对结果文件中遍历提取构建待处理扩展区中的比对结果,针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基,并根据结果对所在read行进行校正,最终读取比对结果文件并根据校正生成输出文件。本发明综合indel区域的突变检测结果对indel区域的比对结果进行校正优化,能提高检出突变频率的准确性。
Description
技术领域
本发明涉及生物基因的变异检测技术,具体涉及一种基于短序列比对的Indel区域校正方法及系统。
背景技术
在常规变异检测中,将二代测序数据(reads序列)比对回参考基因组,然后根据比对情况输出(包含匹配与差异信息),结果包括SNP(单核苷酸变异,如图1中a所示)、deletion(缺失,如图1中b所示)、insertion(插入,如图1中c所示)等。插入缺失标记indel即代指其中的insertion(插入)和deletion(缺失)。
现有的变异检测方法只考虑read序列与参考基因组的比对情况,单纯针对不同突变类型进行不同罚分,选择罚分最小的情况作为结果会导致一些错误比对,常常在read端头因为read序列信息不足而造成误判,例如read最后一个碱基与参考序列形成错配,但实际上这个错配可能是中间有一段deletion带来的。这样的错误在常规检测中或许影响不大,但是在一些诸如对突变频率准确性要求高、或者低频突变检测等领域,会严重影响其结果的准确性。
如图2所示,read1代表read端头没有跨过insertion或者deletion区域的比对情况,传统结论为match,因该情况几乎无法做出判断,导致做出错误判断;read2代表read跨过insertion或者deletion区域但是端头信息很少的比对情况,传统结论会做出错误判断;read3代表read跨过insertion或者deletion区域但是端头信息不足的比对情况,传统结论会做出错误判断;read4代表read跨过insertion或者deletion区域且端头信息足够做出正确判断的比对情况;read5代表read跨过insertion或者deletion区域且端头信息足够做出正确判断的比对情况。因此,如何提高Indel区域的检测结果准确度,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于短序列比对的Indel区域校正方法及系统,本发明基于已有的国际公认比对软件bwa的比对结果,综合indel区域的突变检测结果,对indel区域的比对结果进行校正优化,提高检出突变频率的准确性。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于短序列比对的Indel区域校正方法,实施步骤包括:
1)读取比对结果文件,判断比对结果文件是否包含插入或缺失,如果没有则结束并退出;否则,记录所有indel区域的突变区域信息;
2)判断比对结果文件是否有待处理的indel区域,如果有则遍历选择一个indel区域作为当前indel区域,跳转执行步骤3);否则,跳转执行步骤7);
3)从当前indel区域的突变区域中找出突变的最小重复单元;
4)根据当前indel区域的突变区域及其最小重复单元迭代构建待处理扩展区;
5)根据待处理扩展区重构候选基因组序列;
6)在比对结果文件中遍历提取构建待处理扩展区中的比对结果,针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基,如果能够定位到定性碱基,则选择对应的候选基因组序列,根据选择的候选基因组序列重新计算当前indel区域所在read行的CIGAR信息和MD信息并记录以进行校正;否则,将当前indel区域的片段的突变修改为“Soft Clip”,并基于突变修改重新计算当前indel区域所在read行的CIGAR信息和MD信息以进行校正;跳转执行步骤2);
7)读取比对结果文件,针对判断比对结果文件是否被校正,如果未被校正则直接输出到输出文件,否则针对比对结果文件中被校正的read行将记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件。
可选地,步骤1)的详细步骤包括:
1.1)读取比对结果文件并按read行输出到标准输出流;
1.2)以管道的形式遍历读取一个read行作为当前read行,如果读取成功则跳转执行步骤1.3),如果读取结束,则跳转执行步骤2);
1.3)获取当前read行对应的CIGAR信息,判断该CIGAR信息中是否包含“I”或者“D”标记,如果包含“I”或者“D”标记则判定当前read行包含插入或缺失,记录当前read行所有indel区域的突变区域信息;跳转执行步骤1.2)。
可选地,步骤4)的详细步骤包括:
4.1)将当前indel区域的突变区域左右延伸第一预设长度个碱基得到扩展区域,提取参考基因组,判断最小重复单元的结束位置,如果重复单元在扩展区域内,则记录最小重复单元的结束位置,跳转执行步骤4.2);如果重复单元不在扩展区域内,则跳转执行步骤4.1)进行迭代;
4.2)在扩展区域左右延伸第二预设长度,得到待处理扩展区。
可选地,步骤4.1)中第一预设长度为当前indel区域的长度的n倍。
可选地,所述n的值为2。
可选地,步骤4.2)中第二预设长度的长度为8个碱基。
可选地,步骤5)的详细步骤包括:根据待处理扩展区提取参考基因序列,根据待处理扩展区提取相关比对结果,根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列,保存该候选基因组序列与突变信息。
可选地,步骤7)的详细步骤包括:
7.1)读取比对结果文件并按read行输出到标准输出流;
7.2)以管道的形式遍历读取一个read行作为当前read行,如果读取成功则跳转执行步骤7.3),如果读取结束,则结束并退出
7.3)判断当前read行是否被校正,如果未被校正则直接输出到输出文件,否则将当前read行记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件;跳转执行步骤7.2)。
本发明还提供一种基于短序列比对的Indel区域校正系统,包括计算机设备,所述计算机设备被编程以执行本发明前基于短序列比对的Indel区域校正方法的步骤;或者所述计算机设备的存储介质中存储有被编程以执行本发明前述基于短序列比对的Indel区域校正方法的计算机程序。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被编程以执行本发明前述基于短序列比对的Indel区域校正方法的计算机程序。
和现有技术相比,本发明基于短序列比对的Indel区域校正方法及系统具有下述优点:本发明基于短序列比对的Indel区域校正综合indel区域的突变检测结果,对indel区域的比对结果进行校正优化,提高检出突变频率的准确性。
附图说明
图1为现有技术的基因变异的三种检测结果示意图。
图2为比对结果文件中的传统方法的基因变异检测结果。
图3为本发明实施例方法的基本流程示意图。
图4为本发明实施例方法步骤6)的流程示意图。
具体实施方式
如图3所示,本实施例基于短序列比对的Indel区域校正方法的实施步骤包括:
1)读取比对结果文件,判断比对结果文件是否包含插入或缺失,如果没有则结束并退出;否则,记录所有indel区域的突变区域信息;
2)判断比对结果文件是否有待处理的indel区域,如果有则遍历选择一个indel区域作为当前indel区域,跳转执行步骤3);否则,跳转执行步骤7);
3)从当前indel区域的突变区域中找出突变的最小重复单元;
4)根据当前indel区域的突变区域及其最小重复单元迭代构建待处理扩展区;
5)根据待处理扩展区重构候选基因组序列;
6)在比对结果文件中遍历提取构建待处理扩展区中的比对结果,针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基,如果能够定位到定性碱基,则选择对应的候选基因组序列,根据选择的候选基因组序列重新计算当前indel区域所在read行的CIGAR信息和MD信息并记录以进行校正;否则(read端头信息不足,无法定位到定性碱基),将当前indel区域的片段的突变修改为“SoftClip”,并基于突变修改重新计算当前indel区域所在read行的CIGAR信息和MD信息以进行校正,如图4所示;其中,定性碱基的定义如下:比如参考基因组序列(reference)为ACTAG,记录read为ATAG(缺失一个C),缺失之后的C和T就是定性碱基,比如记录read以AT结束就判断为缺失;以AC结束就判断为没缺失;跳转执行步骤2);
7)读取比对结果文件,针对判断比对结果文件是否被校正,如果未被校正则直接输出到输出文件,否则针对比对结果文件中被校正的read行将记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件。
本实施例中,步骤1)中比对结果文件具体为国际公认比对软件bwa的比对结果文件(bam文件),bam文件是一种通用的比对文件保存格式(按块压缩的),是一条条read的比对结果,包括read的id、碱基序列、测序质量值、比对的染色体、比对的位置、比对的情况(CIGAR、比对质量值、MD等)等信息。bam文件的读取方式采用共用工具samtools,命令“samtools view input.bam”会读取bam并按行输出到标准输出流,再以管道的形式读取。
CIGAR信息和MD信息记录有比对结果文件的每一个read行的比对信息,本实施例中校正优化直观体现为处理前后的CIGAR信息和MD信息内容有变化。CIGAR信息记录read和参考基因组序列(reference)的比对情况,格式由 数字+字母 循环组成。比如:45M3I52M4D50M,表示 45个碱基的匹配/不匹配检测结果(match/mismatch)+ 3个碱基的插入(insertion)+ 52个碱基的匹配/不匹配检测结果 + 4个碱基的缺失(deletion)+ 50个碱基的匹配/不匹配检测结果。
众所周知,CIGAR信息的相关字段定义如下:
M:Match/mismatch,即匹配/不匹配检测结果。
I:Insertion,即插入。
D:Deletion,即缺失。
S:Soft clip,即比对不到基因组但是存在于SEQ (segment SEQuence)中的序列。
H:Hard clip,即比对不到基因组并且不存在于SAM/BAM文件中的序列。
MD信息用于记录read与参考基因组序列(reference)的详细比对情况,格式由 数字+操作符+字母 组成。比如:40G4,表示 40个碱基的match + 1个碱基的mismatch(参考基因组序列是G) + 4个碱基的match。
本实施例中,步骤1)的详细步骤包括:
1.1)读取比对结果文件并按read行输出到标准输出流;
1.2)以管道的形式遍历读取一个read行作为当前read行,如果读取成功则跳转执行步骤1.3),如果读取结束,则跳转执行步骤2);
1.3)获取当前read行对应的CIGAR信息,判断该CIGAR信息中是否包含“I”或者“D”标记,如果包含“I”或者“D”标记则判定当前read行包含插入或缺失,记录当前read行所有indel区域的突变区域信息;跳转执行步骤1.2)。
本实施例中,记录所有indel区域的突变区域信息包括:染色体、indel起始位置、indel结束位置、具体insertion/deletion突变信息(全流程中的记录、保存都是记录的当前运行内存中,不同的数据有不同的变量、数据结构)。
本实施例中,步骤3)用于从当前indel区域的突变区域中找出突变的最小重复单元。有些突变是串联重复单元,有些突变不是,所以需要找出最小重复单元,用来识别完整的区域(例如突变是CCCC,最小重复单元是C;突变是ACCT,自身即是最小重复单元;突变是ACGACGACG,ACG是最小重复单元)。
本实施例中,步骤4)的详细步骤包括:
4.1)将当前indel区域的突变区域左右延伸第一预设长度个碱基得到扩展区域,提取参考基因组,判断最小重复单元的结束位置,如果重复单元在扩展区域内,则记录最小重复单元的结束位置,跳转执行步骤4.2);如果重复单元不在扩展区域内,则跳转执行步骤4.1)进行迭代;
4.2)在扩展区域左右延伸第二预设长度,得到待处理扩展区。
本实施例中,步骤4.1)中第一预设长度为当前indel区域的长度的n倍。本实施例中,n的值为2,即左右延伸2倍突变长度个碱基得到扩展区域。
本实施例中,步骤4.2)中第二预设长度的长度为8个碱基。
本实施例中,步骤5)的详细步骤包括:根据待处理扩展区提取参考基因序列,根据待处理扩展区提取相关比对结果,根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列,保存该候选基因组序列与突变信息。
本实施例中,步骤7)的详细步骤包括:
7.1)读取比对结果文件并按read行输出到标准输出流;
7.2)以管道的形式遍历读取一个read行作为当前read行,如果未读取成功则跳转执行步骤7.3),如果读取结束,则结束并退出
7.3)判断当前read行是否被校正,如果被校正则直接输出到输出文件,否则将当前read行记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件;跳转执行步骤7.2)。
本实施例还提供一种基于短序列比对的Indel区域校正系统,包括计算机设备,该计算机设备被编程以执行本实施例前基于短序列比对的Indel区域校正方法的步骤。
本实施例还提供一种基于短序列比对的Indel区域校正系统,包括带有存储介质的计算机设备,该存储介质中存储有被编程以执行本实施例前述基于短序列比对的Indel区域校正方法的计算机程序。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程以执行本实施例前述基于短序列比对的Indel区域校正方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于短序列比对的Indel区域校正方法,其特征在于实施步骤包括:
1)读取比对结果文件,判断比对结果文件是否包含插入或缺失,如果没有则结束并退出;否则,记录所有indel区域的突变区域信息;
2)判断比对结果文件是否有待处理的indel区域,如果有则遍历选择一个indel区域作为当前indel区域,跳转执行步骤3);否则,跳转执行步骤7);
3)从当前indel区域的突变区域中找出突变的最小重复单元;
4)根据当前indel区域的突变区域及其最小重复单元迭代构建待处理扩展区;
5)根据待处理扩展区重构候选基因组序列;
6)在比对结果文件中遍历提取构建待处理扩展区中的比对结果,针对遍历提取得到的比对结果分别将其和重构得到的候选基因组序列进行比较以判断是否能够定位到定性碱基,如果能够定位到定性碱基,则选择对应的候选基因组序列,根据选择的候选基因组序列重新计算当前indel区域所在read行的CIGAR信息和MD信息并记录以进行校正;否则,将当前indel区域的片段的突变修改为“Soft Clip”,并基于突变修改重新计算当前indel区域所在read行的CIGAR信息和MD信息以进行校正;跳转执行步骤2);
7)读取比对结果文件,针对判断比对结果文件是否被校正,如果未被校正则直接输出到输出文件,否则针对比对结果文件中被校正的read行将记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件;
步骤4)的详细步骤包括:
4.1)将当前indel区域的突变区域左右延伸第一预设长度个碱基得到扩展区域,提取参考基因组,判断最小重复单元的结束位置,如果重复单元在扩展区域内,则记录最小重复单元的结束位置,跳转执行步骤4.2);如果重复单元不在扩展区域内,则跳转执行步骤4.1)进行迭代;
4.2)在扩展区域左右延伸第二预设长度,得到待处理扩展区。
2.根据权利要求1所述的基于短序列比对的Indel区域校正方法,其特征在于,步骤1)的详细步骤包括:
1.1)读取比对结果文件并按read行输出到标准输出流;
1.2)以管道的形式遍历读取一个read行作为当前read行,如果读取成功则跳转执行步骤1.3),如果读取结束,则跳转执行步骤2);
1.3)获取当前read行对应的CIGAR信息,判断该CIGAR信息中是否包含“I”或者“D”标记,如果包含“I”或者“D”标记则判定当前read行包含插入或缺失,记录当前read行所有indel区域的突变区域信息;跳转执行步骤1.2)。
3.根据权利要求1所述的基于短序列比对的Indel区域校正方法,其特征在于,步骤4.1)中第一预设长度为当前indel区域的长度的n倍。
4.根据权利要求3所述的基于短序列比对的Indel区域校正方法,其特征在于,所述n的值为2。
5.根据权利要求1所述的基于短序列比对的Indel区域校正方法,其特征在于,步骤4.2)中第二预设长度的长度为8个碱基。
6.根据权利要求1所述的基于短序列比对的Indel区域校正方法,其特征在于,步骤5)的详细步骤包括:根据待处理扩展区提取参考基因序列,根据待处理扩展区提取相关比对结果,根据当前indel区域所在read行的CIGAR信息和MD信息构建候选基因组序列,保存该候选基因组序列与突变信息。
7.根据权利要求1所述的基于短序列比对的Indel区域校正方法,其特征在于,步骤7)的详细步骤包括:
7.1)读取比对结果文件并按read行输出到标准输出流;
7.2)以管道的形式遍历读取一个read行作为当前read行,如果读取成功则跳转执行步骤7.3),如果读取结束,则结束并退出
7.3)判断当前read行是否被校正,如果未被校正则直接输出到输出文件,否则将当前read行记录的CIGAR信息和MD信息替代该read行原始的CIGAR信息和MD信息,并将修改后的比对结果文件输出到输出文件;跳转执行步骤7.2)。
8.一种基于短序列比对的Indel区域校正系统,包括计算机设备,其特征在于:所述计算机设备被编程以执行权利要求1~7中任意一项所述基于短序列比对的Indel区域校正方法的步骤;或者所述计算机设备的存储介质中存储有被编程以执行权利要求1~7中任意一项所述基于短序列比对的Indel区域校正方法的计算机程序。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有被编程以执行权利要求1~7中任意一项所述基于短序列比对的Indel区域校正方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593542.9A CN109698011B (zh) | 2018-12-25 | 2018-12-25 | 基于短序列比对的Indel区域校正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593542.9A CN109698011B (zh) | 2018-12-25 | 2018-12-25 | 基于短序列比对的Indel区域校正方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109698011A CN109698011A (zh) | 2019-04-30 |
CN109698011B true CN109698011B (zh) | 2020-10-23 |
Family
ID=66232000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811593542.9A Active CN109698011B (zh) | 2018-12-25 | 2018-12-25 | 基于短序列比对的Indel区域校正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109698011B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397142B (zh) * | 2020-10-13 | 2023-02-03 | 山东大学 | 面向多核处理器的基因变异检测方法及系统 |
CN117079720B (zh) * | 2023-10-16 | 2024-01-30 | 北京诺禾致源科技股份有限公司 | 高通量测序数据的处理方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013043909A1 (en) * | 2011-09-20 | 2013-03-28 | Life Technologies Corporation | Systems and methods for identifying sequence variation |
CN103262086A (zh) * | 2010-10-11 | 2013-08-21 | 考利达基因组股份有限公司 | 识别被测序基因组中的重排 |
CN103617256A (zh) * | 2013-11-29 | 2014-03-05 | 北京诺禾致源生物信息科技有限公司 | 待变异检测文件的处理方法及装置 |
CN105243297A (zh) * | 2015-10-09 | 2016-01-13 | 人和未来生物科技(长沙)有限公司 | 一种参考基因组上基因序列片段的快速比对定位方法 |
CN107058551A (zh) * | 2017-05-04 | 2017-08-18 | 北京诺禾致源科技股份有限公司 | 检测微卫星位点不稳定性的方法及装置 |
CN107194204A (zh) * | 2017-05-22 | 2017-09-22 | 人和未来生物科技(长沙)有限公司 | 一种全基因组测序数据计算解读方法 |
CN107992721A (zh) * | 2017-11-10 | 2018-05-04 | 深圳裕策生物科技有限公司 | 用于检测目标区域基因融合的方法、装置和存储介质 |
CN108021789A (zh) * | 2017-12-16 | 2018-05-11 | 普瑞基准科技(北京)有限公司 | 一种鉴定体细胞突变的综合策略 |
CN108595915A (zh) * | 2018-04-16 | 2018-09-28 | 北京化工大学 | 一种基于dna变异检测的三代数据校正方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2118797A2 (en) * | 2007-02-05 | 2009-11-18 | Applied Biosystems, LLC | System and methods for indel identification using short read sequencing |
US20120203792A1 (en) * | 2011-02-01 | 2012-08-09 | Life Technologies Corporation | Systems and methods for mapping sequence reads |
-
2018
- 2018-12-25 CN CN201811593542.9A patent/CN109698011B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103262086A (zh) * | 2010-10-11 | 2013-08-21 | 考利达基因组股份有限公司 | 识别被测序基因组中的重排 |
WO2013043909A1 (en) * | 2011-09-20 | 2013-03-28 | Life Technologies Corporation | Systems and methods for identifying sequence variation |
CN103617256A (zh) * | 2013-11-29 | 2014-03-05 | 北京诺禾致源生物信息科技有限公司 | 待变异检测文件的处理方法及装置 |
CN105243297A (zh) * | 2015-10-09 | 2016-01-13 | 人和未来生物科技(长沙)有限公司 | 一种参考基因组上基因序列片段的快速比对定位方法 |
CN107058551A (zh) * | 2017-05-04 | 2017-08-18 | 北京诺禾致源科技股份有限公司 | 检测微卫星位点不稳定性的方法及装置 |
CN107194204A (zh) * | 2017-05-22 | 2017-09-22 | 人和未来生物科技(长沙)有限公司 | 一种全基因组测序数据计算解读方法 |
CN107992721A (zh) * | 2017-11-10 | 2018-05-04 | 深圳裕策生物科技有限公司 | 用于检测目标区域基因融合的方法、装置和存储介质 |
CN108021789A (zh) * | 2017-12-16 | 2018-05-11 | 普瑞基准科技(北京)有限公司 | 一种鉴定体细胞突变的综合策略 |
CN108595915A (zh) * | 2018-04-16 | 2018-09-28 | 北京化工大学 | 一种基于dna变异检测的三代数据校正方法 |
Non-Patent Citations (5)
Title |
---|
ABRA: improved coding indel detection via assembly-based realignment;Lisle E. Mose 等;《BIOINFORMATICS》;20140606;第30卷(第19期);第2813-2815页 * |
Dindel: Accurate indel calls from short-read data;Cornelis A. Albers 等;《Genome Research》;20110630;第21卷(第6期);第961-973页 * |
Integrating mapping-, assembly- and haplotype-based approaches for calling variants in clinical sequencing applications;Andy Rimmer 等;《Nat Genet》;20140713;第46卷(第8期);第912-918页 * |
Microindel detection in short-read sequence data;Peter Krawitz 等;《BIOINFORMATICS》;20100209;第26卷(第6期);第722-729页 * |
基因组水平的插入和缺失变异研究进展;张阁 等;《生命科学》;20100915;第22卷(第9期);第896-900页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109698011A (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109698011B (zh) | 基于短序列比对的Indel区域校正方法及系统 | |
CN110491441A (zh) | 一种模拟人群背景信息的基因测序数据仿真系统及方法 | |
JP2011176451A (ja) | 画像処理装置及びプログラム | |
JPH0830722A (ja) | 文書書式認識実行方法および装置 | |
CN111081318A (zh) | 一种融合基因检测方法、系统和介质 | |
JP2007086954A (ja) | 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム | |
CN104794371A (zh) | 检测逆转座子插入多态性的方法和装置 | |
CN107015952B (zh) | 一种后缀数组和最长公共前缀的正确性验证方法及系统 | |
JP4834351B2 (ja) | 文字認識装置及び文字認識方法 | |
CN108664767B (zh) | 测序建库的引物序列处理方法、装置、设备及存储介质 | |
JP2008226030A (ja) | 単語認識方法および単語認識プログラム | |
CN112397148A (zh) | 序列比对方法、序列校正方法及其装置 | |
CN112634988B (zh) | 基于Python语言的基因变异检测方法及系统 | |
JP5253788B2 (ja) | 画像認識装置、画像認識プログラムおよび画像認識方法 | |
KR100834602B1 (ko) | 문자 인식 장치 및 문자 인식 방법 | |
CN107590362B (zh) | 一种基于长读序测序判断重叠组装正误的方法 | |
JP2020047145A (ja) | 文字列認識装置および文字列認識方法 | |
JP3730073B2 (ja) | テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体 | |
CN112286712A (zh) | 基于唯一id的容错修复方法 | |
JP3090070B2 (ja) | 帳票識別方法及び装置 | |
JP6759955B2 (ja) | 地名抽出プログラム、地名抽出装置および地名抽出方法 | |
CN106210900B (zh) | 一种Web音视频播放器多段复读标记实现方法及系统 | |
Bogerd | A Method for Construction of a Splice Graph from RNA Sequence Data | |
CN117973334B (zh) | 基于文件表格的自动识别导入方法 | |
CN114496073B (zh) | 用于识别阳性重排的方法、计算设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 410000 No. 1101, C2 Building, Yuyuan, Lugu, 27 Wenxuan Road, Changsha High-tech Development Zone, Changsha City, Hunan Province Applicant after: Human and Future Biotechnology (Changsha) Co., Ltd. Address before: 410000 Building 1101, C2 Yuyuan, Lugu, No. 27 Wenxuan Road, Changsha High-tech Development Zone, Kaifu District, Changsha City, Hunan Province Applicant before: Human and Future Biotechnology (Changsha) Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |