CN108710784A

CN108710784A - 一种基因转录变异几率及变异方向的算法

Info

Publication number: CN108710784A
Application number: CN201810469702.2A
Authority: CN
Inventors: 邵莉; 佟艳辉; 李鹏
Original assignee: Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd
Current assignee: Zhongke Zheng Xing (shanghai) Medical Technology Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-10-26

Abstract

本发明公开了一种基因转录变异几率及变异方向的算法，海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战，若直接将短序列比对到参考序列上会出现两个问题，一个是映射过程中计算复杂需要很长时间，另一个是当read在参考序列上存在匹配时，read将会映射到其在参考序列的第一个匹配，这通常不是最佳匹配，为了解决以上两个问题，本发明先对滑窗方法产生的参考序列的seed集合进行构建哈希表，然后在比对时利用哈希表对read进行定位先对滑窗方法产生的参考序列的seed集合进行构建哈希表，由于参考序列信息量大，而哈希表耗内存，因此在创建哈希表的同时对序列进行了二进制压缩，使得内存占用大大减少。

Description

一种基因转录变异几率及变异方向的算法

技术领域

本发明涉及高通量测序的生物信息领域，具体是一种基因转录变异几率及变异方向的算法。

背景技术

随着高通量测序技术的诞生和迅猛发展，测序成本越来越低，通量越来越大，极大地促进了对生物信息学的研究，基于序列比对，对基因变异几率和方向有助于找到与疾病相关的一些位点，为后续的疾病病理确定，治疗方案探索有重要意义，但是海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战，若直接将短序列比对到参考序列上会出现两个问题，一个是映射过程中计算复杂需要很长时间，另一个是当read在参考序列上存在匹配时，read将会映射到其在参考序列的第一个匹配，这通常不是最佳匹配，为了解决以上两个问题，本发明先对滑窗方法产生的参考序列的seed集合进行构建哈希表，然后在比对时利用哈希表对read进行定位，由于参考序列信息量大，而哈希表创建耗内存，因此在创建哈希表的同时对序列进行了二进制压缩，使得内存占用大大减少，提高分析的速率，在InDel检测过程中同样存在两个问题，一个是高通量测序技术产生的read的长度很短，更不用说作为read的子序列的种子，因此一个seed在定位时往往会定位到参考序列的多个位置上，另一个是InDel在read上的分布是随机的，有时出现seed覆盖了InDel的位置，而使得seed错误地定位到参考序列上的某个位点，为了提升InDel检浉的正确性，本发明提出先对read采用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点，并且为了降低候选位点的假阳性，本发明引入supportNum，在后续的评估过程中基于supportNum设定域值，缩小了最终InDel候选集的范围。

发明内容

本发明的目的在于提供一种基因转录变异几率及变异方向的算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基因转录变异几率及变异方向的算法，操作步骤如下：

一.哈希表创建

哈希表(Hash table，也叫散列表)，是根据关键码值(Key value)而直接进行访问的数据结构，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度，这个映射函数叫做散列函数，存放记录的数组叫做散列表，具体步骤为：

第一步，为了方便后续处理，把参考序列读入一个一维字符数组file_buffer中，file_buffer全程都在内存中，如果参考序列中包含设定块，则跳过设定'块并且记录设定块的起始位置以及设定块的长度。

第二步，用滑窗方法对字符数组file_buffer中的每个碱基分别进行二进制压缩和seed构建，并且对seed进行哈希表构建。

二.模拟数据

为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响，需要已知所有变异的具体信息，包括变异的几率、方向以及所处基因组区域的特征，为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列，再利用模拟测序技术生成测序数据。

三.read定位

由于read相对于参考序列来说很短，直接将read比对到参考序列上时，会遇到过早定位到不正确的位点的情况，因此在进行比对之前，我们需要先对read进行定位，为后续的比对选出几个候选的比对位点，为read定位就需要用到构建好的哈希表，在read上选出长度为seed_length的一段连续子序列(seed)，先对子序列进行定位得到候选位置，read的长度很短，更不用说作为read的子序列的seed，因此一个seed在定位时往往会定位到参考序列上的多个位置上，造成定位结果不准确，并且本发明十对的是InDel数据，小的InDel在read上的分布是随机的，可能出现seed覆盖了InDel的位置，而使得seed错误地定位到参考序列上的某个位点，为了提升后续比对中检测InDel的正确性，减少InDel检测结果的假阴性，本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点。

四.短序列的比对算

针对高通量测序的数据特点，研究人员开发了一些基于短序列的比对算法，这些算法主要引入了Burrows-Wheeler转换法(Burrows-Wheeler Transform)或空位种子索引法(Spaced-Seed Indexing)来实现。

1.Burrows-Wheeler转换法

Burrows–Wheeler变换是一个被应用在数据压缩技术(如bzip2)中的算法，该算法于1994年被Michael Burrows和David Wheeler在位于加利福尼亚州帕洛阿尔托的DEC系统研究中心发明。它的基础是之前Wheeler在1983年发明的一种没有公开的转换方法，当一个字符串用该算法转换时，算法只改变这个字符串中字符的顺序而并不改变其字符。如果原字符串有几个出现多次的子串，那么转换过的字符串上就会有一些连续重复的字符，这对压缩是很有用的。该方法能使得基于处理字符串中连续重复字符的技术的编码更容易被压缩。

2.空位种子索引法(Spaced-Seed Indexing)

空位种子索引法首先对read进行切分，然后选取其中一段或几段作为种子建立索引，再通过查找索引和延展匹配来实现对read定位，同样也允许一定程度的错配。

3.InDelDetetion算法

输入:需要比对的read集合，read定位到参考序死上的位点集合position，哈希表hashTable，参考序列file_buffer。

输出:InD l_de ste ction数组，其中第二列记录read集合对立的InDel位置，第一列记录InDel的supportNum。

五.结果评估

目前很多生物信息学的重要刊物都要求通过真实数据实验和模拟数据实验来对InDel检测方法进行评价，其中对真实数据的InDel检测的基本流程包括:

1.对个体基因组进行测序得到相应的测序片段。

2.将前一步骤中生成的测序片段比对到参考基因组上。

3.在比对结果中寻找异常并进行分析判断InDel。

由于当前还不存在一个具有完整变异注释的个体基因组，因此对真实数据的实验并不能实现对InDel检测方法的评价，所以对于InDel检测方法的评价还需要依赖于模拟数据实验，基于模拟数据的InDel检测及评价的基本流程包括:1)构造一个包含InDel的个体基因组，并且记录InDel位点信息；2)对个体基因组进行模拟测序生成测序片段；3)将测序片段比对到参考基因组上得到比对结果，记录实验检沙到的InDel位点；4)第1步聚中的InDel位点信息与第3步骤中检测到的InDel位点信息进行比较，基于评价指标得到InDel检河方法的性能评价。

六.最优F值

选择Inde1检测软件，模拟染色体变异和序列。利用工具进行Inde1检测，计算每两个软件的联合的F值，通过最优的F值建立一个最优选择的规则。

七.深入学习与探讨

最优F值的方法是基于软件的一致结果，因而会舍弃仅由单个软件检测到的Inde1，而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20％，全部舍弃严重影响回收率。为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性，本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果，我们以所有原始数据为训练集，以检测Inde1的所用软件，Inde1的类型，Inde1所处重复序列类型，支持Inde1检测结果的读段数量(覆盖度)为训练特征，准确率和召回率为训练目标。利用训练集我们可以训练得到一个使回收率和召回率尽可能高的模型。

附图说明

图1为一种基因转录变异几率及变异方向的算法中基因变异信息获取流程图。

图2为一种基因转录变异几率及变异方向的算法中比对InDel检测算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～2，本发明实施例中，一种基因转录变异几率及变异方向的算法，步骤如下：

一.哈希表创建

二.模拟数据

三.read定位

由于read相对于参考序列来说很短，直接将read比对到参考序列上时，会遇到过早定位到不正确的位点的情况，因此在进行比对之前，我们需要先对read进行定位，为后续的比对选出几个候选的比对位点，为read定位就需要用到构建好的哈希表，在read上选出长度为seed_length的一段连续子序列(seed)，先对子序列进行定位得到候选位置，read的长度很短，更不用说作为read的子序列的seed，因此一个seed在定位时往往会定位到参考序列上的多个位置上，造成定位结果不准确，并且本发明十对的是InDel数据，小的InDel在read上的分布是随机的，可能出现seed覆盖了InDel的位置，而使得seed错误地定位到参考序列上的某个位点，为了提升后续比对中检测InDel的正确性，减少InDel检测结果的假阴性，本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点，基于以上讨论，本发明设计的定位算法Location：

输入:需要比对的read，哈希表hashTable输出:read定位到参考序列上的位置集合。

1.对read用滑窗法找出所有的长度seed_length的子序列，并且分别对这些子序列进行进制压缩成seed，得到一个seed集合U₂＝{U₁*U₂...U}(n≥0)，n为集合中seed的个数。

2.对seed集合2中的每一个元素U_i(1≤i≤n)，搜索哈希表hashTable，如果存在键值为U_i；的项，则读取该项对应的在参考序列上的位点，对于每一个U_i，得到的位点集合为position_i＝{p'，..，p，"}，m为U_i，对应位点集合中元素个数。

3.read在参考序列上定位的候选位点为每个seed对应位点集合的集合position＝{position₁，position₂，...position_n，}。

四.短序列的比对算

1.Burrows-Wheeler转换法

2.空位种子索引法(Spaced-Seed Indexing)

3.InDelDetetion算法

五.结果评估

1.对个体基因组进行测序得到相应的测序片段。

2.将前一步骤中生成的测序片段比对到参考基因组上。

3.在比对结果中寻找异常并进行分析判断InDel。

六.最优F值

七.深入学习与探讨

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基因转录变异几率及变异方向的算法，其特征在于，操作步骤如下：

一.哈希表创建：

哈希表是根据关键码值而直接进行访问的数据结构，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度，这个映射函数叫做散列函数，存放记录的数组叫做散列表；

二.模拟数据：

为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响，需要已知所有变异的具体信息，包括变异的几率、方向以及所处基因组区域的特征，为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列，再利用模拟测序技术生成测序数据；

三.read定位：

由于read相对于参考序列来说很短，直接将read比对到参考序列上时，会遇到过早定位到不正确的位点的情况，因此在进行比对之前，我们需要先对read进行定位，为后续的比对选出几个候选的比对位点，为read定位就需要用到构建好的哈希表，在read上选出长度为seed_length的一段连续子序列(seed)，先对子序列进行定位得到候选位置，read的长度很短，更不用说作为read的子序列的seed，因此一个seed在定位时往往会定位到参考序列上的多个位置上，造成定位结果不准确，并且本发明十对的是InDel数据，小的InDel在read上的分布是随机的，有时会出现seed覆盖了InDel的位置，而使得seed错误地定位到参考序列上的某个位点，为了提升后续比对中检测InDel的正确性，减少InDel检测结果的假阴性，本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点；

四.短序列的比对算：

针对高通量测序的数据特点，研究人员开发了一些基于短序列的比对算法，这些算法主要引入了Burrows-Wheeler转换法(Burrows-Wheeler Transform)或空位种子索引法(Spaced-Seed Indexing)来实现；

五.结果评估：

(1)对个体基因组进行测序得到相应的测序片段；

(2)将前一步骤中生成的测序片段比对到参考基因组上；

(3)在比对结果中寻找异常并进行分析判断InDel；

六.最优F值

选择Inde1检测软件，模拟染色体变异和序列，利用工具进行Inde1检测，计算每两个软件的联合的F值，通过最优的F值建立一个最优选择的规则；

七.深入学习与探讨

最优F值的方法是基于软件的一致结果，因而会舍弃仅由单个软件检测到的Inde1，而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20％，全部舍弃严重影响回收率，为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性，本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果，我们以所有原始数据为训练集，以检测Inde1的所用软件，Inde1的类型，Inde1所处重复序列类型，支持Inde1检测结果的读段数量为训练特征，准确率和召回率为训练目标，利用训练集我们可以训练得到一个使回收率和召回率尽量高的模型。