CN117935921A - 确定缺失/重复类型的方法、设备、介质和程序产品 - Google Patents
确定缺失/重复类型的方法、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN117935921A CN117935921A CN202410330737.3A CN202410330737A CN117935921A CN 117935921 A CN117935921 A CN 117935921A CN 202410330737 A CN202410330737 A CN 202410330737A CN 117935921 A CN117935921 A CN 117935921A
- Authority
- CN
- China
- Prior art keywords
- deletion
- sequence
- type
- segment
- duplication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012217 deletion Methods 0.000 title claims abstract description 373
- 230000037430 deletion Effects 0.000 title claims abstract description 373
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000012634 fragment Substances 0.000 claims abstract description 141
- 238000012163 sequencing technique Methods 0.000 claims abstract description 40
- 230000003321 amplification Effects 0.000 claims abstract description 34
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 9
- 101150036080 at gene Proteins 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 108090000623 proteins and genes Proteins 0.000 description 16
- 230000007812 deficiency Effects 0.000 description 6
- 238000007671 third-generation sequencing Methods 0.000 description 6
- 230000002730 additional effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 101150116759 HBA2 gene Proteins 0.000 description 3
- 101150052743 Hba1 gene Proteins 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 101001009007 Homo sapiens Hemoglobin subunit alpha Proteins 0.000 description 2
- 101001063456 Homo sapiens Leucine-rich repeat-containing G-protein coupled receptor 5 Proteins 0.000 description 2
- 102100031036 Leucine-rich repeat-containing G-protein coupled receptor 5 Human genes 0.000 description 2
- 208000002903 Thalassemia Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000003753 real-time PCR Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 206010000021 21-hydroxylase deficiency Diseases 0.000 description 1
- 101150110011 CYP21A2 gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 102100027685 Hemoglobin subunit alpha Human genes 0.000 description 1
- 241000839309 Thesea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种确定缺失/重复类型的方法、设备、介质和程序产品。该方法包括:获取待测样本的目标片段内的测序序列数据,测序序列数据指示目标片段的测序序列;基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段;获取目标片段内的参考缺失/重复类型的序列的区段,参考缺失/重复类型的序列至少包括目标片段内的已知缺失/重复类型的序列;确定读长区段与参考缺失/重复类型的序列的区段的相似度数据;以及基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。本发明针对扩增偏好的基因检测数据,可以准确确定缺失/重复的类型。
Description
技术领域
本发明总体上涉及生物信息处理,并且具体地,涉及用于确定目标片段缺失/重复类型的方法、计算设备和计算机存储介质和计算机程序产品。
背景技术
某些致病基因存在多种缺失/重复类型,不同缺失/重复类型会引起不同程度的表型,比如地中海贫血(简称“地贫”)HBA2和HBA1基因有几百种缺失类型,常见的东南亚型(--SEA)、右侧缺失型(-α3.7)、左侧缺失型(-α4.2)、ααα3.7、ααα4.2等类型。再例如,与21羟化酶缺乏症相关的CYP21A2基因,CH-4和CH-9缺失类型会导致单纯男性化表型,CH-6、CH-1等其他缺失类型会导致失盐型表型。所以对于某些基因进行准确的缺失/重复类型分类至关重要。
传统的用于确定目标片段缺失/重复类型的方法例如包括:基于跨越断裂点PCR(GAP-PCR)的方法、实时PCR的方法、以及针对目标片段的序列进行扩增和基因测序的方法等等。其中,基于GAP-PCR的方法只能检测已知缺失/重复类型,并且会混淆部分类型。实时PCR的方法只能确定是否存在缺失/重复,无法细分缺失/重复的类型。而在针对目标片段的序列进行扩增和基因测序的方法中,由于扩增偏好的基因检测数据导致对检测结果的干扰影响较大,因此,难以准确检索目标片段的缺失/重复的类型。
综上,传统的用于确定目标片段缺失/重复类型的方法所存在的不足在于:针对扩增偏好的基因检测数据,难以准确确定缺失/重复的类型。
发明内容
本发明提供一种用于确定目标片段缺失/重复类型的方法、计算设备、计算机存储介质、计算机程序产品,即便针对扩增偏好的基因检测数据,其也能够准确确定缺失/重复的类型。
根据本发明的第一方面,提供了一种用于确定目标片段缺失/重复类型的方法。该方法包括:获取待测样本的目标片段内的测序序列数据,测序序列数据指示目标片段的测序序列;基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段;获取目标片段内的参考缺失/重复类型的序列的区段,参考缺失/重复类型的序列至少包括目标片段内的已知缺失/重复类型的序列;确定读长区段与参考缺失/重复类型的序列的区段的相似度数据;以及基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。根据本发明的第二方面,还提供了一种计算设备,该设备包括:存储器,被配置为存储一个或多个计算机程序;以及处理器,耦合至存储器并且被配置为执行一个或多个程序使装置执行本发明的第一方面的方法。
根据本发明的第三方面,还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令,该机器可执行指令在被执行时使机器执行本发明的第一方面的方法。
根据本发明的第四方面,还提供了一种计算机程序产品,其特征在于包括计算机程序,计算机程序被机器执行时执行本发明的第一方面的方法。
在一些实施例中,参考缺失/重复类型的序列还包括未知缺失/重复类型的序列,获取目标片段内的参考缺失/重复类型的序列的区段包括:获取预定数据库的目标片段内的参考缺失/重复类型的序列;以及基于所获取的参考缺失/重复类型的序列的缺失/重复在人类参考基因组上的坐标信息、以及缺失/重复所对应的扩增引物的扩增区域的坐标信息,确定参考缺失/重复类型的序列的区段。
在一些实施例中,确定参考缺失/重复类型的序列的区段包括:确定参考缺失/重复类型的序列是否存在缺失区域或者重复区域;响应于确定参考缺失/重复类型的序列存在缺失区域,基于参考缺失/重复类型的缺失区域所对应的扩增引物的扩增区域的起始坐标和缺失区域的起始坐标,确定参考缺失/重复类型的序列的第一区段;以及基于缺失区域的终止坐标和扩增区域的终止坐标,确定参考缺失/重复类型的序列的第二区段;响应于确定参考缺失/重复类型的序列存在重复区域,基于参考缺失/重复类型的重复区域所对应的扩增区域的起始坐标信息和重复区域的终止坐标信息,确定参考缺失/重复类型的序列的第一区段;以及基于重复区域的起始坐标信息和扩增区域的终止坐标信息,确定参考缺失/重复类型的序列的第二区段。
在一些实施例中,确定读长区段与参考缺失/重复类型的序列的区段的相似度数据包括:比较目标片段内比对上的序列的读长区段的数目和参考缺失/重复类型的序列的区段的数目;以及基于比较结果和读长区段的数目的取值,在用于计算相似度数据的第一计算函数和第二计算函数中选择一种计算函数,以用于计算相似度数据,第一计算函数不同于第二计算函数。
在一些实施例中,在用于计算相似度数据的第一计算函数和第二计算函数中选择一种计算函数以用于计算相似度数据包括:如果读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目为1,选择第一计算函数来计算相似度数据,第一计算函数是基于读长区段与参考缺失/重复类型的序列的区段的重叠长度、以及参考缺失/重复类型的序列长度而构建的;如果读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目大于1,则选择第二计算函数来计算相似度数据,第二计算函数是基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考缺失/重复类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标而构建的;以及如果目标片段内比对上的读长区段的数目和参考缺失/重复类型的序列区段的数目不相等,则确定相似度数据为预定值。
在一些实施例中,选择第一计算函数来计算相似度数据包括:计算读长区段占参考缺失/重复类型的序列长度的比值;将比值减去第一预定阈值,以获得差值;以及将差值除以第二预定阈值,以便获得相似度数据。
在一些实施例中,基于所计算的相似度数据,确定待测样本的目标片段内的缺失/重复的目标类型包括:基于所计算的相似度数据,确定目标片段内的多个候选缺失/重复类型;统计多个候选缺失/重复类型中的每个候选缺失/重复类型的序列的序列数目和序列占比;针对多个候选缺失/重复类型过滤以下各项,以便过滤扩增背景:序列长度短于相同引物扩增出来的其他缺失/重复类型的序列长度的缺失/重复类型;序列数目小于预定数目阈值的缺失/重复类型;以及序列占比小于预定占比阈值的缺失/重复类型;基于经由过滤扩增背景之后所留下的候选缺失/重复类型,确定待测样本的目标片段内的目标缺失/重复类型。
在一些实施例中,确定待测样本的目标片段内的缺失/重复的目标类型包括:响应于确定目标片段下的读长片段与当前参考缺失/重复类型的序列的片段之间的相似度数据最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于该最大相似度数据所对应的当前参考缺失/重复类型,参考缺失/重复类型包括预定数据库内的目标片段内的多个已知缺失/重复类型和一个或多个未知缺失/重复类型;响应于确定目标片段下的读长片段与所有参考缺失/重复类型的序列的片段之间的相似度数据均非最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于新的缺失/重复类型;以及将所确定新的缺失/重复类型加入到预定数据库所包括的未知缺失/重复类型中。
在一些实施例中,确定目标片段内比对上的序列的读长区段包括:确定目标片段内比对上的序列比对到人类参考基因组上不同位置的读长区段的数目;以及确定每个读长区段在人类参考基因组上的起始坐标和终止坐标,以及确定每个读长区段在比对上的序列上的起始坐标和终止坐标。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本发明的关键特征或主要特征,也无意限制本发明的范围。
附图说明
图1示出了几种不同类型的缺失/重复类型的示意图。
图2示出了根据本发明的实施例的用于实施确定目标片段缺失/重复类型的方法的系统的示意图。
图3示出了根据本发明的实施例的用于确定目标片段缺失/重复类型的方法的流程图。
图4示出了根据本发明的实施例的用于确定待测样本的目标片段内的目标缺失/重复类型的方法的流程图。
图5示出了根据本发明的实施例的用于确定参考缺失/重复类型的序列的区段的方法的流程图。
图6示出了根据本发明的实施例的用于确定读长区段与参考缺失/重复类型的序列的区段的相似度数据的方法的流程图。
图7示出了根据本发明的实施例的用于确定相似度数据的方法的示意图。
图8示意性示出了适于用来实现本发明实施例的电子设备的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施例。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
如前文所描述,在传统的用于确定目标片段缺失/重复类型的方案(例如,在针对目标片段的序列进行扩增和基因测序的方法)中,首先将目标片段的序列进行扩增,然后进行基因测序以便检测重复/缺失类型等变异结构。应当理解,如果待测目标片段例如包括同源基因HBA2基因和HBA1基因。进一步的,如果同源区域发生在重复/缺失,需要将其比对至参考基因组,以便确定断点位置。如果关于目标片段的测序结果包括几百至几千条读长(reads),对于同源区域,尽管实际生重复/缺失的位置是相同的。实践中,基于比对结果所确定的这些读长的断点位置存在或多或少的差异或者不对齐,这种断点位置差异或者不对齐如果依据传统的检测方法,容易被识别为不同的重复/缺失。另外,有些情形的断点情况较为复杂,由于对于大片段重复/缺失等结构变异的注释软件比较缺乏,因此容易导致不能准确识别缺失/重复类型。
以下结合图1示例性说明传统的确定目标片段缺失/重复类型的方法。图1示出了几种不同类型的缺失/重复类型的示意图。如图1所示,标记110例如指示的是野生型的片段。标记112例如指示的是地贫-a3.7缺失型,其中缺失的位置如虚线114所指示。标记116例如指示的是三联体ααα4.2,其发生了重复。标记118例如指示的是四联体αααα3.7,其发生了两次重复。应当理解,对于标记112所指示的地贫-a3.7缺失型而言,其断点位置较容易准确判断。而对于标记116所指示的三联体ααα4.2和标记118所指示的四联体αααα3.7而言,其存在多个断点,并且断点位置较为复杂,因此,传统的、基于所检测断点确切位置而无法冗余断点位置附近波动的确定目标片段的缺失/重复类型的方法所存在的不足在于:无法准确确定缺失/重复的类型,因此造成关于目标片段缺失/重复的检测性能欠佳。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本发明的示例实施例提出了一种用于确定目标片段缺失/重复类型的方案,通过基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段;以及获取目标片段内的参考缺失/重复类型(至少包括已知缺失/重复类型)的序列的区段;并且通过确定读长区段与参考缺失/重复类型的序列的区段的相似度数据,以及基于所计算的相似度数据来确定待测样本的目标片段内的缺失/重复的类型,本发明可以利用对比上的序列的读长区段而非断点位置来表征对比上的读长特点,避免了传统方法中因同源区域发生重复/缺失的断点位置不对齐、以及断点位置较为复杂等原因而对缺失/重复类型判断的准确性带来的影响,因此,本发明即便针对扩增偏好的基因检测数据,也能够准确确定缺失/重复的类型。
图2示出了根据本发明的实施例的用于实施确定目标片段缺失/重复类型的方法的系统200的示意图。如图2所示,系统200包括:测序设备230、计算设备220。在一些实施例中,系统200还包括:服务器240。计算设备220可以通过有线或者无线的方式(例如网络)与测序设备230、服务器240进行数据交互。
关于测序设备230,其用于针对待测样本进行测序,以便生成目标片段内的测序序列数据。在一些实施例中,测序设备230例如是基于第三代测序技术的测序设备。测序设备230例如而不限于是基于Pacific Biosciences (PacBio)公司开发的测序仪使用单分子实时(SMRT)测序技术。
关于服务器240,其例如用于提供关于参考缺失/重复类型的序列的信息。例如,提供文献已报道的在目标片段内有缺失/重复且有人类基因组坐标信息的缺失/重复类型的三代测序序列信息,以及提供文献未报道的目标片段内的缺失/重复类型的三代测序序列信息。
关于计算设备220,其用于确定目标片段缺失/重复类型。具体而言,计算设备220用于获取待测样本的目标片段内的测序序列数据;以及确定目标片段内比对上的序列的读长区段;以及获取目标片段内的参考缺失/重复类型的序列的区段。另外,计算设备220还用于确定读长区段与参考缺失/重复类型的序列的区段的相似度数据;以及基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。在一些实施例中,计算设备220可以具有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。
在一些实施例中,计算设备220包括:测序序列数据获取模块202、比对上的序列的读长区段确定模块204、参考缺失/重复类型的序列的区段获取模块206、相似度数据确定模块208、目标缺失/重复类型确定模块210。
关于测序序列数据获取模块202,其用于获取待测样本的目标片段内的测序序列数据,测序序列数据指示目标片段的测序序列。
关于比对上的序列的读长区段确定模块204,其用于基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段。
关于参考缺失/重复类型的序列的区段获取模块206,其用于获取目标片段内的参考缺失/重复类型的序列的区段,参考缺失/重复类型的序列至少包括目标片段内的已知缺失/重复类型的序列。
关于相似度数据确定模块208,其用于确定读长区段与参考缺失/重复类型的序列的区段的相似度数据。
关于目标缺失/重复类型确定模块210,其用于基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。
以下将结合图3和图7描述根据本发明的实施例的用于确定目标片段缺失/重复类型的方法300。图3示出了根据本发明的实施例的用于确定目标片段缺失/重复类型的方法300的流程图。图7示出了根据本发明的实施例的用于确定相似度数据的方法的示意图。应当理解,方法300例如可以在图8所描述的电子设备800处执行。也可以在图2所描述的计算设备220处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
在步骤302处,计算设备220获取待测样本的目标片段内的测序序列数据,测序序列数据指示目标片段的测序序列。
关于待测样本的目标片段内的测序序列数据,其例如而不限于是经由第三代测序技术获得的待测目标片段的三代测序序列数据。待测样本目标片段内的测序序列数据所指示的是针对经由一对或多对引物扩增或捕获而获得的目标片段进行第三代测序而生成的三代测序序列。
关于目标片段,其例如是关于待测基因的目标片段。在一些实施例中,待测基因例如包括HBA2基因和HBA1基因。应当理解,待测基因也可以是其他基因。
在步骤304处,计算设备220基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段。
关于确定读长区段的方法,其例如包括:确定目标片段内比对上的序列比对到人类参考基因组上不同位置的读长区段的数目(即,segments的数目);以及确定每个读长区段在人类参考基因组上的起始坐标和终止坐标,以及确定每个读长区段在比对上的序列上的起始坐标和终止坐标。
例如,关于待测目标片段的测序序列比对到了人类参考基因组的两个区域,第一个区域为chr16:168000-173301,第二个区域为chr16:177106-180000,则确定存在目标片段内的、两个比对上的读长区段,第一个比对上的读长区段对应于比对上的第一个区域,即chr16:168000-173301,第二个比对上的读长区段对应于比对上的第二个区域,即chr16:177106-180000。
在步骤306处,计算设备220 获取目标片段内的参考缺失/重复类型的序列的区段,参考缺失/重复类型的序列至少包括目标片段内的已知缺失/重复类型的序列。在一些实施例中,参考缺失/重复类型包括预定数据库内的目标片段内的多个已知缺失/重复类型和一个或多个未知缺失/重复类型。
关于目标片段内的多个已知缺失/重复类型,其例如而不限于是指文献已报道的在目标片段内有缺失/重复且有人类基因组坐标信息的缺失/重复类型。
关于目标片段内的未知缺失/重复类型的序列,其例如而不限于是指文献未报道的目标片段内的缺失/重复类型。
关于获取目标片段内的参考缺失/重复类型的序列的区段的方式,其例如是:计算设备220获取预定数据库的目标片段内的参考缺失/重复类型的序列;以及基于所获取的参考缺失/重复类型的序列的缺失/重复在人类参考基因组上的坐标信息、以及缺失/重复所对应的扩增引物的扩增区域的坐标信息,确定参考缺失/重复类型的序列的区段。
具体而言,计算设备220确定参考缺失/重复类型的序列是否存在缺失区域或者重复区域;响应于确定参考缺失/重复类型的序列存在缺失区域,基于参考缺失/重复类型的缺失区域所对应的扩增引物的扩增区域的起始坐标和缺失区域的起始坐标,确定参考缺失/重复类型的序列的第一区段;以及基于缺失区域的终止坐标和扩增区域的终止坐标,确定参考缺失/重复类型的序列的第二区段;响应于确定参考缺失/重复类型的序列存在重复区域,基于参考缺失/重复类型的重复区域所对应的扩增区域的起始坐标信息和重复区域的终止坐标信息,确定参考缺失/重复类型的序列的第一区段;以及基于重复区域的起始坐标信息和扩增区域的终止坐标信息,确定参考缺失/重复类型的序列的第二区段。
例如,所获取的HBA2基因和HBA1基因的已知的地贫-a3.7缺失类型的序列在人类参考基因组HG38上的坐标信息为chr16:173302-177105,该已知类型的缺失的对应扩增引物的扩增区域坐标信息为chr16:168000-180000。已知的地贫-a3.7缺失类型的序列的第一个区段(segment)为扩增区域的起始坐标到缺失区域的起始坐标,即chr16:168000-173301;已知的地贫-a3.7缺失类型的序列的第二个区段为缺失区域的终止坐标到扩增区域的终止坐标,即chr16:177106-180000。
在一些实施例中,获取目标片段内的参考缺失/重复类型的序列的区段的方法还包括:确定参考缺失/重复类型的序列比对到人类参考基因组上不同位置的区段的数目;确定每个区段在人类参考基因组上的起始坐标和终止坐标,以及确定每个区段在参考缺失/重复类型的序列上的起始坐标和终止坐标。
在步骤308处,计算设备220 确定读长区段与参考缺失/重复类型的序列的区段的相似度数据。例如,计算设备220 依次确定读长区段与预定数据库中目标片段下的每一个参考缺失/重复类型的序列的区段的相似度数据。
关于计算相似度数据的方式,其例如包括:计算设备220比较目标片段内比对上的序列的读长区段的数目和参考缺失/重复类型的序列的区段的数目;以及基于比较结果和读长区段的数目的取值,在用于计算相似度数据的第一计算函数和第二计算函数中选择一种计算函数,以用于计算相似度数据,第一计算函数不同于第二计算函数。应当理解,目标片段内比对上的序列的读长区段有可能不存在缺失也可能存在缺失。例如,当读长区段的数目为1时,此种情况下,目标片段内比对上的序列仅有一段读长片段,其不存在缺失,则其计算相似度数据的方式需要有别于存在缺失情形的相似度数据计算方式。例如,当读长区段的数目为1时,需要关注其相对于参考缺失/重复类型的序列的重叠区段的情况。应当理解,通过采用上述手段,本发明可以适用于多种不同缺失/重复类型的准确确定。
具体而言,如果计算设备220确定读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目为1,选择第一计算函数来计算相似度数据,第一计算函数是基于读长区段与参考缺失/重复类型的序列的区段的重叠长度、以及参考缺失/重复类型的序列长度而构建的; 如果计算设备220确定读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目大于1,则选择第二计算函数来计算相似度数据,第二计算函数是基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考缺失/重复类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标而构建的;以及如果目标片段内比对上的读长区段的数目和参考缺失/重复类型的序列区段的数目不相等,则确定相似度数据为预定值。
关于选择第一计算函数来计算相似度数据的方式,其包括:计算设备220计算读长区段占参考缺失/重复类型的序列长度的比值;将比值减去第一预定阈值,以获得差值;以及将差值除以第二预定阈值,以便获得相似度数据。
以下结合公式(1)来示例第一计算函数的算法。公式(1)所示例的第一计算函数是基于读长区段与序列的区段的重叠长度相对于参考重复/缺失类型的序列长度的占比而构建的。
在上述公式(1)中,代表读长区段与参考缺失/重复类型的序列的区段的重叠长度。/>代表参考重复/缺失类型的序列长度。/>代表所计算的相似度数据。0.9代表第一预定阈值,0.1代表第二预定阈值。应当理解,公式(1)仅是示例,第一预定阈值和第二预定阈值可以根据不同的基因或者待测目标片段而进行调整。
以下结合公式(2)和(3)来示例基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考重复/缺失类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标所构建的第二计算函数的算法。
在上述公式(2)和(3)中,其中,代表区段的数目。/>代表区段的序号。/>代表参考重复/缺失类型的序列的第/>个片段在人类参考基因组上的起始坐标。/>代表比对上的序列的第/>个读长区段在人类参考基因组上的起始坐标。/>代表参考重复/缺失类型的序列的第/>个片段在人类参考基因组上的终止坐标,/>代表比对上的序列的第/>个读长区段在人类参考基因组上的终止坐标。公式(2)中的/>代表与区段序号相关的函数变量。/>代表与区段的数目和区段的序号相关的函数变量。/>和/>根据公式(3)所示的函数计算。/>代表所计算的相似度数据。
下文将结合图6和图7进一步说明计算相似度数据的方法400,在此,不再赘述。
在步骤310处,计算设备220基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。
关于确定待测样本的目标片段内的目标缺失/重复类型的方式,其例如包括:计算设备220基于所计算的相似度数据,确定目标片段内的多个候选缺失/重复类型;统计多个候选缺失/重复类型中的每个候选缺失/重复类型的序列的序列数目和序列占比;针对多个候选缺失/重复类型过滤以下各项,以便过滤扩增背景:序列长度短于相同引物扩增出来的其他缺失/重复类型的序列长度的缺失/重复类型;序列数目小于预定数目阈值的缺失/重复类型;以及序列占比小于预定占比阈值的缺失/重复类型;基于经由过滤扩增背景之后所留下的候选缺失/重复类型,确定待测样本的目标片段内的目标缺失/重复类型。
例如,基于所计算的相似度数据而确定的多个候选缺失/重复类型包括:-SEA缺失类型、αα类型、-α3.7缺失类型、-α4.2缺失类型和一个未知类型。其中,-SEA缺失类型的序列占比为70%,αα类型的序列占比为15%,-α3.7缺失类型的序列占比为10%,-α4.2缺失类型的序列占比为4.5%;所检出的一个未知类型的序列占比为0.5%。
由于-α3.7缺失类型、-α4.2缺失类型和αα类型都是相同引物扩增出来,并且-α3.7缺失类型、-α4.2缺失类型的序列长度小于αα类型的序列长度,并且在当前待测样本中,-α3.7缺失、-α4.2缺失类型的序列占比小于αα类型的序列占比,因此,确定-α3.7缺失类型、-α4.2缺失类型属于扩增背景,另外,所检出的一个未知类型的序列占比为0.5%,小于预定占比阈值,因此,也被确定应被过滤的背景。针对被确定为扩增背景的候选缺失/重复类型(即,-α3.7缺失类型、-α4.2缺失类型、所检出的一个未知类型)进行过滤。经由上述过滤扩增背景之后所留下的候选缺失/重复类型为-SEA缺失类型、αα类型。因此,确定待测样本的目标片段内的目标缺失/重复类型为-SEA缺失类型、αα类型。
在上述方案中,通过基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段;以及获取目标片段内的参考缺失/重复类型(至少包括已知缺失/重复类型)的序列的区段;并且通过确定读长区段与参考缺失/重复类型的序列的区段的相似度数据,以及基于所计算的相似度数据来确定待测样本的目标片段内的缺失/重复的类型,本发明可以利用对比上的序列的读长区段而非断点位置来表征对比上的读长特点,避免了传统方法中因同源区域发生重复/缺失的断点位置不对齐、以及断点位置较为复杂等原因而对缺失/重复类型判断的准确性带来的影响,因此,本发明即便针对扩增偏好的基因检测数据,也能够准确确定缺失/重复的类型。
以下将结合图4描述根据本发明的实施例的用于确定待测样本的目标片段内的目标缺失/重复类型的方法400。图4示出了根据本发明的实施例的用于确定待测样本的目标片段内的目标缺失/重复类型的方法400的流程图。应当理解,方法400例如可以在图8所描述的电子设备800处执行。也可以在图2所描述的计算设备220处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
在步骤402处,如果计算设备220确定目标片段下的读长片段与当前参考缺失/重复类型的序列的片段之间的相似度数据最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于该最大相似度数据所对应的当前参考缺失/重复类型,参考缺失/重复类型包括预定数据库内的目标片段内的多个已知缺失/重复类型和一个或多个未知缺失/重复类型。
例如,参考缺失/重复类型包括预定数据库内的目标片段内的多个已知缺失/重复类型和一个或多个未知缺失/重复类型。如果计算设备220确定目标片段下的比对上的序列的读长片段与当前已知缺失/重复类型的序列的片段之间的相似度数据最大,并且相似度数据大于或等于预定相似度阈值,则确定目标片段下的比对上的序列属于该最大相似度数据所对应的当前已知缺失/重复类型;如果计算设备220确定目标片段下的比对上序列的读长片段与当前未知缺失/重复类型的序列的片段之间的相似度数据最大,并且相似度数据大于或等于预定相似度阈值,则确定目标片段下的比对上的序列属于该最大相似度数据所对应的当前未知缺失/重复类型。
在步骤404处,如果计算设备220确定目标片段下的读长片段与所有参考缺失/重复类型的序列的片段之间的相似度数据均非最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于新的缺失/重复类型。
例如,如果计算设备220确定目标片段下的比对上的序列的读长片段与预定数据库中的所有已知缺失/重复类型的序列的片段之间的相似度数据均非最大,并且与预定数据库中的所有未知缺失/重复类型的序列的片段之间的相似度数据也均非最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于新的缺失/重复类型。
在步骤406处,如计算设备220将所确定新的缺失/重复类型加入到预定数据库所包括的未知缺失/重复类型中。
通过采用上述手段,本发明不仅可以准确确定目标片段的缺失/重复类型,而且能够针对数据库中未曾收录的类似的缺失/重复类型进行聚类,进而有利于发现潜在的全新的缺失/重复类型。
以下将结合图5描述根据本发明的实施例的用于确定参考缺失/重复类型的序列的区段的方法500。图5示出了根据本发明的实施例的用于确定参考缺失/重复类型的序列的区段的方法500的流程图。应当理解,方法500例如可以在图8所描述的电子设备800处执行。也可以在图2所描述的计算设备220处执行。应当理解,方法500还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
在步骤502处,计算设备220确定参考缺失/重复类型的序列是否存在缺失区域或者重复区域。
在步骤504处,如果计算设备220确定参考缺失/重复类型的序列存在缺失区域,基于参考缺失/重复类型的缺失区域所对应的扩增引物的扩增区域的起始坐标和缺失区域的起始坐标,确定参考缺失/重复类型的序列的第一区段。
例如,如果确定参考缺失/重复类型的序列存在缺失区域,将从上游引物在人类参考基因组上的起始坐标到缺失区域在人类参考基因组上的起始坐标之间的区域确定为参考缺失/重复类型的序列的第一个区段。
在步骤506处,计算设备220基于缺失区域的终止坐标和扩增区域的终止坐标,确定参考缺失/重复类型的序列的第二区段。
例如,如果确定参考缺失/重复类型的序列存在缺失区域,将从缺失区域在人类参考基因组上的终止坐标到下游引物在人类参考基因组上的终止坐标之间的区域确定为参考缺失/重复类型的序列的第二个区段。
在步骤508处,如果计算设备220确定参考缺失/重复类型的序列存在重复区域,基于参考缺失/重复类型的重复区域所对应的扩增区域的起始坐标信息和重复区域的终止坐标信息,确定参考缺失/重复类型的序列的第一区段。
例如,如果确定参考缺失/重复类型的序列存在重复区域,将从上游引物在人类参考基因组上的起始坐标到重复区域在人类参考基因组上的终止坐标之间的区域确定为参考缺失/重复类型的序列的第一个区段。
在步骤510处,计算设备220基于重复区域的起始坐标信息和扩增区域的终止坐标信息,确定参考缺失/重复类型的序列的第二区段。
例如,如果确定参考缺失/重复类型的序列存在重复区域,将从重复区域在人类参考基因组上的起始坐标到下游引物在人类参考基因组上的终止坐标之间的区域确定为参考缺失/重复类型的序列的第二个区段。
例如,参考缺失/重复类型为已知的三联体ααα3.7重复类型,其存在重复区域,其在人类参考基因组HG38上的坐标信息为chr16:173302-177104。该已知的三联体ααα3.7重复类型的重复区域所对应扩增引物的扩增区域的坐标信息为chr16:168000-180000。则已知的三联体ααα3.7重复类型的序列的第一个区段为对应扩增区域的起始坐标到该重复区域的终止坐标,即chr16:168000-177104;已知的三联体ααα3.7重复类型的序列的第二个区段为重复区域的起始坐标到对应扩增区域的终止坐标,即chr16:173302-180000。
通过采用上述手段,本发明可以准确确定参考缺失/重复类型的序列的区段。
以下将结合图6和图7描述根据本发明的实施例的用于确定读长区段与参考缺失/重复类型的序列的区段的相似度数据的方法600。图6示出了根据本发明的实施例的用于确定读长区段与参考缺失/重复类型的序列的区段的相似度数据的方法600的流程图。图7示出了根据本发明的实施例的用于确定相似度数据的方法的示意图。应当理解,方法600例如可以在图8所描述的电子设备800处执行。也可以在图2所描述的计算设备220处执行。应当理解,方法600还可以包括未示出的附加动作和/或可以省略所示出的动作,本发明的范围在此方面不受限制。
在步骤602处,计算设备220比较目标片段内比对上的序列的读长区段的数目和参考缺失/重复类型的序列的区段的数目。
如图7所示,标记710指示作为参考缺失/重复类型的序列的已知的-α3.7缺失类型的序列。标记712指示作为参考缺失/重复类型的序列的已知的-α4.2缺失类型的序列。714指示待测样本的经由三代测序技术的、目标片段内比对上的序列。例如,计算设备220确定了目标片段内比对上的序列714存在缺失区域。并且基于缺失区域所对应的扩增引物的扩增区域的起始坐标和缺失区域的起始坐标,确定该比对上的序列714的第一读长区段720;以及基于缺失区域的终止坐标到扩增区域的终止坐标,确定该比对上的序列714的第二读长区段722。图7中的代表目标片段内比对上的序列的第一读长区段的起始坐标。/>代表目标片段内比对上的序列的第一读长区段的终止坐标。/>代表目标片段内比对上的序列的第二读长区段的起始坐标。/>代表目标片段内比对上的序列的第二读长区段的终止坐标。/>代表目标片段内参考缺失/重复类型的序列的第一区段的起始坐标。/>代表目标片段内参考缺失/重复类型的序列的第一区段的终止坐标。/>代表目标片段内参考缺失/重复类型的序列的第二区段的起始坐标。/>代表目标片段内参考缺失/重复类型的序列的第二区段的终止坐标。
在步骤604处,如果计算设备220确定读长区段的数目和参考缺失/重复类型的序列的区段的数目,并且读长区段的数目为1,基于读长区段的长度相对于参考缺失/重复类型的序列的区段的长度的比值,计算相似度数据。
例如,如果计算设备220确定读长区段的数目和参考缺失/重复类型的序列的区段的数目,并且读长区段的数目为1,计算设备220计算读长区段占参考缺失/重复类型的序列的区段的长度的比值;将比值减去第一预定阈值,以获得差值;以及将差值除以第二预定阈值,以便获得相似度数据。
在步骤606处,响应于计算设备220确定读长区段的数目和参考缺失/重复类型的序列的区段的数目,并且读长区段的数目大于1,基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考缺失/重复类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标来计算相似度数据。
以下公式(4)示例了步骤602和步骤604中的计算方式。应当理解,在区段的数目取值不同时,例如n=1或者n>1时,用于计算相似度数据的计算函数表达式是不同的。例如,基于读长区段的长度相对于参考缺失/重复类型的序列的区段的长度的比值来计算相似度数据的方式例如是第一计算函数。基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考缺失/重复类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标来计算相似度数据的方式例如是第二计算函数。应当理解,前文公式(1)至(3),以及下文的公式(4)所示例的第一计算函数、第二计算函数的函数表达式仅是示例。
在上述公式(3)中,代表区段的数目,例如读长区段的数目,或者参考缺失/重复类型的序列的区段的数目。/>代表区段的序号。/>代表参考重复/缺失类型的序列的第/>个片段在人类参考基因组上的起始坐标。/>代表比对上的序列的第/>个读长区段在人类参考基因组上的起始坐标。/>代表参考重复/缺失类型的序列的第/>个片段在人类参考基因组上的终止坐标,/>代表比对上的序列的第/>个读长区段在人类参考基因组上的终止坐标。代表读长区段的长度。/>代表参考缺失/重复类型的序列的区段的长度。/> 代表所计算的相似度数据。公式(4)中的/>和/>可以根据公式(3)所示的函数/>来计算。应当理解,公式(4)中的第一阈值0.9、第二阈值0.1、以及第三阈值200均是可以调整的。例如,如果预定数据库中的参考缺失/重复类型包括多个缺失位置比较接近的已知缺失/重复类型。此时,可以将第三阈值200调整得更小一些(例如而不限于调整至公式(2)中的第三阈值100),由此可以提高相似度数据的区分度。
在一些实施例中,例如读长区段的数目为2,即,n=2,上述公式(4)所示的相似度计算算法例如可以变换为以下公式(5)。
在另一些实施例中,例如读长区段的数目为3,即,n=3,上述公式(4)所示的相似度计算算法例如可以变换为以下公式(6)。
在上述公式(5)和(6)中, 代表目标片段内比对上的序列的第一读长区段的终止坐标。/>代表目标片段内比对上的序列的第二读长区段的起始坐标。/>代表目标片段内比对上的序列的第二读长区段的终止坐标。/>代表目标片段内参考缺失/重复类型的序列的第一区段的起始坐标。/>代表目标片段内参考缺失/重复类型的序列的第一区段的终止坐标。/>代表目标片段内参考缺失/重复类型的序列的第二区段的起始坐标。/>代表目标片段内参考缺失/重复类型的序列的第二区段的终止坐标。/>代表目标片段内参考缺失/重复类型的序列的第三读长区段的起始坐标。/>代表目标片段内参考缺失/重复类型的序列的第三区段的起始坐标。
通过采用上述手段,本发明可以针对不同断点情形均能够准确计算相似度数据。
图8示意性示出了适于用来实现本发明实施例的电子设备800的框图。设备800可以是用于实现执行图3、图4至图6所示的方法300、400至600的设备。如图8所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808,处理单元801执行上文所描述的各个方法和处理,例如执行方法300、400至600。例如,在一些实施例中,方法300、400至600可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU801执行时,可以执行上文描述的方法300、400至600的一个或多个操作。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法300、400至600的一个或多个动作。
需要进一步说明的是,本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上仅为本发明的可选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种用于确定目标片段缺失/重复类型的方法,其特征在于,包括:
获取待测样本的目标片段内的测序序列数据,所述测序序列数据指示目标片段的测序序列;
基于关于目标片段的测序序列与人类参考基因组序列的比对结果数据,确定目标片段内比对上的序列的读长区段;
获取目标片段内的参考缺失/重复类型的序列的区段,所述参考缺失/重复类型的序列至少包括目标片段内的已知缺失/重复类型的序列;
确定所述读长区段与所述参考缺失/重复类型的序列的区段的相似度数据;以及
基于所计算的相似度数据,确定待测样本的目标片段内的目标缺失/重复类型。
2.根据权利要求1所述的方法,其特征在于,参考缺失/重复类型的序列还包括未知缺失/重复类型的序列,获取目标片段内的参考缺失/重复类型的序列的区段包括:
获取预定数据库的目标片段内的参考缺失/重复类型的序列;以及
基于所获取的参考缺失/重复类型的序列的缺失/重复在人类参考基因组上的坐标信息、以及所述缺失/重复所对应的扩增引物的扩增区域的坐标信息,确定所述参考缺失/重复类型的序列的区段。
3.根据权利要求2所述的方法,其特征在于,确定所述参考缺失/重复类型的序列的区段包括:
确定参考缺失/重复类型的序列是否存在缺失区域或者重复区域;
响应于确定参考缺失/重复类型的序列存在缺失区域,基于参考缺失/重复类型的缺失区域所对应的扩增引物的扩增区域的起始坐标和所述缺失区域的起始坐标,确定所述参考缺失/重复类型的序列的第一区段;以及
基于所述缺失区域的终止坐标和所述扩增区域的终止坐标,确定所述参考缺失/重复类型的序列的第二区段;
响应于确定参考缺失/重复类型的序列存在重复区域,基于参考缺失/重复类型的重复区域所对应的扩增区域的起始坐标信息和所述重复区域的终止坐标信息,确定所述参考缺失/重复类型的序列的第一区段;以及
基于所述重复区域的起始坐标信息和所述扩增区域的终止坐标信息,确定所述参考缺失/重复类型的序列的第二区段。
4.根据权利要求1所述的方法,其特征在于,确定所述读长区段与所述参考缺失/重复类型的序列的区段的相似度数据包括:
比较目标片段内比对上的序列的所述读长区段的数目和参考缺失/重复类型的序列的区段的数目;以及
基于比较结果和所述读长区段的数目的取值,在用于计算相似度数据的第一计算函数和第二计算函数中选择一种计算函数,以用于计算所述相似度数据,第一计算函数不同于第二计算函数。
5.根据权利要求4所述的方法,其特征在于,在用于计算相似度数据的第一计算函数和第二计算函数中选择一种计算函数以用于计算所述相似度数据包括:
响应于确定读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目为1,选择第一计算函数来计算所述相似度数据,所述第一计算函数是基于读长区段与参考缺失/重复类型的序列的区段的重叠长度、以及参考缺失/重复类型的序列长度而构建的;
响应于确定读长区段的数目和参考缺失/重复类型的序列的区段的数目相等,并且读长区段的数目大于1,则选择第二计算函数来计算所述相似度数据,所述第二计算函数是基于每个读长区段在人类参考基因组上的起始坐标和终止坐标、以及参考缺失/重复类型的序列的每个区段在人类参考基因组上的起始坐标和终止坐标而构建的;以及
如果目标片段内比对上的读长区段的数目和参考缺失/重复类型的序列区段的数目不相等,则确定相似度数据为预定值。
6.根据权利要求5所述的方法,其特征在于,选择第一计算函数来计算所述相似度数据包括:
计算读长区段占参考缺失/重复类型的序列的区段的长度的比值;
将所述比值减去第一预定阈值,以获得差值;以及
将所述差值除以第二预定阈值,以便获得相似度数据。
7.根据权利要求1所述的方法,其特征在于,基于所计算的相似度数据,确定待测样本的目标片段内的缺失/重复的目标类型包括:
基于所计算的相似度数据,确定目标片段内的多个候选缺失/重复类型;
统计所述多个候选缺失/重复类型中的每个候选缺失/重复类型的序列的序列数目和序列占比;
针对所述多个候选缺失/重复类型过滤以下各项,以便过滤扩增背景:
序列长度短于相同引物扩增出来的其他缺失/重复类型的序列长度的缺失/重复类型;
序列数目小于预定数目阈值的缺失/重复类型;以及
序列占比小于预定占比阈值的缺失/重复类型;
基于经由过滤扩增背景之后所留下的候选缺失/重复类型,确定待测样本的目标片段内的目标缺失/重复类型。
8.根据权利要求7所述的方法,其特征在于,确定待测样本的目标片段内的缺失/重复的目标类型包括:
响应于确定目标片段下的读长片段与当前参考缺失/重复类型的序列的片段之间的相似度数据最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于该最大相似度数据所对应的当前参考缺失/重复类型,参考缺失/重复类型包括预定数据库内的目标片段内的多个已知缺失/重复类型和一个或多个未知缺失/重复类型;
响应于确定目标片段下的读长片段与所有参考缺失/重复类型的序列的片段之间的相似度数据均非最大,并且相似度数据大于或等于预定相似性阈值,确定目标片段下的比对上的序列属于新的缺失/重复类型;以及
将所确定新的缺失/重复类型加入到预定数据库所包括的未知缺失/重复类型中。
9.根据权利要求5所述的方法,其特征在于,确定目标片段内比对上的序列的读长区段包括:
确定目标片段内比对上的序列比对到人类参考基因组上不同位置的读长区段的数目;
确定每个读长区段在人类参考基因组上的起始坐标和终止坐标;以及
确定每个读长区段在比对上的序列上的起始坐标和终止坐标。
10.一种计算设备,其特征在于,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至9任一项所述的方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至9中任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被机器执行时执行根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410330737.3A CN117935921B (zh) | 2024-03-21 | 2024-03-21 | 确定缺失/重复类型的方法、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410330737.3A CN117935921B (zh) | 2024-03-21 | 2024-03-21 | 确定缺失/重复类型的方法、设备、介质和程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117935921A true CN117935921A (zh) | 2024-04-26 |
CN117935921B CN117935921B (zh) | 2024-06-11 |
Family
ID=90766866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410330737.3A Active CN117935921B (zh) | 2024-03-21 | 2024-03-21 | 确定缺失/重复类型的方法、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935921B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118460706A (zh) * | 2024-07-10 | 2024-08-09 | 中国科学院心理研究所 | 检测线粒体基因的方法、设备、介质和程序产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104745718A (zh) * | 2015-04-23 | 2015-07-01 | 北京嘉宝仁和医疗科技有限公司 | 一种检测人类胚胎染色体微缺失和微重复的方法 |
CN105886617A (zh) * | 2016-04-16 | 2016-08-24 | 广州市达瑞生物技术股份有限公司 | 一种基于高通量测序技术的地中海贫血基因检测方法 |
CN106951731A (zh) * | 2017-03-28 | 2017-07-14 | 上海至本生物科技有限公司 | 一种大片段插入或缺失的预测方法及系统 |
US20190080045A1 (en) * | 2017-09-13 | 2019-03-14 | The Jackson Laboratory | Detection of high-resolution structural variants using long-read genome sequence analysis |
US20200013482A1 (en) * | 2016-09-30 | 2020-01-09 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
CN110993023A (zh) * | 2019-11-29 | 2020-04-10 | 北京优迅医学检验实验室有限公司 | 复杂突变的检测方法及检测装置 |
CN111462816A (zh) * | 2020-03-31 | 2020-07-28 | 至本医疗科技(上海)有限公司 | 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质 |
CN111933214A (zh) * | 2020-09-27 | 2020-11-13 | 至本医疗科技(上海)有限公司 | 用于检测rna水平体细胞基因变异的方法、计算设备 |
CN113921081A (zh) * | 2021-12-15 | 2022-01-11 | 北京莲和医学检验实验室有限公司 | 微卫星状态的检测方法和装置 |
CN114496077A (zh) * | 2022-04-15 | 2022-05-13 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN114649055A (zh) * | 2022-04-15 | 2022-06-21 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN115240770A (zh) * | 2022-07-21 | 2022-10-25 | 武汉希望组医学检验实验室有限公司 | 一种检测短串联重复扩张和基因分型的方法、电子设备及存储介质 |
-
2024
- 2024-03-21 CN CN202410330737.3A patent/CN117935921B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104745718A (zh) * | 2015-04-23 | 2015-07-01 | 北京嘉宝仁和医疗科技有限公司 | 一种检测人类胚胎染色体微缺失和微重复的方法 |
CN105886617A (zh) * | 2016-04-16 | 2016-08-24 | 广州市达瑞生物技术股份有限公司 | 一种基于高通量测序技术的地中海贫血基因检测方法 |
US20200013482A1 (en) * | 2016-09-30 | 2020-01-09 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
CN106951731A (zh) * | 2017-03-28 | 2017-07-14 | 上海至本生物科技有限公司 | 一种大片段插入或缺失的预测方法及系统 |
US20190080045A1 (en) * | 2017-09-13 | 2019-03-14 | The Jackson Laboratory | Detection of high-resolution structural variants using long-read genome sequence analysis |
CN110993023A (zh) * | 2019-11-29 | 2020-04-10 | 北京优迅医学检验实验室有限公司 | 复杂突变的检测方法及检测装置 |
CN111462816A (zh) * | 2020-03-31 | 2020-07-28 | 至本医疗科技(上海)有限公司 | 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质 |
CN111933214A (zh) * | 2020-09-27 | 2020-11-13 | 至本医疗科技(上海)有限公司 | 用于检测rna水平体细胞基因变异的方法、计算设备 |
CN113921081A (zh) * | 2021-12-15 | 2022-01-11 | 北京莲和医学检验实验室有限公司 | 微卫星状态的检测方法和装置 |
CN114496077A (zh) * | 2022-04-15 | 2022-05-13 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN114649055A (zh) * | 2022-04-15 | 2022-06-21 | 北京贝瑞和康生物技术有限公司 | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 |
CN115240770A (zh) * | 2022-07-21 | 2022-10-25 | 武汉希望组医学检验实验室有限公司 | 一种检测短串联重复扩张和基因分型的方法、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
DANIEL E. SABATH等: "Characterization of Deletions of the HBA and HBB Loci by Array Comparative Genomic Hybridization", 《THE JOURNAL OF MOLECULAR DIAGNOSTICS》, vol. 18, no. 1, 31 January 2016 (2016-01-31) * |
易薇;姚莉琴;邹团标;李倩;褚嘉;杨昭庆;: "云南傣族儿童中α地中海贫血基因突变类型研究", 中国优生与遗传杂志, no. 06, 25 June 2012 (2012-06-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118460706A (zh) * | 2024-07-10 | 2024-08-09 | 中国科学院心理研究所 | 检测线粒体基因的方法、设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN117935921B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117935921B (zh) | 确定缺失/重复类型的方法、设备、介质和程序产品 | |
Kumar et al. | Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data | |
CN114496077B (zh) | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 | |
CN111462816B (zh) | 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质 | |
CN111933214B (zh) | 用于检测rna水平体细胞基因变异的方法、计算设备 | |
Zhang et al. | A scalable and accurate targeted gene assembly tool (SAT-Assembler) for next-generation sequencing data | |
CN114649055B (zh) | 用于检测单核苷酸变异和插入缺失的方法、设备和介质 | |
CN116386718B (zh) | 检测拷贝数变异的方法、设备和介质 | |
CN110808084A (zh) | 一种基于单样本二代测序数据的拷贝数变异检测方法 | |
CN110288003A (zh) | 数据变化识别方法及设备 | |
CN111292809A (zh) | 用于检测rna水平基因融合的方法、电子设备和计算机存储介质 | |
KR102219745B1 (ko) | 생물학적 서열 데이터 처리 방법 및 장치 | |
KR20160039386A (ko) | Itd 검출 장치 및 방법 | |
KR20130097440A (ko) | 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법 | |
Alachiotis et al. | ChromatoGate: a tool for detecting base mis-calls in multiple sequence alignments by semi-automatic chromatogram inspection | |
CN115712569A (zh) | 一种流量回放的方法、装置、电子设备及存储介质 | |
US20120191356A1 (en) | Assembly Error Detection | |
US20190050568A1 (en) | Process search apparatus and computer-readable recording medium | |
Yoon et al. | TraRECo: a greedy approach based de novo transcriptome assembler with read error correction using consensus matrix | |
CN114420204B (zh) | 用于预测待测基因的拷贝数的方法、计算设备和存储介质 | |
CN114792548B (zh) | 校正测序数据、检测拷贝数变异的方法、设备和介质 | |
CN114708906B (zh) | 用于预测体细胞变异真假的方法、电子设备和存储介质 | |
CN104239749A (zh) | 碱基序列对准系统及方法 | |
CN110570908A (zh) | 测序序列多态识别方法及装置、存储介质、电子设备 | |
CN114496073B (zh) | 用于识别阳性重排的方法、计算设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |