CN113517022A - 基因检测方法、特征提取方法、装置、设备及系统 - Google Patents
基因检测方法、特征提取方法、装置、设备及系统 Download PDFInfo
- Publication number
- CN113517022A CN113517022A CN202110648180.4A CN202110648180A CN113517022A CN 113517022 A CN113517022 A CN 113517022A CN 202110648180 A CN202110648180 A CN 202110648180A CN 113517022 A CN113517022 A CN 113517022A
- Authority
- CN
- China
- Prior art keywords
- gene
- gene sequence
- enhanced
- features
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 885
- 238000001514 detection method Methods 0.000 title claims abstract description 186
- 238000000605 extraction Methods 0.000 title claims abstract description 160
- 238000012545 processing Methods 0.000 claims abstract description 76
- 230000002708 enhancing effect Effects 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 79
- 239000012634 fragment Substances 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 230000002068 genetic effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 132
- 238000012163 sequencing technique Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 230000035772 mutation Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 14
- 239000008280 blood Substances 0.000 description 13
- 210000004369 blood Anatomy 0.000 description 13
- 210000003296 saliva Anatomy 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 241001465754 Metazoa Species 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000012217 deletion Methods 0.000 description 7
- 230000007614 genetic variation Effects 0.000 description 7
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 230000037430 deletion Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005861 gene abnormality Effects 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例提供了一种基因检测方法、特征提取方法、装置、设备及系统。基因检测方法包括:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。本实施例提供的技术方案,通过对基因序列进行特征提取操作,获得基因特征,而后对基因特征进行增强处理,获得增强后特征,之后基于增强后特征对基因序列进行检测,获得检测结果,这样不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量。
Description
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基因检测方法、特征提取方法、装置、设备及系统。
背景技术
基因测序是一种新型的基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性、个体的行为特征及行为合理。基因测序技术能锁定个人病变基因,以便于基于个人病变基因提前进行预防和治疗。
其中,基因序列由大量的reads片段组成,reads片段是指一段特定长度的DNA片段,上述的特定长度取决于测序仪的读长,每一条read片段中的信息可以包括:碱基序列、质量序列、正负链等等,上述的碱基序列和质量序列一一对应。对于人类而言,Reads片段覆盖了23对染色体,共计超过30亿的碱基对。
一般对于人来说,做一次全基因组测序需要几万块钱,虽然近年来随着测序技术的持续发展,基因测序的费用有了一定的降低,但是还是一笔不小的开支。因此,如何降低基因检测的成本是一个亟需解决的问题。
发明内容
本发明实施例提供了一种基因检测方法、特征提取方法、装置、设备及系统,通过对低深度的基因序列进行特征提取,获得低深度的基因特征,而后对基因特征进行增强处理,并基于增强后特征来进行检测操作,从而不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量。
第一方面,本发明实施例提供一种基因检测方法,包括:
获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第二方面,本发明实施例提供一种基因检测装置,包括:
第一获取模块,用于获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第一提取模块,用于对所述基因序列进行特征提取操作,获得基因特征;
第一处理模块,用于对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
第一检测模块,用于基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的基因检测方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的基因检测方法。
第五方面,本发明实施例提供了一种特征提取方法,包括:
获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
第六方面,本发明实施例提供了一种特征提取装置,包括:
第二获取模块,用于获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第二提取模块,用于对所述基因序列进行特征提取操作,获得基因特征;
第二处理模块,用于对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
第七方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的特征提取方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面中的特征提取方法。
第九方面,本发明实施例提供了一种基因检测方法,包括:
响应于调用基因检测请求,确定基因检测服务对应的处理资源;
利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第十方面,本发明实施例提供了一种基因检测装置,包括:
第三获取模块,用于响应于调用基因检测请求,确定基因检测服务对应的处理资源;
第三处理模块,用于利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第十一方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第九方面中的基因检测方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第九方面中的基因检测方法。
第十三方面,本发明实施例提供了一种特征提取方法,包括:
响应于调用特征提取请求,确定特征提取服务对应的处理资源;
利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
第十四方面,本发明实施例提供了一种特征提取装置,包括:
第四获取模块,用于响应于调用特征提取请求,确定特征提取服务对应的处理资源;
第四处理模块,用于利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
第十五方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十三方面中的特征提取方法。
第十六方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十三方面中的特征提取方法。
第十七方面,本发明实施例提供了一种基因检测方法,包括:
对设定对象进行样本采集操作,获得待处理样本;
基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第十八方面,本发明实施例提供了一种基因检测装置,包括:
第五采集模块,用于对设定对象进行样本采集操作,获得待处理样本;
第五确定模块,用于基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第五提取模块,用于对所述基因序列进行特征提取操作,获得基因特征;
第五处理模块,用于对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
所述第五处理模块,还用于基于所述增强后特征对所述基因序列进行检测,获得检测结果。
第十九方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十七方面中的基因检测方法。
第二十方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十七方面中的基因检测方法。
第二十一方面,本发明实施例提供了一种基因检测系统,包括:
基因序列采集端,用于获取待处理的基因序列,并将所述基因序列传输至基因检测端,其中,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
基因检测端,与所述基因序列采集端通信连接,用于获取待处理的基因序列;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;基于所述增强后特征对所述基因序列进行检测,获得检测结果。
本实施例提供的技术方案,通过获取待处理的基因序列,对基因序列进行特征提取操作,获得基因特征,由于需要处理的基因序列为低深度的基因数据,因此,通过低基因序列进行特征提取操作所获得的基因特征也为低深度的基因特征,而后对基因特征进行增强处理,从而可以获得与基因特征相对应的增强后特征,之后基于增强后特征对基因序列进行检测,获得检测结果,这样不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,从而有效地实现了可以基于低深度的基因数据进行比较精确的检测操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基因检测方法的场景示意图;
图2为本发明实施例提供的一种基因检测方法的流程示意图;
图3为本发明实施例提供的对所述基因序列进行特征提取操作,获得基因特征的流程示意图;
图4为本发明实施例提供的确定与所述基因序列相对应的待分析基因片段的示意图;
图5为本发明实施例提供的一种特征提取方法的流程示意图;
图6为本发明应用实施例提供的一种基因检测方法的原理框图;
图7为本发明应用实施例提供的特征转换器进行特征提取的示意图;
图8为本发明实施例提供的一种基因检测方法的流程示意图;
图9为本发明实施例提供的一种特征提取方法的流程示意图;
图10为本发明实施例提供的一种基因检测装置的结构示意图;
图11为与图10所示实施例提供的基因检测装置对应的电子设备的结构示意图;
图12为本发明实施例提供的一种特征提取装置的结构示意图;
图13为与图12所示实施例提供的特征提取装置对应的电子设备的结构示意图;
图14为本发明实施例提供的另一种基因检测装置的结构示意图;
图15为与图14所示实施例提供的基因检测装置对应的电子设备的结构示意图;
图16为本发明实施例提供的另一种特征提取装置的结构示意图;
图17为与图16所示实施例提供的特征提取装置对应的电子设备的结构示意图;
图18为本发明实施例提供的一种基因检测系统的结构示意图;
图19为本发明实施例提供的又一种基因检测方法的流程示意图;
图20为本发明实施例提供的又一种基因检测装置的结构示意图;
图21为与图20所示实施例提供的基因检测装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
术语定义:
基因测序:是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性、个体的行为特征及行为合理。基因测序技术能够锁定个人病变基因,以便于基于个人病变基因提前进行预防和治疗。
变异分析:基因变异是指基因组DNA分子发生的突然的可遗传的变异。从分子水平上看,基因变异是指基因在结构上发生碱基对组成或排列顺序的改变。基因虽然十分稳定,能在细胞分裂时精确地复制自己,但这种稳定性是相对的。在一些条件下,基因也可以从原来的存在形式突然改变成另一种新的存在形式,简单来说,就是在一个位点上突然出现了一个新基因代替了原有基因。
SNP:单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
Indel:Insertion-deletion,译为插入缺失标记,指的是两种亲本中在全基因组中的差异。相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。根据基因组中插入缺失位点,设计一些扩增这些插入缺失位点的聚合酶链式反应PCR引物,这就是InDel标记。
Reads:是指一段特定长度的DNA片段,这个长度取决于测序仪的读长。
深度学习:是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
测序深度,是指被测基因组上单个碱基被测序的平均次数,比如某样本的测序深度为30X,那么就是说该样本的基因组上每一个单碱基平均被测序(或者说读取)了30次。当然的,测序深度也有最大和最小值,这个都是由信息分析得到。其实也就是为了提高准确率,一般测序深度为15X。
卷积神经网络(Convolutional Neural Networks,简称CNN):是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。
生成式对抗网络(Generative Adversarial Networks,简称GAN):是一种深度学习模型,是近年来复杂分布上无监督学习具有前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。
为了能够理解本实施例中技术方案的具体实现过程,下面对相关技术进行说明:
对于人类而言,Reads片段覆盖了23对染色体、共计超过30亿的碱基对,每一条read片段中的信息可以包括:碱基序列、质量序列、正负链等等,上述的碱基序列和质量序列一一对应。此时,如何有效的利用这些海量的测序信息,并从中检测出变异位点以及变异的相关属性是一件具有挑战性的工作。
一般对于人来说,做一次全基因组测序需要几万块钱,虽然近年来随着测序技术的持续发展,基因测序的费用有了一定的降低,但是还是一笔不小的开支。因此,如何降低基因检测的成本是一个亟需解决的问题。
由于测序价格是与测序数据的深度严格正相关,因此,如果可以从测序深度的角度出发,对于低深度的测序结果仍然可以做到高准确度的变异识别,那么将极大的降低成本。例如:如果可以将变异分析算法做到在20倍深度的数据上精度与40倍的相当,那么就可以将测序成本降低一倍。
目前,现有技术中的基因检测方法包括:获取低深度的基因数据,利用线性模型Clair进行特征提取,获得低深度特征,基于低深度特征进行检测操作,获得基因检测结果;其中,在特征提取的过程中,使用的是小尺寸的pileup格式的图像。该方法可以通过统计的方式将所有reads片段稀疏的信息进行整合,具体的,可以将所有信息存储在三维数组中,三个维度分别表示:以候选位置为中心的位置信息(例如,数据长度为33)、四种不同碱基所对应的正负链(A、G、C、T、A-、G-、C-、T-)、四种不同的统计信息(与参考碱基相同的统计量、基因插入的统计量、基因删除的统计量、单个碱基不同的统计量)。
这种采用Clair的特征提取方式所需要的计算量较小,速度更快,运行效率比较快,并且基因检测的成本较低,然而,上述的基因检测结果是通过低深度特征进行分析获得的,即利用线性模型Clair所提取的低深度特征不够完整,进而会降低基于基因特征进行数据分析处理的准确程度,无法满足基因测序要求。
为了解决上述技术问题,本实施例提出了一种基因检测方法、特征提取方法、装置及设备,上述基因检测方法的执行主体可以为基因检测端,基因检测端上可以设置有基因序列采集端,或者,基因检测端可以通信连接有基因序列采集端,参考附图1所示:
其中,基因序列采集端可以是任何具有一定基因序列传输能力、基因序列采集能力的计算设备,具体实现时,基因序列采集端可以是血液采集器、唾液采集器、唾液采集器、皮肤采集器等等。此外,基因序列采集端的基本结构可以包括:至少一个处理器。处理器的数量取决于基因序列采集端的配置和类型。基因序列采集端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(OperatingSystem,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,基因序列采集端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
基因检测端是指可以在网络虚拟环境中提供基因检测服务的设备,通常是指利用网络进行信息规划、基因检测操作的装置。在物理实现上,基因检测端可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。基因检测端的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,基因序列采集端可以与基因检测端进行网络连接,该网络连接可以是无线或有线网络连接。若基因序列采集端与基因检测端是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
在本申请实施例中,基因序列采集端可以获取通过对设定对象(人物、动物等等)进行采集,即可获得待处理的基因序列,其中,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值,即待处理的基因序列为低深度的基因序列数据;在获取到待处理的基因序列之后,可以将待处理的基因序列上传至基因检测端,以使得基因检测端可以对所上传的待处理的基因序列进行分析处理。
基因检测端,用于接收基因片段采集端上传的待处理的基因序列,而后基因检测端可以对基因序列进行特征提取操作,从而可以获得基因序列的基因特征,由于基因序列为低深度的数据,因此,所获得的基因特征为低深度特征,为了能够提高基因检测的准确度,在获取到基因特征之后,可以对基因特征进行增强处理,获得与基因特征相对应的增强后特征,该增强后特征即为高深度特征或者与高深度特征相似,在获取到增强后特征之后,可以基于增强后特征对基因序列进行检测,从而可以准确有效地获得检测结果。
本实施例提供的技术方案,通过对低深度的基因序列进行特征提取,获得低深度的基因特征,而后对基因特征进行增强处理,获得增强后特征,而后基于增强后特征来进行检测操作,从而不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,有利于提高该方法的实用性。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种基因检测方法的流程示意图;参考附图2所示,本实施例提供了一种基因检测方法,该方法的执行主体可以为基因检测装置,可以理解的是,该基因检测装置可以实现为软件、或者软件和硬件的组合,具体的,该基因检测方法可以包括以下步骤:
步骤S201:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值。
步骤S202:对基因序列进行特征提取操作,获得基因特征。
步骤S203:对基因特征进行增强处理,获得与基因特征相对应的增强后特征。
步骤S204:基于增强后特征对基因序列进行检测,获得检测结果。
下面对上述各个步骤进行详细说明:
步骤S201:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值。
其中,待处理的基因序列是指需要进行基因检测操作的序列数据,上述的基因检测操作可以包括基因特性检测操作,基因特性检测操作可以包括:基因稳定性检测、基因可变性检测操作(即基因变异检测操作)等等,具体的,本实施例可以根据具体的应用场景或者应用需求进行基因检测操作。另外,该序列数据中的每个位置可以对应有多个基因片段,上述的基因片段中可以包括碱基质量,可以理解的是,基因片段中不仅可以包括上述所描述的碱基质量,还包括有其他信息,例如:基因片段中可以包括碱基信息(A、C、G、T)、映射质量、正负链(A、C、G、T、A-、C-、G-、T-,其中后四种为负链,前四种为正链)等信息。
需要注意的是,上述待处理的基因序列中每个位置所对应的基因片段的平均数量小于或等于预设阈值,即将待处理的基因序列限定为低深度的基因序列,可以理解的是,上述的预设阈值是预先配置的用于限定数据为低深度的基因数据的上限值,其具体的数值范围可以基于不同的应用场景或者应用需求进行调整,例如:预设阈值可以为10X、15X或者20X等等。举例来说,在预设阈值为15X时,在基因序列中每个位置所对应的基因片段的平均数量小于或等于15X时,则说明该基因序列为低深度的基因数据;在基因序列中每个位置所对应的基因片段的平均数量大于15X时,则说明该基因序列为高深度的基因数据。为了能够降低基因测序所需要的成本,则获取到序列中每个位置所对应基因片段的平均数量小于或等于预设阈值的基因序列,以便可以实现基于低深度的基因序列进行基因检测操作。
另外,本实施例对于基因序列的具体获取方式不做限定,例如,待处理的基因序列可以存储在设定区域中,通过访问设定区域即可获取基因序列。在另一些实例中,基因检测装置上设置有基因采集模块,通过基因采集模块即可获取到基因序列,在不同的应用场景中,基因采集模块可以对应有不同的结构特征,例如:在通过血液来获取待处理的基因序列时,基因采集模块可以为血液采集器,具体的,血液检测器从设定对象(人物、动物等)的身体上采集血液,基于血液提取出待处理的基因序列。相类似的,在通过唾液来获取待处理的基因序列时,基因采集模块可以为唾液采集器,具体的,唾液检测器从设定对象(人物、动物等)的身体上采集唾液,基于唾液提取出待处理的基因序列。相类似的,在通过皮肤来获取待处理的基因序列时,基因采集模块可以为皮肤采集器,具体的,皮肤采集器从设定对象(人物、动物等)的身体上采集皮肤,基于皮肤提取出待处理的基因序列。
当然的,本领域技术人员也可以采用其他的方式来获取待处理的基因序列,只要能够保证对待处理的基因序列进行获取的准确可靠性即可,在此不再赘述。
步骤S202:对基因序列进行特征提取操作,获得基因特征。
在获取到基因序列之后,可以对基因序列进行特征提取操作,获得基因特征,需要注意的是,由于基因序列为低深度的基因序列,因此,通过对基因序列进行特征提取操作之后所获得的基因特征为低深度的基因特征,该低深度的基因特征中所包括的信息量较少。
步骤S203:对基因特征进行增强处理,获得与基因特征相对应的增强后特征。
由于通过对基因序列进行特征提取操作所获得的基因特征为低深度的基因特征,上述低深度的基因特征中所包括的信息量较少,为了能够提高基因检测操作的精确程度,则可以对基因特征进行增强处理,从而可以获得与基因特征相对应的增强后特征,所获得的增强后特征中所包括的信息量较多,即该增强后的特征为高深度特征或者与高深度特征相类似,这样在基于增强后特征进行检测操作时,可以有效地提高基因检测操作的质量和效率。
在一些实例中,本实施例中的对基因特征进行增强处理,获得与基因特征相对应的增强后特征可以包括:获取用于对基因特征进行增强处理的卷积神经网络模型;基于卷积神经网络模型对基因特征进行增强处理,获得与基因特征相对应的增强后特征。
其中,预先配置有用于对基因特征进行增强处理的卷积神经网络,该卷积神经网络可以为全卷积神经网络,并且,该卷积神经网络可以为二维网络模型或者三维网络模型,具体的,在获取到基因特征之后,可以将基因特征输入至卷积神经网络模型中,使得卷积神经网络模型可以对基因特征进行增强处理,从而可以获得与基因特征相对应的增强后特征。所获得的增强后特征中包括的信息量大于基因特征包括的信息量。并且,所获得的增强后特征的数据尺寸可以与基因特征的数据尺寸相同,这样便于基于增强后特征进行检测操作,进一步提高了检测操作的质量和效率。
步骤S204:基于增强后特征对基因序列进行检测,获得检测结果。
其中,在获取到增强后特征之后,可以基于增强后特征对基因序列进行检测操作,获得检测结果。本实施例对于基于增强后特征对基因序列进行检测的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景或者应用需求进行设置,在一些实例中,基于增强后特征对基因序列进行检测,获得检测结果可以包括:将增强后特征输入至三维网络模型中,获得检测结果,其中,三维网络模型被训练为用于基于基因特征对基因序列进行检测。
具体的,预先训练有用于对基因序列进行检测操作的三维网络模型,在获取到增强后特征之后,可以将增强后特征输入至三维网络模型中,在三维网络模型获取到增强后特征之后,可以对增强后特征进行检测操作,从而可以获得检测结果。
在另一些实例中,在基因检测能够实现变异检测操作时,本实施例中的基于增强后特征对基因序列进行检测,获得检测结果可以包括:基于增强后特征,获取与增强后特征相对应的变异参考信息,变异参考信息包括以下至少之一:21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息;根据变异参考信息,获得变异检测结果。
具体的,在获取到增强后特征之后,对增强后特征进行分析处理,从而可以获得与增强后特征相对应的变异参考信息,该变异参考信息可以包括以下至少之一:21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息,上述的21类基因型预测信息所针对的21类基因型包括:‘AA’、‘AC’、‘AG’、‘AT’、‘CC’、‘CG’、‘CT’、‘GG’、‘GT’、‘TT’、‘AI’、‘CI’、‘GI’、‘TI’、‘AD’、‘CD’、‘GD’、‘TD’、‘II’、‘DD’,其中,A、C、G、T为四种碱基,I和D分别为插入和删除;上述的合子性预测信息包括三类:纯合且与参考碱基一致、纯合且与参考碱基不一致、杂合;上述的第一条等位基因变异长度信息,SNP变异为0,Indel变异则为相应插入删除的长度;上述的第二条等位基因变异的长度,SNP变异为0,Indel变异则为相应插入删除的长度。
在获取与增强后特征相对应的变异参考信息之后,可以对变异参考信息进行分析处理,以获得变异检测结果,可以理解的是,变异检测结果是基于21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息中的至少一个所获得的,进而保证了对变异检测结果进行确定的准确可靠性。
在又一些实例中,在获得变异检测结果之后,本实施例中的方法还可以包括:基于变异检测结果进行疾病预测。
其中,当基因序列存在变异情况时,则说明设定对象比较容易产生相关疾病,即产生相关疾病的概率会比较高,此时,可以基于变异检测结果进行疾病预测,具体的,可以基于基因序列所存在的变异情况来确定设定对象产生相关疾病的概率信息,可以理解的是,概率信息与基因序列所存在的变异程度相关,在变异程度越高时,则概率信息越高;在变异程度越低时,则概率信息越低。相反的,当基因序列不存在变异情况时,则说明设定对象不容易产生相关疾病。
本实施例提供的基因检测方法,通过获取待处理的基因序列,对基因序列进行特征提取操作,获得基因特征,由于需要处理的基因序列为低深度的基因数据,因此,通过低基因序列进行特征提取操作所获得的基因特征也为低深度的基因特征,而后对基因特征进行增强处理,从而可以获得与基因特征相对应的增强后特征,该增强后特征为高深度特征或者与高深度特征相类似,之后基于增强后特征对基因序列进行检测,获得检测结果,这样不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,从而有效地实现了可以基于低深度的基因数据进行比较精确的检测操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的对基因序列进行特征提取操作,获得基因特征的流程示意图;在上述实施例的基础上,参考附图3所示,本实施例提供了一种对基因序列进行特征提取操作的实现方式,具体的,本实施例中的对基因序列进行特征提取操作,获得基因特征可以包括:
步骤S301:确定与基因序列相对应的待分析基因片段。
其中,在获取到基因序列之后,可以对基因序列进行分析处理,以确定与基因序列相对应的待分析基因片段,在一些实例中,确定与基因序列相对应的待分析基因片段可以包括:获取参考数据和基因序列中包括的多个初始基因片段;对参考数据和基因序列进行匹配,以在多个初始基因片段中确定待分析基因片段,待分析基因片段中存在与参考数据不匹配的碱基,且不匹配的碱基在待分析基因片段中的占比大于预设阈值。
具体的,参考数据是指用于检测初始基因片段是否为待分析基因片段的标准基因数据,多个初始基因片段是指需要被检测是否为待分析基因片段的基因数据,在获取到多个初始基因片段和参考数据之后,可以对参考数据和多个初始基因片段进行分析匹配,以在多个初始基因片段中确定待分析基因片段,具体的,待分析基因片段为多个初始基因片段中的至少一部分,需要注意的是,所确定的待分析基因片段中存在与参考数据不匹配的碱基,且不匹配的碱基在初始基因片段中的占比大于预设阈值。
举例来说,参考附图4所示,以基因序列中包括的多个初始基因片段的数量为4个,参考数据为AAAGTCTGACCTGACAAGTCTGACACCTGACAAGTCT为例进行说明,初始基因片段可以包括:初始基因片段1、初始基因片段2、初始基因片段3和初始基因片段4,初始基因片段1可以为TGACCTGA,初始基因片段2可以为CTGACAA,初始基因片段3可以为ACACGTCAGAT,初始基因片段4可以为AAGGCAGAC。
为了能够提高基因检测操作的有效程度,则可以对上述的初始基因片段进行初步筛选,以初步筛选出初始基因片段中存在异常情况的基因片段,具体的,可以将参考数据与初始基因片段进行分析比较,即在获取到参考数据和初始基因片段1之后,可以对参考数据和初始基因片段1进行分析匹配,初始基因片段1与参考数据中的第12个-第19个碱基相匹配,即初始基因片段1中的碱基与参考数据中的碱基完全匹配,此时则说明初始基因片段1并不存在基因异常情况,进而说明初始基因片段1并不满足待分析基因片段的条件,因此,不会将初始基因片段1确定为待分析基因片段。
在获取到参考数据和初始基因片段2之后,可以对参考数据和初始基因片段2进行分析匹配,初始基因片段2与参考数据中的第11个-第17个碱基相匹配,即初始基因片段2中的碱基与参考数据中的碱基完全匹配,此时则说明初始基因片段2并不存在基因异常情况,进而说明初始基因片段2并不满足待分析基因片段的条件,因此,不会将初始基因片段2确定为待分析基因片段。
在获取到参考数据和初始基因片段3之后,可以对参考数据和初始基因片段3进行分析匹配,初始基因片段3与参考数据中的第14个-第24个碱基部分匹配,即初始基因片段3中的碱基与参考数据中的碱基不完全匹配,此时则说明初始基因片段3存在基因异常情况,不匹配的碱基数量为3个,该初始基因片段所包括的碱基总数量为11个,此时,不匹配的碱基在初始基因片段3中的占比为3/11,约为0.273,假设预设阈值为0.1,那么上述初始基因片段3中不匹配的碱基在初始基因片段中的占比大于预设阈值,即说明初始基因片段3满足待分析基因片段的条件,进而可以将初始基因片段3确定为待分析基因片段。
在获取到参考数据和初始基因片段4之后,可以对参考数据和初始基因片段4进行分析匹配,初始基因片段4与参考数据中的第2个-第10个碱基部分匹配,即初始基因片段4中的碱基与参考数据中的碱基不完全匹配,此时则说明初始基因片段4存在基因异常,不匹配的碱基数量为2个,该初始基因片段所包括的碱基总数量为9个,此时,不匹配的碱基在初始基因片段4中的占比为2/9,约为0.222,假设预设阈值为0.1,那么上述初始基因片段4中不匹配的碱基在初始基因片段中的占比大于预设阈值,即说明初始基因片段4满足待分析基因片段的条件,进而可以将初始基因片段4确定为待分析基因片段。
本实施例中,通过获取参考数据和多个初始基因片段,而后对参考数据和多个初始基因片段进行匹配,以在多个初始基因片段中确定待分析基因片段,有效地实现了通过对初始基因片段进行初步筛选,获得待分析基因片段,这样不仅保证了对待分析基因片段进行确定的准确可靠性,并且也提高了对基因片段进行分析处理的质量和效率。
步骤S302:对待分析基因片段进行特征提取操作,获得基因特征。
其中,在获取到待分析基因片段之后,可以对待分析基因片段进行特征提取操作,从而可以获得基因特征,在一些实例中,对待分析基因片段进行特征提取操作,获得基因特征可以包括:获取待分析基因片段中所包括的碱基质量;基于碱基质量,确定与待分析基因片段相对应的置信度;基于待分析基因片段所对应的置信度对待分析基因片段进行特征提取操作,获得基因特征。
具体的,待分析基因片段中包括碱基质量,在获取到待分析基因片段之后,可以对待分析基因片段进行信息提取操作,从而可以获得待分析基因片段中所包括的碱基质量。由于碱基质量与基因片段所对应的置信度之间存在映射关系,因此,在获取到待分析基因片段中所包括的碱基质量之后,可以基于待分析基因片段中所包括的碱基质量来确定与待分析基因片段相对应的置信度。在一些实例中,基于碱基质量,确定与待分析基因片段相对应的置信度可以包括:获取碱基质量与10之间的比值信息;基于比值信息,确定与待分析基因片段相对应的置信度,其中,置信度与碱基质量呈正相关,且置信度小于1。
在获取到碱基质量qual时,则可以获取碱基质量qual与10之间的比值信息之后,基于比值信息来确定与待分析基因片段相对应的置信度p,在一些实例中,置信度此时置信度p是位于0和1之间的数值,且置信度p与碱基质量呈正相关,即在碱基质量越大时,待分析基因片段中所包括的碱基质量较高,此时,则说明该待分析基因片段的准确程度较高,进而则可以确定基因片段的置信度p也会随之变大。相类似的,在碱基质量越小时,置信度p也会随之变小。
当然的,本领域技术人员也可以采用其他的方式来获取与待分析基因片段相对应的置信度p,例如,置信度此时,置信度与碱基质量呈负相关,即在碱基质量越大时,置信度p会随之变小;在碱基质量越小时,置信度p会随之变大。
进一步的,在获取到待分析基因片段所对应的置信度之后,可以基于待分析基因片段所对应的置信度对待分析基因片段进行特征提取操作,从而可以获得待分析基因片段的基因特征。在一些实例中,基于待分析基因片段所对应的置信度对待分析基因片段进行特征提取操作,获得待分析基因片段的基因特征可以包括:基于待分析基因片段所对应的置信度,采用统计计数的方式对待分析基因片段进行特征提取操作,获得待分析基因片段的基因特征,基因特征包括:碱基信息、碱基位置、碱基信息所对应的统计量。
具体的,碱基信息可以包括以下至少之一:A、G、C、T、A-、G-、C-、T-,其中,上述的碱基信息(A、G、C、T)为正链,碱基信息(A-、G-、C-、T-)为负链,碱基信息所对应的统计量可以包括以下至少之一:与参考碱基相同的统计量、碱基插入的统计量、碱基删除的统计量、单个碱基不同的统计量。在获取到待分析基因片段所对应的置信度之后,可以基于待分析基因片段所对应的置信度、并采用统计技术的方式对待分析基因片段进行特征提取操作,从而实现了结合待分析基因片段所对应的置信度来稳定地获得待分析基因片段的基因特征,进而提高了对基因特征进行提取的完整程度和效率。
本实施例提供的技术方案,通过确定与基因序列相对应的待分析基因片段,而后对待分析基因片段进行特征提取操作,获得基因特征,有效地实现了对基因特征进行提取的质量和效率,具体的,该方法实现了在不增加数据维度的基础上,将碱基质量有效的融入了基因特征中,这样不仅实现方式简单、可靠,保证了对基因特征进行提取的完整程度,并且还提高了对基因特征进行提取操作的运行效率,进一步提高了该技术方案的实用性。
图5为本发明实施例提供的一种特征提取方法的流程示意图;参考附图5所示,本实施例提供了一种特征提取方法,该特征提取方法的执行主体为特征提取装置,可以理解的是,该特征提取装置可以实现为软件、或者软件和硬件的组合,具体的,该特征提取方法可以包括以下步骤:
步骤S501:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值。
步骤S502:对基因序列进行特征提取操作,获得基因特征。
步骤S503:对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
具体的,本实施例中上述步骤的具体实现过程和实现效果与上述实施例中步骤S201-步骤S203的具体实现过程和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
本实施例中提供的特征提取方法,通过获取待处理的基因序列,对基因序列进行特征提取操作,获得基因特征,由于所获得的基因序列为低深度的基因数据,因此,通过低基因序列进行特征提取操作所获得的基因特征也为低深度的基因特征,而后对基因特征进行增强处理,从而可以获得与基因特征相对应的增强后特征,之后基于增强后特征对基因序列进行检测,获得检测结果,这样不仅保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,从而有效地实现了可以基于低深度的基因数据进行比较精确的检测操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
具体应用时,参考附图6所示,本应用实施例提供了一种基因变异检测方法,该基因变异检测方法的执行主体可以为基因变异检测装置,该基因变异检测装置可以包括特征提取器、特征转换器和变异识别器,在基因变异检测装置执行基因变异件检测方法时,可以包括如下步骤:
步骤1:获取比对数据,其中,比对数据为低深度的基因数据。
步骤2:对比对数据进行特征提取操作,获得低深度特征。
具体的,在获取到比对数据之后,可以利用特征提取器对比对数据进行特征提取操作,获得与比对数据相对应的低深度特征。
步骤3:对低深度特征进行特征增强处理,获得预测的特征。
其中,在获取到低深度特征之后,可以利用特征转换器对低深度特征进行特征增强处理,获得预测的特征,该预测的特征为高深度特征或者与高深度特征相类似,并且,相比于低深度特征而言,预测的特征中可以包括有比较丰富的信息,该预测的特征尺寸与低深度特征的尺寸相同。
在一些实例中,参考附图7所示,特征转换器可以为2维的全卷积神经网络模型,上述的全卷积神经网络模块已经学习了低深度测序数据和高深度测序数据的数据分布之间的关联,其模型结构可以为U型结构,具体可以包括:特征通道的数量(即附图中的数字),而卷积核可以是3,也可以为其他数值,另外,附图中的箭头表示将低深度特征融合到对应的高深度特征中;在获取到低深度特征之后,可以将低深度特征输入至2维的特征转换器中,使得特征转换器可以对低深度特征进行特征增强处理,从而可以获得高深度的预测特征或者与高深度特征相类似的预测特征。
对于特征转换器而言,当输入一个低深度测序数据中提取的低深度特征图时,可以输出一个相同尺寸的转换后特征图,上述的转换后特征图与高深度特征图相似,从而就实现了低深度到高深度的特征转换操作,通过上述方式来处理低深度数据,使得所获得的增强后特征更加逼近高深度数据,最后实现降低测序成本的效果。
步骤4:基于预测的特征进行变异识别处理,获得变异识别结果。
在获取到预测的特征之后,可以利用变异识别器对预测的特征进行分析处理,从而可以获得变异识别结果。
本实施例中,对于每个对比数据中的候选样本位置,通过先提取该位点的测序特征,然后使用一个全卷积神经网络将低深度的特征映射为高深度的特征,之后基于增强后的高深度特征进行变异检测,获得变异检测结果,这样不仅保证了基因变异检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,从而有效地实现了可以基于低深度的基因数据进行比较精确的变异检测操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图8为本发明实施例提供的一种基因检测方法的流程示意图;参考附图8所示,本实施例提供了一种基因检测方法,该基因检测方法的执行主体可以为基因检测装置,可以理解的是,该基因检测装置可以实现为软件、或者软件和硬件的组合。具体的,该基因检测方法可以包括:
步骤S801:响应于调用基因检测请求,确定基因检测服务对应的处理资源。
步骤S802:利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。
具体的,本发明提供的基因检测方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。
针对本发明提供的方案,云端可以提供有用于完成基因检测方法的服务,称为基因检测服务。当用户需要使用该基因检测服务的时候,调用该基因检测服务,以向云端触发调用该基因检测服务的请求,在该请求中可以携带有待处理的基因序列。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。
具体的,本实施例中的上述方法步骤的实现过程、实现原理和实现效果与上述图1-图4、图6-图7所示实施例的方法步骤的实现过程、实现原理和实现效果相类似,本实施例未详细描述的部分,可参考对图1-图4、图6-图7所示实施例的相关说明。
图9为本发明实施例提供的一种特征提取方法的流程示意图;参考附图9所示,本实施例提供了一种特征提取方法,该特征提取方法的执行主体可以为特征提取装置,可以理解的是,该特征提取装置可以实现为软件、或者软件和硬件的组合。具体的,该特征提取方法可以包括:
步骤S901:响应于调用特征提取请求,确定特征提取服务对应的处理资源。
步骤S902:利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
具体的,本发明提供的特征提取方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。
针对本发明提供的方案,云端可以提供有用于完成特征提取方法的服务,称为特征提取服务。当用户需要使用该特征提取服务的时候,调用该特征提取服务,以向云端触发调用该特征提取服务的请求,在该请求中可以携带有待处理的基因序列。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
具体的,本实施例中的上述方法步骤的实现过程、实现原理和实现效果与上述图5-图7所示实施例的方法步骤的实现过程、实现原理和实现效果相类似,本实施例未详细描述的部分,可参考对图5-图7所示实施例的相关说明。
图10为本发明实施例提供的一种基因检测装置的结构示意图;参考附图10所示,本实施例提供了一种基因检测装置,该基因检测装置可以执行上述图2所示的基因检测方法,该基因检测装置可以包括:第一获取模块11、第一提取模块12、第一处理模块13和第一检测模块14,具体的,
第一获取模块11,用于获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第一提取模块12,用于对基因序列进行特征提取操作,获得基因特征;
第一处理模块13,用于对基因特征进行增强处理,获得与基因特征相对应的增强后特征;
第一检测模块14,用于基于增强后特征对基因序列进行检测,获得检测结果。
在一些实例中,在第一提取模块12对基因序列进行特征提取操作,获得基因特征时,该第一提取模块12用于执行:确定与基因序列相对应的待分析基因片段;对待分析基因片段进行特征提取操作,获得基因特征。
在一些实例中,在第一提取模块12确定与基因序列相对应的待分析基因片段时,该第一提取模块12用于执行:获取参考数据和基因序列中包括的多个初始基因片段;对参考数据和基因序列进行匹配,以在多个初始基因片段中确定待分析基因片段,待分析基因片段中存在与参考数据不匹配的碱基,且不匹配的碱基在待分析基因片段中的占比大于预设阈值。
在一些实例中,在第一提取模块12对待分析基因片段进行特征提取操作,获得基因特征时,该第一提取模块12用于执行:获取待分析基因片段中所包括的碱基质量;基于碱基质量,确定与待分析基因片段相对应的置信度;基于待分析基因片段所对应的置信度对待分析基因片段进行特征提取操作,获得基因特征。
在一些实例中,在第一处理模块13对基因特征进行增强处理,获得与基因特征相对应的增强后特征时,该第一处理模块13用于执行:获取用于对基因特征进行增强处理的卷积神经网络模型;基于卷积神经网络模型对基因特征进行增强处理,获得与基因特征相对应的增强后特征。
在一些实例中,增强后特征包括的信息量大于基因特征包括的信息量。
在一些实例中,增强后特征的数据尺寸与基因特征的数据尺寸相同。
在一些实例中,在第一检测模块14基于增强后特征对基因序列进行检测,获得检测结果时,该第一检测模块14用于执行:基于增强后特征,获取与增强后特征相对应的变异参考信息,变异参考信息包括以下至少之一:21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息;根据变异参考信息,获得变异检测结果。
在一些实例中,在第一检测模块14基于增强后特征对基因序列进行检测,获得检测结果时,该第一检测模块14用于执行:将增强后特征输入至三维网络模型中,获得检测结果,其中,三维网络模型被训练为用于基于基因特征对基因序列进行检测。
图10所示装置可以执行图1-图4、图6-图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图4、图6-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图4、图6-图7所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图10所示基因检测装置的结构可实现为一电子设备,该电子设备可以是基因检测一体机、服务器等各种设备。如图12所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图4、图6-图7所示实施例中基因检测方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对基因序列进行特征提取操作,获得基因特征;
对基因特征进行增强处理,获得与基因特征相对应的增强后特征;
基于增强后特征对基因序列进行检测,获得检测结果。
进一步的,第一处理器21还用于执行前述图1-图4、图6-图7所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图4、图6-图7所示方法实施例中基因检测方法所涉及的程序。
图12为本发明实施例提供的一种特征提取装置的结构示意图;参考附图12所示,本实施例提供了一种特征提取装置,该特征提取装置可以执行上述图5所示的特征提取方法,该特征提取装置可以包括:第二获取模块31、第二提取模块32和第二处理模块33;具体的,
第二获取模块31,用于获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第二提取模块32,用于对基因序列进行特征提取操作,获得基因特征;
第二处理模块33,用于对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
图12所示装置可以执行图5-图7所示实施例的方法,本实施例未详细描述的部分,可参考对行图5-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见行图5-图7所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图12所示特征提取装置的结构可实现为一电子设备,该电子设备可以是基因检测一体机、服务器等各种设备。如图13所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图5所示实施例中提供的特征提取方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对基因序列进行特征提取操作,获得基因特征;
对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
进一步的,第二处理器41还用于执行前述图5所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图5所示方法实施例中特征提取方法所涉及的程序。
图14为本发明实施例提供的另一种基因检测装置的结构示意图;参考附图14所示,本实施例提供了另一种基因检测装置,该基因检测装置可以执行上述图8所示的基因检测方法,该基因检测装置可以包括:第三获取模块51和第三处理模块52,具体的,
第三获取模块51,用于响应于调用基因检测请求,确定基因检测服务对应的处理资源;
第三处理模块52,用于利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。
图14所示装置可以执行图8所示实施例的方法,本实施例未详细描述的部分,可参考对图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图8所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图14所示基因检测装置的结构可实现为一电子设备,该电子设备可以是基因检测一体机、服务器等各种设备。如图15所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储相对应电子设备执行上述图8所示实施例中提供的基因检测方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
响应于调用基因检测请求,确定基因检测服务对应的处理资源;
利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。
进一步的,第三处理器61还用于执行前述图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图8所示方法实施例中基因检测方法所涉及的程序。
图16为本发明实施例提供的另一种特征提取装置的结构示意图;参考附图16所示,本实施例提供了另一种特征提取装置,该特征提取装置可以执行上述图9所示的特征提取方法,该特征提取装置可以包括:第四获取模块71和第四处理模块72,具体的,
第四获取模块71,用于响应于调用特征提取请求,确定特征提取服务对应的处理资源;
第四处理模块72,用于利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
图16所示装置可以执行图9所示实施例的方法,本实施例未详细描述的部分,可参考对行图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见行图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图16所示特征提取装置的结构可实现为一电子设备,该电子设备可以是基因检测一体机、服务器等各种设备。如图17所示,该电子设备可以包括:第四处理器81和第四存储器82。其中,第四存储器82用于存储相对应电子设备执行上述图10所示实施例中提供的特征提取方法的程序,第四处理器81被配置为用于执行第四存储器82中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第四处理器81执行时能够实现如下步骤:
响应于调用特征提取请求,确定特征提取服务对应的处理资源;
利用处理资源执行如下步骤:获取待处理的基因序列,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征,增强后特征包括的信息量大于基因特征包括的信息量。
进一步的,第四处理器81还用于执行前述图9所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第四通信接口83,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图9所示方法实施例中特征提取方法所涉及的程序。
图18为本发明实施例提供的一种基因检测系统的结构示意图,参考附图18所示,本实施例提供了一种基因检测系统,该基因检测系统可以包括:
基因序列采集端91,用于获取待处理的基因序列,并将基因序列传输至基因检测端,其中,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
基因检测端92,与基因序列采集端91通信连接,用于获取待处理的基因序列;对基因序列进行特征提取操作,获得基因特征;对基因特征进行增强处理,获得与基因特征相对应的增强后特征;基于增强后特征对基因序列进行检测,获得检测结果。
图18所示系统可以执行图1-图4、图6-图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图4、图6-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图4、图6-图7所示实施例中的描述,在此不再赘述。
图19为本发明实施例提供的又一种基因检测方法的流程示意图;参考附图19所示,本实施例提供了一种基因检测方法,该基因检测方法的执行主体可以为基因检测装置,该基因检测装置可以实现为软件、或者软件和硬件的组合,具体的,该基因检测方法可以包括以下步骤:
步骤S1901:对设定对象进行样本采集操作,获得待处理样本。
步骤S1902:基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值。
步骤S1903:对所述基因序列进行特征提取操作,获得基因特征。
步骤S1904:对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征。
步骤S1905:基于所述增强后特征对所述基因序列进行检测,获得检测结果。
其中,设定对象可以为人物对象或者动物对象,在用户对设定对象存在基因检测需求时,则可以对设定对象进行样本采集操作,从而可以获得待处理样本,具体的,基因检测装置上设置有基因采集模块,通过基因采集模块可以对设定对象进行样本采集操作,从而可以获得待处理样本,在不同的应用场景中,基因采集模块可以对应有不同的结构特征,例如:在待处理样本为血液样本时,基因采集模块可以为血液采集器,具体的,血液检测器从设定对象(人物、动物等)的身体上采集血液,基于所提取的血液样本提取出待处理的基因序列。相类似的,在待处理样本为唾液样本时,基因采集模块可以为唾液采集器,具体的,唾液检测器从设定对象(人物、动物等)的身体上采集唾液,基于唾液提取出待处理的基因序列。相类似的,在待处理样本为皮肤样本时,基因采集模块可以为皮肤采集器,具体的,皮肤采集器从设定对象(人物、动物等)的身体上采集皮肤,基于皮肤提取出待处理的基因序列。
当然的,本领域技术人员也可以采用其他的方式来对设定对象进行样本采集操作,获得待处理样本,只要能够保证对待处理样本进行获取的准确可靠性即可,在此不再赘述。
在获取到待处理样本之后,可以对待处理样本进行分析处理,以确定待处理的基因序列,其中,基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值,在获取到基因序列之后,可以对基因序列进行特征提取操作,获得基因特征,而后对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,并可以基于增强后特征对基因序列进行检测,从而可以获得检测结果。
需要注意的是,本实施例中步骤S1902-步骤S1905的具体实现方式、实现原理和实现效果与上述图2所对应实施例中步骤S201-步骤S204的具体实现方式、实现原理和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。另外,本实施例中的方法还可以包括图2-图4、图6-图7所示实施例的方法,本实施例未详细描述的部分,可参考对图2-图4、图6-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2-图4、图6-图7所示实施例中的描述,在此不再赘述。
本实施例提供的基因检测方法,通过对设定对象进行样本采集操作,获得待处理样本,而后基于所述待处理样本确定待处理的基因序列,对所述基因序列进行特征提取操作,获得基因特征,并对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,进而可以基于所获得的增强后特征对所述基因序列进行检测,获得检测结果,这样不仅实现了设定对象可以参与到整个基因检测操作,保证了基因检测操作的精确度,并且还有效地降低了数据处理成本和数据处理量,从而有效地实现了可以基于低深度的基因数据进行比较精确的检测操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图20为本发明实施例提供的又一种基因检测装置的结构示意图;参考附图20所示,本实施例提供了又一种基因检测装置,该基因检测装置可以执行上述图19所示的基因检测方法,具体的,该基因检测装置可以包括:第五采集模块101、第五确定模块102、第五提取模块103和第五处理模块104:
第五采集模块101,用于对设定对象进行样本采集操作,获得待处理样本;
第五确定模块102,用于基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
第五提取模块103,用于对所述基因序列进行特征提取操作,获得基因特征;
第五处理模块104,用于对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
所述第五处理模块104,还用于基于所述增强后特征对所述基因序列进行检测,获得检测结果。
本实施例中的基因检测装置可以执行图19所示实施例的方法,本实施例未详细描述的部分,可参考对图19所示实施例的相关说明。该技术方案的执行过程和技术效果参见图19所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图20所示基因检测装置的结构可实现为一电子设备,该电子设备可以是基因检测一体机、服务器等各种设备。如图21所示,该电子设备可以包括:第五处理器111和第五存储器112。其中,第五存储器112用于存储相对应电子设备执行上述图19所示实施例中提供的基因检测方法的程序,第五处理器111被配置为用于执行第五存储器112中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第五处理器111执行时能够实现如下步骤:
对设定对象进行样本采集操作,获得待处理样本。
基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值。
对所述基因序列进行特征提取操作,获得基因特征。
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征。
基于所述增强后特征对所述基因序列进行检测,获得检测结果。
进一步的,第五处理器111还用于执行前述图19所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第五通信接口113,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图19所示方法实施例中基因检测方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (14)
1.一种基因检测方法,其特征在于,包括:
获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
基于所述增强后特征对所述基因序列进行检测,获得检测结果。
2.根据权利要求1所述的方法,其特征在于,对所述基因序列进行特征提取操作,获得基因特征,包括:
确定与所述基因序列相对应的待分析基因片段;
对所述待分析基因片段进行特征提取操作,获得基因特征。
3.根据权利要求2所述的方法,其特征在于,确定与所述基因序列相对应的待分析基因片段,包括:
获取参考数据和所述基因序列中包括的多个初始基因片段;
对所述参考数据和基因序列进行匹配,以在所述多个初始基因片段中确定待分析基因片段,所述待分析基因片段中存在与参考数据不匹配的碱基,且不匹配的碱基在所述待分析基因片段中的占比大于预设阈值。
4.根据权利要求2所述的方法,其特征在于,对所述待分析基因片段进行特征提取操作,获得基因特征,包括:
获取所述待分析基因片段中所包括的碱基质量;
基于所述碱基质量,确定与所述待分析基因片段相对应的置信度;
基于所述待分析基因片段所对应的置信度对所述待分析基因片段进行特征提取操作,获得所述基因特征。
5.根据权利要求1所述的方法,其特征在于,对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,包括:
获取用于对所述基因特征进行增强处理的卷积神经网络模型;
基于所述卷积神经网络模型对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述增强后特征的数据尺寸与所述基因特征的数据尺寸相同。
8.根据权利要求1-5中任意一项所述的方法,其特征在于,基于所述增强后特征对所述基因序列进行检测,获得检测结果,包括:
基于所述增强后特征,获取与所述增强后特征相对应的变异参考信息,所述变异参考信息包括以下至少之一:21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息;
根据所述变异参考信息,获得变异检测结果。
9.根据权利要求1-5中任意一项所述的方法,其特征在于,基于所述增强后特征对所述基因序列进行检测,获得检测结果,包括:
将所述增强后特征输入至三维网络模型中,获得检测结果,其中,所述三维网络模型被训练为用于基于基因特征对基因序列进行检测。
10.一种特征提取方法,其特征在于,包括:
获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
11.一种基因检测方法,其特征在于,包括:
响应于调用基因检测请求,确定基因检测服务对应的处理资源;
利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;基于所述增强后特征对所述基因序列进行检测,获得检测结果。
12.一种特征提取方法,其特征在于,包括:
响应于调用特征提取请求,确定特征提取服务对应的处理资源;
利用所述处理资源执行如下步骤:获取待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征,所述增强后特征包括的信息量大于所述基因特征包括的信息量。
13.一种基因检测方法,其特征在于,包括:
对设定对象进行样本采集操作,获得待处理样本;
基于所述待处理样本确定待处理的基因序列,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
对所述基因序列进行特征提取操作,获得基因特征;
对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;
基于所述增强后特征对所述基因序列进行检测,获得检测结果。
14.一种基因检测系统,其特征在于,包括:
基因序列采集端,用于获取待处理的基因序列,并将所述基因序列传输至基因检测端,其中,所述基因序列中每个位置所对应基因片段的平均数量小于或等于预设阈值;
基因检测端,与所述基因序列采集端通信连接,用于获取待处理的基因序列;对所述基因序列进行特征提取操作,获得基因特征;对所述基因特征进行增强处理,获得与所述基因特征相对应的增强后特征;基于所述增强后特征对所述基因序列进行检测,获得检测结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648180.4A CN113517022B (zh) | 2021-06-10 | 2021-06-10 | 基因检测方法、特征提取方法、装置、设备及系统 |
US17/832,503 US20230170047A1 (en) | 2021-06-10 | 2022-06-03 | Genetic testing method, signature extraction method, apparatus, device, and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648180.4A CN113517022B (zh) | 2021-06-10 | 2021-06-10 | 基因检测方法、特征提取方法、装置、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113517022A true CN113517022A (zh) | 2021-10-19 |
CN113517022B CN113517022B (zh) | 2024-06-25 |
Family
ID=78065834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648180.4A Active CN113517022B (zh) | 2021-06-10 | 2021-06-10 | 基因检测方法、特征提取方法、装置、设备及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230170047A1 (zh) |
CN (1) | CN113517022B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148284A (zh) * | 2022-06-27 | 2022-10-04 | 蔓之研(上海)生物科技有限公司 | 一种基因数据的前置处理方法及系统 |
CN115881228A (zh) * | 2022-10-24 | 2023-03-31 | 蔓之研(上海)生物科技有限公司 | 一种基于人工智能的基因检测数据清洗方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020026142A1 (en) * | 2018-07-30 | 2020-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Joint placement and chaining of virtual network functions for virtualized systems based on a scalable genetic algorithm |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
CN109712671A (zh) * | 2018-12-20 | 2019-05-03 | 北京优迅医学检验实验室有限公司 | 基于ctDNA的基因检测方法、装置、存储介质及计算机系统 |
CN110997936A (zh) * | 2017-09-08 | 2020-04-10 | 深圳华大生命科学研究院 | 基于低深度基因组测序进行基因分型的方法、装置及其用途 |
US20210082539A1 (en) * | 2019-03-29 | 2021-03-18 | Beijing Sensetime Technology Development Co., Ltd. | Gene mutation identification method and apparatus, and storage medium |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
-
2021
- 2021-06-10 CN CN202110648180.4A patent/CN113517022B/zh active Active
-
2022
- 2022-06-03 US US17/832,503 patent/US20230170047A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
CN110997936A (zh) * | 2017-09-08 | 2020-04-10 | 深圳华大生命科学研究院 | 基于低深度基因组测序进行基因分型的方法、装置及其用途 |
CN109712671A (zh) * | 2018-12-20 | 2019-05-03 | 北京优迅医学检验实验室有限公司 | 基于ctDNA的基因检测方法、装置、存储介质及计算机系统 |
US20210082539A1 (en) * | 2019-03-29 | 2021-03-18 | Beijing Sensetime Technology Development Co., Ltd. | Gene mutation identification method and apparatus, and storage medium |
CN112885408A (zh) * | 2021-02-22 | 2021-06-01 | 中国农业大学 | 一种基于低深度测序检测snp标记位点的方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148284A (zh) * | 2022-06-27 | 2022-10-04 | 蔓之研(上海)生物科技有限公司 | 一种基因数据的前置处理方法及系统 |
CN115881228A (zh) * | 2022-10-24 | 2023-03-31 | 蔓之研(上海)生物科技有限公司 | 一种基于人工智能的基因检测数据清洗方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20230170047A1 (en) | 2023-06-01 |
CN113517022B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230102326A1 (en) | Discovering population structure from patterns of identity-by-descent | |
CN113517022B (zh) | 基因检测方法、特征提取方法、装置、设备及系统 | |
Bailleul et al. | RClone: a package to identify MultiLocus Clonal Lineages and handle clonal data sets in r. | |
Lee et al. | Genomic dark matter: the reliability of short read mapping illustrated by the genome mappability score | |
US20150066378A1 (en) | Identifying Possible Disease-Causing Genetic Variants by Machine Learning Classification | |
Golestan Hashemi et al. | Intelligent mining of large-scale bio-data: Bioinformatics applications | |
CN111292802A (zh) | 用于检测突变的方法、电子设备和计算机存储介质 | |
Huang et al. | Evaluation of variant detection software for pooled next-generation sequence data | |
US20190385706A1 (en) | Associating gene expression data with a disease name | |
Hayes et al. | A model-based clustering method for genomic structural variant prediction and genotyping using paired-end sequencing data | |
CN114424287A (zh) | 单细胞rna-seq数据处理 | |
Glusman et al. | Ultrafast comparison of personal genomes via precomputed genome fingerprints | |
Arisdakessian et al. | CoCoNet: an efficient deep learning tool for viral metagenome binning | |
US20220398435A1 (en) | Genetic Testing Method, Model Training Method, Apparatus, Device, and System | |
US20230103260A1 (en) | Genome Feature Extraction Method, Disease Prediction Method, Apparatus and Device | |
Gu et al. | SVLR: genome structural variant detection using Long-read sequencing data | |
Jenkins et al. | Genealogy-based methods for inference of historical recombination and gene flow and their application in Saccharomyces cerevisiae | |
CN115579058B (zh) | 基因组数据的无损压缩方法、基因变异的预测方法及设备 | |
Jin et al. | A simple 2D non-parametric resampling statistical approach to assess confidence in species identification in DNA barcoding—an alternative to Likelihood and Bayesian approaches | |
Kuchta et al. | Population structure and species delimitation in the Wehrle’s salamander complex | |
CN111128304A (zh) | 一种二代测序数据的质量检测方法及装置 | |
Mitra et al. | A genome-wide analysis of array-based comparative genomic hybridization (CGH) data to detect intra-species variations and evolutionary relationships | |
Mohamadi et al. | ntHits: de novo repeat identification of genomics data using a streaming approach | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 | |
Zhang et al. | SRMA: an R package for resequencing array data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231214 Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd. Address before: Room 01, 45 / F, AXA building, 8 Shanton Road, Singapore Applicant before: Alibaba Singapore Holdings Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant |