CN112410408A - 基因测序方法、装置、设备和计算机可读存储介质 - Google Patents

基因测序方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112410408A
CN112410408A CN202011261842.4A CN202011261842A CN112410408A CN 112410408 A CN112410408 A CN 112410408A CN 202011261842 A CN202011261842 A CN 202011261842A CN 112410408 A CN112410408 A CN 112410408A
Authority
CN
China
Prior art keywords
gene
initial
sample
sequencing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011261842.4A
Other languages
English (en)
Inventor
孙德强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Gaomei Gene Technology Co ltd
Original Assignee
Jiangsu Gaomei Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Gaomei Gene Technology Co ltd filed Critical Jiangsu Gaomei Gene Technology Co ltd
Priority to CN202011261842.4A priority Critical patent/CN112410408A/zh
Publication of CN112410408A publication Critical patent/CN112410408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供一种基因测序方法、装置、设备和计算机可读存储介质;本申请中基因测序方法,包括:接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果;本申请中按照按预设裁剪策略对初始基因样本进行映射剪切,获得初始基因样本对应的基因样本序列,对基因样本序列中的甲基化位点进行分析,获得基因测序结果,这样的基因测序操作更加便捷,提高了基因样本分析的灵敏度和准确性。

Description

基因测序方法、装置、设备和计算机可读存储介质
技术领域
本申请涉及基因测序技术领域,具体涉及一种基因测序方法、装置、设备和计算机可读存储介质。
背景技术
DNA(英文:Deoxyribo Nucleic Acid,中文:脱氧核糖核酸)甲基化是真核生物基因组DNA的一种重要的表观遗传学修饰,即在DNA甲基化转移酶的作用下,将S-腺苷甲硫氨酸的甲基基团共价结合到DNA分子的胞嘧啶上形成5-甲基胞嘧啶的过程。
DNA甲基化在维持高等生物正常细胞功能、遗传印记、胚胎发育、衰老以及人类肿瘤的发生等生物学过程中起着重要作用。当前的基因测序方法是从大量的组织样品中获取基因组DNA进行测序,这样的基因测序方法,需要对大量的健康组织或肿瘤等病变组织的细胞进行分析,基因测序的操作复杂,如果某些组织细胞等样本的数量稀少,就无法进行基因测序或者得不到准确的基因测序结果。
发明内容
本申请提供一种基因测序方法、装置、设备和计算机可读存储介质,旨在解决现有的基因测序方法需要采用大量组织细胞等样本进行基因测序而导致的测序灵敏度低、测序步骤繁杂,且测序结果准确率低的技术问题。
一方面,本申请提供一种基因测序方法,所述基因测序方法包括以下步骤:
接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本,其中,所述初始基因样本是通过亚硫酸氢盐转化处理之后基因;
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
在本申请一些实施例中,所述接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本之后,所述方法包括:
调用预设FASTQ软件对所述初始基因样本进行质量检测,获得所述初始基因样本的质量检测结果;
若所述初始基因样本的质量检测结果为不通过,则输出检测不通过的提示信息;
若所述初始基因样本的质量检测结果通过,则执行所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列的步骤。
在本申请一些实施例中,所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列,包括:
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段;
将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列。
在本申请一些实施例中,所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段,包括:
将所述初始基因样本与预设基因数据库中的人类基因序列和病毒基因序列进行映射,获得包含未映射读取的FASTQ文件;
按照预设宽度和预设步长的滑动窗口剪切所述FASTQ文件中的未映射读取,获得所述初始基因样本对应的未读取基因片段。
在本申请一些实施例中,所述将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列,包括:
将所述未读取基因片段进行重组,获得初始基因序列;
将所述初始基因序列中的未读取基因片段与所述初始基因样本中的读取基因片段进行映射,以判断所述初始基因序列是否连续;
若所述初始基因序列不连续,则删除所述初始基因序列;
若所述初始基因序列连续,则保存所述初始基因序列,并将所述初始基因序列作为所述初始基因样本对应的样本基因序列。
在本申请一些实施例中,所述确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果,包括:
确定所述基因样本序列中的插入点作为甲基化位点,将所述甲基化位点之间的基因片段作为融合读段;
分析所述融合读段的位置,确定病毒基因片段并将所述病毒基因片段作为所述基因测序结果。
在本申请一些实施例中,所述确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果之后,所述方法包括:
根据所述基因测序结果生成检测结果图像;
提取所述检测结果图像中的检测数据结果,将所述检测数据结果输入至预设模板中获得基因测序报告并输出。
另一方面,本申请还提供一种基因测序装置,所述基因测序装置包括:
获取确定模块,用于接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;
基因裁剪模块,用于按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
位点分析模块,用于确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
另一方面,本申请还提供一种基因测序设备,所述基因测序设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的基因测序方法。
另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的基因测序方法中的步骤。
本申请提供一种基因测序方法、装置、设备和计算机可读存储介质,在本申请实施例中的基因测序方法,包括:接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果;本申请中按照按预设裁剪策略对初始基因样本进行映射剪切,其中,预设裁剪策略是指按照设定宽度和设定步长进行映射剪切,这样将剪切形成的基因进行重组,获得初始基因样本对应的基因样本序列,使得基因样本序列中寻找的位点与病毒基因融合的位点更加符合,然后对基因样本序列中的甲基化位点进行分析,获得基因测序结果,这样的基因测序操作更加便捷,提高了基因样本分析的灵敏度和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基因测序的场景示意图;
图2是本申请实施例中提供的基因测序方法的一个实施例的流程示意图;
图3是本申请实施例中提供的基因测序方法的一个实施例的流程示意图;
图4是本申请实施例中提供的基因测序方法的一个实施例的流程示意图;
图5是本申请实施例中提供的基因测序装置的一个实施例结构示意图;
图6是本申请实施例中提供的基因测序设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明包含的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请实施例提供一种基因测序方法、装置、设备及计算机可读存储介质,以下分别进行详细说明。
本发明实施例中的基因测序方法应用于基因测序装置,基因测序装置设置于基因测序设备,基因测序设备中设置有一个或多个处理器、存储器,以及一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现基因测序方法;基因测序设备可以是终端,例如,手机或平板电脑,基因测序设备还可以是一台服务器,或者多台服务器组成的服务集群。
如图1所示,图1为本申请实施例基因测序的场景示意图,本发明实施例中基因测序场景中包括基因测序设备100(基因测序设备100中集成有基因测序装置),基因测序设备100中运行基因测序对应的计算机可读存储介质,以执行基因测序方法的步骤。
可以理解的是,图1所示基因测序的场景中的基因测序设备,或者基因测序设备中包含的装置并不构成对本发明实施例的限制,即,基因测序的场景中包含的设备数量、设备种类,或者各个设备中包含的装置数量、装置种类不影响本发明实施例中技术方案整体实现,均可以算作本发明实施例要求保护技术方案的等效替换或衍生。
本发明实施例中基因测序设备100主要用于接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
本发明实施例中该基因测序设备100可以是独立的基因测序设备,也可以是基因测序设备组成的基因测序设备网络或基因测序设备集群,例如,本发明实施例中所描述的基因测序设备100,其包括但不限于计算机、网络主机、单个网络基因测序设备、多个网络基因测序设备集或多个基因测序设备构成的云基因测序设备。其中,基因测序设备由基于云计算(Cloud Computing)的大量计算机或网络基因测序设备构成。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的基因测序设备,或者基因测序设备网络连接关系,例如图1中仅示出1个基因测序设备,可以理解的,该基因测序的场景还可以包括一个或多个其他基因测序设备,具体此处不作限定;该基因测序设备100中还可以包括存储器,用于存储数据。
此外,本申请基因测序的场景中基因测序设备100可以设置显示装置,或者基因测序设备100中不设置显示装置与外接的显示装置200通讯连接,显示装置200用于输出基因测序设备中基因测序方法执行的结果。基因测序设备100可以访问后台数据库300(后台数据库可以是基因测序设备的本地存储器中,后台数据库还可以设置在云端),后台数据库300中保存有基因测序相关的信息。
需要说明的是,图1所示的基因测序的场景示意图仅仅是一个示例,本发明实施例描述的基因测序的场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定。
基于上述基因测序的场景,提出了基因测序方法的实施例。
如图2所示,图2为本申请实施例中基因测序方法的一个实施例流程示意图,该基因测序方法包括如下步骤201~203:
201,接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本。
本实施例中的基因测序方法应用在基因测序设备,基因测序设备的种类不作具体限定,基因测序设备可以是服务器或者是终端,本实施例中以终端为例进行说明,终端接收基因测序指令,其中,基因测序指令的触发方式不作具体限定,即,基因测序指令可以是用户主动触发,例如,用户在终端的显示界面中点击:“基因测序”的按键主动触发基因测序指令;此外,基因测序指令还可以是终端自动触发的,例如,终端实时地检测目标位置,终端在目标位置检测到基因样本时,终端自动触发基因测序指令。
终端接收基因测序指令,终端确定基因测序指令对应待检测的初始基因样本,其中,初始基因样本的种类不作限定,初始基因样本的数量不作限定,例如,初始基因样本可以是从正规途径获得的肿瘤样本、血浆样本等其他用户基因检测的样本。
其中,初始基因样本是通过亚硫酸氢盐转化处理之后基因样本,首先,亚硫酸氢盐转化直接在细胞裂解液上进行;第二,使用两轮随机引物和延伸将单链亚硫酸氢盐转化的DNA添加衔接子。将随机的寡核苷酸添加到DNA片段的3'端,该片段设计用于捕获亚硫酸氢盐处理产生的所有单链DNA,从而作为基因测序指令对应待检测的初始基因样本。
202,按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列。
终端将初始基因样本按预设裁剪策略(预设裁剪策略是指预先制定的基因片段裁剪方法)进行映射剪切,获得初始基因样本对应的基因样本序列,例如,初始基因样本长度1500bp,传统的基因裁剪策略是设置裁剪长度例如100bp,然后按照100bp,将1500bp的基因裁剪形成15个基因片段进行基因分析,本申请中预设裁剪策略是指设定预设宽度和预设步长的窗口进行基因裁剪,例如,预设宽度为100,预设步长为10,终端每移动10bp裁剪一次进行多次裁剪,然后终端将裁剪的基因进行重组,获得基因样本序列。
具体地,包括:
步骤a,按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段;
步骤b,将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列。
其中,步骤a具体地,包括:
1、将所述初始基因样本与预设基因数据库中的人类基因序列和病毒基因序列进行映射,获得包含未映射读取的FASTQ文件;
2、按照预设宽度和预设步长的滑动窗口剪切所述FASTQ文件中的未映射读取,获得所述初始基因样本对应的未读取基因片段。
其中,步骤b具体地,包括:
1、将所述未读取基因片段进行重组,获得初始基因序列;
2、将所述初始基因序列中的未读取基因片段与所述初始基因样本中的读取基因片段进行映射,以判断所述初始基因序列是否连续;
3、若所述初始基因序列不连续,则删除所述初始基因序列;
4、若所述初始基因序列连续,则保存所述初始基因序列,并将所述初始基因序列作为所述初始基因样本对应的样本基因序列。
例如,终端用BSMAP对初始基因样本进行映射修剪,生成一个包含未映射读取的新FASTQ文件;然后,终端使用预设宽度和预设步长(预设宽度和预设步长是指终端中预先设置的基因修剪宽度和修剪时的移动步长,预设宽度可以根据具体场景设置,例如,预设宽度设置为40bp,例如,预设步长设置4个为碱基对)的滑动窗口剪切所有未映射的读取;终端重新映射所有剪切的读取片段,并仅保留唯一映射的片段用于后续重组。
终端在重组过程中,仅当将来自相同未映射读段的片段连续重新映射到参考基因组时,才进行重组,两个相邻片段之间的距离为步长。重组片段必须大于最小长度,以减少假阳性比对的可能性。对于具有重叠的多个候选重组片段的候选片段的片段,具有最大映射置信度的重组片段被保留为拯救片段,若重组的剪切片段彼此不重叠,终端将保留所有重组的剪切片段,终端通过上述重新映射和重组步骤,可以挽救在第一轮映射中丢弃的读取。
本实施例中终端根据预设宽度和预设步长用重叠滑动窗口方法剪切在第一轮映射中丢弃的读取,终端剪切的读取片段通过BSMAP进行映射,并且仅保留唯一映射的片段用于下游分析,终端将重新映射到参考基因组的独特映射片段连接起来以形成恢复的片段候选物,此外,丢弃较短读长度(例如<30bp)的候选物以避免假阳性。用户可以调整的最小读取长度截止值默认设置为46个碱基对。对于第一轮映射和重新映射,BSMAP使用-S 123-n1-r 0-U作为设置参数独特的映射读段和可再现的结果。
可以理解的是,本实施例中预设以下规则:1、片段必须严格连续,以使在基因组上对齐的两个重叠片段的左端之间的距离必须等于读段的两个左端;2、每个片段仅允许一个错配;3、如果重组后读段与两个基因组片段重叠,程序将选择错配最少的最长片段;4、保留所有不具有阅读重叠的重组片段作为初始基因样本对应的样本基因序列;终端根据上述规则对连续重叠的映射片段进行重组,以减少假阳性的可能性。
203,确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
终端确定基因样本序列中的甲基化位点,并对甲基化位点进行分析,获得基因测序结果,具体地,包括:
1、确定所述基因样本序列中的插入点作为甲基化位点,将所述甲基化位点之间的基因片段作为融合读段;
2、分析所述融合读段的位置,确定病毒基因片段并将所述病毒基因片段作为所述基因测序结果。
终端通过使用WGBS数据识别病毒插入位点,首先,终端会识别嵌合读段,记录每个读段的分裂位点以及每个嵌合读段的片段序列;然后,终端会将这些来自嵌合读段的剪切片段映射到人类和病毒基因组序列,如果单个嵌合读段中有两个被剪切的片段,终端设置一个片段可以在人类上定位,一个片段可以在病毒基因组上定位,终端将这种嵌合读段定义为融合读段,病毒插入的DNA片段的每个副本在病毒基因组上都有两个插入位点,可以通过唯一定位的融合读段潜在地加以识别根据映射在病毒基因组上的融合读段,终端根据剪切片段的相对位置推断插入的病毒基因组片段。此外,本实施例中终端可以设置至少两个或多个唯一映射的融合读段来支持插入事件。
本申请实施例中的基因测序方法,包括:接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果;本申请中按照按预设裁剪策略对初始基因样本进行映射剪切,其中,预设裁剪策略是指按照设定宽度和设定步长进行映射剪切,这样将剪切形成的基因进行重组,获得初始基因样本对应的基因样本序列,使得基因样本序列中寻找的位点与病毒基因融合的位点更加符合,然后对基因样本序列中的甲基化位点进行分析,获得基因测序结果,这样的基因测序操作更加便捷,提高了基因样本分析的灵敏度和准确性。
如图3所示,图3为本申请实施例中基因测序方法中的一个实施例流程示意图。
在本申请一些实施例中,为了防止初始基因样本本身存在问题,导致的基因测序结果错误的问题,本实施例在获取到初始基因样本之后,对初始基因样本进行质量检测,包括如下步骤301~303:
301,调用预设FastQC软件对所述初始基因样本进行质量检测,获得所述初始基因样本的质量检测结果。
302,若所述初始基因样本的质量检测结果为不通过,则输出检测不通过的提示信息。
303,若所述初始基因样本的质量检测结果通过,则执行所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列的步骤。
即,本实施例中终端通过FastQC(FastQC使能够评估质量特征,包括基本质量,基本内容和重复级别。这些功能揭示了文库,扩增和测序的整体质量)检查初始基因样本以进行质量控制,终端将FastQC的结果汇总在最终报告中,终端删除低质量的基因样本。本实施例中终端在对初始基因样本进行映射修剪之前,终端先对初始基因样本进行质量检测,保证基因整体质量,以避免进行无效地基因检测。
参照图4,图4是本申请实施例中提供的基因测序方法中一个实施例的流程示意图。
在本申请一些实施例中,具体说明了获得基因测序结果之后,生成基因测序结果对应的基因测序报告,包括如下步骤401~402:
401,根据所述基因测序结果生成检测结果图像;
402,提取所述检测结果图像中的检测数据结果,将所述检测数据结果输入至预设模板中获得基因测序报告并输出。
终端根据基因测序结果生成检测结果图像;即,终端中设置基因分析模块,可以对基因测序结果进行统计,终端提取检测结果图像中的检测数据结果,终端将检测数据结果输入至预设模板(预设模板是指预先设置的报告模板,预设模板中报告格式化的报告分析信息,和用于填写特征信息的空白)中获得基因测序报告并输出。
本实施例中终端根据基因测序结果生成检测结果图像;并提取所述检测结果图像中的检测数据结果,生成基因测序报告并输出,方便用户进行查看,使得基因测序结果查看更加方便。
如图5所示,图5是基因测序装置的一个实施例结构示意图。
为了更好实施本申请实施例中基因测序方法,在基因测序方法基础之上,本申请实施例中还提供一种基因测序装置,所述基因测序装置包括以下模块501-503:
获取确定模块501,用于接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;
基因裁剪模块502,用于按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
位点分析模块503,用于确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
在本申请一些实施例中,所述的基因测序装置,包括:
调用预设FASTQ软件对所述初始基因样本进行质量检测,获得所述初始基因样本的质量检测结果;
若所述初始基因样本的质量检测结果为不通过,则输出检测不通过的提示信息;
若所述初始基因样本的质量检测结果通过,则执行所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列的步骤。
在本申请一些实施例中,所述基因裁剪模块502,包括:
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段;
将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列。
在本申请一些实施例中,所述的基因测序装置中按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段,包括:
将所述初始基因样本与预设基因数据库中的人类基因序列和病毒基因序列进行映射,获得包含未映射读取的FASTQ文件;
按照预设宽度和预设步长的滑动窗口剪切所述FASTQ文件中的未映射读取,获得所述初始基因样本对应的未读取基因片段。
在本申请一些实施例中,所述的基因测序装置中所述将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列,包括:
将所述未读取基因片段进行重组,获得初始基因序列;
将所述初始基因序列中的未读取基因片段与所述初始基因样本中的读取基因片段进行映射,以判断所述初始基因序列是否连续;
若所述初始基因序列不连续,则删除所述初始基因序列;
若所述初始基因序列连续,则保存所述初始基因序列,并将所述初始基因序列作为所述初始基因样本对应的样本基因序列。
在本申请一些实施例中,所述位点分析模块503,包括:
确定所述基因样本序列中的插入点作为甲基化位点,将所述甲基化位点之间的基因片段作为融合读段;
分析所述融合读段的位置,确定病毒基因片段并将所述病毒基因片段作为所述基因测序结果。
在本申请一些实施例中,所述的基因测序装置,包括:
根据所述基因测序结果生成检测结果图像;
提取所述检测结果图像中的检测数据结果,将所述检测数据结果输入至预设模板中获得基因测序报告并输出。
本实施例中基因测序装置中通过接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果;本申请中按照按预设裁剪策略对初始基因样本进行映射剪切,其中,预设裁剪策略是指按照设定宽度和设定步长进行映射剪切,这样将剪切形成的基因进行重组,获得初始基因样本对应的基因样本序列,使得基因样本序列中寻找的位点与病毒基因融合的位点更加符合,然后对基因样本序列中的甲基化位点进行分析,获得基因测序结果,这样的基因测序操作更加便捷,提高了基因样本分析的灵敏度和准确性。
本发明实施例还提供一种基因测序设备,如图6所示,图6是本申请实施例中提供的基因测序设备的一个实施例结构示意图。
基因测序设备集成了本发明实施例所提供的任一种基因测序装置,所述基因测序设备包括:
预设拍摄装置;
加速度传感器;
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述基因测序方法实施例中任一实施例中所述的基因测序方法中的步骤。
具体来讲:基因测序设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的基因测序设备结构并不构成对基因测序设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该基因测序设备的控制中心,利用各种接口和线路连接整个基因测序设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行基因测序设备的各种功能和处理数据,从而对基因测序设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、训练播放功能等)等;存储数据区可存储根据基因测序设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
基因测序设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该基因测序设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,基因测序设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,基因测序设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行本发明实施例所提供的任一种基因测序方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:
接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种基因测序方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基因测序方法,其特征在于,所述基因测序方法包括:
接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本,其中,所述初始基因样本是通过亚硫酸氢盐转化处理之后基因;
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
2.根据权利要求1所述的基因测序方法,其特征在于,所述接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本之后,所述方法包括:
调用预设FASTQ软件对所述初始基因样本进行质量检测,获得所述初始基因样本的质量检测结果;
若所述初始基因样本的质量检测结果为不通过,则输出检测不通过的提示信息;
若所述初始基因样本的质量检测结果通过,则执行所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列的步骤。
3.根据权利要求1所述的基因测序方法,其特征在于,所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列,包括:
按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段;
将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列。
4.根据权利要求3所述的基因测序方法,其特征在于,所述按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的未读取基因片段,包括:
将所述初始基因样本与预设基因数据库中的人类基因序列和病毒基因序列进行映射,获得包含未映射读取的FASTQ文件;
按照预设宽度和预设步长的滑动窗口剪切所述FASTQ文件中的未映射读取,获得所述初始基因样本对应的未读取基因片段。
5.根据权利要求3所述的基因测序方法,其特征在于,所述将所述未读取基因片段进行重组,获得所述初始基因样本对应的基因样本序列,包括:
将所述未读取基因片段进行重组,获得初始基因序列;
将所述初始基因序列中的未读取基因片段与所述初始基因样本中的读取基因片段进行映射,以判断所述初始基因序列是否连续;
若所述初始基因序列不连续,则删除所述初始基因序列;
若所述初始基因序列连续,则保存所述初始基因序列,并将所述初始基因序列作为所述初始基因样本对应的样本基因序列。
6.根据权利要求1所述的基因测序方法,其特征在于,所述确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果,包括:
确定所述基因样本序列中的插入点作为甲基化位点,将所述甲基化位点之间的基因片段作为融合读段;
分析所述融合读段的位置,确定病毒基因片段并将所述病毒基因片段作为所述基因测序结果。
7.根据权利要求1-6任意一项所述的基因测序方法,其特征在于,所述确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果之后,所述方法包括:
根据所述基因测序结果生成检测结果图像;
提取所述检测结果图像中的检测数据结果,将所述检测数据结果输入至预设模板中获得基因测序报告并输出。
8.一种基因测序装置,其特征在于,所述基因测序装置包括:
获取确定模块,用于接收基因测序指令,确定所述基因测序指令对应待检测的初始基因样本;
基因裁剪模块,用于按照预设基因裁剪策略对所述初始基因样本进行映射剪切,获得所述初始基因样本对应的基因样本序列;
位点分析模块,用于确定所述基因样本序列中的甲基化位点,并对所述甲基化位点进行分析,获得基因测序结果。
9.一种基因测序设备,其特征在于,所述基因测序设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的基因测序方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的基因测序方法中的步骤。
CN202011261842.4A 2020-11-12 2020-11-12 基因测序方法、装置、设备和计算机可读存储介质 Pending CN112410408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011261842.4A CN112410408A (zh) 2020-11-12 2020-11-12 基因测序方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011261842.4A CN112410408A (zh) 2020-11-12 2020-11-12 基因测序方法、装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112410408A true CN112410408A (zh) 2021-02-26

Family

ID=74832185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011261842.4A Pending CN112410408A (zh) 2020-11-12 2020-11-12 基因测序方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112410408A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267867A1 (zh) * 2021-06-23 2022-12-29 深圳华大基因股份有限公司 基因测序分析方法、装置、存储介质和计算机设备
WO2023184330A1 (zh) * 2022-03-31 2023-10-05 京东方科技集团股份有限公司 基因组甲基化测序数据的处理方法、装置、设备和介质
WO2024055320A1 (zh) * 2022-09-16 2024-03-21 中国疾病预防控制中心传染病预防控制所 一种基因测序方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015000284A1 (zh) * 2013-07-05 2015-01-08 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN110211633A (zh) * 2019-05-06 2019-09-06 臻和精准医学检验实验室无锡有限公司 Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015000284A1 (zh) * 2013-07-05 2015-01-08 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN110211633A (zh) * 2019-05-06 2019-09-06 臻和精准医学检验实验室无锡有限公司 Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022267867A1 (zh) * 2021-06-23 2022-12-29 深圳华大基因股份有限公司 基因测序分析方法、装置、存储介质和计算机设备
WO2023184330A1 (zh) * 2022-03-31 2023-10-05 京东方科技集团股份有限公司 基因组甲基化测序数据的处理方法、装置、设备和介质
WO2024055320A1 (zh) * 2022-09-16 2024-03-21 中国疾病预防控制中心传染病预防控制所 一种基因测序方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN112410408A (zh) 基因测序方法、装置、设备和计算机可读存储介质
Davidson et al. JAFFA: High sensitivity transcriptome-focused fusion gene detection
Palamara et al. High-throughput inference of pairwise coalescence times identifies signals of selection and enriched disease heritability
Hasan et al. Performance evaluation of indel calling tools using real short-read data
US10262102B2 (en) Systems and methods for genotyping with graph reference
US20170198351A1 (en) Systems and methods for analyzing circulating tumor dna
US20210082539A1 (en) Gene mutation identification method and apparatus, and storage medium
JP2017510871A (ja) リードマッピングにおける公知の対立遺伝子の使用のためのシステム及び方法
Zhang et al. SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data
CN107111693A (zh) 用于确定高同源性区域中的基因型的方法
Sharma et al. Evaluation of DNA mapping schemes for exon detection
CN110060733B (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CN114743594A (zh) 一种用于结构变异检测的方法、装置和存储介质
CN111462816A (zh) 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质
CN111402951A (zh) 拷贝数变异预测方法、装置、计算机设备和存储介质
CN111292809B (zh) 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
EP4287190A2 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN113327646B (zh) 测序序列的处理方法及装置、存储介质、电子设备
Wang et al. MRPGA: motif detecting by modified random projection strategy and genetic algorithm
JP5946277B2 (ja) アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出)
US10443090B2 (en) Method and apparatus for detecting translocation
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
Malekpour et al. MGP-HMM: Detecting genome-wide CNVs using an HMM for modeling mate pair insertion sizes and read counts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination