CN114467144A - 减少测序平台特异性错误的体细胞突变检测装置及方法 - Google Patents

减少测序平台特异性错误的体细胞突变检测装置及方法 Download PDF

Info

Publication number
CN114467144A
CN114467144A CN201980101042.5A CN201980101042A CN114467144A CN 114467144 A CN114467144 A CN 114467144A CN 201980101042 A CN201980101042 A CN 201980101042A CN 114467144 A CN114467144 A CN 114467144A
Authority
CN
China
Prior art keywords
image data
learning
neural network
mutation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980101042.5A
Other languages
English (en)
Inventor
白大铉
安埈鹤
全贤星
金徒延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SNU R&DB Foundation
Original Assignee
SNU R&DB Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SNU R&DB Foundation filed Critical SNU R&DB Foundation
Publication of CN114467144A publication Critical patent/CN114467144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

突变检测装置包括:存储器,其用于存储神经网络实现软件;以及处理器,其用于运行所述软件,检测突变,处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,通过神经网络,基于图像数据,检测出检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。

Description

减少测序平台特异性错误的体细胞突变检测装置及方法
技术领域
本公开涉及一种突变检测方法以及实施其方法的装置,更具体地,本公开涉及一种应用神经网络检测突变的装置以及方法,该神经网络可以通过学习减少测序平台特异性错误。
背景技术
二代测序(NGS,next generation sequencing)是指将DNA分成多个片段,进行并列测序的方式。二代测序与传统的一代测序(Sanger sequencing)不同,可以同时分析多个DNA片段,因此,在分析时间、分析费用和分析精确度方面,更有利。
图1示出了对比二代测序110和一代测序120的曲线图100。如曲线图100所示,二代测序110的性能优于一代测序120。另外,如曲线图100的横轴所示,二代测序110可以具有多种读长(read length)。
二代测序可以用于癌症患者的DNA测序,以检测出突变。可以采用二代测序方式,通过DNA测序的多种软件检测出癌细胞的突变。
采用传统软件检测突变时,特别是,通过短读测序(short read sequencing)等特定测序平台进行DNA测序时,由于该测序平台的特征,即使实际上没有突变,也会被误检为突变,出现假阳性(false positive)。这种测序平台上发生的特异假阳性会降低突变检测的精确度。
因此,为了防止测序平台上出现特异假阳性而降低突变检测的精确度,需要改善突变检测方式。
发明内容
所要解决的课题
本公开的目的在于,消除传统软件中出现的问题,解决因测序平台上出现特异假阳性而降低突变检测精确度的问题,改善突变检测的性能。
课题解决方案
作为解决上述技术问题的技术手段,本公开在一方面提供一种突变检测装置,其特征在于,包括:存储器,其用于存储神经网络实现软件;以及处理器,其用于运行所述软件,检测突变,所述处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(falsepositive)。
本公开在另一方面提供一种运行神经网络实现软件而检测突变的方法,其包括以下步骤:生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据;预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据;通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。
发明效果
在检测突变的过程中,本公开的装置和方法可以应用神经网络,神经网络可以经过预学习,更正测序平台上发生的特异假阳性,从而防止因测序平台上出现特异假阳性而降低突变检测的精确度。特别是,与传统统计方式不同,其可以对于突变检测应用神经网络,依据相较于传统方式更强的性能检测突变。
附图说明
图1是对比二代测序方式和传统测序方式的曲线图;
图2示出了部分实施例的神经网络;
图3示出了部分实施例的突变检测过程;
图4是部分实施例中,突变检测装置构件的框图;
图5示出了部分实施例中,神经网络的结构及学习方式;
图6示出了部分实施例中,神经网络学习数据的生成过程;
图7是部分实施例中,构成突变检测方法的步骤的流程图。
具体实施方式
以下,参考附图详细描述本公开的实施例。以下记载仅用于具体描述实施例,并非用于限制或限定本公开的权利要求书。应当解释为,本公开所属技术领域的通常技术人员轻易从本发明的说明书和实施例类推的内容均应属于本公开的权利要求范围内。
本公开采用的术语为本公开所属技术领域广泛应用的通常术语,但,本公开中术语的含义可能会根据该技术领域从业人员的意图、新技术的出现、审查标准或判例等发生变化。部分术语可以由申请人任意选择,此时,将详细说明任意选择的术语的含义。应当解释为,本公开采用的术语并不是仅具有词典上解释的含义,其含义反映了说明书的整体思路。
不应当解释为,本公开采用的“构成”、“包括”等术语必须包括说明书中记载的所有构件或步骤,且应当解释为,不包括部分构件或步骤时以及进一步包括附加的构件或步骤时,也源自该术语。
本公开采用的包括“第一”或“第二”等序数的术语可以用于描述多种构件或步骤,但,该构件或步骤不应该受到序数的限定。应当解释为,包括序数的术语仅用于将一构件或步骤与另外构件或步骤区别开。
以下,参考附图详细描述本公开的实施例。本公开所属技术领域的通常技术人员周知的内容,此处省略,不再赘述。
图2示出了部分实施例的神经网络。
图2示出了构成神经网络200的构件。神经网络200为人工实现的神经网络,除了输入层和输出层之外,还具备隐藏层,可以有效实施多种非线性功能。神经网络200包括多个隐藏层,可以相当于深度神经网络(deep neural network)。除了图2举例示出的结构之外,神经网络200还可以实现为循环神经网络(RNN)或卷积神经网络(CNN)等多种架构。
神经网络200经过学习可以成为调整数值的模式,该数值为构成神经网络200的各种参数。神经网络200依据多种机器学习及深度学习方式妥当进行学习时,可以高性能实施基于学习目的的功能。由此,除了语音识别、自然语言及图像分析等领域之外,神经网络200还可以广泛应用于多种领域。特别是,如本公开,为了解决传统技术中存在的技术问题,神经网络200可以应用于突变检测等生物领域。
图3示出了部分实施例的突变检测过程。
如图3所示,可以在突变检测装置300内,对于第一基因组数据310和第二基因组数据320实施一系列的处理过程,并生成突变检测结果350。如下述,突变检测装置300的运行方式如图4所示的装置400。
装置300内部的一系列处理过程可以通过软件乃至程序形态实现。装置300内部的一系列处理过程的各个步骤可以通过实施特定功能的模块实现,如图像生成模块330或突变检测模块340等。例如,实现一系列处理过程的软件可以呈现为派森(Python)脚本形态,在LINUX CentOS release 7.6等环境中运行。
第一基因组数据310可以意味着提取自检测目标细胞的基因组数据。检测目标细胞是成为突变检测对象的细胞,可以意味着癌细胞。第二基因组数据320可以意味着提取自正常细胞的基因组数据。
为了准确地掌握检测目标细胞的基因中,何种基因发生了突变,可以在考虑第一基因组数据310的基础上,再考虑第二基因组数据320。与此同时,虽然图3未所示,但,从检测目标细胞提取第一基因组数据310的过程以及从正常细胞提取第二基因组数据320的过程也可以通过构成装置300内软件的另外模块实现。
装置300并非仅仅依据癌症患者的基因组数据,以统计的方式检测突变,可以从实际患癌细胞以及与此相对比的正常细胞提取第一基因组数据310和第二基因组数据320检测出突变,因此,可以将每一位癌症患者以及每一个癌细胞的不同特性逐一反映在突变检测过程中。因此,可以准确地检测出癌细胞的基因中,何种基因发生了突变。
图像生成模块330可以从第一基因组数据310和第二基因组数据320提取图像数据。图像数据可以意味着第一基因组数据310和第二基因组数据320的可视化数据,以用于经过学习/训练检测突变的神经网络200。
突变检测模块340可以基于图像数据检测出检测目标细胞的突变。为此,突变检测模块340中可以实现神经网络200,神经网络200经过学习,可以检测出检测目标细胞的基因中,何种基因发生了突变。例如,如图5及图6所示,神经网络200可以从图像提取特征(feature),并实现为卷积神经网络(CNN),该卷积神经网络(CNN)经过学习,基于特征执行特定功能。
突变检测模块340可以为神经网络200的输出进行进一步的加工及处理,生成突变检测结果350。突变检测结果350可以生成为标准格式(VCF),该标准格式(VCF)与参照基因(reference gene)进行对比,显示出认为发生突变的基因的相关信息。
装置300可以使为特定目的进行学习的神经网络200应用于突变的检测,因此,可以进一步改善突变检测的精准度。如下述,神经网络200经过学习,能够更正测序平台上发生的特异假阳性,因此,可以防止传统突变检测软件中出现的弊端,即,由于假阳性,精准度被降低的问题。
另外,通过装置300,从检测目标细胞检测出的突变可以是体细胞单核苷酸变异(sSNV,somatic single nucleotide variant)。体细胞单核苷酸变异作为体细胞突变,也许意味着构成碱基序列的若干个碱基中,只有单碱基发生了突变。体细胞单核苷酸变异也许适合被二代测序检测,也许适合被神经网络200检测,其中神经网络200经过特别的学习,用于更正测序平台上发生的特异假阳性。但,装置300不受此限定,除了体细胞单核苷酸变异之外,还可以检测出其他种类的突变。
图4是部分实施例中,突变检测装置构件的框图。
如图4所示,突变检测装置400可以包括存储器410和处理器420。但,不受此限定,除了图4所示构件之外,装置400还可以进一步包括其他通用构件。另外,图4所示装置400可以是实现图3所示装置300的一例。
装置400可以相当于用于检测突变的多种装置。例如,装置400可以是多种计算装置,如,PC、服务器装置、智能手机、平板电脑以及其他移动设备等。
存储器410可以存储用于实现神经网络200的软件。例如,可以将与构成神经网络200的若干个层和若干个节点相关的数据、在若干个节点执行的运算和运算过程中适用的若干个参数,以至少一个指令、程序或软件的形态,存储在存储器410中。
存储器410可以实现为非易失性存储器,如,ROM(read only memory)、PROM(programmable ROM)、EPROM(electrically programmable ROM)、EEPROM(electricallyerasable and programmable ROM)、快闪存储器(flash memory)、PRAM(phase-changeRAM)、MRAM(magnetic RAM)、RRAM(resistive RAM)、FRAM(ferroelectric RAM)等,或者可以实现为易失性存储器,如,DRAM(dynamic RAM)、SRAM(static RAM)、SDRAM(synchronousDRAM)、PRAM(phase-change RAM)、RRAM(resistive RAM)、FeRAM(ferroelectric RAM)等。并且,存储器410可以实现为HDD(hard disk drive)、SSD(solid state drive)、SD(securedigital)、Micro-SD(micro secure digital)等。
处理器420可以运行存储于存储器410的软件检测出突变。处理器420执行检测突变的一系列处理过程,检测出检测目标细胞的突变。处理器420可以执行用于控制装置400的整个功能,处理装置400内部的各种运算。
处理器420可以实现为多个逻辑门的阵列或通用微处理器。处理器420可以构成为单一处理器或多个处理器。处理器420也可以不独立于存储有软件的存储器410,与存储器410一起呈一体型。处理器420可以是具备于装置400内的CPU(central processing unit)、GPU(graphics processing unit)和AP(application processor)中至少一个,但,这仅仅示意而已,处理器420可以实现为其他多种形态。
处理器420可以生成提取自检测目标细胞的第一基因组数据和提取自正常细胞的第二基因组数据。处理器420可以将测序检测目标细胞的结果数据集嵌入基因组数据中,提取第一基因组数据,将测序正常细胞的结果数据集嵌入基因组数据中,提取第二基因组数据。
例如,处理器420可以通过HCC1143 cell line等生成第一基因组数据和第二基因组数据。另外,第一基因组数据和第二基因组数据可以是全基因组数据(whole genonedata)。
处理器420可以预处理第一基因组数据和第二基因组数据,提取图像数据。处理器420可以进行预处理,以使第一基因组数据和第二基因组数据具备适合由神经网络200进行处理的形态。
例如,第一基因组数据和第二基因组数据可以转换成图像形态,如,图像数据。但,转换成图像形态仅仅是示意而已,依据神经网络200实现为何种方式,除了图像之外,第一基因组数据和第二基因组数据还可以转换成多种形态。
处理器420可以基于映射质量(mapping quality)及深度(depth)补正第一基因组数据和第二基因组数据,进行预处理。处理器420能够以映射质量为准,清除低质量的读取(read),调整第一基因组数据和第二基因组数据的深度。通过上述预处理过程,处理器420可以生成图像数据,该图像数据具备适合由神经网络200处理的形式。
处理器420可以通过神经网络200,基于图像数据,检测出检测目标细胞的变异,该神经网络200经过学习,可以更正测序平台(sequencing)上发生的特异假阳性(falsepositive)。处理器420应用经过学习的神经网络200,从图像数据检测出检测目标细胞中何种基因发生了突变。
测序平台可以意味着检测目标细胞测序的具体方式。依据适用何种测序平台,测序方式也会不同。如二代测序(NGS),依据DNA片段被分解的大小,即,依据被并列处理的DNA片段的读长(read length),确定测序平台的种类。例如,测序平台可以包括长读测序和短读测序等。但,不受限于这种基于读长的分类,测序平台可以意味着以测序为目的的多种分析方式。
神经网络200可以经过预学习,接收图像数据,输出检测目标细胞的突变。完成预学习的神经网络200能够以软件形态存储在存储器410中,处理器420运行软件,从图像数据检测出检测目标细胞的突变,该软件用于实现经过学习的神经网络200。
可以通过装置400执行神经网络200的学习乃至训练。为了使神经网络200进行学习,装置400乃至处理器420可以通过反复更新构成神经网络200的参数数值的方式,使神经网络200完成学习。或者,神经网络200可以在装置400外部进行学习之后,实现为软件。
神经网络200经过学习,可以更正测序平台上发生的特异假阳性。例如,神经网络200经过学习,可以更正短读测序上发生的特异假阳性,而短读测序的读长(read length)可以是100以下。但,不受这种特定数值的限定,短读测序可以是读长比长读测序短的测序方式。
测序平台上发生的特异假阳性意味着:或被特定测序平台检测为特定基因突变,可实际上该基因未发生突变。即,这意味着:假阳性可以被特定测序平台判断为发生了突变,但,被其他测序平台则判断为未发生变异。
例如,特定测序平台上发生的特异假阳性可以是短读测序的特异假阳性。短读测序中发生的特异假阳性也许被长读测序检测为正常,但,被短读测序误检为发生了突变。短读测序发生特异假阳性时,可能会将实际上未发生突变的基因误判为发生了突变,这会降低突变检测的精准度。
神经网络200经过学习,可以更正测序平台上发生的特异假阳性,因此,应用神经网络200,对于检测目标细胞的突变进行检测时,可以提升突变检测的精准度。以下,通过图5和图8示出了神经网络200学习的具体内容。
图5示出了部分实施例中,神经网络的结构及学习方式。
图5示出了神经网络530的结构以及神经网络530基于第一学习图像数据510和第二学习图像数据520进行学习的过程。图5所示神经网络530可以是图2至图4所示神经网络200实现的一例。
如上所述,神经网络530可以是卷积神经网络,该卷积神经网络从图像数据提取特征(feature),基于特征,计算检测目标细胞的基因发生突变的概率。
神经网络530可以实现为包括第一网络531和第二网络532的卷积神经网络(CNN)。第一网络531可以包括卷积层和池化层,第二网络532可以包括全连接网络(fullyconnected network)。神经网络530完成学习时,第一网络531可以从输入数据提取表示输入数据特征的特征,第二网络532可以基于特征,依据神经网络530的目的执行功能。
如上所述,可以通过装置400执行神经网络530的学习。或者,可以在装置400的外部完成神经网络530学习之后,由装置400只执行神经网络530的推理。
神经网络530可以将第一学习图像数据510和第二学习图像数据520当作学习数据进行学习。具体地,神经网络530经过学习,可以基于第一学习图像数据510和第二学习图像数据520,辨别实际突变和误检突变,其中,第一学习图像数据510表示与实际突变相关的学习数据,第二学习图像数据520表示因假阳性误检为突变的相关学习数据。
第一学习图像数据510可以显示与实际突变相关的学习数据。某一测序平台可以将实际突变判断为突变,这也意味着其他测序平台也可以判断为突变。例如,实际突变意味着短读测序和长读测序均判断为突变。
第二学习图像数据520可以表示由于假阳性被误检为突变的相关学习数据。如上所述,特定测序平台可能会将实际上不是突变的误检为突变,因此,通过学习,可以使神经网络530应用由于假阳性被误检的突变更正假阳性。例如,对于被误检的突变,长读测序可以判断为没有发生突变,但,短读测序可以判断为发生了突变。
为了使神经网络530进行学习,第一学习图像数据510和第二学习图像数据520可以一同应用为学习数据,因此,学习结果神经网络530可以更正测序平台上发生的特异假阳性。将第一学习图像数据510和第二学习图像数据520均设置为学习数据,可以提升神经网络530检测出突变的精准度。
图6示出了部分实施例中,神经网络学习数据的生成过程。
图6举例示出了用于生成第一学习图像数据510和第二学习图像数据520的不同测序平台,并示出了长读测序610和短读测序620。
可以基于相同学习用细胞的长读测序610及短读测序620结果,生成第一学习图像数据510和第二学习图像数据520。为了获得用于神经网络530学习的学习数据,可以针对局部包括突变基因的相同癌细胞,实施长读测序610和短读测序620,并对比两者的结果。
例如,可以通过长读测序610实施Pacbio测序,通过短读测序620实施Illumina测序。但,不受此限定,关于短读和长读,可以采用具备适当读取长度的其他测序方式。
图6举例示出了长读测序610和短读测序620的实施结果。适用相同基准时,长读测序610的映射结果和短读测序620的映射结果会存在局部区别。例如,据对比结果630认为,长读测序610和短读测序620均发生突变,因此,可以将与对比结果630相对应的碱基设定为实际突变。
但,对比结果640中,长读测序610检出已发生突变,短读测序620检出未发生突变,因此,可以将与对比结果640相对应的碱基设定为:短读测序上,因特异假阳性被误检为突变。
与对比结果630相对应的实际突变相关数据可以标注为第一学习图像数据510,与对比结果640相对应的误检突变相关数据可以标注为第二学习图像数据520。神经网络530可以基于通过上述方式生成的第一学习图像数据510和第二学习图像数据520进行学习,因此,经过学习,可以更正与对比结果640的情况相同的假阳性。
另外,与对比结果630相对应的实际突变相关数据以及与对比结果640相对应的误检突变相关数据可以通过HCC1143 cell line等实现为虚拟癌细胞基因组数据,并可以通过从虚拟癌细胞基因组数据获取基因序列(gene sequence)、插入/缺失(indel,insertion/deletion)、映射质量(mapping quality)等信息的过程,针对实际突变和误检突变,分别生成第一学习图像数据510和第二学习图像数据520。即,第一学习图像数据510和第二学习图像数据520可以包括基因序列、插入/缺失和映射质量中至少一个。
图7是部分实施例中,构成突变检测方法的步骤的流程图。
如图7所示,突变检测方法可以包括步骤710至步骤730。但,不受此限定,除了图7所示的若干个步骤之外,突变检测方法还可以进一步包括其他若干个通用步骤。
图7所示突变检测方法可以由图3至图6所示装置300或装置400按照时序处理的步骤组成。因此,哪怕是图7所示突变检测方法在以下省略的内容,图3至图6所示装置300或装置400的上述内容同样适用于图7所示突变检测方法中。
步骤710中,装置400可以生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据。
装置400可以基于映射质量及深度(depth)。补正第一基因组数据和第二基因组数据,进行预处理。
步骤720中,装置400可以预处理第一基因组数据和第二基因组数据,提取图像数据。
步骤730中,装置400可以通过神经网络,基于图像数据检测出检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(false positive)。
神经网络经过学习,可以基于第一学习图像数据和第二学习图像数据,辨别实际突变和误检突变,其中,第一学习图像数据表示与实际突变相关的学习数据,第二学习图像数据表示因假阳性误检为突变的相关学习数据。
可以基于相同学习用细胞的长读测序(long read sequencing)及短读测序(short read sequencing)结果,生成第一学习图像数据和第二学习图像数据。
第一学习图像数据和第二学习图像数据可以包括:基因序列(gene sequence)、插入/缺失(indel,insertion/deletion)和映射质量(mapping quality)中至少一个。
神经网络可以是卷积神经网络(CNN,convolutional neural network),其从图像数据提取特征(feature),并基于特征,计算检测目标细胞的基因发生突变的概率。
从检测目标细胞检测出的突变可以是体细胞单核苷酸变异(sSNV,somaticsingle nucleotide variant)。
图7示出的突变检测方法可以记录在计算机可读记录介质中,该计算机可读记录介质中记录有至少一个程序或软件,该程序或软件包括用于执行该方法的指令。
计算机可读记录介质例如可以包括特别构成的硬件装置,其用于存储并执行硬盘、软盘、磁带等磁性介质(magnetic media)、CD-ROM、DVD等光记录介质(optical media)、光磁软盘(floptical disk)等磁光介质(magneto-optical media)以及只读存储器(ROM)、随机存取存储器(RAM)、快闪存储器等的程序指令。程序指令例如可以包括:编译器制成的机器语言代码以及可以采用解释器等,通过计算机执行的高级语言代码。
上述内容详细说明了本公开的实施例,但本公开的权利要求书不受其限定,且应当解释为本公开所属技术领域的从业人员利用所附权利要求书记载的本公开的基本概念进行的多种变型和改善形态也落入本公开的权利要求范围之内。

Claims (14)

1.一种装置,是突变检测装置,其特征在于,包括:
存储器,其用于存储神经网络实现软件;以及
处理器,其用于运行所述软件,检测突变,
所述处理器用于生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据,
预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据,
通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(falsepositive)。
2.根据权利要求1所述的装置,其特征在于:
所述神经网络经过学习,可以基于第一学习图像数据和第二学习图像数据,辨别所述正常突变和误检突变,其中,第一学习图像数据表示与正常检测的正常突变相关的学习数据,第二学习图像数据表示因所述假阳性误检为突变的相关学习数据。
3.根据权利要求2所述的装置,其特征在于:
基于相同学习用细胞的长读测序(long read sequencing)及短读测序(short readsequencing)结果,生成所述第一学习图像数据和所述第二学习图像数据。
4.根据权利要求2所述的装置,其特征在于:
所述第一学习图像数据和所述第二学习图像数据包括基因序列(gene sequence)、插入/缺失(indel,insertion/deletion)和映射质量(mapping quality)中至少一个。
5.根据权利要求1所述的装置,其特征在于:
所述神经网络是卷积神经网络(CNN,convolutional neural network),其从所述图像数据提取特征(feature),基于所述特征,计算所述检测目标细胞的基因发生突变的概率。
6.根据权利要求1所述的装置,其特征在于:
所述处理器基于映射质量及深度(depth),补正所述第一基因组数据和所述第二基因组数据,进行所述预处理。
7.根据权利要求1所述的装置,其特征在于:
从所述检测目标细胞检测出的突变是体细胞单核苷酸变异(sSNV,somatic singlenucleotide variant)。
8.一种方法,是运行神经网络实现软件以检测突变的方法,其特征在于包括以下步骤:
生成提取自检测目标细胞的第一基因组数据以及提取自正常细胞的第二基因组数据;
预处理所述第一基因组数据和所述第二基因组数据,从而提取图像数据;
通过所述神经网络,基于所述图像数据,检测出所述检测目标细胞的突变,该神经网络经过学习,可以更正测序平台(sequencing platform)上发生的特异假阳性(falsepositive)。
9.根据权利要求8所述的方法,其特征在于:
所述神经网络经过学习,基于第一学习图像数据和第二学习图像数据,辨别所述正常突变和所述误检突变,其中,第一学习图像数据表示与正常检测的正常(实际)突变相关的学习数据,第二学习图像数据表示因所述假阳性误检为突变的相关学习数据。
10.根据权利要求9所述的方法,其特征在于:
基于相同学习用细胞的长读测序(long read sequencing)及短读测序(short readsequencing)结果,生成所述第一学习图像数据和所述第二学习图像数据。
11.根据权利要求9所述的方法,其特征在于:
所述第一学习图像数据和所述第二学习图像数据包括基因序列(gene sequence)、插入/缺失(indel,insertion/deletion)和映射质量(mapping quality)中至少一个。
12.根据权利要求8所述的方法,其特征在于:
所述神经网络是卷积神经网络(CNN,convolutional neural network),其从所述图像数据提取特征(feature),基于所述特征,计算所述检测目标细胞的基因发生突变的概率。
13.根据权利要求8所述的方法,其特征在于:
提取所述图像数据的步骤包括以下步骤:基于映射质量及深度(depth),补正所述第一基因组数据和所述第二基因组数据,进行所述预处理。
14.根据权利要求8所述的方法,其特征在于:
从所述检测目标细胞检测出的突变是体细胞单核苷酸变异(sSNV,somatic singlenucleotide variant)。
CN201980101042.5A 2019-10-25 2019-10-25 减少测序平台特异性错误的体细胞突变检测装置及方法 Pending CN114467144A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/014109 WO2021080043A1 (ko) 2019-10-25 2019-10-25 시퀀싱 플랫폼 특이적인 오류를 줄인 체성 돌연변이 검출 장치 및 방법

Publications (1)

Publication Number Publication Date
CN114467144A true CN114467144A (zh) 2022-05-10

Family

ID=75620707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980101042.5A Pending CN114467144A (zh) 2019-10-25 2019-10-25 减少测序平台特异性错误的体细胞突变检测装置及方法

Country Status (6)

Country Link
US (1) US11640662B2 (zh)
EP (1) EP4050610A4 (zh)
JP (1) JP7411079B2 (zh)
KR (1) KR102691743B1 (zh)
CN (1) CN114467144A (zh)
WO (1) WO2021080043A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064212A (zh) * 2022-06-24 2022-09-16 哈尔滨星云生物信息技术开发有限公司 基于wgs数据的预设区域人群肿瘤特异突变识别方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102671298B1 (ko) 2022-05-26 2024-05-30 서울대학교산학협력단 정상 세포 오염도를 반영하여 구축한 기계 학습 모델을 이용한 체성 돌연 변이 검출 장치 및 방법
WO2024155231A1 (en) * 2023-01-19 2024-07-25 Agency For Science, Technology And Research Somatic variant prediction

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9702008D0 (sv) 1997-05-28 1997-05-28 Pharmacia Biotech Ab A method and a system for nucleic acid seouence analysis
KR101158041B1 (ko) * 2010-11-01 2012-06-22 전남대학교산학협력단 폐 색전증 검출 시스템 및 그 방법
US20160319347A1 (en) * 2013-11-08 2016-11-03 Health Research Inc. Systems and methods for detection of genomic variants
KR20190028821A (ko) * 2015-08-25 2019-03-19 난토믹스, 엘엘씨 전이의 유전적 분석을 위한 시스템 및 방법
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
US10327637B2 (en) * 2017-06-08 2019-06-25 Fdna Inc. Systems, methods, and computer-readable media for patient image analysis to identify new diseases
WO2019157339A1 (en) * 2018-02-09 2019-08-15 Children's Medical Center Corporation Compositions and methods for identifying a single-nucleotide variant
CA3092352A1 (en) * 2018-02-27 2019-09-06 Cornell University Systems and methods for detection of residual disease
KR101889724B1 (ko) * 2018-07-04 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
US20210398605A1 (en) * 2018-12-03 2021-12-23 King Abdullah University Of Science And Technology System and method for promoter prediction in human genome
US11443832B2 (en) * 2019-03-07 2022-09-13 Nvidia Corporation Genetic mutation detection using deep learning

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064212A (zh) * 2022-06-24 2022-09-16 哈尔滨星云生物信息技术开发有限公司 基于wgs数据的预设区域人群肿瘤特异突变识别方法
CN115064212B (zh) * 2022-06-24 2023-03-14 哈尔滨星云生物信息技术开发有限公司 基于wgs数据的预设区域人群肿瘤特异突变识别方法

Also Published As

Publication number Publication date
KR20220019218A (ko) 2022-02-16
US20220108438A1 (en) 2022-04-07
US11640662B2 (en) 2023-05-02
EP4050610A1 (en) 2022-08-31
KR102691743B1 (ko) 2024-08-06
JP7411079B2 (ja) 2024-01-11
EP4050610A4 (en) 2022-10-26
WO2021080043A1 (ko) 2021-04-29
JP2022552532A (ja) 2022-12-16

Similar Documents

Publication Publication Date Title
CN111767707B (zh) 雷同病例检测方法、装置、设备及存储介质
CN112768089B (zh) 用于预测药物敏感状态的方法、设备和存储介质
KR102691743B1 (ko) 시퀀싱 플랫폼 특이적인 오류를 줄인 체성 돌연변이 검출 장치 및 방법
Caron et al. On-line changepoint detection and parameter estimation with application to genomic data
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
WO2023134296A1 (zh) 分类预测方法, 装置, 设备, 存储介质及计算机程序产品
CN112288831B (zh) 基于生成对抗网络的场景图像生成方法和装置
CN109271957B (zh) 人脸性别识别方法以及装置
US11942189B2 (en) Drug efficacy prediction for treatment of genetic disease
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
US12119070B2 (en) Memory failure prediction
Azad et al. Use of artificial genomes in assessing methods for atypical gene detection
CN117153268A (zh) 一种细胞类别确定方法及系统
Gundry et al. Inclusion of multiple cycling of potential in the deep neural network classification of voltammetric reaction mechanisms
CN111444802A (zh) 一种人脸识别方法、装置及智能终端
Simmons Cell type composition analysis: comparison of statistical methods
EP3739590A1 (en) Sequence variation detection using deep learning
US11397868B2 (en) Fungal identification by pattern recognition
AU2022218581B2 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
CN116798515A (zh) 一种基于分层深度多示例学习的基因突变预测方法及系统
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
Sharma et al. Discovering Fragile Clades And Causal Sequences In Phylogenomics By Evolutionary Sparse Learning
Junjun et al. A comprehensive review of deep learning-based variant calling methods
CN103793623B (zh) 碱基序列重组系统及方法
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination