CN117897776A - 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法 - Google Patents

使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法 Download PDF

Info

Publication number
CN117897776A
CN117897776A CN202280038191.3A CN202280038191A CN117897776A CN 117897776 A CN117897776 A CN 117897776A CN 202280038191 A CN202280038191 A CN 202280038191A CN 117897776 A CN117897776 A CN 117897776A
Authority
CN
China
Prior art keywords
nucleic acid
cancer
data
acid fragments
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280038191.3A
Other languages
English (en)
Inventor
赵银海
李泰林
朴淑莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gc Genomics Co ltd
Original Assignee
Gc Genomics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gc Genomics Co ltd filed Critical Gc Genomics Co ltd
Publication of CN117897776A publication Critical patent/CN117897776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种通过使用细胞游离核酸片段的末端序列基序频率和大小来诊断癌症和预测癌症类型的方法,更具体地,涉及一种通过使用从生物样品中提取核酸,基于通过获得和比对序列信息获得的读段,导出核酸片段的末端序列基序频率和核酸片段的大小,将其生成矢量化数据,将所述数据输入经训练的人工智能模型,并分析计算值来诊断癌症和预测癌症类型的方法。因为根据本发明,通过使用细胞游离核酸片段的末端序列基序频率和大小来诊断癌症和预测癌症类型的方法产生矢量化数据并通过使用AI算法来分析数据,所以该方法即使在读取覆盖率低的情况下也显示出高灵敏度和准确性,因此是有用的。

Description

使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症 和预测癌症类型的方法
技术领域
本发明涉及一种使用细胞游离核酸(cell-free nucleic acid)的片段末端基序频率和大小来诊断癌症和预测癌症类型的方法,更优选地,涉及一种通过从生物样品中提取核酸以获得序列信息(读段(read)),基于比对的读段获得核酸片段的末端基序频率和大小,将核酸片段的末端基序频率和大小转换成矢量化数据,将矢量化数据输入到经训练的人工智能模型中并分析所得计算值来诊断癌症和预测癌症类型的方法。
背景技术
临床实践中的癌症诊断通常在病史检查、体格检查和临床评估后通过组织活检来进行。只有当癌细胞的数量为10亿或更多且癌的直径为1cm或更大时,基于临床试验的癌症诊断才是可行的。在这种情况下,癌细胞已经具有转移的潜力,并且其中至少一半已经转移。此外,组织活检是侵入性的,这不利地引起患者相当大的不适,并且通常无法适应癌症治疗。此外,用于监测由癌直接或间接产生的物质的肿瘤标志物用于癌症筛查。然而,肿瘤标志物的准确度有限,因为即使在存在癌的情况下超过一半的肿瘤标志物筛查结果也显示正常,并且即使在不存在癌的情况下肿瘤标志物筛查结果也通常显示阳性。
最近,响应于对癌症诊断方法的要求,诸如相对容易、非侵入性、高灵敏度和高特异性,使用来自患者的体液的液体活检已经广泛用于癌症诊断和随访复查。液体活检是一种非侵入性的诊断方法,其作为传统侵入性诊断和检查方法的替代方法引起了极大的关注。
最近,已经开发了一种使用从液体活检获得的细胞游离DNA来诊断癌症和确定癌症类型的方法(美国专利号10975431,Zhou,Xionghui et al.,bioRxiv,2020.07.16.201350)。具体地,已知一种分析细胞游离核酸末端序列的基序频率信息并将该信息用于癌症诊断、产前诊断或器官移植监测的方法(WO 2020-125709,Peiyong Jianget al.,Cancer Discovery,Vol.10,2020,pp.664-673)。
同时,人工神经网络是在软件或硬件中实现的计算模型,其使用通过连接线连接的大量人工神经元来模拟生物系统的计算能力。人工神经网络使用人工神经元,其以简化的形式表示生物神经元的功能。人工神经网络通过具有相应连接强度的连接线互连人工神经元来进行人类认知或学习过程。术语“连接强度”可与“连接权重”互换,是指连接线的预定值。人工神经网络学习可以分类为监督学习和无监督学习。监督学习是一种向神经网络提供输入数据和与其对应的输出数据,并更新连接线的连接强度,从而输出与输入数据对应的输出数据的方法。代表性的学习算法包括δ规则和反向传播学习。无监督学习是一种其中人工神经网络仅使用输入数据独立地学习连接强度而没有目标值的方法。无监督学习基于输入模式之间的相关性更新连接权重。
将大量数据应用于机器学习会导致所谓的“维数灾难”问题,这是由于复杂性的增加和更多维数的增加。换句话说,当所需数据的维数趋近于无穷大时,任意两点之间的距离也趋近于无穷大,并且数据量(即,密度)在高维空间中变得更低,从而无法正确反映数据的特征(Richard Bellman,Dynamic Programming,2003,chapter 1)。最近发展的深度学习具有在输入层和输出层之间存在隐藏层的结构,并且已经报道通过用非线性函数处理从输入层传输的变量值的线性组合,极大地提高了分类器在高维数据诸如图像、视频和信号数据方面的性能(Hinton,Geoffrey,等人,IEEE Signal Processing Magazine Vol.29.6,pp.82-97,2012)。
各个专利(KR 10-2018-124550、KR 10-2019-7038076、KR 10-2019-0003676和KR10-2019-0001741)描述了人工神经网络在生物领域中的用途,但是缺乏通过基于血液中细胞游离DNA(cfDNA)测序信息的人工神经网络分析来预测癌症类型的方法的研究。
因此,作为解决上述问题和开发基于人工智能以高灵敏度和准确度诊断癌症和预测癌症类型的方法的广泛和认真努力的结果,本发明人发现,通过基于细胞游离核酸片段的末端基序和长度的信息生成矢量化数据并使用训练的人工智能模型分析该数据可以以高灵敏度和准确度实现癌症诊断和癌症类型预测,并且基于该发现完成了本发明。
发明内容
因此,本发明的一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的方法。
本发明的另一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的装置。
本发明的另一个目的是提供一种计算机可读存储介质,其包括配置为由处理器执行的指令,用于通过上述方法诊断癌症和预测癌症类型。
根据本发明的一方面,提供了一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断(cut-off)值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。
根据本发明的另一方面,提供了一种诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。
根据本发明的另一方面,提供了一种诊断癌症和预测癌症类型的装置,所述装置包括:解码器,配置成从生物样品中提取核酸并解码序列信息;比对器,配置成将解码的序列与参考基因组数据库进行比对;核酸片段分析器,配置成基于比对的序列获得核酸片段的末端基序频率和大小;数据生成器,配置成使用核酸片段的末端基序频率和大小生成矢量化数据;癌症诊断单元,配置成将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将所得的输出值与截断值进行比较,从而确定癌症是否发生;以及癌症类型预测器,配置成分析输出值并且从而预测癌症类型。
根据本发明的另一方面,提供了一种计算机可读存储介质,其包括被配置为由处理器执行的指令,用于通过以下步骤诊断癌症和预测癌症类型,所述步骤包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。
附图说明
图1是说明根据本发明的使用细胞游离核酸片段的末端基序和大小来诊断癌症和预测癌症类型的方法的总体流程图;
图2是根据本发明的实施方式的选择在健康受试者和癌症患者之间或在各种癌症类型之间具有表达频率差异的基序的过程的实例;
图3是说明根据本发明的实施方式选择的核酸片段的大小分布的图;
图4示出了根据本发明的实施方式从一个核酸片段创建FEMS表的实例(左图)和从所有核酸片段创建FEMS表的实例;
图5示出了根据本发明的实施方式通过进一步执行边缘汇总(edge summary)而创建的FEMS表的实例(左图)及其可视化的结果(右图);
图6是根据本发明的实施方式的基于健康受试者、肝癌患者和食道癌患者的数据创建的FEMS表的可视化的实例;
图7A示出了根据本发明的实施方式构建的CNN模型基于准确度和微AUC所评估的性能,并且图7B示出了混淆矩阵;
图8示出了基于由CNN模型输出的DPI的分布,由根据本发明的实施方式构建的CNN模型预测的健康受试者、肝癌患者和食道癌患者的概率值如何与实际患者相匹配;以及
图9是说明在本发明的实施方式中构建的CNN模型的配置的示意图。
具体实施方式
除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的技术人员所理解的相同含义。通常,本文所用的术语是本领域公知的,并且是通常使用的。
尽管术语诸如“第一”、“第二”、“A”、“B”可以用于描述各种部件,这些部件不受这些术语的限制,并且这些术语仅用于区分一个部件和另一个部件。例如,在不脱离本发明的范围的情况下,“第一”部件可以被指名为“第二”部件,并且类似地,“第二”部件也可以被指定为“第一”部件。术语“和/或”包括多个相关列出项的组合或多个相关列出项中的任何一个。
在本文使用的术语中,除非上下文明确地另行指出,否则单数形式也旨在包括复数形式,并且还应当理解,术语诸如“包括”、“包含”指定了所陈述的特征、整数、步骤、操作、部件、零件或其组合的存在,但是不排除一个或多个其他特征、整数、步骤、操作、部件、零件或其组合的存在或添加。
在详细描述附图之前,应该声明的是,本说明书中组成单元的分类仅仅是根据每个组成单元负责的主要功能的划分。特别地,下面将要描述的两个或更多个组成单元可以被组合成一个组成单元,或者一个组成单元可以被分成两个或更多个以用于每个更细分的功能。此外,应当理解,下面将要描述的每个组成单元除了其负责的主要功能之外,还可以执行其他组成单元的一些或所有功能,并且组成单元负责的一些主要功能可以由其他组成单元专门执行。
此外,在执行方法或操作方法时,构成该方法的单个过程可以以与上下文中描述的不同的顺序来进行,除非上下文中明确地描述了特定顺序。特别地,单个过程可以按照指定的相同顺序发生,可以基本上同时进行,或者可以以相反的顺序进行。
在本发明中发现,通过将从样品获得的测序数据与参考基因组进行比对,基于比对的序列信息(读段)获得核酸片段的末端基序频率和大小,使用核酸片段的基序频率和大小生成矢量化数据,以及使用经训练的人工智能模型计算DPI,可以以高灵敏度和准确度进行癌症诊断和癌症类型预测。
也就是说,在本发明的一种实施方式中,开发了一种方法,包括对从血液中提取的DNA进行测序,将测序数据与参考基因组进行比对,
使用比对的序列信息获得核酸片段的末端基序频率和大小,生成矢量化数据,其中核酸片段的末端基序频率在X轴上和核酸片段的大小在Y轴上,允许深度学习模型对数据进行学习以计算DPI,通过将DPI与参考值进行比较来诊断癌症,以及然后将在为各个癌症类型计算的DPI中显示最高DPI的癌症类型确定为样品的癌症类型(图1)。
在另一方面,本发明涉及一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括:
(a)从生物样品中提取核酸以获得序列信息;
(b)将所述序列信息(读段)与参考基因组数据库进行比对;
(c)基于比对的序列信息(读段)获得核酸片段的末端基序频率和大小;
(d)使用核酸片段的基序频率和大小生成矢量化数据;
(e)将生成的矢量化数据输入到经训练的人工智能模型中,分析数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生;以及
(f)通过所述输出值的比较来预测癌症类型。
在本发明中,可以不受限制地使用任何核酸片段,只要它是从生物样品中提取的核酸片段,并且核酸片段优选地是细胞游离核酸或细胞内核酸的片段,但不限于此。
在本发明中,核酸片段可以通过本领域技术人员已知的任何方法获得,优选直接测序、下一代测序、通过非特异性全基因组扩增的测序或基于探针的测序,但该方法不限于此。
在本发明中,所述癌症可以是实体癌或血癌,并且优选地选自由以下组成的组:非霍奇金淋巴瘤、非霍奇金淋巴瘤、急性髓系白血病、急性淋巴细胞性白血病、多发性骨髓瘤、头颈癌、肺癌、胶质母细胞瘤、结肠直肠/直肠癌、胰腺癌、乳腺癌、卵巢癌、黑素瘤、前列腺癌、肝癌、甲状腺癌、胃癌、胆囊癌、胆道癌、膀胱癌、小肠癌、宫颈癌、未知原发癌、肾癌、食管癌和间皮瘤,以及更优选地为肝癌或食道癌,但是所述癌症不限于此。
在本发明中,
步骤(a)包括:
(a-i)从生物样品中获得核酸;
(a-ii)使用盐析法、柱色谱法或珠粒法从收集的核酸中去除蛋白质、脂肪和其它残余物,以获得纯化的核酸;
(a-iii)为所述纯化的核酸或通过酶消化、粉碎或水力剪切方法随机片段化的核酸制备单端测序或双端测序文库;
(a-iv)用下一代测序仪反应所制备的文库;以及
(a-v)获得下一代测序仪中所述核酸的序列信息(读段)。
在本发明中,步骤(a)中获得序列信息的特征可以在于,通过深度为1百万至1亿个读段的全基因组测序获得分离的细胞游离DNA。
在本发明中,生物样品是从受试者获得或衍生自受试者的任何材料、生物流体、组织或细胞,其实例可包括但不限于全血、白细胞、外周血单核细胞、血沉棕黄层、血液(包括血浆和血清)、痰、眼泪、粘液、鼻洗液、鼻抽吸物、气息、尿、精液、唾液、腹膜洗出物、骨盆液、囊液、脑膜液、羊水、腺液、胰液、淋巴液、胸膜液、乳头抽吸物、支气管抽吸物、滑液、关节抽吸物、器官分泌物、细胞、细胞提取物、毛发、口腔细胞、胎盘细胞、脑脊液及其混合物。
在本发明中,下一代测序仪可以用于本领域已知的任何测序方法。使用选择方法分离的核酸的测序通常使用下一代测序(NGS)进行。下一代测序包括确定每个核酸分子的核苷酸序列或从每个核酸分子克隆以使其高度相似的替代物(proxy)的核苷酸序列的任何测序方法(例如,105个或更多个分子被同时测序)。在一种实施方式中,文库中核酸种类的相对丰度可以通过对测序实验产生的数据中与其同源的序列出现的相对数量进行计数来估计。下一代测序是本领域已知的,并且在,例如,Metzker,M.(2010),NatureBiotechnology Reviews 11:31-46中描述,其通过援引并入本文。
在一种实施方式中,进行下一代测序以确定每个核酸分子的核苷酸序列(例如,使用螺旋生物科学公司(Helicos Biosciences)的HelioScope基因测序系统或太平洋生物科学公司(Pacific Biosciences)的PacBio RS系统)。在其他实施方式中,大规模、平行的短读段测序比其他测序方法(例如,产生更少但更长读段的其他测序方法)在每个测序单元产生更多的碱基序列,确定了从每个核酸分子克隆的替代物的核苷酸序列(例如,使用位于CA,圣地亚哥的Illumina公司的Solexa测序分析仪;454Life Sciences(康涅狄格州,布兰福德)和Ion Torrent)。用于下一代测序的其他方法或装置可以由454Life Sciences(康涅狄格州布兰福德),Applied Biosystems(CA,福斯特市;SOLiD测序仪)、螺旋生物科学公司(Helicos Biosciences Corporation)(MA,剑桥)以及乳液和微流体测序纳米液滴(例如,GnuBIO液滴)提供,但不限于此。
用于下一代测序的平台包括但不限于Roche/454的FLX System基因组测序仪(GS)、Illumina/Solexa基因组分析仪(GA)、Life/APG的支持寡核苷酸连接检测(SupportOligonucleotide Ligation Detection,SOLiD)系统、Polonator的G.007系统、螺旋生物科学公司的HelioScope基因测序系统和来自太平洋生物科学公司的PacBio RS系统。
例如,NGS技术可以包括一个或多个模板制备、测序、成像和数据分析步骤。
模板制备制备模板的方法包括将核酸(例如,基因组DNA或cDNA)随机断裂成小尺寸并制备测序模板(例如,片段模板或配对模板)。空间分离的模板可以附着或固定在固体表面或载体上,这允许同时进行大规模的测序反应。可以用于NGS反应的模板类型的实例包括从衍生自单DNA分子的克隆扩增的模板以及单DNA分子模板。
制备从克隆扩增的模板的方法包括,例如,乳液PCR(emPCR)和固相扩增。
EmPCR可用于制备用于NGS的模板。通常,制备核酸片段文库,并将含有通用引物启动位点的接头连接到片段的末端。然后将片段变性成单链,并用珠粒捕获。每个珠粒捕获单核酸分子。在emPCR珠粒扩增和富集后,可以附着大量的模板,固定在标准显微镜载玻片上的聚丙烯酰胺凝胶上(例如,来自Polonator),并化学交联到氨基包被的玻璃表面(例如,Life/APG;Polonator),或沉积在单个PicoTiterPlate(PTP)孔中(例如,Roche/454)。此时,可以进行NGS反应。
固相扩增也可以用于制备用于NGS的模板。通常,前引物和后引物共价连接到固相载体上。经扩增的片段的表面密度定义为载体上引物与模板的比例。固相扩增能够制备数百万个空间分离的模板簇(例如,Illumina/Solexa)。模板簇的末端可以与用于NGS反应的通用引物杂交。
制备克隆扩增模板的其他方法包括,例如,多重置换扩增(MDA)(Lasken R.S.;Curr.Opin.Microbiol.2007;10(5):510-6)。MDA是基于非PCR的DNA扩增方法。该反应包含将随机六聚体引物退火至模板,并在恒温下使用高保真酶(通常为Ф29)合成DNA。MDA可以生产错误频率较低的大规模产物。
模板扩增方法诸如PCR可以将NGS平台结合至靶标或富集基因组的特定区域(例如,外显子)。代表性的模板富集方法包括,例如,微滴PCR(Tewhey R.等人,NatureBiotech.2009,27:1025-1031)、定制设计的寡核苷酸微阵列(例如,Roche/NimbleGen寡核苷酸微阵列)、液相杂交(例如,分子倒置探针,MIP)(Porreca GJ等人,Nature Methods,2007,4:931-936;Krishnakumar S.等人,Proc.Natl.Acad.Sci.USA,2008,105:9296-9310;Turner EH等人,Nature Methods,2009,6:315-316),以及生物素化的RNA捕获序列(GnirkeA.等人,Nat.Biotechnol.2009;27(2):182-9)。
单分子模板是可以用于NGS反应的另一种类型的模板。空间分离的单分子模板可以通过多种方法固定在固相载体上。在一种方法中,每个引物分子共价连接到固相载体上。将接头添加到模板上,以及然后模板与所固定的引物杂交。在另一种方法中,通过启动并从所固定的引物延伸单链单分子模板,将单分子模板共价连接到固相载体上。然后,通用引物与模板杂交。在另一种方法中,将单个聚合酶分子附着在固相载体上,其中引物模板结合在固相载体上。
测序和成像代表性NGS测序和成像方法包括但不限于循环可切除终止测序法(CRT)、连接法测序(SBL)、焦磷酸测序和实时测序。
CRT在循环方法中使用可切除的终止子,该方法至少包括核苷酸掺入、荧光成像和切割步骤。通常,DNA聚合酶掺入了与引物中模板碱基的核苷酸互补的单个荧光修饰的核苷酸。DNA合成在掺入单个核苷酸后终止,以及未掺入的核苷酸被洗去。进行成像以确定掺入的标记核苷酸的同源性。然后,在切除步骤中,除去终止子/抑制剂和荧光染料。使用CRT方法的代表性NGS平台包括,但不限于,Illumina/Solexa基因组分析仪(GA),其使用克隆扩增模板方法与涉及使用全内反射荧光(TIRF)检测的4色CRT方法相结合;以及HelicosBiosciences/HelioScope,其使用单分子模板方法与涉及使用TIRF检测的1色CRT方法相结合。
SBL使用DNA连接酶和1碱基编码探针或2碱基编码探针进行测序。
通常,荧光标记的探针与邻近引物模板的互补序列杂交。DNA连接酶用于将染料标记的探针连接到引物上。洗涤未连接的探针后,进行荧光成像以确定连接的探针的身份。可以使用可切除探针来除去荧光染料,该可切除探针再生用于随后的连接循环的5’-PO4基团。或者,在旧引物被去除后,新引物可以与模板杂交。代表性的SBL平台包括但不限于Life/APG/SOLiD(支持寡核苷酸连接检测),其使用双碱基编码探针。
焦磷酸测序方法是基于用另一种化学发光酶对DNA聚合酶的活性的检测。通常,这种方法包括通过一次一个碱基对合成互补链并检测每一步实际添加的碱基来对DNA的单链进行测序。模板DNA是固定的,以及在反应过程中,A、C、G和T核苷酸的溶液依次加入和移出。只有当核苷酸溶液补充模板的未成对碱基时,才会产生光。产生化学发光信号的溶液的序列用于确定模板的序列。代表性的焦磷酸测序平台包括但不限于来自Roche/454的那些平台,其使用通过emPCR从沉积在PTP孔中的1-2百万个珠粒产生的DNA模板。
实时测序涉及在DNA合成期间对染料标记的核苷酸的连续掺入进行成像。代表性的实时测序平台包括,但不限于,来自太平洋生物科学公司的平台,其使用附着于各自零模波导(ZMW)检测器表面的DNA聚合酶分子,当磷酸连接的核苷酸掺入生长的引物链中时,获得序列信息;Life/VisiGen平台使用基因工程DNA聚合酶和附着的荧光染料,在掺入核苷酸后通过荧光共振能量转移(FRET)产生增强的信号;以及来自LI-COR Biosciences的平台,其在测序反应中使用染料淬灭剂核苷酸。
其他NGS方法包括但不限于纳米孔测序、杂交测序、基于纳米晶体管阵列的测序、聚合酶克隆测序(Polony sequencing)、基于扫描隧道显微镜(STM)的测序和基于纳米线分子传感器的测序。
纳米孔测序涉及溶液中核酸分子通过纳米级孔的电泳,所述纳米级孔为单核酸聚合物的分析提供了高度密闭的区域。代表性的纳米孔测序方法描述于Branton D.等人,Nat.Biotechnol.2008;26(10):1146-53]和其他地方。
杂交测序是使用DNA微阵列的非酶方法。通常,单个DNA池被荧光标记并杂交到含有已知序列的阵列中。来自阵列上给定点的杂交信号可以用于鉴定DNA序列。当杂交区很短或存在特定的错配检测蛋白时,DNA双链中的一条DNA链与另一条互补链的结合甚至对单碱基错配也很敏感。描述了代表性的杂交测序方法描述于,例如,Hanna G.J.等人,J.Clin.Microbiol.2000;38(7):2715-21;以及Edwards J.R.等人,Mut.Res.2005;573(1-2):3-12。
聚合酶克隆测序是基于聚合酶克隆(Polony)扩增和多重单碱基延伸(FISSEQ)。聚合酶克隆扩增是在聚丙烯酰胺膜上原位扩增DNA的方法。代表性的聚合酶克隆测序方法描述于,例如,美国专利申请公开第2007/0087362号。
基于纳米晶体管阵列的装置诸如碳纳米管场效应晶体管(CNTFET)也可以用于NGS。例如,DNA分子通过经微制造的电极延伸并驱动穿过纳米管。DNA分子依次接触碳纳米管表面,并且由于在DNA分子和纳米管之间的电荷转移,产生了来自各个碱基的电流的差异。通过记录该差异来对DNA进行测序。代表性的基于纳米晶体管阵列测序方法描述于,例如,美国专利公开第2006/0246497号。
扫描隧道显微镜(STM)也可以用于NGS。STM使用压电控制的探针对样品进行光栅扫描,在其表面形成图像。STM可以用于成像单个DNA分子的物理性质,例如,通过将柔性致动器驱动的间隙与扫描隧道显微镜集成,产生相干电子隧穿成像和光谱。使用STM的代表性测序方法描述于,例如,美国专利申请公开第2007/0194225号中。
由纳米线分子传感器组成的分子分析装置也可以用于NGS。这种装置可以检测位于核酸分子和纳米线诸如DNA上的含氮物质的相互作用。分子引导器被设置成引导在分子传感器附近的分子,以允许相互作用和随后的检测。使用纳米线分子传感器的代表性测序方法描述于,例如,美国专利申请公开第2006/0275779号。
双链测序可以用于NGS。双链测序使用封闭引物和解封闭引物对DNA的正义链和反义链进行测序。通常,该方法包括:将解封闭引物退火至核酸的第一条链;将第二封闭引物退火至核酸的第二条链;用聚合酶沿着第一条链延伸核酸;终止第一测序引物;解封闭第二引物;以及沿着第二条链延伸核酸。代表性双链测序方法描述于,例如,美国专利第7244567号。
NGS读段形成后,将它们与已知的参考序列进行比对或从头拼接成已知的参考序列。
例如,通过将NGS读段与参考序列(例如,野生型序列)进行比对,可以鉴定样品(例如,肿瘤样品)中的遗传修饰,诸如单核苷酸多态性和结构变异。将NGS读段与序列比对的方法描述于,例如,Trapnell C.和Salzberg S.L.Nature Biotech.,2009,27:455-457。
从头拼接的实例描述于,例如,Warren R.等人,Bioinformatics,2007,23:500-501;Butler J.等人.,Genome Res.,2008,18:810-820;Zerbino D.R.和Birney E.,GenomeRes.,2008,18:821-829。
可以使用来自一个或多个NGS平台的读段数据(例如,通过混合Roche/454和Illumina/Solexa读段数据)进行序列比对或序列拼接。在本发明中,可以使用BWA算法和hg19序列进行比对,但不限于此。
在本发明中,步骤(b)的序列比对包括使用计算机算法的计算方法或途径以确定可能来自基因组的序列(例如,如通过下一代测序获得的短读段序列)的情况或通过评估读段序列和参考序列之间的相似性来确定它们之间存在同一性的情况。各种算法可以应用于序列比对问题。一些算法相对较慢,但是能够实现相对较高的特异性。这些包括,例如,基于动态编程的算法。动态编程是通过将复杂问题分割成简单步骤来解决它们的方法。其他方法更有效,但通常不是穷举的,并且包括,例如,为大规模数据库搜索设计的启发式算法和概率方法。
通常,比对过程可以包括两个步骤,即候选筛选和序列比对。候选筛选减少了从整个基因组进行序列比对的搜索空间,以便获得可能的比对位置的较短列表。正如该术语字面上的含义,序列比对包括比对包括在候选筛选过程中获得的序列在内的序列。这可以使用广泛比对(例如,尼德曼-翁施(Needleman-Wunsch)比对)或局部比对(例如,史密斯-沃特曼(Smith-Waterman)比对)来进行。
大多数属性排序算法可能具有基于索引方法的三种类型之一:基于哈希表的算法(例如,BLAST、ELAND、SOAP)、后缀树(例如,Bowtie、BWA)和归并排序(例如,slider)。短读段序列通常用于比对。短读段序列的序列比对算法/程序的实例包括,但不限于,BFAST(HomerN.等人,PLoS One.2009;4(11):e7767)、BLASTN(来自万维网的blast.ncbi.nlm.nih.gov)、BLAT(Kent W.J.Genome Res.2002;12(4):656-64)、Bowtie(Langmead B.等人,GenomeBiol.2009;10(3):R25)、BWA(Li H.和Durbin R.,Bioinformatics,2009,25:1754-60)、BWA-SW(Li H.和Durbin R.,Bioinformatics,2010;26(5):589-95)、CloudBurst(SchatzM.C.,Bioinformatics,2009;25(11):1363-9)、Corona Lite(美国加利福尼亚州,卡尔斯巴德,应用生物系统公司(Applied Biosystems))、CASHX(Fahlgren N.等人,RNA,2009;15,992-1002)、CUDA-EC(Shi H.等人,J.Comput.Biol.2010;17(4):603-15)、ELAND(万维网上的bioit.dbi.udel.edu/howto/eland)、GNUMAP(Clement N.L.等人,Bioinformatics.2010;26(1):38-45)、GMAP(Wu T.D.和Watanabe C.K.,Bioinformatics,2005;21(9):1859-75)、GSNAP(Wu T.D.和Nacu S.,Bioinformatics,2010;26(7):873-81)、遗传汇编程序(Geneious Assembler)(新西兰奥克兰生物材料有限公司(BiomattersLtd.))、LAST、MAQ(Li H.等人,Genome Res.2008;18(11):1851-8)、Mega-BLAST(在万维网上的ncbi.nlm.nih.gov/blast/megablast.shtml)、MOM(Eaves H.L.和GaoY.Bioinformatics.2009;25(7):969-70)、MOSAIK(在万维网上的bioinformatics.bc.edu/marthlab/Mosaik)、NovoAlign(万维网上的novocraft.com/main/index.php)、PALMapper(万维网上的fml.tuebingen.mpg.de/raetsch/suppl/palmapper)、PASS(Campagna D.等人,Bioinformatics,2009;25(7):967-8)、PatMaN(Prufer K.等人,Bioinformatics,2008;24(13):1530-1)、PerM(Chen Y.等人,Bioinformatics,2009,25(19):2514-2521)、ProbeMatch(Kim Y.J.等人,Bioinformatics.2009;25(11):1424-5)、QPalma(de Bona F.等人,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.等人,Genome Research,2009,19:1646-1654)、RMAP(Smith A.D.等人,Bioinformatics,2009;25(21):2841-2)、SeqMap(Jiang H.等人,Bioinformatics,2008;24:2395-2396)、Shrec(Salmela L.,Bioinformatics,2010;26(10):1284-90)、SHRiMP(Rumble S.M.等人,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.等人,Bioinformatics,2009,25(1):6-13)、SLIM搜索(Muller T.等人,Bioinformatics,2001;17Suppl 1:S182-9)、SOAP(Li R.等人,Bioinformatics,2008;24(5):713-4)、SOAP2(Li R.等人,Bioinformatics,2009;25(15):1966-7)、SOCS(Ondov B.D.等人,Bioinformatics,2008;24(23):2776-7)、SSAHA(Ning Z.等人,Genome Res.2001;11(10):1725-9)、SSAHA2(Ning Z.等人,Genome Res.2001;11(10):1725-9)、Stampy(Lunter G.和Goodson M.,Genome Res.2010,预印本文献(epubahead of print))、Taipan(在万维网上的taipan.sourceforge.net)、UGENE(在万维网上的ugene.unipro.ru)、XpressAlign(在万维网上的bcgsc.ca/platform/bioinfo/software/XpressAlign)以及ZOOM(加拿大安大略省滑铁卢的生物信息学解决方案公司)。
可以基于许多因素选择序列比对算法,这些因素包括,例如,测序技术、读段长度、读段的数量、可用的计算资源和灵敏度/评分要求。不同的序列比对算法可以实现不同水平的速度、比对灵敏度和比对特异性。比对特异性是指与所预测的比对相比被正确地比对的靶序列残基的百分比,如提交中通常所示。比对灵敏度也指在所预测比对中被比对的靶序列残基的百分比,如提交中通常所示。
当速度是要考虑的第一因素时,比对算法诸如ELAND或SOAP可以用于将短的读段(例如,来自Illumina/Solexa测序仪)与参考基因组进行比对。当特异性被认为是最重要的因素时,诸如BLAST或Mega-BLAST的比对算法被用于使用更短的读段(例如,罗氏FLX)来确定相似性,尽管这些方法较慢。当质量得分很重要且因此准确性很重要时(例如,在快速大规模SNP搜索中),比对算法诸如MAQ或NovoAlign可以用于单端或双端数据。比对算法诸如Bowtie或BWA使用Burrows-Wheeler变换(BWT),因此需要相对较小的内存占用量。比对算法诸如BFAST、PerM、SHRiMP、SOCS或ZOOM映射颜色空间读段,并且因此可以与ABI的SOLiD平台一起使用。在一些应用中,可以将来自两种或更多种分类算法的结果进行组合。
在本发明中,步骤(b)中的序列信息(读段)的长度是5至5000bp,并且所使用的序列信息(读段)的数量可以是5000至5百万,但是本发明不限于此。
在本发明中,步骤(c)中核酸片段的末端基序可以是核酸片段的两端处的2至30个碱基的序列模式。
也就是说,对于通过如下所示的成对末端测序法测序的核酸片段,核酸片段的末端基序是从正向链的5'末端顺序读出的“TACA”和从反向链的5'末端顺序读出的“ATTC”。
正向链:5'-TACAGACTTTGGAAT-3'(SEQ ID NO:1)
反向链:3'-ATGACTGAAACCTTA-5'(SEQ ID NO:2)
在本发明中,步骤(c)中核酸片段的末端基序的频率可以对应于在所有核酸片段中检测到的基序数量。
也就是说,当基于两端处的四个碱基(4-mer基序)分析核酸片段的末端基序时,分别位于第1位、第2位、第3位和第4位的四种碱基(即A、T、G和C)的组合是可能的,并且因此分析了总共256(4*4*4*4)种基序值。
在通过测序产生的整个核酸片段中观察到的基序数量的计数被称为“基序频率”,并且通过将基序频率除以产生的核酸片段总数计算的值被称为“相对频率”。
[表1]
如上面的表1中所示,核酸片段的总数是126,430,124,从核酸片段的末端基序“AAAA”分析的核酸片段的数量是125,071,故核酸片段的末端基序“AAAA”的频率是125,071,并且通过将频率除以核酸片段的总数计算的核酸片段的末端基序的相对频率是0.00099。
在本发明中,步骤(c)中核酸片段的大小可以对应于核酸片段从5'端到3'端的碱基数量。
例如,从SEQ ID NO:1和2分析的核酸片段的大小是15。
在本发明中,核酸片段的大小可以为1至10,000,优选地为10至1,000,更优选地为50至500,并且最优选地为90至250,但是本发明不限于此。
在本发明中,步骤(d)中的矢量化数据可以由绘制在X轴上的核酸片段的末端基序的类型和绘制在Y轴上的核酸片段的大小来表示。
也就是说,假设有如下的一个核酸片段,
正向链:5'-TACAGACTAGT…TTGGAAT-3'(SEQ ID NO:3)
反向链:3'-ATGACTGATCA…AACCTTA-5'(SEQ ID NO:4)
片段大小:176
该核酸片段可以表达为如图4的左图中所示的二维矢量,当对延伸的完整核酸片段进行该过程并累积时,产生如图4的右图中所示的二维矢量。
在本发明中,矢量化数据还可以包括核酸片段的末端基序的频率总和以及核酸片段大小的频率总和。
也就是说,通过进一步执行边缘汇总来生成图5的左图中所示的二维向量,该边缘汇总是通过将列总和添加到图4的二维向量的底部四次,以便添加与片段大小无关的每个片段末端基序的频率信息,并将行总和添加到图4的二维向量的最右侧部分四次,以便添加与片段末端基序无关的片段大小信息。
在本发明中,二维向量被定义为片段末端基序频率和大小(FEMS)表。所述FEMS表被可视化,并且结果显示在图5和图6的右侧面板中。
在本发明中,矢量化数据优选为图像,但不限于此。图像基本上是由像素组成的。如果由像素组成的图像被矢量化,则根据图像的类型,它可能会被表示为单色2D矢量(黑白)、三通道2D矢量(RGB颜色)或四通道2D矢量(CMYK颜色)。
本发明的矢量化数据不限于图像数据,并且,例如,可以是使用通过堆叠n个黑白图像而创建的n通道2D矢量(多通道矢量)的人工智能模型的输入数据。
在本发明中,该方法可以进一步包括,在步骤(c)之前,从经比对的核酸片段中分离满足映射质量得分的核酸片段。
在本发明中,映射质量得分可以根据期望的标准而变化,但是优选为15至70,更优选为50至70,以及最优选为60。
在本发明中,任何模型可以不受限制地用作步骤(e)中的人工智能模型,只要它可以被训练以区分癌症类型的图像,并且人工智能模型优选地是深度学习模型。
在本发明中,不受限制地,人工智能模型可以是能够基于人工神经网络分析矢量化数据的任何人工神经网络算法,并且优选地选自由以下组成的组:卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN),但不限于此。
在本发明中,循环神经网络选自由以下组成的组:长短期记忆(LSTM)神经网络、门控循环单元(GRU)神经网络、普通(vanilla)循环神经网络和注意力(attentive)循环神经网络。
在本发明中,当人工智能模型是CNN时,用于执行二分类的损失函数由下面的方程式1表示,并且用于执行多类分类的损失函数由下面的方程式2表示。
方程式1:二分类
模型(xi)=响应第i个输入的人工智能模型输出
y=实际标签值
n=输入数据的数量
方程式2:多类分类
模型(xi)j=响应第i个输入的第j个人工智能模型输出
y=实际标签值
n=输入数据的数量
c=类的数量
在本发明中,二分类意味着人工智能模型学习确定癌症是否发生,多类分类意味着人工智能模型学习区分两种或更多种癌症类型。
在本发明中,当人工智能模型是CNN时,学习包括以下步骤:
i)将生成的矢量数据分类为训练数据、验证数据和测试数据,
其中当训练CNN模型时使用训练数据,验证数据用于超参数调谐验证,测试数据用于最优模型制作后的测试;以及
ii)通过超参数调谐和训练构建最优CNN模型;和
iii)使用验证数据比较通过超参数调谐获得的多个模型的性能,并将具有最佳验证数据的模型确定为最佳模型。
在本发明中,超参数调谐是优化构成CNN模型的各种参数值(卷积层数、密集层数、卷积滤波器数等)的过程。使用贝叶斯优化和网格搜索方法进行超参数调谐。
在本发明中,使用预定的超参数来优化CNN模型的内部参数(权重),并且当验证损失与训练损失相比开始增加时,确定该模型是过拟合的,以及随后停止训练。
在本发明中,可以不受限制地使用在步骤(e)中由人工智能模型对输入的矢量化数据进行分析而得到的任何值,只要它是特定的分数或实数,并且该值优选地是深度概率指数(DPI),但不限于此。
如本文所用,术语“深度概率指数”是指对于人工智能模型的最后一层,在二分类的情况下使用sigmoid函数,在多类分类的情况下使用softmax函数,通过将人工智能的输出调整到0到1的标度,以概率值表示的值。
在二分类中,使用sigmoid函数进行训练,使得DPI被调整为1,假设癌症发生。例如,当输入乳腺癌样品和正常样品时,执行训练使得乳腺癌样品的DPI接近1。
在多类分类中,使用softmax函数提取与类的数量一样多的DPI。调整DPI的和为1,并且执行训练使得癌症类型的DPI实际上被调整为1。例如,假设有三个类,即乳腺癌、肝癌和正常组,当输入乳腺癌样品时,执行训练以将乳腺癌类的DPI调整到大约1。
在本发明中,针对每种癌症类型获得步骤(e)的所得的输出值。
在本发明中,将人工智能模型训练成如果有癌症则将输出值调整到大约1,如果没有癌症则将输出值调整到大约0。因此,性能(训练、验证、测试准确性)是基于0.5的截断值来衡量的。换句话说,如果输出值为0.5或更大,则确定有癌症,并且如果小于0.5,则确定没有癌症。
这里,对于本领域技术人员来说,显然0.5的截断值可以任意改变。例如,为了减少假阳性,可以将截断值设置为高于0.5,作为确定是否存在癌症的更严格的标准,并且为了减少假阴性,可以将截断值设置为低于0.5,作为确定存在癌症的更弱的标准。
最优选地,可以通过使用经训练的人工智能模型以应用看不见的数据(包含与训练期间训练的解不同的解的数据)来确定DPI的概率,从而设置截断值。
在本发明中,通过比较输出结果预测癌症类型(f)包括将输出结果值中显示最高值的癌症类型确定为样品的癌症。
在另一方面,本发明涉及一种诊断癌症和预测癌症类型的装置,所述装置包括:解码器,配置成从生物样品中提取核酸并解码序列信息;比对器,配置成将解码的序列与参考基因组数据库进行比对;核酸片段分析器,配置成基于所述序列获得核酸片段的末端基序频率和大小;数据生成器,配置成使用核酸片段的末端基序频率和大小生成矢量化数据;癌症诊断单元,配置成将所生成的矢量化数据输入到经训练的人工智能模型,分析所述数据,并将所得值与截断值进行比较,从而确定癌症是否发生;以及癌症类型预测器,配置成分析输出值并且从而预测癌症类型。
在本发明中,解码单元可以包括核酸注射器和序列信息分析器,所述核酸注射器被配置为注射由独立装置提取的核酸,所述序列信息分析器被配置为分析注射的核酸的序列信息,并且优选为NGS分析装置,但不限于此。
在本发明中,解码单元可以被配置为接收和解码由独立装置生成的序列信息数据。
在另一方面,本发明涉及一种计算机可读存储介质,其包括被配置为由处理器执行的指令,用于通过以下步骤诊断癌症和预测癌症类型,所述步骤包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。
根据本公开的方法可以使用计算机来实现。在一种实施方式中,计算机包括联接芯片组的一个或多个处理器。此外,将存储器、存储设备、键盘、图形适配器、点击设备、网络适配器连接到芯片组。在一种实施方式中,芯片组的性能由存储器控制器集线器(Hub)和I/O控制器集线器操控。在其他实施方式中,存储器可以通过直接联接处理器而不是芯片组来使用。存储设备是能够保存数据的任何装置,包括硬盘驱动器、CD-ROM(光盘只读存储器)、DVD或其他存储设备。所述储存器与由处理器使用的数据和指令有关。点击设备可以是鼠标、轨迹球,或别的类型的点击设备,并且与键盘结合使用以向计算机系统传输输入数据。图形适配器在显示器上显示图像和其他信息。网络适配器通过局域或远程通信网络连接到计算机系统。本文使用的计算机不受限于上述配置,而是可以不包括一些配置或者可以包括附加配置,并且还可以是存储区域网络(SAN)的一部分,并且本公开的计算机可以被配置为适于执行用于实现根据本发明的方法的程序中的模块。
如本文所用,模块可以是用于执行根据本公开的技术思想的硬件和用于驱动硬件的软件的功能和结构组合。例如,对本领域技术人员来说显而易见的是,模块可以指预定代码的逻辑单元和用于执行所述预定代码的硬件资源,而不一定表示物理连接的代码或一种类型的硬件。
在另一方面,本发明涉及一种诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。
实施例
在下文中,将参考实施例更详细地描述本发明。然而,对于本领域技术人员来说,显然这些实施例仅用于说明本发明,而不应被解释为限制本发明的范围。
实施例1.从血液中提取DNA进行下一代测序
从349名正常受试者、51名肝癌患者和108名食道癌患者中各采集10mL的血液,并储存在EDTA试管中。在血液收集后的2小时内,仅将血浆在1,200g和4℃下初步离心15分钟,然后将初步离心的血浆在16,000g和4℃下再次离心10分钟,以分离除沉淀物之外的血浆上清液。使用天根(Tiangen)micro DNA试剂盒从分离的血浆中提取细胞游离DNA,使用MGIEasy细胞游离DNA文库制备组试剂盒(MGIEasy cell-free DNA library prep setkit),进行文库制备过程,以及然后使用DNBseq G400仪器(MGI)以100碱基双端模式进行测序。结果,发现从每个样品中产生了大约1.7亿个读段。
实施例2.核酸片段末端基序和核酸片段大小的选择
2-1.核酸片段末端基序的选择
从4种碱基(A,T,G,C)中确定核酸片段末端基序,在总共256种(4*4*4*4)基序中,一些基序在正常、HCC和EC组之间没有相对频率差异。所生成的包括不具有这种差异的基序的FEMS表可能充当噪声,其只会增加模型的计算量,而不会提供分类所必要的信息。因此,为了排除这些无意义的基序,只选择在三组之间具有显著相对频率差异的特定基序。
此外,为了防止在大小和基序选择过程中的模型过拟合问题,在大小和基序选择过程中仅使用训练集。
也就是说,使用实施例1中生成的NGS数据,用4种碱基(A,T,G,C)设定核酸片段末端基序,并且从总共256种(4*4*4*4)基序类型中选择在健康受试者(正常)、肝细胞癌(HCC)和食道癌(EC)患者组之间具有统计学显著性(克鲁斯卡尔-沃利斯(Kruskal-Wallis)检验,FDR-调节(FDR-adjust)p<0.05)的相对频率差异的一些基序(图2)。
此外,从通过上述方法选择的基序中进一步选择在健康受试者组中平均频率高于随机基线(1/256,0.004)的基序,以防止过度拟合。
结果,总共获得84个基序且详细的基序信息如下:
CTGG、ACTT、CCTA、TGGA、TGGG、CAGG、TATA、CCTT、CAGC、TAGA、AGAA、AGAG、CATA、CAGT、CAGA、ACCT、CTGT、ACAT、GCTT、GCTA、TCAG、CTTA、GGCC、ATTT、CCCA、TATC、CCTG、TCTA、GCCT、ACTG、TGAG、GGTA、CATT、TATT、CCAT、CCTC、CCAA、CTTT、TAAG、GCTG、CCCT、TGAA、ACCA、GTTT、TGTA、CTCA、GCCA、TATG、GCAT、AAAG、AAAA、GGCT、TGAC、AGCA、TCTT、CTGA、CATC、ACAA、GACA、AACA、CCCC、CACT、GGAG、GGCA、TCAA、CAAG、TAAA、AAAT、TGCC、GGTT、GGGA、CCAC、TGTG、CATG、TGCA、GAAT、TGTC、TGCT、CAAT、GGAA、AGTG、TACT、CACA、TCCC。
2-2.核酸片段大小选择
如图3所示,其质量已经过检查的大多数核酸片段的大小在90至250的范围内。因此,当FEMS表包括超出该大小范围的区域时,大多数区域被填充零(0),并且只有无意义的噪声增加。由于该原因,核酸片段的大小在这个范围内选择。
实施例3.片段末端基序频率和大小(FEMS)表的制作
通过在X轴上绘制基序类型和在Y轴上绘制片段大小来制作二维矢量,以同时表达在实施例2中选择的核酸片段的末端基序频率和大小信息。更特别地,如图4的左图中所示,一个核酸片段的两端处的核酸基序的类型和大小以频率表示,并且这被延伸到整个核酸片段并累积,以产生如图4中所示的二维矢量。
此外,通过将列总和添加到图4中的二维向量的底部四次,以便添加与片段大小无关的每个片段末端基序的频率信息,并将行总和添加到图4中的二维向量的最右侧部分四次,以便添加与片段末端基序无关的片段大小信息来进一步进行边缘总汇,以生成如图5的左图中所示的二维矢量。所述二维向量被定义为片段末端基序频率和大小(FEMS)表。FEMS表被可视化,并且其实例在图5中示出。
实施例3.CNN模型构建和训练过程
使用FEMS表二维矢量作为输入来训练区分健康受试者、肝癌患者和食道癌患者的CNN人工智能模型。
所有样品分为训练数据集、验证数据集和测试数据集,训练数据集用于模型训练,验证数据集用于超参数调谐,并且测试数据集用于最终模型测试。每个集合样品的数量如下。
[表2]
数据集 健康受试者 肝细胞癌患者 食道癌患者 总计
训练 193 26 60 279
验证 71 12 22 105
测试 85 13 26 124
总计 349 51 108 508
CNN模型的基本配置如图9中所示。使用ReLU(整流线性单元)作为激活函数,使用一个卷积层,并且使用5个10*10的小块(patch)。对于池化方法,使用了最大模式和2x2的小块。使用一个全连接层,包括512个隐藏节点。最后,使用softmax函数值计算最终DPI。
超参数调谐是优化构成CNN模型的各种参数值(卷积层数、密集层数、卷积滤波器数等)的过程。使用贝叶斯优化和网格搜索技术进行超参数调谐。当验证损失与训练损失相比开始增加时,认为模型过度拟合,并且停止模型训练。
使用验证数据集比较通过超参数调谐获得的几个模型的性能,具有验证数据集的最佳性能的模型被确定为最佳模型,并且使用测试数据集执行最终性能评估。
当随机样品的FEMS表2D向量被输入到通过上述过程创建的模型中时,通过softmax函数来计算样品是健康受试者的概率、样品是肝细胞癌患者的概率和样品是食道癌患者的概率,所述softmax函数是CNN模型的最后一层。这种概率被定义为“深度概率指数(DPI)”。
随机样品被确定为在三种类型的DPI中具有最高DPI的组。例如,当从随机样品计算的健康受试者、肝细胞癌肝脏患者和食道癌患者的DPI分别为0.6、0.3和0.1时,该样品被确定为健康受试者。
实施例4.对构建的深度学习模型的性能评估
4-1性能评估(测试)
测试了从深度学习模型输出的DPI的性能。所有样品都被分为训练组、验证组和测试组。使用训练样品构建模型,并且然后使用验证组和测试组的样品评估使用训练样品构建的模型的性能。
[表3]
结果,从表3和图7可以看出,训练组、验证组和测试组的准确度分别为91.3%、92.7%和89.5%,并且作为多类ROC分析结果的微AUC在训练组、验证组和测试组中分别为0.991、0.990和0.955。图7A示出了基于训练组、验证组和测试组中的准确度和微AUC评估的CNN模型的性能,并且图7B示出了基于训练组、验证组和测试组中的混淆矩阵评估的CNN模型的性能。
4-2.DPI分布
确定DPI与实际患者的匹配程度,DPI是在实施例3中构建的深度学习模型的输出值。在图8中,X轴表示实际样品(真实标签)的信息,Y轴表示在CNN模型中从左开始依次计算的健康受试者(正常)、肝细胞癌患者(HCC)和食道癌患者(EC)的DPI。
结果,从图8可以看出,DPI分布显示,在所有的训练数据集、验证数据集和测试数据集中,健康受试者样品具有成为健康受试者的最高概率,肝细胞癌患者样品具有成为肝细胞癌患者的最高概率,并且食管癌患者样品具有成为食管癌患者的最高概率。
尽管已经详细描述了本发明的具体配置,本领域技术人员将理解,该详细描述是以说明性目的作为优选实施方式提供的,并且不应该被解释为限制本发明的范围。因此,本发明的实质范围由所附提交的权利要求及其等同物来限定。
工业实用性
根据本发明的使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的方法包括生成矢量化数据并使用AI算法对其进行分析,因此由于其高灵敏度和准确性,即使在低读取覆盖率的情况下也是有用的。
<110> GC基因组株式会社
<120> 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法
<130> P21-B070
<160> 4
<170> KoPatentIn 3.0
<210> 1
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 正向 1
<400> 1
tacagacttt ggaat 15
<210> 2
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 反向 1
<400> 2
atgactgaaa cctta 15
<210> 3
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 正向 2
<400> 3
tacagactag tttggaat 18
<210> 4
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 反向 2
<400> 4
atgactgatc aaacctta 18

Claims (16)

1.一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括:
(a)从生物样品中提取核酸以获得序列信息;
(b)将所述序列信息(读段)与参考基因组数据库进行比对;
(c)基于比对的序列信息(读段)获得核酸片段的末端基序频率和大小;
(d)使用所述核酸片段的末端基序频率和大小生成矢量化数据;
(e)将生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生;以及
(f)通过所述输出值的比较来预测癌症类型。
2.一种用于诊断癌症和预测癌症类型的方法,所述方法包括:
(a)从生物样品中提取核酸以获得序列信息;
(b)将所述序列信息(读段)与参考基因组数据库进行比对;
(c)基于比对的序列信息(读段)获得核酸片段的末端基序频率和大小;
(d)使用所述核酸片段的末端基序频率和大小生成矢量化数据;
(e)将生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生;以及
(f)通过所述输出值的比较来预测癌症类型。
3.根据权利要求1或2所述的方法,其中,步骤(a)包括:
(a-i)从血液、精液、阴道细胞、毛发、唾液、尿液、口腔细胞、包含胎盘细胞或胎儿细胞的羊水、组织细胞或其混合物中获得核酸;
(a-ii)使用盐析法、柱色谱法或珠粒法从收集的核酸中去除蛋白质、脂肪和其它残余物,以获得纯化的核酸;
(a-iii)为所述纯化的核酸或通过酶消化、粉碎或水力剪切方法随机片段化的核酸制备单端测序或双端测序文库;
(a-iv)用下一代测序仪反应所制备的文库;以及
(a-v)获得下一代测序仪中所述核酸的序列信息(读段)。
4.根据权利要求1所述的方法,其中,步骤(c)中各个所述核酸片段的末端基序在所述核酸片段的两端处具有2至30个碱基的序列模式。
5.根据权利要求1或2所述的方法,其中,步骤(c)中所述核酸片段的末端基序的频率对应于在所有所述核酸片段中检测到的基序数量。
6.根据权利要求1或2所述的方法,其中,步骤(c)中各个所述核酸片段的大小对应于所述核酸片段从5'端到3'端的碱基数量。
7.根据权利要求1或2所述的方法,其中,步骤(d)中的所述矢量化数据由绘制在X轴上的所述核酸片段的末端基序的类型和绘制在Y轴上的所述核酸片段的大小来表示。
8.根据权利要求7所述的方法,其中,所述矢量化数据还包括所述核酸片段的末端基序的频率总和以及所述核酸片段的大小的频率总和。
9.根据权利要求1或2所述的方法,其中,步骤(e)中的所述人工智能模型被训练以区分健康受试者的矢量化数据和癌症患者的矢量化数据。
10.根据权利要求9所述的方法,其中,所述人工智能模型选自由以下组成的组:卷积神经网络(CNN)、深度神经网络(DNN)和循环神经网络(RNN)。
11.根据权利要求10所述的方法,其中,当所述人工智能模型是CNN时,用于执行二分类的损失函数由下面的方程式1表示,并且用于执行多类分类的损失函数由下面的方程式2表示:
方程式1:二分类
模型(xi)=响应第i个输入的人工智能模型输出
y=实际标签值
n=输入数据的数量
方程式2:多类分类
模型(xi)j=响应第i个输入的第j个人工智能模型输出
y=实际标签值
n=输入数据的数量
c=类的数量。
12.根据权利要求1或2所述的方法,其中,步骤(e)中由所述人工智能模型从分析输入的矢量化数据所得的输出值是深度概率指数(DPI)。
13.根据权利要求1或2所述的方法,其中,步骤(d)的所述截断值是0.5,并且当所述输出值是0.5或更大时,确定癌症已经发生。
14.根据权利要求1或2所述的方法,其中,通过比较所述输出值来预测所述癌症类型的步骤(f)包括将在为各个癌症类型计算的DPI中显示最高DPI的癌症类型确定为所述样品的所述癌症类型。
15.一种用于诊断癌症和预测癌症类型的装置,所述装置包括:
解码器,配置成从生物样品中提取核酸并解码序列信息;
比对器,配置成将解码的序列与参考基因组数据库进行比对;
核酸片段分析器,配置成基于所述序列获得核酸片段的末端基序频率和大小;
数据生成器,配置成使用所述核酸片段的末端基序频率和大小生成矢量化数据;
癌症诊断单元,配置成将生成的矢量化数据输入到经训练的人工智能模型,分析所述数据,将所得的输出值与截断值进行比较,从而确定癌症是否发生;以及
癌症类型预测器,配置成分析所述输出值并且从而预测所述癌症类型。
16.一种计算机可读存储介质,包括配置成由处理器执行的指令,用于通过包括以下的步骤诊断癌症和预测癌症类型:
(a)从生物样品中提取核酸以获得序列信息;
(b)将所述序列信息(读段)与参考基因组数据库进行比对;
(c)基于比对的序列信息(读段)获得核酸片段的末端基序频率和大小;
(d)使用核酸片段的基序频率和大小生成矢量化数据;
(e)将生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生;以及
(f)通过所述输出值的比较来预测癌症类型。
CN202280038191.3A 2021-05-28 2022-05-30 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法 Pending CN117897776A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020210068891A KR20220160806A (ko) 2021-05-28 2021-05-28 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR10-2021-0068891 2021-05-28
PCT/KR2022/007651 WO2022250513A1 (ko) 2021-05-28 2022-05-30 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법

Publications (1)

Publication Number Publication Date
CN117897776A true CN117897776A (zh) 2024-04-16

Family

ID=84229107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280038191.3A Pending CN117897776A (zh) 2021-05-28 2022-05-30 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法

Country Status (7)

Country Link
US (1) US20230260655A1 (zh)
EP (1) EP4350708A1 (zh)
KR (1) KR20220160806A (zh)
CN (1) CN117897776A (zh)
AU (1) AU2022283089A1 (zh)
CA (1) CA3220412A1 (zh)
WO (1) WO2022250513A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116083578A (zh) * 2022-12-15 2023-05-09 华中科技大学同济医学院附属同济医院 预测宫颈癌新辅助化疗效果或复发高危分类的系统及其方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004209001B2 (en) 2003-01-29 2007-10-11 454 Life Sciences Corporation Bead emulsion nucleic acid amplification
WO2005082098A2 (en) 2004-02-27 2005-09-09 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
TWI287041B (en) 2005-04-27 2007-09-21 Jung-Tang Huang An ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
WO2017192524A1 (en) 2016-05-02 2017-11-09 Corning Incorporated Laminated glass structures with optical clarity and methods for making the same
KR20180124550A (ko) 2017-05-12 2018-11-21 한국전자통신연구원 연관패턴 학습을 통한 사용자 일정 추천 시스템 및 방법
KR102402411B1 (ko) 2017-06-28 2022-05-27 삼성전자주식회사 안테나 장치 및 안테나를 포함하는 전자 장치
KR102233740B1 (ko) * 2017-09-27 2021-03-30 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
EP3728642A4 (en) * 2017-12-18 2021-09-15 Personal Genome Diagnostics Inc. AUTOMATIC LEARNING SYSTEM AND SOMATIC MUTATION DISCOVERY PROCESS
BR112020023587A2 (pt) 2018-05-18 2021-02-09 The Johns Hopkins University método para determinar um perfil de fragmentação de dna livre de células (cfdna), método para identificar um mamífero como tendo câncer, método de identificação do tecido de origem de um câncer e método para tratar um mamífero com câncer
CN113366122B (zh) 2018-12-19 2024-01-12 香港中文大学 游离dna末端特征
KR102381252B1 (ko) * 2019-02-19 2022-04-01 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR102291105B1 (ko) * 2019-03-04 2021-08-23 주식회사 엑소퍼트 엑소좀에 의한 인공지능 기반의 액체생검을 이용한 암 진단 정보 제공 방법 및 시스템

Also Published As

Publication number Publication date
AU2022283089A1 (en) 2023-12-14
WO2022250513A1 (ko) 2022-12-01
US20230260655A1 (en) 2023-08-17
EP4350708A1 (en) 2024-04-10
CA3220412A1 (en) 2022-12-01
KR20220160806A (ko) 2022-12-06
AU2022283089A9 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
AU2020391556B2 (en) Artificial intelligence-based chromosomal abnormality detection method
US20230183812A1 (en) Artificial-intelligence-based cancer diagnosis and cancer type prediction method
US20200056232A1 (en) Dna sequencing and epigenome analysis
JP2019521673A (ja) 疾患および状態の分析のためのセルフリーdnaメチル化パターン
CN107206043A (zh) 使用机器学习和高维转录数据在经支气管活检上诊断特发性肺纤维化的系统和方法
AU2019403273A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
US20230260655A1 (en) Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment
CN116665771A (zh) 同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用
JP2024028758A (ja) 核酸断片間距離情報を用いた染色体異常検出方法
EP4350707A1 (en) Artificial intelligence-based method for early diagnosis of cancer, using cell-free dna distribution in tissue-specific regulatory region
KR20220071122A (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
JP2024522353A (ja) 細胞遊離核酸断片の末端配列モチーフの頻度及びサイズを用いた癌診断及び癌種予測方法
KR20220160807A (ko) 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
Aydin et al. A signal processing application in genomic research: protein secondary structure prediction
KR20210021923A (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
KR20240087868A (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR20230059423A (ko) 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
KR20220062839A (ko) 인공지능 기반 모체 시료 중 태아 분획 결정 방법
KR20230064172A (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
Huang Computational Discovery and Annotations of Cell-Type Specific Long-Range Gene Regulation
Ahmed et al. Application of Machine Learning Algorithms to Identify Recombination Spots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination