CN117083680A

CN117083680A - 基于人工智能的癌症诊断和癌症类型预测方法

Info

Publication number: CN117083680A
Application number: CN202180089826.8A
Authority: CN
Inventors: 奇昌锡; 赵银海; 李俊男; 安眞模; 孙周爀; 金建旼; 金旼焕
Original assignee: Blood Diagnosis Co ltd; Gc Genomics Co ltd
Current assignee: Blood Diagnosis Co ltd; Gc Genomics Co ltd
Priority date: 2020-11-27
Filing date: 2021-11-15
Publication date: 2023-11-17
Also published as: US20230183812A1; JP2023551517A; AU2021387426A1; EP4254419A1; AU2021387426A9; WO2022114631A1; KR20220074088A; CA3200206A1

Abstract

本发明涉及一种基于人工智能的癌症诊断和癌症类型预测方法，更具体地，涉及一种基于人工智能的癌症诊断和癌症类型预测方法，该方法从生物样品中提取核酸以获取序列信息，并因此基于比对的核酸片段生成矢量化数据，然后将其输入到经训练的人工智能模型中以分析计算值。与使用基于读段计数确定染色体数目的步骤并利用每个相关值作为归一化值的传统方法相比，根据本发明的基于人工智能的癌症诊断和癌症类型预测方法生成矢量化数据以使用AI算法进行分析，并且由于即使当读取覆盖率低时也可以展示出类似的效果因此是有用的。

Description

基于人工智能的癌症诊断和癌症类型预测方法

技术领域

本发明涉及一种基于人工智能的用于诊断癌症和预测癌症类型的方法，以及更具体地说，涉及一种基于人工智能的通过从生物样品中提取核酸以获得序列信息，基于比对的读段(reads)生成矢量化数据，并分析通过将矢量化数据输入至经训练的人工智能模型获得的计算值来诊断癌症和预测癌症类型的方法。

背景技术

临床实践中的癌症诊断通常在病史检查、体格检查和临床评估后通过组织活检来进行。只有当癌细胞的数量为10亿或更多且癌的直径为1cm或更大时，基于临床试验的癌症诊断才是可行的。在这种情况下，癌细胞已经具有转移的潜力，并且其中至少一半已经转移。此外，组织活检是侵入性的，这不利地引起患者相当大的不适，并且通常无法适应癌症治疗。此外，用于监测由癌直接或间接产生的物质的肿瘤标志物用于癌症筛查。然而，肿瘤标志物的准确度有限，因为即使在存在癌的情况下超过一半的肿瘤标志物筛查结果也显示正常，并且即使在不存在癌的情况下肿瘤标志物筛查结果也通常显示阳性。

最近，响应于对癌症诊断方法的要求，诸如相对容易、非侵入性、高灵敏度和高特异性，使用来自患者的体液的液体活检已经广泛用于癌症诊断和随访复查。液体活检是一种非侵入性的诊断方法，其作为传统侵入性诊断和检查方法的替代方法引起了极大的关注。然而，没有大规模研究的结果去证实液体活检作为诊断癌症的方法的效果，并且没有关于通过液体活检诊断不明确癌症或区分不明确癌症类型的研究结果。

已经有大量的研究工作致力于癌症诊断和治疗以减轻癌症对健康的影响。特别是，SMCT(基于体细胞突变的癌症分型)是最重要的研究问题之一。SMCT能够根据基于患者的体细胞基因突变确定的癌症类型/亚型来制定治疗计划。最近DNA测序成本的降低带来了DNA测序数据的快速增长，并且从而极大地促进了SMCT的发展。与通常基于肿瘤的形态学外观或基因表达水平(即，mRNA谱或蛋白质谱)的常规癌症分型方法不同，SMCT可以区分具有相似组织病理学外观的肿瘤，从而更好地反映癌症微环境，并有利于提供准确的癌症分类结果(Sun,Y.等人，Sci Rep Vol.9,17256,2019)。

最近，除了SMCT之外，还报道了使用染色体的三维结构或拷贝数异常来预测癌症类型的方法(Yuan等人，BMC Genomics，Vol.19(Suppl 6)，pp.565，2018，10-2019-0036494)。

同时，将人类拥有的有效模式识别方法应用于实际计算机的研究正在积极地进行，作为将工程领域中经常遇到的输入模式分类到特定组的问题的解决方案。

在许多基于计算机的研究中，有对人工神经网络的研究，该人工神经网络是通过以工程方式对发生有效模式识别的人脑细胞结构进行建模而获得的。为了解决将输入模式分类到特定组的问题，人工神经网络使用了模拟人类学习能力的算法。通过该算法，人工神经网络可以创建输入模式和输出模式之间的映射，该映射被表示为具有学习能力的人工神经网络。此外，人工神经网络具有泛化的能力，使得它可以基于经训练的结果针对不用于学习的输入模式生成相对正确的输出。由于人工神经网络具有学习和泛化的两种典型性能，它正被用于解决使用传统的顺序编程方法难以解决的问题。人工神经网络具有广泛的用途并被积极地应用于领域诸如模式分类、连续映射、非线性系统识别、非线性控制和机器人控制。

同时，人工神经网络是在软件或硬件中实现的计算模型，其使用通过连接线连接的大量人工神经元来模拟生物系统的计算能力。人工神经网络使用人工神经元，其以简化的形式表示生物神经元的功能。人工神经网络通过具有相应连接强度的连接线互连人工神经元来进行人类认知或学习过程。术语“连接强度”可与“连接权重”互换，是指连接线的预定值。人工神经网络学习可以分类为监督学习和无监督学习。监督学习是一种向神经网络提供输入数据和与其对应的输出数据，并更新连接线的连接强度，从而输出与输入数据对应的输出数据的方法。代表性的学习算法包括δ规则和反向传播学习。无监督学习是一种其中人工神经网络仅使用输入数据独立地学习连接强度而没有目标值的方法。无监督学习基于输入模式之间的相关性更新连接权重。

将大量数据应用于机器学习会导致所谓的“维数灾难”问题，这是由于复杂性的增加和更多维数的增加。换句话说，当所需数据的维数趋近于无穷大时，任意两点之间的距离也趋近于无穷大，并且数据量(即，密度)在高维空间中变得更低，从而无法正确反映数据的特征(Richard Bellman,Dynamic Programming,2003,chapter 1)。最近发展的深度学习具有在输入层和输出层之间存在隐藏层的结构，并且已经报道通过用非线性函数处理从输入层传输的变量值的线性组合，极大地提高了分类器在高维数据诸如图像、视频和信号数据方面的性能(Hinton,Geoffrey,等人,IEEE Signal Processing Magazine Vol.29.6,pp.82-97,2012)。

各个专利(KR 10-2017-0185041、KR 10-2017-0144237和KR 10-2018-124550)描述了人工神经网络在生物领域中的用途，但是缺乏通过基于细胞游离DNA(cfDNA)的测序信息的人工神经网络分析来预测癌症类型的方法的研究。

因此，作为解决上述问题和开发基于人工智能以高灵敏度和准确度诊断癌症和预测癌症类型的方法的广泛和认真努力的结果，本发明人发现，通过基于与染色体区域比对的读段生成矢量化数据并使用训练的人工智能模型分析该数据可以以高灵敏度和准确度实现癌症诊断和癌症类型预测，并且基于该发现完成了本发明。

发明内容

因此，本发明的一个目的是提供一种基于人工智能诊断癌症和预测癌症类型的方法。

本发明的另一个目的是提供一种基于人工智能诊断癌症和预测癌症类型的装置。

本发明的另一个目的是提供一种计算机可读存储介质，其包括配置为由处理器执行的指令，用于通过上述方法诊断癌症和预测癌症类型。

根据本发明的一个方面，上述和其他目的可以通过提供一种基于人工智能提供信息以诊断癌症和预测癌症类型的方法来实现，所述方法包括(a)从生物样品中提取核酸以获得序列信息，(b)将序列信息(读段)与参考基因组数据库进行比对，(c)基于比对的序列信息(读段)使用核酸片段生成矢量化数据，(d)将所生成的矢量化数据输入到经训练的人工智能模型中，分析所得的输出值，并将所得的输出值与截断(cut-off)值进行比较，以确定是否存在癌症，以及(e)通过比较输出值来预测癌症类型。

根据本发明的另一方面，提供了一种基于人工智能诊断癌症和预测癌症类型的方法，所述方法包括(a)从生物样品中提取核酸以获得序列信息，(b)将序列信息(读段)与参考基因组数据库进行比对，(c)基于比对的序列信息(读段)使用核酸片段生成矢量化数据，(d)将所生成的矢量化数据输入到经训练的人工智能模型中，分析所得的输出值，并将所得的输出值与截断值进行比较，以确定是否存在癌症，以及(e)通过比较输出值来预测癌症类型。

根据本发明的另一方面，提供了一种用于基于人工智能诊断癌症和预测癌症类型的装置，所述装置包括：解码器，配置成从生物样品中提取核酸并解码序列信息；比对器，配置成将解码的序列与参考基因组数据库进行比对；数据生成器，配置成基于比对的序列信息(读段)使用核酸片段生成矢量化数据；癌症诊断单元，配置成将所生成的矢量化数据输入到经训练的人工智能模型，分析所述数据，并将结果值与截断值进行比较，从而确定是否存在癌症；以及癌症类型预测器，用于分析输出结果并且从而预测癌症类型。

根据本发明的另一个方面，提供了一种计算机可读存储介质，其包括配置为由处理器执行的指令，用于通过包括以下的步骤诊断癌症和预测癌症类型：(a)从生物样品中提取核酸以获得序列信息，(b)将所获得的序列信息(读段)与参考基因组数据库进行比对，(c)基于比对的序列信息(读段)使用核酸片段生成矢量化数据，(d)将所生成的矢量化数据输入到经训练的人工智能模型中，分析所得的输出值，并将所得的输出值与截断值进行比较，以确定是否存在癌症，以及(e)通过比较输出值来预测癌症类型。

附图说明

图1是根据本发明基于人工智能确定染色体异常的总体流程图。

图2是GC图的实例，所述GC图是通过NGS数据的矢量化获得的图像。

图3是展示根据实施方式的CNN模型的配置的示意图。

图4示出了(A)已经学习了所生成的GC图图像数据的深度学习模型确定癌症存在的准确度，以及(B)每个数据集的概率分布。

图5示出了(A)已经学习了所生成的GC图图像数据的深度学习模型的癌症类型预测的准确度，以及(B)每个数据集的概率分布。

具体实施方式

除非另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的技术人员所理解的相同含义。通常，本文所用的术语是本领域公知的，并且是通常使用的。

在本发明中发现，通过将从样品获得的测序数据与参考基因组进行比对，基于经比对的核酸片段生成矢量化数据，使用经训练的人工智能模型计算DPI，并进行分析，可以高灵敏度和高准确度地诊断癌症和预测癌症类型。

也就是说，在本发明的一种实施方式中，开发了一种方法，所述方法包括对从血液中提取的DNA进行测序，将测序数据与参考基因组进行比对，计算每个预定染色体bin中核酸片段之间的距离或核酸片段的量，生成矢量化数据，其中染色体bin位于X轴，并且核酸片段之间的距离或其量位于Y轴，训练深度学习模型用于计算DPI，将DPI与截断值进行比较，以确定癌症是否发生，并将在针对相应的各种癌症类型计算的DPI中显示最高DPI的癌症类型确定为样品的癌症类型(图1)。

一方面，本发明涉及一种基于人工智能提供信息以诊断癌症和预测癌症类型的方法，所述方法包括：

(a)从生物样品中提取核酸以获得序列信息；

(b)将序列信息(读段)与参考基因组数据库进行比对；

(c)基于比对的序列信息(读段)使用核酸片段生成矢量化数据；

(d)将所生成的矢量化数据输入至经训练的人工智能模型，分析所得的输出值，并将所得的输出值与截断值进行比较，以确定是否存在癌症；以及

(e)通过输出值的比较来预测癌症类型。

在本发明中，可以不受限制地使用任何核酸片段，只要它是从生物样品中提取的核酸片段，并且核酸片段优选地是细胞游离核酸(Cell-Free DNA)或细胞内核酸的片段，但不限于此。

在本发明中，核酸片段可以通过直接测序、下一代测序或通过非特异性全基因组扩增测序获得。

在本发明中，当使用下一代测序时，核酸片段可以指读段。

在本发明中，所述癌症可以是实体癌或血癌，并且优选地选自由以下组成的组：非霍奇金淋巴瘤、霍奇金淋巴瘤、急性髓系白血病、急性淋巴细胞性白血病、多发性骨髓瘤、头颈癌、肺癌、胶质母细胞瘤、结肠直肠/直肠癌、胰腺癌、乳腺癌、卵巢癌、黑素瘤、前列腺癌、甲状腺癌、胃癌、胆囊癌、胆道癌、膀胱癌、小肠癌、宫颈癌、未知原发癌、肾癌和间皮瘤，但是所述癌症不限于此。

在本发明中，

步骤(a)包括：

(a-i)从血液、精液、阴道细胞、毛发、唾液、尿液、口腔细胞、含有胎盘细胞或胎儿细胞的羊水、组织细胞及其混合物中获得核酸；

(a-ii)使用盐析法、柱色谱法或珠粒法(bead method)从所收集的核酸中去除蛋白质、脂肪和其它残余物，以获得纯化的核酸；

(a-iii)为纯化的核酸或通过酶消化、粉碎或水力剪切(hydroshear)方法随机片段化的核酸制备单端测序或双端测序文库；

(a-iv)用下一代测序仪反应所制备的文库；以及

(a-v)获得下一代测序仪中核酸的序列信息(读段)。

在本发明中，下一代测序仪可以用于本领域已知的任何测序方法。使用选择方法分离的核酸的测序通常使用下一代测序(NGS)进行。下一代测序包括确定每个核酸分子的核苷酸序列或从每个核酸分子克隆以使其高度相似的替代物(proxy)的核苷酸序列的任何测序方法(例如，10⁵个或更多个分子被同时测序)。在一种实施方式中，文库中核酸种类的相对丰度可以通过对测序实验产生的数据中与其同源的序列出现的相对数量进行计数来估计。下一代测序是本领域已知的，并且在，例如，Metzker，M.(2010)，NatureBiotechnology Reviews 11:31-46中描述，其通过援引并入本文。

在一种实施方式中，进行下一代测序以确定每个核酸分子的核苷酸序列(例如，使用螺旋生物科学公司(Helicos Biosciences)的HelioScope基因测序系统或太平洋生物科学公司(Pacific Biosciences)的PacBio RS系统)。在其他实施方式中，大规模、平行的短读段测序比其他测序方法(例如，产生更少但更长读段的其他测序方法)在每个测序单元产生更多的碱基序列，确定了从每个核酸分子克隆的替代物的核苷酸序列(例如，使用位于CA，圣地亚哥的Illumina公司的Solexa测序分析仪；454Life Sciences(康涅狄格州，布兰福德)和Ion Torrent)。用于下一代测序的其他方法或装置可以由454Life Sciences(康涅狄格州布兰福德)，Applied Biosystems(CA，福斯特市；SOLiD测序仪)、螺旋生物科学公司(Helicos Biosciences Corporation)(MA，剑桥)以及乳液和微流体测序纳米液滴(例如，GnuBIO液滴)提供，但不限于此。

用于下一代测序的平台包括但不限于Roche/454的FLX System基因组测序仪(GS)、Illumina/Solexa基因组分析仪(GA)、Life/APG的支持寡核苷酸连接检测(SupportOligonucleotide Ligation Detection，SOLiD)系统、Polonator的G.007系统、螺旋生物科学公司的HelioScope基因测序系统和来自太平洋生物科学公司的PacBio RS系统。

例如，NGS技术可以包括一个或多个模板制备、测序、成像和数据分析步骤。

模板制备制备模板的方法包括将核酸(例如，基因组DNA或cDNA)随机断裂成小尺寸并制备测序模板(例如，片段模板或配对模板)。空间分离的模板可以附着或固定在固体表面或载体上，这允许同时进行大规模的测序反应。可以用于NGS反应的模板类型的实例包括从衍生自单DNA分子的克隆扩增的模板以及单DNA分子模板。

制备从克隆扩增的模板的方法包括，例如，乳液PCR(emPCR)和固相扩增。

EmPCR可用于制备用于NGS的模板。通常，制备核酸片段文库，并将含有通用引物启动位点的接头连接到片段的末端。然后将片段变性成单链，并用珠粒捕获。每个珠粒捕获单核酸分子。在emPCR珠粒扩增和富集后，可以附着大量的模板，固定在标准显微镜载玻片上的聚丙烯酰胺凝胶上(例如，来自Polonator),并化学交联到氨基包被的玻璃表面(例如，Life/APG；Polonator)，或沉积在单个PicoTiterPlate(PTP)孔中(例如，Roche/454)。此时，可以进行NGS反应。

固相扩增也可以用于制备用于NGS的模板。通常，前引物和后引物共价连接到固相载体上。经扩增的片段的表面密度定义为载体上引物与模板的比例。固相扩增能够制备数百万个空间分离的模板簇(例如，Illumina/Solexa)。模板簇的末端可以与用于NGS反应的通用引物杂交。

制备克隆扩增模板的其他方法包括，例如，多重置换扩增(MDA)(Lasken R.S.；Curr.Opin.Microbiol.2007；10(5):510-6)。MDA是基于非PCR的DNA扩增方法。该反应包含将随机六聚体引物退火至模板，并在恒温下使用高保真酶(通常为Ф29)合成DNA。MDA可以生产错误频率较低的大规模产物。

模板扩增方法诸如PCR可以将NGS平台结合至靶标或富集基因组的特定区域(例如，外显子)。代表性的模板富集方法包括，例如，微滴PCR(Tewhey R.等人,NatureBiotech.2009,27:1025-1031)、定制设计的寡核苷酸微阵列(例如，Roche/NimbleGen寡核苷酸微阵列)、液相杂交(例如，分子倒置探针，MIP)(Porreca GJ等人,Nature Methods,2007,4:931-936；Krishnakumar S.等人,Proc.Natl.Acad.Sci.USA,2008,105:9296-9310；Turner EH等人,Nature Methods,2009,6:315-316)，以及生物素化的RNA捕获序列(GnirkeA.等人,Nat.Biotechnol.2009；27(2):182-9)。

单分子模板是可以用于NGS反应的另一种类型的模板。空间分离的单分子模板可以通过多种方法固定在固相载体上。在一种方法中，每个引物分子共价连接到固相载体上。将接头添加到模板上，以及然后模板与所固定的引物杂交。在另一种方法中，通过启动并从所固定的引物延伸单链单分子模板，将单分子模板共价连接到固相载体上。然后，通用引物与模板杂交。在另一种方法中，将单个聚合酶分子附着在固相载体上，其中引物模板结合在固相载体上。

测序和成像代表性NGS测序和成像方法包括但不限于循环可切除终止测序法(CRT)、连接法测序(SBL)、焦磷酸测序和实时测序。

CRT在循环方法中使用可切除的终止子，该方法至少包括核苷酸掺入、荧光成像和切割步骤。通常，DNA聚合酶掺入了与引物中模板碱基的互补核苷酸互补的单个荧光修饰的核苷酸。DNA合成在掺入单个核苷酸后终止，以及未掺入的核苷酸被洗去。进行成像以确定掺入的标记核苷酸的同源性。然后，在切除步骤中，除去终止子/抑制剂和荧光染料。使用CRT方法的代表性NGS平台包括，但不限于，Illumina/Solexa基因组分析仪(GA)，其使用克隆扩增模板方法与涉及使用全内反射荧光(TIRF)检测的4色CRT方法相结合；以及HelicosBiosciences/HelioScope，其使用单分子模板方法与涉及使用TIRF检测的1色CRT方法相结合。

SBL使用DNA连接酶和1碱基编码探针或2碱基编码探针进行测序。

通常，荧光标记的探针与邻近引物模板的互补序列杂交。DNA连接酶用于将染料标记的探针连接到引物上。洗涤未连接的探针后，进行荧光成像以确定连接的探针的身份。可以使用可切除探针来除去荧光染料，该可切除探针再生用于随后的连接循环的5’-PO4基团。或者，在旧引物被去除后，新引物可以与模板杂交。代表性的SBL平台包括但不限于Life/APG/SOLiD(支持寡核苷酸连接检测)，其使用双碱基编码探针。

焦磷酸测序方法是基于用另一种化学发光酶对DNA聚合酶的活性的检测。通常，这种方法包括通过一次一个碱基对合成互补链并检测每一步实际添加的碱基来对DNA的单链进行测序。模板DNA是固定的，以及在反应过程中，A、C、G和T核苷酸的溶液依次加入和移出。只有当核苷酸溶液补充模板的未成对碱基时，才会产生光。产生化学发光信号的溶液的序列用于确定模板的序列。代表性的焦磷酸测序平台包括但不限于来自Roche/454的那些平台，其使用通过emPCR从沉积在PTP孔中的1-2百万个珠粒产生的DNA模板。

实时测序涉及在DNA合成期间对染料标记的核苷酸的连续掺入进行成像。代表性的实时测序平台包括，但不限于，来自太平洋生物科学公司的平台，其使用附着于各自零模波导(ZMW)检测器表面的DNA聚合酶分子，当磷酸连接的核苷酸掺入生长的引物链中时，获得序列信息；

Life/VisiGen平台使用基因工程DNA聚合酶和附着的荧光染料，在掺入核苷酸后通过荧光共振能量转移(FRET)产生增强的信号；以及来自LI-COR Biosciences的平台，其在测序反应中使用染料淬灭剂核苷酸。

其他NGS方法包括但不限于纳米孔测序、杂交测序、基于纳米晶体管阵列的测序、聚合酶克隆测序(Polony sequencing)、基于扫描隧道显微镜(STM)的测序和基于纳米线分子传感器的测序。

纳米孔测序涉及溶液中核酸分子通过纳米级孔的电泳，所述纳米级孔为单核酸聚合物的分析提供了高度密闭的区域。代表性的纳米孔测序方法描述于Branton D.等人，Nat.Biotechnol.2008；26(10):1146-53]和其他地方。

杂交测序是使用DNA微阵列的非酶方法。通常，单个DNA池被荧光标记并杂交到含有已知序列的阵列中。来自阵列上给定点的杂交信号可以用于鉴定DNA序列。当杂交区很短或存在特定的错配检测蛋白时，DNA双链中的一条DNA链与另一条互补链的结合甚至对单碱基错配也很敏感。描述了代表性的杂交测序方法描述于，例如，Hanna G.J.等人,J.Clin.Microbiol.2000；38(7):2715-21；以及Edwards J.R.等人,Mut.Res.2005；573(1-2):3-12。

聚合酶克隆测序是基于聚合酶克隆(Polony)扩增和多重单碱基延伸(FISSEQ)。聚合酶克隆扩增是在聚丙烯酰胺膜上原位扩增DNA的方法。代表性的聚合酶克隆测序方法描述于，例如，美国专利申请公开第2007/0087362号。

基于纳米晶体管阵列的装置诸如碳纳米管场效应晶体管(CNTFET)也可以用于NGS。例如，DNA分子通过经微制造的电极延伸并驱动穿过纳米管。DNA分子依次接触碳纳米管表面，并且由于在DNA分子和纳米管之间的电荷转移，产生了来自各个碱基的电流的差异。通过记录该差异来对DNA进行测序。代表性的基于纳米晶体管阵列测序方法描述于，例如，美国专利公开第2006/0246497号。

扫描隧道显微镜(STM)也可以用于NGS。STM使用压电控制的探针对样品进行光栅扫描，在其表面形成图像。STM可以用于成像单个DNA分子的物理性质，例如，通过将柔性致动器驱动的间隙与扫描隧道显微镜集成，产生相干电子隧穿成像和光谱。使用STM的代表性测序方法描述于，例如，美国专利申请公开第2007/0194225号中。

由纳米线分子传感器组成的分子分析装置也可以用于NGS。这种装置可以检测位于核酸分子和纳米线诸如DNA上的含氮物质的相互作用。分子引导器被设置成引导在分子传感器附近的分子，以允许相互作用和随后的检测。使用纳米线分子传感器的代表性测序方法描述于，例如，美国专利申请公开第2006/0275779号。

双链测序可以用于NGS。双链测序使用封闭引物和解封闭引物对DNA的正义链和反义链进行测序。通常，该方法包括：将解封闭引物退火至核酸的第一条链；将第二封闭引物退火至核酸的第二条链；用聚合酶沿着第一条链延伸核酸；终止第一测序引物；解封闭第二引物；以及沿着第二条链延伸核酸。代表性双链测序方法描述于，例如，美国专利第7244567号。

数据分析阶段。

NGS读段形成后，将它们与已知的参考序列进行比对或从头拼接成已知的参考序列。

例如，通过将NGS读段与参考序列(例如，野生型序列)进行比对，可以鉴定样品(例如，肿瘤样品)中的遗传修饰，诸如单核苷酸多态性和结构变异。将NGS读段与序列比对的方法描述于，例如，Trapnell C.和Salzberg S.L.Nature Biotech.,2009,27:455-457。

从头拼接的实例描述于，例如，Warren R.等人,Bioinformatics,2007,23:500-501；Butler J.等人.,Genome Res.,2008,18:810-820；Zerbino D.R.和Birney E.,GenomeRes.,2008,18:821-829。

可以使用来自一个或多个NGS平台的读段数据(例如，通过混合Roche/454和Illumina/Solexa读段数据)进行序列比对或序列拼接。在本发明中，可以使用BWA算法和hg19序列进行比对，但不限于此。

在本发明中，步骤(b)的序列比对包括使用计算机算法的计算方法或途径以确定可能来自基因组的序列(例如，如通过下一代测序获得的短读段序列)的情况或通过评估读段序列和参考序列之间的相似性来确定它们之间存在同一性的情况。各种算法可以应用于序列比对问题。一些算法相对较慢，但是能够实现相对较高的特异性。这些包括，例如，基于动态编程的算法。动态编程是通过将复杂问题分割成简单步骤来解决它们的方法。其他方法更有效，但通常不是穷举的，并且包括，例如，为大规模数据库搜索设计的启发式算法和概率方法。

通常，比对过程可以包括两个步骤，即候选筛选和序列比对。候选筛选减少了从整个基因组进行序列比对的搜索空间，以便获得可能的比对位置的较短列表。正如该术语字面上的含义，序列比对包括比对包括在候选筛选过程中获得的序列在内的序列。这可以使用广泛比对(例如，尼德曼-翁施(Needleman-Wunsch)比对)或局部比对(例如，史密斯-沃特曼(Smith-Waterman)比对)来进行。

大多数属性排序算法可能具有基于索引方法的三种类型之一：基于哈希表的算法(例如，BLAST、ELAND、SOAP)、后缀树(例如，Bowtie、BWA)和归并排序(例如，slider)。短读段序列通常用于比对。短读段序列的序列比对算法/程序的实例包括，但不限于，BFAST(HomerN.等人,PLoS One.2009；4(11):e7767)、BLASTN(来自万维网的blast.ncbi.nlm.nih.gov)、BLAT(Kent W.J.Genome Res.2002；12(4):656-64)、Bowtie(Langmead B.等人,GenomeBiol.2009；10(3):R25)、BWA(Li H.和Durbin R.,Bioinformatics,2009,25:1754-60)、BWA-SW(Li H.和Durbin R.,Bioinformatics,2010；26(5):589-95)、CloudBurst(SchatzM.C.,Bioinformatics,2009；25(11):1363-9)、Corona Lite(美国加利福尼亚州，卡尔斯巴德，应用生物系统公司(Applied Biosystems))、CASHX(Fahlgren N.等人,RNA,2009；15,992-1002)、CUDA-EC(Shi H.等人,J.Comput.Biol.2010；17(4):603-15)、ELAND(万维网上的bioit.dbi.udel.edu/howto/eland)、GNUMAP(Clement N.L.等人,Bioinformatics.2010；26(1):38-45)、GMAP(Wu T.D.和Watanabe C.K.,Bioinformatics,2005；21(9):1859-75)、GSNAP(Wu T.D.和Nacu S.,Bioinformatics,2010；26(7):873-81)、遗传汇编程序(Geneious Assembler)(新西兰奥克兰生物材料有限公司(BiomattersLtd.))、LAST、MAQ(Li H.等人,Genome Res.2008；18(11):1851-8)、Mega-BLAST(在万维网上的ncbi.nlm.nih.gov/blast/megablast.shtml)、MOM(Eaves H.L.和GaoY.Bioinformatics.2009；25(7):969-70)、MOSAIK(在万维网上的bioinformatics.bc.edu/marthlab/Mosaik)、NovoAlign(万维网上的novocraft.com/main/index.php)、PALMapper(万维网上的fml.tuebingen.mpg.de/raetsch/suppl/palmapper)、PASS(Campagna D.等人,Bioinformatics,2009；25(7):967-8)、PatMaN(Prufer K.等人,Bioinformatics,2008；24(13):1530-1)、PerM(Chen Y.等人,Bioinformatics,2009,25(19):2514-2521)、ProbeMatch(Kim Y.J.等人,Bioinformatics.2009；25(11):1424-5)、QPalma(de Bona F.等人,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.等人,Genome Research,2009,19:1646-1654)、RMAP(Smith A.D.等人,Bioinformatics,2009；25(21):2841-2)、SeqMap(Jiang H.等人,Bioinformatics,2008；24:2395-2396)、Shrec(Salmela L.,Bioinformatics,2010；26(10):1284-90)、SHRiMP(Rumble S.M.等人,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.等人,Bioinformatics,2009,25(1):6-13)、SLIM搜索(Muller T.等人,Bioinformatics,2001；17Suppl 1:S182-9)、SOAP(Li R.等人,Bioinformatics,2008；24(5):713-4)、SOAP2(Li R.等人,Bioinformatics,2009；25(15):1966-7)、SOCS(Ondov B.D.等人,Bioinformatics,2008；24(23):2776-7)、SSAHA(Ning Z.等人,Genome Res.2001；11(10):1725-9)、SSAHA2(Ning Z.等人,Genome Res.2001；11(10):1725-9)、Stampy(Lunter G.和Goodson M.,Genome Res.2010，预印本文献(epubahead of print))、Taipan(在万维网上的taipan.sourceforge.net)、UGENE(在万维网上的ugene.unipro.ru)、XpressAlign(在万维网上的bcgsc.ca/platform/bioinfo/software/XpressAlign)以及ZOOM(加拿大安大略省滑铁卢的生物信息学解决方案公司)。

可以基于许多因素选择序列比对算法，这些因素包括，例如，测序技术、读段长度、读段的数量、可用的计算资源和灵敏度/评分要求。不同的序列比对算法可以实现不同水平的速度、比对灵敏度和比对特异性。比对特异性是指与所预测的比对相比被正确地比对的靶序列残基的百分比，如提交中通常所示。比对灵敏度也指在所预测比对中被比对的靶序列残基的百分比，如提交中通常所示。

当速度是要考虑的第一因素时，比对算法诸如ELAND或SOAP可以用于将短的读段(例如，来自Illumina/Solexa测序仪)与参考基因组进行比对。当特异性被认为是最重要的因素时，诸如BLAST或Mega-BLAST的比对算法被用于使用更短的读段(例如，罗氏FLX)来确定相似性，尽管这些方法较慢。当质量得分很重要且因此准确性很重要时(例如，在快速大规模SNP搜索中)，比对算法诸如MAQ或NovoAlign可以用于单端或双端数据。比对算法诸如Bowtie或BWA使用Burrows-Wheeler变换(BWT),因此需要相对较小的内存占用量。比对算法诸如BFAST、PerM、SHRiMP、SOCS或ZOOM映射颜色空间读段，并且因此可以与ABI的SOLiD平台一起使用。在一些应用中，可以将来自两种或更多种分类算法的结果进行组合。

在本发明中，步骤(b)中的序列信息(读段)的长度是5至5000bp，并且所使用的序列信息(读段)的数量可以是5000至5百万，但是本发明不限于此。

在本发明中，作为步骤(c)中的矢量化数据，可以不受限制地使用能够通过使用基于经比对读段的核酸片段生成的任何矢量化数据，但是矢量化数据优选为grand canyon图(GC图)，但不限于此。

在本发明中，矢量化数据优选为图像，但不限于此。图像基本上是由像素组成的。如果由像素组成的图像被矢量化，则根据图像的类型，它可能会被表示为单色2D矢量(黑白)、三通道2D矢量(RGB颜色)或四通道2D矢量(CMYK颜色)。

本发明的矢量化数据不限于图像数据，并且，例如，可以是使用通过堆叠n个黑白图像而创建的n通道2D矢量(多通道矢量)的人工智能模型的输入数据。

在本发明中，GC图是通过在X轴上取特定部分(恒定bin或不同大小的bin)，并在Y轴上取可以用核酸片段表示的数值(诸如核酸片段之间的距离或核酸片段的计数)而创建的图。在本发明中，bin可以是1kbp到10Mbp，但是不限于此。

在本发明中，该方法可以进一步包括，在步骤(c)之前，从经比对的核酸片段中分离满足映射质量得分的核酸片段。

在本发明中，映射质量得分可以根据期望的标准而变化，但是优选为15至70，更优选为50至70，以及最优选为60。

在本发明中，步骤(c)的GC图的特征在于，通过基于每个bin中核酸片段的计数或核酸片段之间的距离计算在每个染色体bin中的比对的核酸片段的分布来生成矢量化数据。

本发明中经计算的核酸片段的计数或经计算的核酸片段之间距离的矢量化可以不受限制地使用任何已知的用于矢量化计算值的方法来进行。

在本发明中，基于核酸片段的计数来计算在每个染色体bin中的比对的序列信息的分布可以使用包括以下步骤的方法进行：

i)将染色体分成预定的bin；

ii)确定在每个bin中的比对的核酸片段的计数；

iii)将所确定的每个bin中的核酸片段的计数除以样品中核酸片段的总数以进行归一化；以及

iv)创建GC图，其中X轴上是相应bin的顺序，以及Y轴上是步骤iii)中计算的归一化值。

在本发明中，基于核酸片段之间的距离来计算在每个染色体bin中的比对的序列信息的分布可以使用包括以下步骤的方法进行：

i)将染色体分成预定的bin；

ii)确定在每个bin中的比对的核酸片段之间的距离(片段距离，FD)；

iii)基于为每个bin计算的片段距离，确定每个bin的片段之间的代表性距离(RepFD)；

iv)将步骤iii)中计算的片段之间的代表性距离(RepFD)除以代表性总核酸片段距离以进行归一化；以及

v)创建GC图，其中X轴上是相应bin的顺序，以及Y轴上是步骤iv)中计算的归一化值。

在本发明中，预定的bin可以是1Kbp到3Gbp，但是不限于此。

在本发明中，该方法可以进一步包括将核酸片段分组。可以基于比对的核酸片段的接头序列进行分组。对于正向比对的核酸片段和反向比对的核酸片段，可以分别计算选定序列信息的核酸片段之间的距离。

在本发明中，FD被定义为在所获得的n个核酸片段中，第i个核酸片段的参考值和选自第i+1至第n个核酸片段的至少一个核酸片段的参考值之间的距离。

在本发明中，FD可以是选自由以下组成的组的一个或多个值：在所获得的n个核酸片段中，第1个核酸片段的参考值和选自第2至第n个核酸片段的至少一个核酸片段的参考值之间的距离的和、差、积、平均值、积的对数、和的对数、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差和变异系数，和/或其一个或多个倒数、考虑权重计算的值，以及统计值，但是本发明不限于此。

如本文所用，表述“一个或多个值……和/或其一个或多个倒数”意在表示可以使用上述数值之一或其中两个或多个的组合。

如本文所用，表述“核酸片段的参考值”可以是通过将任意值加到核酸片段的中位数或从中减去该任意值而获得的值。

所获得的n个核酸片段的FD可以定义如下。

FD＝Dist(Ri～Rj)(1<i<j<n),

其中，Dist函数计算选自由以下组成的组的一个或多个值：两个核酸片段Ri和Rj之间的所有核酸片段的比对位置值之间的差异的和、差、积、平均值、积的对数、和的对数、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差和变异系数，和/或其一个或多个倒数、考虑权重计算的值和统计值，但不限于此。

也就是说，如本文所用，FD(片段距离)是指比对的核酸片段之间的距离。此处，选择核酸片段用于距离计算的情况的数量可以定义如下。当总共存在N个核酸片段时，核酸片段之间距离的组合数量是也就是说，当i是1时，i+1是2，并且FD可以被定义为第1个核酸片段和选自第2至第n个核酸片段的一个或多个核酸片段之间的距离。

在本发明中，可以通过计算第i个核酸片段内的特定位置和第i+1至第n个核酸片段中的至少一个核酸片段内的特定位置之间的距离来获得FD。

例如，如果核酸片段的长度为50bp，并比对在1号染色体上的4183位处，则可以用于计算该核酸片段和另一个核酸片段之间距离的遗传位置值为1号染色体上的4183和4232。

如果与该核酸片段紧邻的长度为50bp的核酸片段比对在1号染色体上的4232位处，则可用于计算该核酸片段和另一核酸片段之间距离的遗传位置值为1号染色体上的4232和4281，两个核酸片段之间的FD为1至99。

如果另一个相邻的50bp的核酸片段比对在染色体1上的4123位处，可用于计算该核酸片段和另一个核酸片段之间距离的遗传位置值是染色体1的4123和4172，两个核酸片段之间的FD是61-159，并且该核酸片段和第一个示例性核酸片段之间的FD是12-110，FD可以是选自由以下组成的组的一个或多个：两个FD值之间的范围内的一者的和、差、积、平均值、积的对数、和的对数、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差和变异系数，和/或其一个或多个倒数、考虑权重计算的值和统计值，但不限于此，并且优选地是在两个FD值的范围内的一的倒数，但不限于此，并且优选地是两个FD值范围内的一者的倒数，但是不限于此。

优选地，在本发明中，FD可以是通过将任意值加到核酸片段的中位数或从中减去该任意值而获得的值。

在本发明中，FD的中位数是指当计算的FD按大小顺序比对时，位于最中心的值。例如，当有三个值，即1、2和100时，位于中心的2就是中位数。如果有偶数个FD，则中位数被确定为两个中位数的平均值。例如，如果FD为1、10、90和200，则中位数为50，即10和90的平均值。

在本发明中，可以不受限制地设置任意值，只要它可以用于指示核酸片段的位置，但是优选为0至5kbp或核酸片段长度的0至300％，0至3kbp或核酸片段长度的0至200％，或者0至1kbp或核酸片段长度的或0至100％，更优选0至500bp或核酸片段长度的0至50％，但不限于此。

在本发明中，在双端测序中，FD可以基于正向和反向读段的位置值来导出。

例如，如果在一对50bp长的双端读段中，正向读段比对在1号染色体上的4183位处，反向读段比对在4349位处，则该核酸片段的两端位于4183和4349位，可用于计算核酸片段距离的参考值为4183和4349。此时，如果在与该核酸片段相邻的另一对双端读段中，正向读段比对在1号染色体的4349位处，反向对数比对在4515位处，则该核酸片段的位置值是4349和4515。两个核酸片段之间的距离可以是0至333，并且最优选地可以是166，这是对应于各个核酸片段的中位数的距离。

在本发明中，当通过双端测序获得序列信息时，该方法可以进一步包括从计算过程中排除映射质量得分低于参考值的核酸片段。

在本发明中，在单端测序中，FD可以基于正向读段和反向读段中的一种类型的位置值来导出。

在本发明中，在单端测序中，如果基于正向比对的序列信息导出位置值，则向其添加任意值，并且如果基于反向比对的序列信息导出位置值，则减去任意值。可以不受限制地设置任意值，只要FD清楚地指示核酸片段的位置，但是优选为0至5kbp或核酸片段长度的0至300％，0至3kbp或核酸片段长度的0至200％，或者0至1kbp或核酸片段长度的或0至100％，更优选0至500bp或核酸片段长度的0至50％，但不限于此。

本发明中待分析的核酸可以以称为“读段”的单位进行测序和表达。取决于测序方法，读段可以分为单端测序读段(SE)和双端测序读段(PE)。SE型读段是通过以随机方向将核酸分子的5’和3’端中的一者测序至预定长度而获得的读段，而PE型读段是通过将核酸分子的5’和3’端中的两者测序至预定长度而获得的读段。本领域技术人员公知，由于这种差异，当在SE模式下测序时，从一个核酸片段生成一个读段，而在PE模式下从一个核酸片段生成一对的两个读段。

精确计算核酸片段之间距离的最理想的方法包括从开始到结束对核酸分子进行测序，比对读段，并使用比对的读段的位置值的中位数(中心)。然而，由于测序技术的限制及其高成本，该方法面临技术限制。因此，使用方法诸如SE或PE进行测序。在PE模式中，由于可以识别核酸分子的起始和结束位置，所以可以通过这些值的组合来确定核酸片段的准确位置(中位数)。在SE模式中，由于只能使用核酸片段一端的信息，因此位置(中位数)的计算精确度受到限制。

此外，当使用以正向和反向两者测序(比对)的所有读段的末端信息计算核酸分子之间的距离时，由于测序方向的因素，可能会获得不准确的值。

因此，由于与测序方法相关的技术原因，与核酸分子的中心位置值相比，正向读段的5’端具有小的位置值，反向读段的3’端具有大的位置值。当将任意值(延伸的bp)加到正向读段上并从反向读段中减去时，利用该特征，可以估计接近核酸分子中心位置的值。

也就是说，任意值(延伸的bp)可以根据所使用的样品而变化，并且已知细胞游离核酸具有约166bp的平均核酸长度，并且因此其任意值(延伸bp)被设定为约80bp。如果使用片段化(例如，超声处理)设备进行实验，片段化过程期间设定的目标长度的大约一半可以被设定为延伸的bp。

在本发明中，代表性FD(RepFD)包括选自由以下组成的组的至少一个：FD的和、差、积、平均值、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差和变异系数和/或其倒数，并且优选地是FD的中位数或均值或其倒数，但不限于此。

在本发明中，矢量化数据可以包括一个图像中的多个染色体特异性图。

在本发明中，在步骤(d)中可以不受限制地使用任何人工智能模型，只要它是能够学习区分癌症类型的图像的模型，并且优选地是深度学习模型。

在本发明中，可以不受限制地使用任何人工智能模型，只要它是能够基于人工神经网络分析矢量化数据的人工神经网络算法，并且优选地选自由以下组成的组：卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)和自动编码器，但不限于此。

在本发明中，循环神经网络选自由以下组成的组：长短期记忆(LSTM)神经网络、门控循环单元(GRU)神经网络、普通(vanilla)循环神经网络和注意力(attentive)循环神经网络。

在本发明中，当人工智能模型是CNN时，用于执行二分类的损失函数由下面的方程式1表示，并且用于执行多类分类的损失函数由下面的方程式2表示。

方程式1：二分类

模型(x_i)＝响应第i个输入的人工智能模型输出

y＝实际标签值

n＝输入数据的数量

方程式2：多类分类

模型(x_i)_j＝响应第i个输入的第j个人工智能模型输出

y＝实际标签值

n＝输入数据的数量

c＝类的数量

在本发明中，二分类意味着人工智能模型学习识别癌症的存在或不存在，多类分类意味着人工智能模型学习区分两种或更多种癌症类型。

在本发明中，当人工智能模型是CNN时，学习包括以下步骤:

i)将生成的GC图分类为训练数据、验证数据和测试数据，

其中训练数据用于训练CNN模型，验证数据用于超参数调谐验证，以及测试数据用于最优模型制作后的性能评估；以及

ii)通过超参数调谐和训练构建最优CNN模型；和

iii)使用验证数据比较通过超参数调谐获得的多个模型的性能，并将具有最佳验证数据的模型确定为最佳模型。

在本发明中，超参数调谐是优化构成CNN模型的各种参数值(卷积层数、密集层数、卷积滤波器数等)的过程。使用贝叶斯优化和网格搜索方法进行超参数调谐。

在本发明中，使用预定的超参数来优化CNN模型的内部参数(权重)，并且当验证损失与训练损失相比开始增加时，确定该模型是过拟合的。在此确定之前停止训练。

在本发明中，可以不受限制地使用在步骤(d)中由人工智能模型对输入的矢量化数据进行分析而得到的任何值，只要它是特定的分数或实数，并且该值优选地是深度概率指数(DPI),但不限于此。

在本发明中，“深度概率指数”是指对于人工智能模型的最后一层，在二分类的情况下使用sigmoid函数，在多类分类的情况下使用SoftMax函数，通过将人工智能的输出调整到0到1的标度，以概率值表示的值。

在二分类中，使用sigmoid函数进行训练，使得DPI被调整为1，假设癌症发生。例如，当输入乳腺癌样品和正常样品时，执行训练使得乳腺癌样品的DPI接近1。

在多类分类中，使用SoftMax函数提取与类的数量一样多的DPI。调整DPI的和为1，并且执行训练使得癌症类型的DPI实际上被调整为1。例如，假设有三个类，即乳腺癌、肝癌和正常组，当输入乳腺癌样品时，执行训练以将乳腺癌类的DPI调整到大约1。

在本发明中，针对每种癌症类型获得步骤(d)的所得的输出值。

在本发明中，将人工智能模型训练成如果有癌症则将输出值调整到大约1，如果没有癌症则将输出值调整到大约0。因此，性能(训练、验证、测试准确性)是基于0.5的截断值来衡量的。换句话说，如果输出值为0.5或更大，则确定有癌症，并且如果小于0.5，则确定没有癌症。

这里，对于本领域技术人员来说，显然0.5的截止值可以任意改变。例如，为了减少假阳性，可以将截止值设置为高于0.5，作为确定是否存在癌症的更严格的标准，并且为了减少假阴性，可以将截止值设置为低于0.5，作为确定存在癌症的更弱的标准。

最优选地，可以通过使用经训练的人工智能模型以应用看不见的数据(包含与训练期间的解不同的解的数据)来确定DPI的概率，从而设置截止值。

在本发明中，通过比较输出结果预测癌症类型的(e)包括将输出结果值中显示最高值的癌症类型确定为样品的癌症。

另一方面，本发明涉及一种基于人工智能诊断癌症和预测癌症类型的装置，所述装置包括：

解码器，配置成从生物样品中提取核酸并解码序列信息；

比对器，配置成将解码的序列与参考基因组数据库进行比对；

数据生成器，配置成基于比对的序列信息(读段)使用核酸片段生成矢量化数据；

癌症诊断单元，配置成将所生成的矢量化数据输入到经训练的人工智能模型，分析该数据，并将结果值与截断值进行比较，从而确定是否存在癌症；以及

癌症类型预测器，用于分析输出结果，并且从而预测癌症类型。

在本发明中，解码器可以包括用于注射从独立装置提取的核酸的核酸注射器和用于分析注射的核酸的序列信息的序列信息分析仪，优选NGS分析仪，但不限于此。

在本发明中，解码器可以接收并解码在独立装置中生成的序列信息数据。

在本发明中，数据生成器的矢量化数据可以是Grand Canyon图(GC图)。

在本发明中，GC图是其中特定部分(具有恒定大小的bin或具有不同大小的bin)被设置为X轴，并且可以基于核酸片段而表达的值，诸如在核酸片段之间的距离或数量，被设置为Y轴的图。在本发明中，bin可以是1kbp到10Mbp，但是不限于此。

在本发明中，数据生成器还可以包括核酸片段分类器，其配置成在生成矢量化数据之前，对满足比对的核酸片段的映射质量得分的核酸片段进行单独分类。

在本发明中，映射质量得分可以根据期望的标准而变化，但是优选为15至70，更优选为50至70，最优选为60。

在本发明中，用通过计算每个bin中核酸片段的计数或核酸片段之间的距离而矢量化的数据产生数据生成器的GC图。

在本发明中，基于核酸片段的计数来计算在每个染色体bin中比对的序列信息的分布可以使用包括以下步骤的方法进行：

i)将染色体分成预定的bin；

ii)确定在每个bin中的比对的核酸片段的计数；

iv)创建GC图，其中X轴上是相应bin的顺序，Y轴上是步骤iii)中计算的归一化值。

i)将染色体分成预定的bin；

v)创建GC图，其中X轴上是相应bin的顺序，Y轴上是步骤iv)中计算的归一化值。

在本发明中，预定的bin可以是1Kbp到3Gbp，但是不限于此。

在本发明中，FD可以是选自由以下组成的组中的一个或多个值：在所获得的n个核酸片段中，第1个核酸片段的参考值和选自由第2至第n个核酸片段组成的组中的至少一个核酸片段的参考值之间的距离的和、差、积、平均值、积的对数、和的对数、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差和变异系数，和/或其一个或多个倒数、考虑权重计算的值以及统计值，但是本发明不限于此。

如本文所用，表述“一个或多个值…和/或其一个或多个倒数”意在表示可以使用上述数值之一或其两个或多个的组合。

在本发明中，任何模型可以不受限制地用作癌症诊断单元的人工智能模型，只要它是能够学习区分癌症类型的图像的模型，并且优选地是深度学习模型。

在本发明中，循环神经网络选自由以下组成的组：长短期记忆(LSTM)神经网络、门控循环单元(GRU)神经网络、普通循环神经网络和注意力循环神经网络。

方程式1：二分类

模型(x_i)＝响应第i个输入的人工智能模型输出

y＝实际标签值

n＝输入数据的数量

方程式2：多类分类

模型(x_i)_j＝响应第i个输入的第j个人工智能模型输出

y＝实际标签值

n＝输入数据的数量

c＝类的数量

在本发明中，二分类意味着人工智能模型学习识别癌症的存在或不存在，并且多类分类意味着人工智能模型学习区分两种或更多种癌症类型。

在本发明中，当人工智能模型是CNN时，学习包括以下步骤:

i)将生成的GC图分类为训练、验证和测试数据，

其中当训练CNN模型时使用训练数据，验证数据用于超参数调谐验证，测试数据用于最优模型制作后的性能评估；以及

ii)通过超参数调谐和训练构建最优CNN模型；和

在本发明中，在训练过程中，使用预定的超参数来优化CNN模型的内部参数(权重)，并且当验证损失与训练损失相比开始增加时，确定该模型过拟合。在此确定之前停止训练。

在本发明中，可以不受限制地使用在癌症诊断单元中由人工智能模型对输入的矢量化数据进行分析而得到的任何值，只要它是特定的分数或实数，并且该值优选地是深度概率指数(DPI),但不限于此。

在本发明中，针对每种癌症类型获得癌症诊断单元的所得的输出值。

最优选地，可以通过使用经训练的人工智能模型应用看不见的数据(包含与训练期间的解不同的解的数据)来确定DPI的概率，从而设置截止值。

在本发明中，癌症类型预测器通过比较输出结果预测癌症类型，并将输出结果值中显示最高值的癌症类型确定为样品的癌症。

在另一方面，本发明涉及一种计算机可读存储介质，其包括配置成由处理器执行的指令，用于通过以下步骤诊断癌症和预测癌症类型，所述步骤包括：

(a)从生物样品中提取核酸以获得序列信息；

(b)将获得的序列信息(读段)与参考基因组数据库进行比对；

(d)将所生成的矢量化数据输入到经训练的人工智能模型中，分析所得的输出值，并将所得的输出值与截断值进行比较，以确定是否存在癌症；以及

(e)通过分析输出值来预测癌症类型。

在本发明中，步骤(a)可以包括获得先前生成的序列信息，其中所述先前生成的序列信息是通过使用NGS装置等从生物样品中提取核酸而获得的。

在另一方面，根据本公开的方法可以使用计算机来实现。在一种实施方式中，计算机包括联接芯片组的一个或多个处理器。此外，存储器、存储设备、键盘、图形适配器、点击设备、网络适配器等连接到芯片组。在一种实施方式中，芯片组的性能由存储器控制器集线器和I/O控制器集线器获取。在另一种实施方式中，存储器可以直接联接处理器，而不是芯片组。存储设备是能够维护数据的任何装置，包括硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或其他存储设备。所述储存器与由处理器使用的数据和指令有关。点击设备可以是鼠标、轨迹球或其他类型的点击设备，并且与键盘结合使用以向计算机系统传输输入数据。图形适配器在显示器上显示图像和其他信息。网络适配器通过局域网或远程通信网络连接到计算机系统。然而，本文使用的计算机不限于上述配置，可以不具有一些配置，可以进一步包括附加配置，并且还可以是存储区域网(SAN)的一部分，并且本发明的计算机可以配置成适于执行用于实现根据本发明的方法的程序中的模块。

本文所用的模块可以指实现根据本发明的技术思想的硬件和驱动硬件的软件的功能和结构组合。例如，对于本领域技术人员来说，显然模块可以指预定代码的逻辑单元和执行所述预定代码的硬件资源，而不一定表示物理连接的代码或一种类型的硬件。

根据本发明的方法可以用硬件、固件或软件或其组合来实现。当该方法在软件中实现时，存储介质包括由诸如计算机的设备可读的形式存储或传输数据的任何介质。例如，计算机可读介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备和其他电、光或声信号传输介质。

在该方面，本发明涉及一种计算机可读介质，其包括执行模块，以执行处理器来执行包括上述根据本发明的步骤的操作。

实施例

在下文中，将参考实施例更详细地描述本发明。然而，对于本领域技术人员来说，显然这些实施例仅用于说明本发明，而不应被解释为限制本发明的范围。

实施例1.从血液中提取DNA进行下一代测序

从184名正常受试者和580名癌症患者中各采集10mL的血液，并储存在EDTA试管中。在血液收集后的2小时内，仅将血浆在1200g和4℃下初步离心15分钟，然后将初步离心的血浆在16000g和4℃下再次离心10分钟，以分离除沉淀物之外的血浆上清液。使用天根micro DNA试剂盒(天根(Tiangen))从分离的血浆中提取细胞游离DNA，使用TruSeq NanoDNA HT文库制备试剂盒(Illumina)进行文库制备过程，然后使用DNBseq G400仪器(MGI)以100碱基双端模式进行测序。结果，每个样品产生了大约1.7亿个读段。

实施例2.基于核酸片段距离的GC图的生成

使用上述实施例1中生成的NGS数据形成GC图(矢量化)。hg19参考染色体基于100k碱基的bin大小进行划分，并且将产生的NGS读段分配给每个bin。然后，计算每个bin的FD(碎片距离)的中位数的倒数，并且创建表示在X轴上的每个bin位置和在Y轴上的先前计算的FD的中位数的倒数图像(图2)。

实施例3.CNN模型的构建和学习过程

CNN模型的基本配置如图3中所示。激活函数使用ReLU(校正线性单位)，并且每个卷积层使用20个10×10的补丁(patch)。本文使用的池化模式是最大的，使用了2x2补丁。使用五个完全连接的层，并且每层包括175个隐藏节点。最后，使用sigmoid函数值计算最终DPI值。CNN模型中使用的超参数值是通过贝叶斯优化获得的，并且模型的配置可以根据所使用的数据和模型的优化而变化。

实施例4.使用基于核酸片段距离的GC图对癌症诊断深度学习模型的构建以及性能测试

使用实施例1中获得的读段对从使用基于核酸片段之间距离的GC图构建的深度学习模型中输出的DPI值的性能进行评估。所有样品都被分为训练组、验证组和测试组。使用训练样品构建模型，并且然后使用验证组和测试组的样品评估使用训练样品构建的模型的性能。

[表1]

[表2]

结果，从表2和图4可以看出，发现在训练组、验证组和测试组中准确度分别为100％、99.7％和90％，并且发现在训练组、验证组和测试组中指示ROC分析结果的AUC值分别为1.00、0.95和0.938。

图4(A)示出了使用受试者操作特征(ROC)曲线来测量准确度的分析结果。确定准确度随着曲线下面积(AUC)的增加而增加。AUC的值在0和1之间，当随机预测标签值时，预期(基线)的AUC为0.5，而当正确预测标签值时，预期(基线)的AUC为1。

图4(B)是示出在本发明的人工智能模型中计算的关于正常样品组和癌症患者样品组的癌症概率值(DPI值)的箱形图，其中红线代表0.5的DPI截断。

实施例5.使用基于核酸片段距离的GC图对癌症诊断深度学习模型的构建以及性能测试

使用实施例1中获得的读段对从使用基于核酸片段之间距离的GC图构建的深度学习模型中输出的DPI值的性能进行测试。所有样品都被分为训练组、验证组和测试组。使用训练样品构建模型，并且然后使用验证组和测试组的样品评估使用训练样品构建的模型的性能。

[表3]

[表4]

结果，从表4和图5可以看出，发现在训练组、验证组和测试组中准确度分别为100％、91％和86.8％，并且发现在训练组、验证组和测试组中指示ROC分析结果的AUC值分别为1.0、0.968和0.936。

图5(A)示出了使用受试者操作特征(ROC)曲线来测量准确度的分析结果。确定准确度随着曲线下面积(AUC)的增加而增加。AUC的值在0和1之间，当随机预测标签值时，预期(基线)的AUC为0.5，而当正确预测标签值时，预期(基线)的AUC为1。

图5(B)是示出在本发明的人工智能模型中计算的关于正常样品组和癌症患者样品组的癌症概率值(DPI值)的箱形图，其中红线代表0.5的DPI截断。

尽管已经详细描述了本发明的具体配置，但是本领域的技术人员将会理解，提供该描述是为了说明的目的而阐述优选实施方式，并且不应该被解释为限制本发明的范围。因此，本发明的实质范围由所附权利要求及其等同物来限定。

工业实用性

根据本发明的基于人工智能诊断癌症和预测癌症类型的方法，包括生成矢量化数据并使用AI算法对其进行分析，与基于读段计数确定染色体数量的方法(逐个使用读段相关值作为标准化值)相比，尽管读段覆盖率低，但仍可以显示出类似的效果，因此是有用的。

Claims

1.一种基于人工智能提供信息以诊断癌症和预测癌症类型的方法，所述方法包括:

(a)从生物样品中提取核酸以获得序列信息；

(b)将所述序列信息(读段)与参考基因组数据库进行比对；

(d)将生成的矢量化数据输入至经训练的人工智能模型，分析所得的输出值，并将所述所得的输出值与截断值进行比较，以确定是否存在癌症；以及

(e)通过所述输出值的比较来预测所述癌症类型。

2.根据权利要求1所述的方法，其中，步骤(a)包括：

(a-i)从血液、精液、阴道细胞、毛发、唾液、尿液、口腔细胞、含有胎盘细胞或胎儿细胞的羊水、组织细胞或其混合物中获得核酸；

(a-ii)使用盐析法、柱色谱法或珠粒法从获得的核酸中去除蛋白质、脂肪和其它残余物，以获得纯化的核酸；

(a-iii)为所述纯化的核酸或通过酶消化、粉碎或水力剪切方法随机片段化的核酸制备单端测序或双端测序文库；

(a-iv)用下一代测序仪反应所制备的文库；以及

(a-v)获得下一代测序仪中所述核酸的序列信息(读段)。

3.根据权利要求1所述的方法，其中，步骤(c)的所述矢量化数据是GrandCanyon图(GC图)。

4.根据权利要求3所述的方法，其中，所述GC图的特征在于，通过基于每个bin中核酸片段的计数或核酸片段之间的距离计算每个染色体bin中的比对的核酸片段的分布来生成所述矢量化数据。

5.根据权利要求4所述的方法，其中，基于核酸片段的计数来计算在每个染色体bin中的比对的序列信息的分布是使用包括以下步骤的方法进行的：

i)将染色体分成预定的bin；

ii)确定在每个bin中的比对的核酸片段的所述计数；

iii)将确定的每个bin中核酸片段的计数除以所述样品中核酸片段的总数以进行归一化；以及

6.根据权利要求4所述的方法，其中，基于核酸片段之间的所述距离计算在每个染色体bin中的所述比对的序列信息的分布是使用包括以下步骤的方法进行的：

i)将染色体分成预定的bin；

ii)计算在每个bin中的比对的核酸片段之间的所述距离(片段距离，FD)；

iii)基于每个bin中计算的片段距离，确定每个bin的片段之间的代表性距离(RepFD)；

iv)创建GC图，其中X轴上是相应bin的所述顺序，Y轴上是步骤

iv)中计算的所述归一化值。

7.根据权利要求6所述的方法，其中，所述代表性FD(RepFD)包括选自由以下组成的组的至少一者：FD的和、差、积、平均值、中位数、分位数、最小值、最大值、方差、标准差、中位数绝对偏差、变异系数、其倒数以及其组合。

8.根据权利要求1所述的方法，其中，步骤(d)的人工智能模型被训练以区分正常染色体的矢量化数据和异常染色体的矢量化数据。

9.根据权利要求8所述的方法，其中，所述人工智能模型选自由以下组成的组：卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)和自动编码器。

10.根据权利要求9所述的方法，其中，当所述人工智能模型是CNN并且学习二分类时，损失函数由下面的方程式1表示，并且当所述人工智能模型是CNN并且学习多类分类时，损失函数由下面的方程式2表示，

方程式1：二分类

模型(x_i)＝响应第i个输入的人工智能模型输出

y＝实际标签值

n＝输入数据的数量

方程式2：多类分类

模型(x_i)_j＝响应第i个输入的第j个人工智能模型输出

y＝实际标签值

n＝输入数据的数量

c＝类的数量。

11.根据权利要求1所述的方法，其中，步骤(d)中由人工智能模型通过分析输入的矢量化数据输出的结果值是深度概率指数(DPI)。

12.根据权利要求1所述的方法，其中，步骤(d)的所述截断值为0.5，并且当结果值为0.5或更大时，确定存在癌症。

13.根据权利要求1所述的方法，其中，通过比较输出结果预测癌症类型的步骤(e)包括将输出结果值中显示最高值的所述癌症类型确定为所述样品的癌症。

14.一种基于人工智能诊断癌症和预测癌症类型的装置，所述装置包括:

解码器，配置成从生物样品中提取核酸并解码序列信息；

癌症诊断单元，配置成将生成的矢量化数据输入到经训练的人工智能模型，分析所述数据，并将结果值与截断值进行比较，从而确定是否存在癌症；以及

癌症类型预测器，用于分析输出结果，并且从而预测所述癌症类型。

15.一种计算机可读存储介质，包括配置成由处理器执行的指令，用于通过包括以下的步骤诊断癌症和预测癌症类型：

(a)从生物样品中提取核酸以获得序列信息；

(b)将获得的序列信息(读段)与参考基因组数据库进行比对；

(d)将生成的矢量化数据输入到经训练的人工智能模型中，分析所得的输出值，并将所得的输出值与截断值进行比较，以确定是否存在癌症；以及

分析所述输出结果，并且从而预测所述癌症类型。