CN110880356A

CN110880356A - 对卵巢癌进行筛查、诊断或风险分级的方法和装置

Info

Publication number: CN110880356A
Application number: CN201811030743.8A
Authority: CN
Inventors: 魏国鹏
Original assignee: Nanjing Gezhi Gene Biotechnology Co Ltd
Current assignee: Nanjing Gezhi Gene Biotechnology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-03-13

Abstract

本发明涉及对卵巢癌进行筛查、诊断或风险分级的方法和装置。具体而言，本发明涉及使用高通量测序和CA‑125水平构建决策树模型对卵巢癌进行筛查、诊断或风险分级的方法和装置。更具体而言，本发明涉及使用高通量测序和CA‑125水平构建决策树模型，训练模型筛查、检测卵巢癌，从分子生物学层面上解决早期卵巢癌症状隐匿，难以发现；卵巢包块性质待定，难以区分卵巢癌还是卵巢良性肿瘤；及肿瘤标记物阴性伴盆腔包块恶性可能的临床问题。本发明的方法和系统通过一次检测即能够发现可能的卵巢癌。

Description

对卵巢癌进行筛查、诊断或风险分级的方法和装置

技术领域

本发明涉及医学、生物学、模式识别等领域。具体而言，本发明涉及医学检测。更具体而言，本发明通过基因组检测和CA-125结果构建决策树模型，训练模型对卵巢癌进行筛查、检测和风险分级。

背景技术

卵巢癌是妇科恶性肿瘤中死亡率最高的肿瘤。在西方国家中，卵巢癌是所有妇科癌症之中引起死亡的主导原因。在中国，2015年卵巢癌新发和死亡估计数目分别为52100和22500人。因卵巢癌所在盆腔位置深，部位隐蔽，难以发现，且症状不典型，缺乏早期诊断标志物和有效的工具，待能够发现和明确诊断时，往往已到了中、晚期，这也是造成卵巢癌高死亡率的主要原因。

目前卵巢癌的病因尚不清楚，可能与年龄、生育情况、血型、精神因素及环境等因素有关。近年来，卵巢癌的发病率呈逐年上升趋势。美国疾病控制与预防中心(CDC)此前发布的卵巢癌五大高危人群分别是：年龄50岁以上的女性；未生育或者不孕，有子宫内膜异位症病史者；单独服用雌激素药物超过10年者；乳腺癌易感基因(BRCA1或BRCA2)发生突变的人群；以及有卵巢肿瘤或恶性肿瘤家族遗传史者。

CA-125(又称为糖基类抗原125、糖类抗原125、糖基抗原125或癌抗原125)是一种大型跨膜糖蛋白，来源于胚胎发育期体腔上皮，在正常卵巢组织中不存在，最常见于卵巢癌患者的血清中，CA-125水平高于35U/mL被认为异常。使用CA-125作为血清标志物检测卵巢癌已经有几十年的历史了，但CA-125特异性较差，并非卵巢特异性的标志物，它容易与其他癌症、盆腔良性肿瘤、妇科炎症等导致的改变相混淆造成误诊与假阳性。而且并不是每个卵巢癌病人的CA-125水平均高于35U/mL；尤其是在早期卵巢癌病例中，敏感性也不高，假阴性非常高，有50％以上检测不到CA-125升高。因此，亟需一种敏感性与特异性高的方法和工具来检测和筛查卵巢癌、特别是能够将卵巢癌与卵巢良性肿瘤进行区分的方法和工具。

NGS(下一代测序技术)可一次对几十万到几百万条DNA分子进行序列测定，同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。

cfDNA(cell-free DNA)代表血浆中的游离DNA，而ctDNA(circulating tumorDNA，循环肿瘤DNA)代表cfDNA的一小部分。ctDNA是一种游离在血浆中的小片段DNA，由凋亡或坏死的肿瘤细胞中的基因组入血产生，因此携带有原发瘤或转移瘤特定的基因特征。ctDNA获取方便且较为稳定。

染色体不平衡是恶性肿瘤的特征之一，是指相对于常见的二倍体基因组发生的基因组结构变异，包括染色体数量的改变，如多倍体或单倍体；也包括染色体局部的改变，如拷贝数增加或拷贝数缺失等。染色体的不平衡可通过基因剂量效应直接改变基因的表达水平，或调控其他基因的表达，因此，染色体的不平衡在肿瘤的发生发展有着重要的意义。通过研究ctDNA来反映染色体的平衡态可能对肿瘤的定性具有一定的可行性和意义。

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法。决策树是直观运用概率分析的一种图解法，使用简单，应用广泛，通过训练数据构建决策树，可以高效地对未知的数据进行分类和预测。

本领域对于寻找对卵巢癌进行筛查和诊断的方法存在迫切需求。然而，据了解，迄今为止，尚无通过NGS和决策树来对卵巢癌进行快速诊断、尤其是早期诊断的有效方法。本发明人首次构建一种基于决策树系统研究高通量测序ctDNA重组后的染色体不平衡态和CA-125水平的方法，从而对卵巢癌进行筛查、诊断和风险分级。

发明内容

本文提供了用于进行卵巢癌筛查、诊断和风险分级的系统和方法。具体而言，本发明克服现有技术中CA-125检测的不足，提供了一种基于决策树系统，使用高通量测序和CA-125检测对卵巢癌进行筛查、诊断和风险分级的方法、装置和系统。

本发明利用高通量测序技术、CA-125水平和决策树系统，从分子生物学层面上解决卵巢癌筛查，尤其是诊断肿瘤血清标记物CA-125阴性疑似卵巢癌的可能。本方法具有误差率小、筛选结果准确、自动化程度高、计算速度快、集成化程度高等优点，适于大规模样本的筛选，可广泛地应用于化学、医学等领域。本发明的方法、装置和系统通过一次快速非侵入式检测结合CA-125水平即能够检测可能的卵巢癌。

具体而言，本发明涉及以下方面，各方面之间的各技术方案可以根据需要进行组合。

在本发明的第一个方面，涉及用于对卵巢癌进行筛查、诊断或风险分级的一组染色体。

在一些具体实施方案中，该组染色体为人类染色体。

在一些具体实施方案中，该组染色体包含第1到第22号染色体中的至少1条。在一些具体实施方案中，该组染色体由第1到第22号染色体组成，所述染色体为人类染色体。

在一些具体实施方案中，该组染色体是分离的。

在本发明的第二个方面，涉及一种计算机可读介质，其上存储有指令，其中当所述指令被处理器执行时，使得计算机执行以下操作：

根据来自受试者(例如人)的样品的第1到22号染色体的染色体不平衡或染色体臂不平衡计算该受试者整体的不平衡度量CScore值；

结合CScore值和所述样品中CA-125的水平，以判断所述受试者是否患有卵巢癌或存在患卵巢癌的高风险。

在一些具体实施方案中，所述计算机可读介质通过以下方式计算CScore值：

将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人的参考基因组Hg19)，并例如按照10-1000k/bin(例如50k/bin)，平均分成多个段(例如bin)；

分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(cov_Chriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(cov_Chrip)；

根据下列公式，计算第i号染色体的R值(

)：

或

其中q代表长臂，p代表短臂，Chr为染色体(chromosome)的缩写，i选自1到22号染色体；

基于R值，根据公式(2)计算第i号染色体的Z-score(Z_Chri)：

其中

是健康人群所对应的R值的平均数，

是健康人群所对应的R值的标准偏差；

或者，根据公式(3a)和(3b)计算第i号染色体相应长臂q的Z-score(

)和短臂p的Z-score(

):

其中

是健康人群所对应的第i号染色体长臂的读长的平均数，

是健康人群所对应的第i号染色体短臂的读长的平均数；

如果第i号染色体或染色体臂的Z-score的绝对值大于等于3，则认为该染色体或染色体臂存在不平衡；选择染色体或染色体臂Z-score的绝对值大于等于3的染色体，根据公式(4)，求整体的不平衡度量CScore值：

在一些具体实施方案中，所述计算机可读介质利用CScore和CA-125的水平建立决策树模型，对卵巢癌风险进行预测。

在一些具体实施方案中，通过R语言建立决策树模型。具体而言，通过以下步骤建立决策树模型：

(1)构建整体样本数据集，在该整体样本数据集中约50％为卵巢癌样本、约50％为卵巢良性肿瘤样本；

(2)拆分数据，使用R中随机抽样函数“sample”对整体样本数据集进行分割，分别构建训练集和测试集，其中训练集占整体样本的约60％，测试集占整体样本的约40％；

(3)分类树训练数据；

(4)确定决策树模型的最优参数；

(5)任选地，使用决策树模型及相应最优参数对测试集数据进行检验，确定模型最优参数的效果如何。

在一个具体实施方案中，通过以下方式构建整体样本数据集：选取样本，将各样本按照CScore、CA-125的水平、类型Type属性和样本号构建整体样本数据集。

在一个具体实施方案中，通过以下方式进行分类树训练数据并确定决策树模型的最优参数：使用R中party包的条件推断决策树ctree对训练集进行建模，条件为CScore和CA-125，标签为类型Type，ctree包轮流重复选取样本数据中条件属性的值作为分割点、阈值来分类，最后生成该模型的最优参数值。

在一个具体实施方案中，所述模型确定最优分割点和相应的阈值如下：

①选取CScore结果作为第一次分割自变量，阈值确定为5.18，CScore>5.18的情况下，判断受试者患有卵巢癌或者存在患卵巢癌的高风险；

②如果受试者CScore≦5.18，但满足CA-125的水平>103.1U/mL这一条件的时候，根据决策树模型的结果，判断受试者依然患有卵巢癌或者存在患卵巢癌的高风险；

③当受试者CScore≦5.18并且CA-125的水平≦103.1U/mL，认为受试者未患有卵巢癌或者患卵巢癌风险较低。

在一些具体实施方案中，所述样品为外周血，优选外周静脉血，更优选外周静脉血中的游离DNA。

在本发明的第三个方面，涉及一种计算设备，其包含本发明的计算机可读介质和处理器。

在本发明的第四个方面，涉及一种系统，其包含：

-测序装置，其用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息(例如，通过高通量测序技术获得的全基因组数据序列)；

-本发明的计算设备。

在本发明的第五个方面，涉及测定第1到22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异，更优选染色体和染色体臂覆盖度的差异)与CA-125水平的试剂在制备对卵巢癌进行筛查、诊断或风险分级的诊断剂中的用途。

在本发明的第六个方面，涉及测定第1到22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异，更优选染色体和染色体臂覆盖度的差异)与CA-125水平的装置在制备对卵巢癌进行筛查、诊断或风险分级的设备中的用途。

在本发明的第七个方面，涉及一种用于对卵巢癌进行筛查、诊断或风险分级的设备，该设备包括：

判断装置，其用于测定来自受试者(例如人)的样品的第1到22号染色体或染色体臂是否存在染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异，更优选染色体和染色体臂覆盖度的差异)；

计算装置，其基于判断装置所得到的染色体或染色体臂不平衡的情况，依据公式(1)-(4)，计算该受试者的CScore；

筛查、诊断和分类装置，其基于受试者CScore和CA-125水平、根据决策树模型确定的阈值，对卵巢癌进行筛查、诊断或风险分级。

在本发明的第八个方面，涉及一种使用高通量测序和决策树系统判断分类是否患有卵巢癌或存在卵巢癌高风险的方法。

在一些具体实施方案中，所述方法包括：

-采集受试者的血液(例如，外周血)，并测定血清中CA-125的水平；

-通过高通量测序技术，测定来自受试者(例如人)的血液的第1到22号染色体或染色体臂是否存在染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异，更优选染色体和染色体臂覆盖度的差异)；

-基于染色体或染色体臂不平衡的情况，依据公式(1)-(4)，计算该受试者的CScore；

-基于受试者CScore和CA-125水平、根据第二方面训练好的决策树模型确定地阈值，对卵巢癌进行筛查、诊断或风险分级。

在一些具体实施方案中，所述方法通过本发明的计算机可读介质、设备或者系统进行。

在一些具体实施方案中，所述方法与用于诊断卵巢癌的其他方法组合。所述其他方法包括盆腔超声、影像学诊断(包括动态增强CT、核磁共振MRI)。

本发明的有益效果

本发明至少在以下方面取得了出人意料的有益效果：

1.本发明从分子生物学水平上进一步提高卵巢癌的筛出率，尤其是对CA-125阴性的疑似卵巢癌或卵巢良性肿瘤的筛出率，减少原本CA-125检测卵巢癌方法的假阳性和假阴性。

2.本发明的方法具备敏感性、特异性、准确性高的优点。

3.本发明第一次提出了使用决策树系统对卵巢癌高通量测序数据和CA-125数据构建筛查、检测卵巢癌的方法，能够有效地检测卵巢癌的发生与否、受试者罹患卵巢癌的风险高低。

4.本发明提出了用一次检测，避免CA-125检测卵巢癌假阳性、假阴性高的难题，肿瘤组织检测的侵入性及CT等影像学检查的辐射等问题。

5.本发明的方法适用于测序深度0.01以上的所有测序深度和测序量。

6.本发明能够简便、快捷地将卵巢癌和卵巢良性肿瘤进行区分。

发明详述

下面将结合具体实施方式对本发明的实施方案进行详细描述，但是，本领域技术人员将理解，下列实施例仅用于说明本发明，而不是对本发明的范围的限定。根据优选实施方案的下列详细描述，本发明的各种目的和有利方面对于本领域技术人员来说将变得明显。

定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所涉及的实验室操作步骤均为相应领域内广泛使用的常规步骤。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文中使用的，术语“染色体”是指是细胞核中载有遗传信息的物质，在显微镜下呈圆柱状或杆状，主要由DNA和蛋白质组成。从着丝粒到染色体两端之间的部分称为染色体臂，如果着丝粒不在染色体的中央，则可区分为长臂(q)和短臂(p)。两臂的长度对于鉴别染色体是重要的。

如本文中使用的，术语“DNA”即脱氧核糖核酸(Deoxyribonucleic acid)，是染色体的主要组成成分，同时也是主要遗传物质。

如本文中使用的，术语“ctDNA”即是一种游离在血浆中的小片段DNA，由凋亡或坏死的肿瘤细胞中的基因组入血产生，因此携带有原发瘤或转移瘤特定的基因特征。

如本文中使用的，术语“高通量测序(High-throughput sequencing)”(又被称为下一代测序(Next-generation sequencing))是指能一次并行对几十万到几百万条DNA分子进行序列测定的测序技术。

如本文中使用的，术语“测序深度”(Sequencing Depth)表示测序得到的碱基总量(bp)与基因组大小的比值，是评价测序量的指标之一。

如本文中使用的，术语“读长(reads)”，也称为读出序列，是指测序反应所能测得序列的长度。如果DNA序列长度高于读长，那么必须把DNA序列分割成长度在读长以内短序列才能测序。

如本文中使用的，术语“序列比对”是指使读长(reads)通过序列一致性原则对齐到标准参考基因组(例如标准人参考基因组)上。

如本文中使用的，术语“通量”是指单位时间内所能产生的数据量，是测序速度、测序数量的综合体现。

如本文中使用的，术语“CA-125”一种卵巢癌生物标记物。1981年由Bast等从上皮性卵巢癌抗原检测出可被单克隆抗体OC125结合的一种糖蛋白，来源于胚胎发育期体腔上皮。血清中CA125正常参考范围<35U/mL，目前临床上主要作为中晚期卵巢癌的血清标志物，用于中晚期卵巢癌的诊断及疗效监测。用于测定CA-125的方法是本领域已知的，例如，可以通过采集受试者的外周血，使用瑞典康乃格(Fujirebio)诊断试剂公司的EIA试剂盒测定血清中CA-125的水平(也称为“CA-125值”)，以“U/mL”(即单位/毫升血清)表示。

如本文中使用的，术语“风险分级”是指受试者患某种疾病(例如，卵巢癌)的风险的高低。例如，“存在患卵巢癌的高风险”或者“患卵巢癌的风险高”是指使用决策树模型分类结果为卵巢癌的受试者，具体到本文中构建的模型，本构建模型分类确定的最优分割点与阈值是：

“患卵巢癌风险较低”是指使用模型分类结果为良性的受试者，具体到本文中构建的模型，本构建模型分类确定的最优分割点与阈值是：

①当受试者CScore≦5.18并且CA-125的水平≦103.1U/mL，认为受试者未患有卵巢癌或者患卵巢癌风险较低。

如本文中使用的，术语“体外”是指人造环境以及在人造环境内发生的过程或反应。体外环境可以由试管和细胞培养物组成但不限于试管和细胞培养物。术语“体内”是指天然环境(例如动物或细胞)以及在天然环境中发生的过程或反应。

如本文中使用的，术语“敏感性”是指患者中得出阳性检测的样本占患者总数的百分比。在医学诊断中，敏感性可通过如下公式表示，反映正确判断患者的比率：

敏感性＝真阳性人数/(真阳性人数+假阴性人数)*100％。

如本文中使用的，术语“特异性”是指健康人中得出阴性检测的样本占健康人总数的百分比。在医学诊断中，特异性可通过如下公式表示，反映正确判断非患者的比率：

特异性＝真阴性人数/(真阴性人数+假阳性人数)*100％。

如本文中使用的，术语“漏诊率”又称假阴性率，是指在一个群体中进行某疾病的筛检或诊断时，实际有病的受试者，按诊断标准被定为非患者的百分率。在医学诊断中，漏诊率可通过如下公式表示：

漏诊率＝假阴性人数/(真阳性人数+假阴性人数)*100％。

如本文中使用的，术语“误诊率”又称假阳性率，是指在一个群体中进行某疾病的筛检或诊断时，实际没有病的受试者，按诊断标准被定为患者的百分率。在医学诊断中，误诊率可通过如下公式表示：

误诊率＝假阳性人数/(真阴性人数+假阳性人数)*100％。

如本文中使用的，术语“健康人群”是指未患有卵巢癌风险也不存在患卵巢癌风险的个体。

如本文中使用的，术语“Z-score”，也称为Z分数或标准分数(standard score)，是一个数与平均数的差再除以标准差的过程。在统计学中，标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。在统计学中，Z-score通过如下公式进行表示：

其中μ为总体平均值，X-μ为离均差，σ表示总体标准偏差。

如本文中使用的，术语“分离的”是指使被检测对象离开受试者(例如人)的体内环境。

如本文中使用的，术语“约”应该被本领域技术人员理解，并将随其所用之处的上下文而有一定程度的变化。如果根据术语应用的上下文，对于本领域技术人员而言，其含义不是清楚的，那么“约”的意思是偏差不超过所述特定数值或范围的正负15％(例如，10％)。

除非上下文另外清楚地指示，否则单数形式“一个”、“一种”以及“所述”包括复数形式的指代物。类似地，除非上下文另外清楚地指示，否则词语“或”意图包括“和”。

如本文中使用的，术语“决策树”一般由一个决策图和可能的结果(包括资源成本和风险)组成，用来创建到达目标的规划。决策树建立并用来辅助决策，是一种特殊的树结构。决策树是一个利用像树一样的图形或决策模型的决策支持工具，包括随机事件结果，资源代价和实用性。它是一个算法显示的方法。决策树经常在运筹学中使用，特别是在决策分析中，它帮助确定一个能最可能达到目标的策略。

I.高通量测序技术

高通量测序技术又称“下一代”测序技术，是相对于传统的桑格测序(SangerSequencing)而言的，以能够一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。同时，高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为“深度测序”。

随着高通量测序技术的迅猛发展，科学界也开始越来越多地应用高通量测序技术来解决生物学和医学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序，获得该物种的参考序列，为后续研究和分子育种奠定基础；对有参考序列的物种，进行全基因组重测序，在全基因组水平上扫描并检测突变位点，发现个体差异的分子基础。在转录组水平上进行全转录组测序，从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究；或者进行小分子RNA测序(small RNA sequencing)，通过分离特定大小的RNA分子进行测序，从而发现新的microRNA分子。在转录组水平上，与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合，从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。高通量测序技术的诞生可谓基因组学研究领域一个具有里程碑意义的事件。

高通量测序一般通过以下步骤进行：

1.样本准备

2.文库构建

3.测序反应

4.数据分析

在本发明的方法中，总体上涉及以下步骤：

1.收集血浆

(1)采集受试者外周血12ml(6ml*2)置于EDTA抗凝管中，立即轻柔颠倒混合采血管10次，获得新鲜血液。

(2)在采集新鲜血液4小时之内，将其于4℃、1600g离心10分钟。

(3)离心后将上清液(血浆)分装到多个1.5ml离心管中。

(4)将步骤(3)中收集的上清液于4℃、16000g离心10分钟，去除残余细胞；将上清液(即血浆)分装到新的1.5ml离心管中。

2.提取cfDNA

可以通过本领域已知的方式提取cfDNA。

Kapa DNA打断酶(如实施例中所述的蛋白酶K)可以有效地将双链DNA进行片段化，而且不限DNA种类和起始量(1ng-1ug)，片段化的程度由酶切的时间和温度控制。打断后的DNA可以直接用于二代测序的文库构建，效果和Covaris机器打断效果相当；–15℃以下储存，有效期6个月。尽量避免反复冻融，冻融次数应不能超过5次。运输过程中试剂盒采用冰袋加干冰包装进行运输。

3.建库测序

DNA文库的建立和染色体测序可通过本领域已知的方式进行。

在本发明的具体事实方案中，通过以下方式进行：

(1)纯化用磁珠室温放置30分钟备用；

(2)磁珠涡旋混匀，每个样品中加入0.6X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次，混匀样品。样品室温混合5分钟；

(3)样品放在磁力架上，室温静置5分钟，直到液体变清澈；

(4)用200μl移液器将上清液转移到新的1.5ml离心管中，标记相应编号；

(5)磁珠涡旋混匀，每个新离管心中加入初始样本体积0.3X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次，混匀样品。样品室温混合5分钟；

(6)用200μl移液器移除上清液(注意：不要搅动磁珠)，并立刻加入200μl 80％乙醇，吹打两次，磁力架上静置1分钟；

(7)将乙醇吸出后，再次加入200μl 80％乙醇，吹打两次，磁力架上静置30秒；

(8)吸干样品中的液体，在磁力架上晾干10分钟；

(9)加入32μl无核酸酶水，取下样品管，枪头吹打至磁珠全部混匀；

(10)室温放置2分钟后，再次放置在磁力架上5分钟，直到液体变清澈；

(11)吸出30μl液体至1.5mlL离心管中；

(12)使用Illumina MiSeq、NextSeq、HiSeq、X10、NovaSeq以及任何读长超过30bp的测序平台产生测序数据。

在本申请实施例中，将进一步详细描述具体操作步骤。

目前市场上高通量测序平台的代表及其原理如下表1所示：

表1

任何适宜的高通量测序平台均可用于本发明。优选地，在本发明中所用的测序技术为由Illumina提供的测序平台，包括但不限于MiSeq、NextSeq、HiSeq、X10、NovaSeq。Illumina测序采用边合成边测序技术(Sequencing by sythesis,SBS)。

II.染色体不平衡和染色体臂不平衡

染色体不平衡

染色体不平衡，又称染色体失衡。染色体不平衡是恶性肿瘤的特征之一，是指相对于常见的二倍体基因组发生的基因组结构变异。广义上的染色体不平衡包括染色体数量的改变，如多倍体或单倍体；也包括染色体局部的变异，如拷贝数增加或拷贝数缺失等。

狭义的染色体不平衡则指非整倍性。

在二倍体中，非整倍体变异有四种主要类型。

1.非整倍性缺体性

丢失一对同源染色体，即细胞的染色体数为2n-2。

2.非整倍性单体性

丢失单条染色体，即细胞的染色体数为2n-1。

3.非整倍性三体性

增加一条额外的染色体，即染色体组中有一条染色体具有三个拷贝。即细胞的染色体数为2n+1。

4.非整倍性四体性

增加一对额外的染色体，使染色体组中有一条染色体具有四个拷贝。即细胞的染色体数为2n+2。

染色体臂不平衡

与染色体不平衡类似，染色体臂上出现的数量的改变，染色体臂范围的拷贝数增加或丢失。

染色体或染色体臂的不平衡可通过基因剂量效应直接改变基因的表达水平，或调控其他基因的表达，因此，染色体或染色体臂的不平衡在肿瘤的发生发展有着重要的意义。通过研究ctDNA来反映染色体的平衡态可能对与肿瘤的定性具有一定的意义。

在现有技术中，通过无创DNA、染色体原位杂交(FISH)、微阵列、基因芯片、染色体核型等方式来获得染色体结构信息，分析染色体及染色体臂不平衡。

在本申请中，本发明人出人意料地发现，使用特定的决策树系统方法根据染色体不平衡状态CScore值和血清标志物CA-125值确定相应阈值和分割点，能够很好的对卵巢癌进行诊断、筛查或风险分级。具体而言，首先，将通过高通量测序技术获得的人类受试者的全基因组数据序列比对到人参考基因组Hg19，并按照50k/bin，平均分成多个bin；

根据下列公式，计算R值：

或

在进一步的具体实施方案中，基于R值，根据公式(2)计算第i号染色体的Z-score：

其中

是健康人群所对应的R值的平均数，

是健康人群所对应的R值的标准偏差；

并且，根据各染色体短臂上读长(reads)的平均数(cov_Chrip)和各染色体长臂上读长(reads)的平均数(cov_Chriq)；根据公式(3a)和(3b)也计算第i号染色体相应短臂p和长臂q的Z-score:

任选地，选择染色体和染色体臂Z-score的绝对值大于等于3的染色体，根据公式(4)，求最后整体的不平衡度量CScore值：

III.建立决策树模型

如前所述，决策树一般由一个决策图和可能的结果(包括资源成本和风险)组成，用来创建到达目标的规划。决策树建立并用来辅助决策，是一种特殊的树结构。决策树是一个利用像树一样的图形或决策模型的决策支持工具，包括随机事件结果，资源代价和实用性。它是一个算法显示的方法。决策树经常在运筹学中使用，特别是在决策分析中，它帮助确定一个能最可能达到目标的策略。

建立决策树模型的过程可以包括：

-构建整体样本数据集；

-拆分数据，构建训练集和测试集；

-分类树训练数据；

-确定决策树模型的最优参数；

使用决策树模型及相应最优参数对测试集数据进行检验，确定模型最优参数的效果如何。“模型的最优参数”意指模型分类效果最好的分割点和相应阈值。

在一些具体实施方案中，利用CScore和CA-125的水平训练并建立决策树模型，对卵巢癌风险进行预测。在一个具体实施方案中，包括如下步骤：

(1)构建整体样本数据集，收集CA-125的水平和CScore数据，其中约50％为卵巢癌样本，约50％为卵巢良性肿瘤样本，将数据按照CScore,CA-125和类型Type属性和样本号构建整体样本数据集；

(2)拆分数据，使用R中随机抽样函数“sample”对样本数据集进行随机分割，分别构建训练集和测试集，其中用约60％的样本构建训练集，约40％的样本构建测试集；

(3)分类树训练数据，使用R中party包的条件推断决策树ctree对训练集进行建模，条件为CScore和CA-125，标签为类型Type，ctree包轮流重复选取样本数据中条件属性的值作为分割点，阈值来分类，最后生成该模型最优参数，即使模型分类效果最好的分割点和相应阈值；

(4)使用训练好的模型对测试集数据进行预测分类，判断样本是否是卵巢癌。

IV.卵巢癌和卵巢良性肿瘤

卵巢癌

卵巢癌是妇科恶性肿瘤中死亡率最高的肿瘤。在西方国家中，卵巢癌是所有妇科癌症之中引起死亡的主导原因。这种高死亡率是由大多数患者在晚期进行诊断所致。由于卵巢癌发病隐匿、无特异性、并且进展迅速，70％的卵巢癌患者发现时已为中晚期，总体5年生存率仅约30％，而早期的卵巢癌患者5年生存期可达到90％。

卵巢癌包括卵巢浆液性癌、粘液性癌、透明细胞癌、子宫内膜样癌。卵巢高级别浆液性癌是卵巢浆液性癌中的一种类型，也最常见的卵巢癌类型，占上皮性卵巢癌的70％-80％。

卵巢癌的分期主要是跟瘤体大小，有无侵犯到别的器官，有无淋巴转移，有无远处转移。卵巢癌分期主要可分为以下四期，即第一期、第二期、第三期和第四期。

I期：病变局限于卵巢

a期：病变局限于一侧卵巢，包膜完整，表面无肿瘤，无腹水；

b期：病变局限于双侧卵巢，包膜完整，表面无肿瘤，无腹水；

c期：Ⅰa或Ⅰb期病变已穿出卵巢表面，或包膜破裂，或在腹水中或腹腔洗液中找到恶性细胞。

II期：病变累及一侧或双侧卵巢，伴盆腔转移

a期：病变扩展或转移至子宫或输卵管；

b期：病变扩展至其他盆腔组织；

c期：Ⅱa或Ⅱb期病变，肿瘤穿出卵巢表面；或包膜破裂；或在腹水或腹腔洗液中找到恶性细胞。

III期：病变累及一侧或双侧卵巢，伴盆腔以外种植或腹膜后淋巴结转移

a期：病变大体所见局限于盆腔，淋巴结阴性，但镜下腹腔腹膜面有种植瘤；

b期：腹腔腹膜种植瘤直径＜2cm，淋巴结阴性；

c期：腹腔腹膜种植瘤直径≥2cm，或伴有腹膜后或腹股沟淋巴结转移。

IV：远处转移

腹水存在时需找到恶性细胞；

肝转移(累及肝实质)。

卵巢良性肿瘤

卵巢是女性生殖器官好发肿瘤的器官，卵巢的良性肿瘤占女性生殖器良性肿瘤的1/4-1/3，可发生于任何年龄，但多见于生育年龄妇女。卵巢良性肿瘤与癌症不同，是妇科常见病的一种，确诊为卵巢良性肿瘤的不用担心，不恶化的情况下采用手术切除即可，不会发生转移与侵染其他组织，治愈率极高。处于生育期的年轻女性在没闭经且无家族病史的情况下若检出卵巢有小肿块，一般可能是生理性的卵巢良性肿瘤，有的甚至会自行消失或者吃药慢慢消失。但卵巢肿瘤的组织学类型也极为复杂，部分良性肿瘤可发生恶变，转化为卵巢癌或其他恶性度较高的肿瘤。卵巢良性肿瘤也可发生蒂扭转，引起患者突发下腹部剧烈疼痛，往往需要紧急手术治疗，手术不及时会导致肿瘤坏死、感染、破裂等严重并发症。

V.计算机可读介质

计算机可读介质，也称为计算机可读存储介质，是指可以被计算机读取、其中存储有指令或信息的媒介物。

在本发明的一些具体实施方案中，所述计算机可读介质存储有指令，其中当所述指令被处理器执行时，使得计算机执行以下操作。

第一步：记录受试者的CA-125水平并输入计算机中。

第二步：判断来自受试者(例如人)的样品的第1到第22号染色体中至少1条(例如，第1号至第22号染色体)是否存在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异是否高于或等于阈值，再如染色体长臂覆盖度与短臂覆盖度的差异是否高于或等于阈值)；

例如，将来自受试者的样品的第1到第22号染色体中至少1条的染色体结构信息(例如测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息)与来自健康个体的相应染色体的染色体结构信息进行比较，以确定来自所述个体的样品中上述染色体是否存在染色体不平衡。

在一个具体实施方案中，通过以下方式进行判断染色体不平衡：

将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人类参考基因组Hg19)，并例如按照10-1000k/bin(例如50k/bin)，平均分成多个段(例如bin)；

根据下列公式，计算第i号染色体的R值(

)：

或

其中q代表长臂，p代表短臂，Chr为染色体(chromosome)的缩写，i选自1到22号染色体。

在进一步的具体实施方案中，基于R值，根据公式(2)计算第i号染色体的Z-score(即，

)：

其中

是健康人群所对应的R值的平均数，

是健康人群所对应的R值的标准偏差；

此外，在进一步优化的实施方案中，也将各染色体臂的不平衡加入计算过程中，根据各染色体短臂上读长(reads)的平均数(cov_Chrip)和各染色体长臂上读长(reads)的平均数(cov_Chriq)；根据公式(3a)和(3b)计算第i号染色体相应短臂p的Z-score(

)和长臂q的Z-score(

):

其中

是健康人群所对应的第i号染色体短臂的读长的平均数，

是健康人群所对应的第i号染色体长臂的读长的平均数；

任选地，选择染色体或染色体臂Z-score的绝对值大于等于3的染色体，根据公式(4)，求最后整体的不平衡度量CScore值：

在进一步的具体实施方案中，其中所述样品来自受试者的外周血，优选外周静脉血。更具体地，所述样品为外周静脉血血浆中的游离DNA。

第三步：根据第一步和第二步的方法和结果，利用CScore和CA-125的水平训练并建立决策树模型，对卵巢癌风险进行预测。

(1)构建整体样本数据集，收集CA-125和CScore数据，其中约50％为卵巢癌样本，约50％为卵巢良性肿瘤样本，将数据按照CScore,CA-125和类型Type属性和样本号构建整体样本数据集。

(2)拆分数据，使用R中随机抽样函数“sample”对样本数据集进行随机分割，分别构建训练集和测试集，其中用约60％的样本构建训练集，约40％的样本构建测试集。

(3)分类树训练数据，使用R中party包的条件推断决策树ctree对训练集进行建模，条件为CScore和CA-125，标签为类型Type，ctree包轮流重复选取样本数据中条件属性的值作为分割点，阈值来分类，最后生成该模型最优参数，即使模型分类效果最好的分割点和相应阈值。

VI.试剂盒

用于进行本文所描述的方法的试剂、工具和/或说明书可以被提供于试剂盒中。例如，试剂盒可以包含用于确定癌症患者的适当疗法的试剂、工具以及说明书。这种试剂盒可以包括用于从患者收集组织(如血液)的试剂，和用于处理所述组织的试剂。所述试剂盒还可以包括用于测定的适当的缓冲液。还可以包括这些测定中的任一种所需的检测试剂。

本文所表征的试剂盒还可以包括一份说明书，它描述了如何进行这些测定。试剂盒中所包括的信息材料可以是涉及本文所描述的方法和/或用于本文所描述的方法的试剂的使用的描述性、指导性、销售或其它材料。例如，试剂盒的信息材料可以包含联系信息，例如物理地址、电子邮件地址、网站或电话号码，其中试剂盒的使用者可以获得关于进行基因表达分析和解释结果的大量信息。

VII.病理诊断和筛查标准

在病理诊断和筛查中，通常采用敏感性、特异性、漏诊率、误诊率和准确度作为诊断标准。

“敏感性”是指患者中得出阳性检测的样本占患者总数的百分比。在医学诊断中，敏感性可通过如下公式表示，反映正确判断患者的比率：

敏感性＝真阳性人数/(真阳性人数+假阴性人数)*100％。

“特异性”是指健康人中得出阴性检测的样本占健康人总数的百分比。在医学诊断中，特异性可通过如下公式表示，反映正确判断非患者的比率：

特异性＝真阴性人数/(真阴性人数+假阳性人数)*100％。

“漏诊率”又称假阴性率，是指在一个群体中进行某疾病的筛检或诊断时，实际有病的受试者，按诊断标准被定为非患者的百分率。在医学诊断中，漏诊率可通过如下公式表示：

漏诊率＝假阴性人数/(真阳性人数+假阴性人数)*100％。

“误诊率”又称假阳性率，是指在一个群体中进行某疾病的筛检或诊断时，实际没有病的受试者，按诊断标准被定为患者的百分率。在医学诊断中，误诊率可通过如下公式表示：

误诊率＝假阳性人数/(真阴性人数+假阳性人数)*100％。

简而言之，如果真阳性、假阳性、真阴性和假阴性分别以a、b、c、d来表示，则敏感性、特异性、漏诊率、误诊率和准确度的关系可以如下所示。

表2

采用本方法筛查结果为阳性的病例数中，真阳性(a)表示病理诊断为患病，同时本方法结果也为阳性的病例数；假阳性(b)表示病理诊断为无病，同时本方法结果也为阳性的病例数；假阴性(c)表示病理诊断为患病，本方法结果也为阴性的病例数；真阴性(d)表示病理诊断为无病，同时本方法结果也为阴性的病例数。

敏感性(sen)＝a/(a+c)；

特异性(sep)＝d/(b+d)；

漏诊率＝c/(a+c)；

误诊率＝b/(b+d)；

准确度＝(a+d)/(a+b+c+d)

如本领域技术人员所知晓，敏感性和特异性的值越高越好；漏诊率和误诊率值越低越好。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例

实施例1.收集血浆和血清

通过以下方式收集血浆和血清：

(2)在采集新鲜血液4小时之内，将其于4℃、1600g离心10分钟。

(3)离心后将上清液(血浆)分装到多个1.5ml离心管中。

(5)采集受试者外周血6ml(6ml*1)置于含有分离胶及促凝剂的真空采血管中，室温下静置30分钟获得血清，血清标本在+2℃至+8℃

可贮存24小时，在-70℃可长期保存。冷冻仅限一次。冷冻标本可在+2℃至+8℃过夜缓融。检测前将血清标本恢复到室温。

实施例2.测定血清的CA-125值

采用瑞典康乃格(Fujirebio)诊断试剂公司的EIA试剂盒(CanAg CA125EIA，40010)，按照说明书操作，具体操作步骤如下：

(1)按照产品说明书准备清洗液，容器使用前用蒸馏水冲洗3次，将50ml试剂盒所带的浓缩清洗液倒入洁净的容器中，加入1200ml蒸馏水或去离子水，25倍稀释后则为所需的清洗液。

(2)将微孔板条移至板条架上(剩余的未使用的板条放回塑料袋中并密封好)。在30分钟内用清洗液清洗一次微孔板条。

(3)按照以下表3所示的加样方案分别滴加25ul的CA-125标准品(CAL 0,10,40,200,500),CA-125质控品(C1,C2)及受试者血清标本(未知浓度－Unk)至微孔中。注：“...”表示更多的标本将依序递增。

表3

1

2

3

4

5

6

7...

A

Cal 0

Cal 500

第二Unk

B

Cal 0

Cal 500

第二Unk

C

Cal 10

C1

...

D

Cal 10

C1

E

Cal 40

C2

F

Cal 40

C2

G

Cal 200

第一Unk

H

Cal 200

第一Unk

(4)用100ul精密移液器吸取100ul生物素标记的抗CA-125抗体加入每一孔中。精密移液器的吸头要稍高于孔的底端，避免触及塑料微孔或液面。

(5)微孔板振荡器上室温(+20℃至+25℃)振荡反应2小时。

(6)温育后将孔内液体吸干，清洗6次。要确保每孔都完全注满清洗液，抽吸要彻底，抽吸后要使孔底干燥。如果孔中有残留液体，应将微孔板翻过来在吸水纸上轻轻地拍打。

(7)同步骤(4)，每孔中加入100ul示踪工作液。

(8)微孔板振荡器上室温(+20℃至+25℃)振荡反应1小时。

(9)温育后将孔内液体吸干，清洗6次。清洗方法同步骤(6)。

(10)同步骤(4)，每孔中加入100ulTMB HRP-底物液。加液速度越快越好，从第一孔到最后一孔的加液时间不要超过5分钟。

(11)微孔板振荡器上室温(+20℃至+25℃)闭光振荡反应30分钟。

(12)立刻在620nm的酶标仪上测定吸光度。

(13)根据CA-125标准品的浓度和吸光度建立标准曲线，标准曲线包括标准品0(0U/mL)，根据吸光度计算受试者血清标本CA-125浓度。

实施例3.提取血浆中的cfDNA

采用标准Qiagen游离DNA提取试剂盒(QIAGEN，QiaAmp DNA Blood Mini Kit，55114)，按照说明书操作，每4mL外周血提取1-50ng DNA。

具体操作步骤如下：

(1)取1管血浆冰上融解后，加入100mL的QIAGEN蛋白酶K。

(2)加入0.8mL Buffer ACL(事先加入1.0yg carrier RNA)盖上管盖，涡旋30s，直至管内液体呈均相。

(3)60℃孵育15

20分钟。

(4)加入1.8mL的Buffer ACB，涡旋混匀15

30s；冰置5分钟。

(5)将QIAamp微柱插入置于QIAvac 24Plus的Vac连接器内，将20mL管扩展器插入QIAamp微柱内。

(6)将第(4)步所得的裂解混合液小心加入QIAamp微柱的管扩展器内，打开真空泵，待所有裂解液均从管内完全渗下，关闭真空泵，释压至Ombar，小心取出管扩展器并弃去。

(7)向管内加入600yL Buffer ACW1，保持管盖打开，打开真空泵，让Buffer ACW1完全渗透过QIAamp微柱，关闭真空泵，释压至Omba。

(8)向QIAamp微柱内加入750mL Buffer ACW2；保持管盖打开，开启真空泵，让ACW2buffer完全渗过QIAamp微柱，关闭真空泵，释压至Ombars。

(9)加入750此乙醇(96-100％)至QIAamp微柱，保持管盖开启，打开真空泵使所有乙醇完全渗下，关闭真空泵，释压至Ombars。

(10)关闭管盖；将QIAamp微柱从真空歧管上取下，丢弃Vac连接器；将QIAamp微柱放置于新的2mL连接管上，全速离心(20,000x g；14,000rpm)3分钟。

(11)将QIAamp微柱放置于新的2mL收集管，打开管盖，56℃孵育10分钟。

(12)将QIAamp微柱放置于新的1.5mL洗脱管上，弃去上一步的收集管；小心向膜中间加入20

150μL的Buffer AVE。关上管盖，室温孵育3分钟。

(13)全速离心(20,000x g；14,000rpm)1分钟以洗脱核酸，收集得到血浆游离双链DNA。

实施例4.建立测序文库

(1)纯化用磁珠室温放置30分钟备用；

(3)样品放在磁力架上，室温静置5分钟，直到液体变清澈；

(8)吸干样品中的液体，在磁力架上晾干10分钟；

(11)吸出30μl液体至1.5mlL离心管中。

实施例5.高通量测序

使用Illumina X10测序仪，对于在实施例2中得到的经扩增的DNA片段文库，自该DNA片段文库的一端或两端开始进行测序，从测得的序列减去接头(Adapter)和样本标签(barcode)，并且去除噪音(如低质量区域)而得到样品DNA片段的序列，即有效读长(reads)。

实施例6.序列比对

(1)有效读长(reads)与标准人参考基因组的比对

使用BWA-MEM软件(http://bio-bwa.sourceforge.net)，将实施例3中得到的有效读长(reads)比对到标准人参考基因组，并将该比对结果以每段50kb的大小分别写入多个*.bin格式的文件中。

(2)对比对到标准人参考基因组的读长(reads)的个数的统计

从(1)中得到诸多*.bin文件中选取人i号染色体(Chri)的长臂和短臂所覆盖的多个*.bin文件，并计算所选取的*.bin文件中比对到标准人参考基因组上的有效读长(reads)的个数的平均数(cov_Chrip和cov_Chriq，其中q代表长臂，p代表短臂)。

实施例7.判断染色体或染色体臂不平衡的存在与否

使用计算模型如下计算染色体平衡态分值(染色体整体和染色体臂的Z-score和CScore)。

(1)将受试者的全基因组数据序列比对到人参考基因组，并按照50k/bin分成多个bin；

(2)分别计算染色体长臂和短臂覆盖到的bin的读长(reads)的平均数(cov)；

(3)根据公式(1)，通过长臂reads平均数除以短臂reads平均数，计算第i号染色体的R值(

)：

或

其中q代表长臂，p代表短臂，chr为染色体(chromosome)的缩写，i代表某条染色体；

(4)利用上一步骤得出的R值，计算第i号染色体的Z-score(

)：

其中μ为由健康人群计算得出的R的平均数，σ为由健康人群计算得出的标准差；

(5)利用公式(2)和公式(3a)、公式(3b)计算得出的Z-score的绝对值大于等于3的染色体，通过公式(4)，求CScore值：

实施例8.使用CScore和CA-125建立决策树模型，确定对卵巢癌风险进行预测的模型最优参数。

本实施例中模型建立过程如下：

(1)构建整体数据集，收集CA-125的水平和CScore数据，其中约50％为卵巢癌样本，约50％为卵巢良性肿瘤样本，将数据按照CScore、CA-125的水平、类型Type属性和样本号构建整体数据集。本实施例中共使用了120个样本(即，120名人类受试者)的CA-125的水平、CScore和分类数据，其中52个样本确诊为卵巢癌，68个样本确诊为卵巢良性肿瘤。

(2)拆分数据，使用R中随机抽样函数“sample”对样本数据集进行随机分割，分别构建训练集和测试集，其中用约60％的样本构建训练集，约40％的样本构建测试集。本实施例中随机选取了74个样本用来构建训练集(其中47个良性肿瘤样本，27个卵巢癌样本)，剩下的46个样本作为测试集(其中21个良性肿瘤样本，25个卵巢癌样本)。

(3)分类树训练数据，使用R中party包的条件推断决策树ctree对训练集进行建模，条件为CScore和CA-125，标签为类型Type，ctree包轮流重复选取样本数据中条件属性的值作为分割点，阈值来分类，最后生成该模型最优参数，即使模型分类效果最好的分割点和相应阈值。本实例中模型确定最优参数如下：

①选取CScore结果作为第一次分割自变量，阈值确定为5.18，CScore>5.18的情况下，判断受试者患有卵巢癌或者存在患卵巢癌的风险。

②如果受试者CScore≦5.18，但满足CA-125>103.1这一条件的时候，根据决策树模型的结果，判断受试者依然患有卵巢癌或者存在患卵巢癌的风险。

③当受试者CScore≦5.18并且CA-125≦103.1，认为受试者不是卵巢癌或者患卵巢癌风险较低。

(4)使用训练好的模型对测试集数据进行预测分类，判断样本是否是卵巢癌。结果见以下实施例8数据统计和诊断结果分析。

实施例9.数据统计和诊断结果分析

本研究纳入总计120个样本(即，120名人类受试者)进行建模与分析，其中58个为卵巢癌样本，64个为卵巢良性肿瘤样本。随机选取其中74个样本(约60％)用来构建训练集(41个良性肿瘤样本，33个卵巢癌样本)，剩下的46个样本(约40％)作为测试集(21个良性肿瘤样本，25个卵巢癌样本)。

对这些样本根据公式(1a)、(1b)、(2)、(3a)、(3b)及(4)计算CScore，然后和CA-125值一起构建决策树模型，其中训练集的CScore，CA-125值，实际分类，模型分类列示于下表4，测试集的CScore，CA-125值，实际分类，模型预测分类列示于下表5。“Benign”为卵巢良性肿瘤，“Malignant”为卵巢癌。

表4.训练集数据及模型分类结果

用如上训练集数据训练出的模型，第一分割点为CScore，分支阈值为5.18，当受试者CScore大于5.18时，预测该受试者患有卵巢癌或者存在患卵巢癌的高风险，当CScore小于等于5.18，构建第二分割点CA-125，其分支阈值为101.3，当CA-125大于103.1时，预测结果也为卵巢癌或者存在患卵巢癌的高风险，根据该模型，当CScore小于等于5.18且CA-125小于等于103.1时，判断为受试者未患有卵巢癌或患卵巢癌风险较低。病理证实，第1-41号(41位)受试者均为卵巢良性肿瘤，第42-74号(33位)受试者为卵巢癌患者。在本训练集中，通过本发明方法构建的模型对于卵巢癌筛查，模型最后分类结果的敏感性为81.82％(27/33)，特异性为87.8％(36/41)，准确性为85.14％(63/74)，漏检率为18.18％(6/33)，误诊率为12.2％(5/41)。

表5测试集数据及模型分类结果

结果表明：该决策树模型对测试集样本分类效果很好，病理证实，第75-95号(21位)受试者均为卵巢良性肿瘤，第96-120号(25位)受试者为卵巢癌患者。在测试集中，通过本发明方法构建的模型对于卵巢癌筛查，模型分类结果的敏感性为88％(22/25)，特异性为100％(21/21)，准确性为93.48％(43/46)，漏检率为12％(3/25)，误诊率为0％(0/21)。

以上结果表明，本发明的方法及训练出的模型，可以简便、高效地诊断和筛查卵巢癌，具备敏感性、特异性和准确性都非常高以及漏检率和误诊率低的优点，相对于现有技术取得了出人意料的技术效果。

尽管本发明的具体实施方式已经得到详细的描述，但本领域技术人员将理解：根据已经公开的所有教导，可以对细节进行各种修改和变动，并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

1.用于对卵巢癌进行筛查、诊断或风险分级的一组染色体，该组染色体包含第1到第22号染色体中的至少1条。

2.根据权利要求1所述的一组染色体，其由第1到第22号人类染色体组成。

3.一种计算机可读介质，其上存储有指令，其中当所述指令被处理器执行时，使得计算机执行以下操作：

4.根据权利要求3所述的计算机可读介质，其中通过以下方式计算CScore值：

根据下列公式，计算第i号染色体的R值

或

基于R值，根据公式(2)计算第i号染色体的Z-score(Z_Chri)：

其中

是健康人群所对应的R值的平均数，

是健康人群所对应的R值的标准偏差；

或者，根据公式(3a)和(3b)计算第i号染色体相应长臂q的

和短臂p的

其中

是健康人群所对应的第i号染色体长臂的读长的平均数，

是健康人群所对应的第i号染色体短臂的读长的平均数；

5.根据权利要求3或4所述的计算机可读介质，其中利用CScore和CA-125的水平建立决策树模型，对卵巢癌风险进行预测。

6.根据权利要求3或4所述的计算机可读介质，其中通过R语言建立决策树模型。

7.根据权利要求6所述的计算机可读介质，其中以下步骤建立决策树模型：

(3)分类树训练数据；

(4)确定决策树模型的最优参数；

8.根据权利要求7所述的计算机可读介质，其中通过以下方式构建整体样本数据集：选取样本，将各样本按照CScore、CA-125的水平、类型Type属性和样本号构建整体样本数据集。

9.根据权利要求7所述的计算机可读介质，其中通过以下方式进行分类树训练数据并确定决策树模型的最优参数：使用R中party包的条件推断决策树ctree对训练集进行建模，条件为CScore和CA-125，标签为类型Type，ctree包轮流重复选取样本数据中条件属性的值作为分割点、阈值来分类，最后生成该模型的最优参数。

10.根据权利要求9所述的计算机可读介质，其中所述模型确定最优分割点和相应的阈值如下：

11.根据权利要求3-10中任一项所述的计算机可读介质，其中所述样品为外周血，优选外周静脉血，更优选外周静脉血中的游离DNA。

12.一种计算设备，其包含：

根据权利要求3-10中任一项所述的计算机可读介质和处理器。

13.一种系统，其包含：

测序装置，其用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息(例如，通过高通量测序技术获得的全基因组数据序列)；以及根据权利要求12所述的计算设备。

14.根据权利要求13所述的系统，其中所述测序装置为高通量测序仪。

15.测定第1号到第22号染色体的CScore与CA-125水平的试剂在制备对卵巢癌进行筛查、诊断或风险分级的诊断剂中的用途。

16.测定第1号到第22号染色体的CScore与CA-125水平的装置在制备对卵巢癌进行筛查、诊断或风险分级的设备中的用途。