CN113999908A

CN113999908A - 一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法

Info

Publication number: CN113999908A
Application number: CN202111305628.9A
Authority: CN
Inventors: 钟敏儿; 王伟; 高峰; 吴小剑; 黄泽平; 王珣; 蔡都; 李承行
Original assignee: Sixth Affiliated Hospital of Sun Yat Sen University
Current assignee: Sixth Affiliated Hospital of Sun Yat Sen University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-01

Abstract

本发明公开了一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法，涉及疾病治疗技术领域，本发明提供了一组可以稳定预测结直肠癌预后的特征基因，至少包括MEIS3和KLF17，且不需要使用标准化技术平台统一测量，可以兼容任何类型的测量平台来预测结直肠癌预后，为结直肠癌的预后风险提供了一种快速有效的预测手段。

Description

一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法

技术领域

本发明涉及疾病治疗技术领域，具体而言，涉及一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法。

背景技术

结直肠癌(Colorectal cancer,CRC)是世界上第三大常见恶性肿瘤，是癌症相关死亡的第二大原因。2018年估计有180万新发CRC病例和近881000例因该病死亡。虽然手术技术和围手术期化疗方案已大大改善，但CRC患者的预后仍然不理想。手术治疗作为一线方案，但是按照传统临床特征定义为同一类型的病人，治疗后的预后效果也有很大区别。近年来研究认为这主要是由癌症病人的分子异质性导致。

基因分子标志物，是指基于一组基因的表达，通过机器学习建立数学模型，用于预测临床上的具体目标。近年来基因表达检测手段已经相当成熟，包括高通量的RNA测序技术、微阵列技术(Microarray)，以及相对低通量的实时定量聚合酶链式反应(RT-qPCR)和NanoString技术等。但是如何找到一组用于结直肠癌预后预测的基因组合，以及优化的数学模型用于预测，并能达到良好效果，已知的研究较少。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法。

本发明是这样实现的：

第一方面，本发明实施例提供了检测目标基因表达水平的试剂在制备用于预测结直肠癌预后风险的试剂盒中的应用，所述目标基因包括：MEIS3和KLF17中的至少一种。

第二方面，本发明实施例提供了一种用于预测结直肠癌预后风险的试剂盒，其包括检测目标基因表达水平的试剂，所述目标基因为如前述实施例所述的应用中的目标基因。

第三方面，本发明实施例提供了一种结直肠癌预后风险预测模型的训练方法，其包括：获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如前述实施例所述的应用中的目标基因；将训练样本目标基因表达水平的检测结果输入预先构建好的预测模型中，获取样本的预测结果；其中，所述预测模型用于根据样本所述目标基因的表达水平，判断样本的预后风险；基于所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

第四方面，本发明实施例提供了一种结直肠癌预后风险预测模型的训练装置，其包括获取模块、处理模块和参数更新模块。获取模块用于获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如前述实施例所述的应用中的目标基因；处理模块用于将训练样本目标基因表达水平的检测结果输入预先构建好的预测模型中，获取样本的预测结果；其中，所述预测模型用于根据样本所述目标基因的表达水平，判断样本的预后风险；参数更新模块用于根据所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

第五方面，本发明实施例提供了一种结直肠癌预后风险预测模型的预测装置，其包括获取模块和预测模块。获取模块，用于获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如前述实施例所述的应用中的目标基因；预测模块，用于将所述检测结果输入由前述实施例所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

第六方面，本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器；所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如前述实施例所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如前述实施例所述的应用中的目标基因；将所述检测结果输入由前述实施例所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

第七方面，本发明实施例提供了一种计算机可读介质，所述计算机可读介质中存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施例所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如前述实施例所述的应用中的目标基因；将所述检测结果输入由前述实施例所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

本发明具有以下有益效果：

本发明提供了一组可以稳定预测结直肠癌预后的特征基因，至少包括MEIS3和KLF17，且不需要使用标准化技术平台统一测量，可以兼容任何类型的测量平台来预测结直肠癌预后。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1中A为实施例1中预测模型(TF-9)的计算公式，B为预测模型的诊断效能；

图2为实施例2中TF-9模型可作为结直肠癌的独立预后因素；其中，A为TF-9标志物和所有9个候选转录因子(TF)基因在TCGA队列中的预后价值；B为在ICGC-ARGO队列中，TF-9标志物和所有9个候选TF基因对预后的预测价值；

图3为实施例3中TF-9对结直肠癌预后的预测价值；A为Kaplan-Meier生存分析结果；B-C为在两个独立的验证队列和(D)合并队列中，高危人群的总体生存预后；E-H为训练队列、两个26个独立的验证队列和合并的验证队列显示的高危人群的无复发存活率的预后；

图4为实施例4中根据临床特征分层检测TF-9对结直肠癌的预后价值；A是按照性别，B是按照分期，C是按照T期，D是按照N期，E是按照MSI状态，F是按照原发肿瘤位置(右侧对左侧)分层。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

转录因子(TF)，被证明是癌症发生和发展的决定因素之一。转录因子的功能是激活或抑制特定基因的转录，是基因在特定时间是否发挥功能的关键决定因素。挖掘转录因子特征基因用于预测肿瘤病人预后有充分理论支持。但是使用转录因子特征基因预测结直肠癌预后并未有大规模研究。

现有技术的主要缺点，是没有有效结合转录因子特征基因在结直肠癌上的作用，且没有进行大规模临床实践验证。更重要的是，忽略了转录因子在癌症发生发展的作用，而且已有的基因特征组合在使用时有诸多问题，例如，很多产品要求必须使用一整套试剂盒，在完全标准的前提下对病人重新测量才能进行预测，对其他测量手段没有兼容性。对此，本发明基于CMS4亚型，结合转录因子相关基因，找到了一组可以稳定预测结直肠癌预后的特征基因对，并经过大样本验证。不需要使用标准化技术平台统一测量，可以兼容任何类型的测量平台来预测结直肠癌预后。

具体地，本发明实施例提供了检测目标基因表达水平的试剂在制备用于预测结直肠癌预后风险的试剂盒中的应用，所述目标基因包括：MEIS3和KLF17中的至少一种。

本发明首次提供MEIS3和KLF17也是可以用于预测结直肠癌的转录因子之一，通过对MEIS3和KLF17的表达水平进行检测，能够达到预测结直肠癌预后的技术效果。

在优选的实施方式中，所述目标基因还包括：SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2中的至少一种；

在优选的实施方式中，所述目标基因还包括SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2中的至少五种；

在优选的实施方式中，所述目标基因还包括SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2。通过对这9种细胞因子的表达水平进行检测，能够更加有效且准确的对结直肠癌的预后风险进行评估。

本发明实施例还提供了一种用于预测结直肠癌预后风险的试剂盒，其包括检测目标基因表达水平的试剂，所述目标基因为如前述任意实施例所述的应用中的目标基因。

本发明实施例还提供了一种结直肠癌预后风险预测模型的训练方法，其包括：

获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如前述任意实施例所述的应用中的目标基因；

将训练样本目标基因表达水平的检测结果输入预先构建好的预测模型中，获取样本的预测结果；其中，所述预测模型用于根据样本所述目标基因的表达水平，判断样本的预后风险；

基于所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

在可选的实施例中，标注结果包括训练样本的预后风险或能代表训练样本预后风险的代号。预测结果可以为指代预后风险的风险分数或预后风险的高/低。

本发明实施例还提供了一种结直肠癌预后风险预测模型的训练装置，其包括获取模块、处理模块和参数更新模块。

获取模块，用于获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如前述实施例所述的应用中的目标基因；

处理模块，用于将训练样本目标基因表达水平的检测结果输入预先构建好的预测模型中，获取样本的预测结果；其中，所述预测模型用于根据样本所述目标基因的表达水平，判断样本的预后风险；

参数更新模块，用于根据所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

本发明实施例还提供了一种结直肠癌预后风险预测模型的预测装置，其包括获取模块和预测模块。

获取模块，用于获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如前述任意实施例所述的应用中的目标基因；

预测模块，用于将所述检测结果输入由前述任意实施例所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

在优选的实施例中，所述预测模块通过将所述预测结果代入式1中，获得所述待测样本的风险分数，式1如下：

风险分数＝(Coef_MEIS3×MEIS3)+(Coef_SNAI1×SNAI1)+(Coef_KLF17×KLF17)+(Coef_BARX1×BARX1)+(Coef_ZNF532×ZNF532)+(Coef_HEYL×HEYL)+(Coef_FOXL2×FOXL2)+(Coef_LHX6×LHX6)+(Coef_MEIS2×MEIS2)；

其中，MEIS3为MEIS3基因对应的表达值，Coef_MEIS3为MEIS3的计算参数，SNAI1为SNAI1基因对应的表达值，Coef_SNAI1为SNAI1的计算参数，KLF17为KLF17基因对应的表达值，Coef_KLF17为KLF17的计算参数，BARX1为BARX1基因对应的表达值，Coef_BARX1为BARX1的计算参数，ZNF532为ZNF532基因对应的表达值，Coef_ZNF532为ZNF532的计算参数，HEYL为HEYL基因对应的表达值，Coef_HEYL为HEYL的计算参数，FOXL2为FOXL2基因对应的表达值，Coef_FOXL2为FOXL2的计算参数，LHX6为LHX6基因对应的表达值，Coef_LHX6为LHX6的计算参数，MEIS2为MEIS2基因对应的表达值，Coef_MEIS2为MEIS2的计算参数。

在优选的实施例中，所述Coef_MEIS3为-0.14～-0.16，更有选为-0.1582；所述Coef_SNAI1为0.12～0.14，更优选为0.131；所述Coef_KLF17为0.01～0.03，更优选为0.0253；所述Coef_BARX1为0.07～0.09，更优选为0.0841；所述Coef_ZNF532为-0.02～-0.04，更优选为0.031；所述Coef_HEYL为0.2～0.4，更优选为0.3504；所述Coef_FOXL2为0.07～0.09，更优选为0.0872；所述Coef_LHX6为-0.01～-0.03，更优选为0.0267；所述Coef_MEIS2为0.06～0.08，更有选为0.0789。

本发明实施例还提供了一种电子设备，所述电子设备包括处理器和存储器；所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如前述任意实施例所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：

获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如前述任意实施例所述的应用中的目标基因；

将所述检测结果输入由前述任意实施例所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在实际应用中，该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、虚拟现实设备等设备，因此本申请实施例对电子设备的种类不做限制。

此外，本发明实施例还提供了一种计算机可读介质，所述计算机可读介质中存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意实施例所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：

计算机可读介质可以包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种预测结直肠癌预后风险的预测方法，其包括以下步骤。

(1)将TCGA数据集(TCGA-Coad和TCGA-Read，n＝621)[8]设置为训练队列。TCGAbiolinks软件包下载TCGA FPKM归一化数据和相应的临床信息，包括CMS亚型信息。从文献证据中提取了1,589个转录因子(TF)特征基因。采用单变量COX法筛选与总生存期相关的TF基因。对所有数据集测定的TF基因进行筛选，生存分析发现116个TF基因与结直肠癌的预后相关。

(2)构建用于结直肠癌预后预测的转录因子相关基因：根据病人的预后信息，整合CMS4亚型下差异表达的分子模式和TF基因，再通过调控网络推理研究了TF相关基因与潜在靶基因之间的关系，主调节分析(MRA)找到9个与预后相关的转录因子特征基因(目标基因)：MEIS3，SNAI1，KLF17，BARX1，ZNF532，HEYL，FOXL2，LHX6和MEIS2。主调控分析结果如表1所示。

表1各基因主调控分析的结果

(3)预后风险预测模型的构建：使用前述9个转录因子特征基因对(TF-9)，建立预测模型(TF-9)。

所述预测模型用于根据目标基因的表达水平，判断样本的预后的风险分数，具体包括以下步骤：获取训练样本目标基因表达水平的检测结果以及对应的标注结果，训练样本量为621例；将训练样本目标基因表达水平的检测结果输入预先构建好的预测模型中，获取样本的预测结果；所述预测模型通过式1计算样本的风险分数，式1(图1中A)为如下：

风险分数＝(Coef_MEIS3×MEIS3)+(Coef_SNAI1×SNAI1)+(Coef_KLF17×KLF17)+(Coef_BARX1×BARX1)+(Coef_ZNF532×ZNF532)+(Coef_HEYL×HEYL)+(Coef_FOXL2×FOXL2)+(Coef_LHX6×LHX6)+(Coef_MEIS2×MEIS2)；其中，MEIS3为MEIS3基因对应的表达值，Coef_MEIS3为MEIS3的计算参数，依此类推。

基于所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。更新后，所述Coef_MEIS3为-0.1582，所述Coef_SNAI1为0.131，所述Coef_KLF17为0.0253，所述Coef_BARX1为0.0841，所述Coef_ZNF532为-0.031，所述Coef_HEYL为0.3504，所述Coef_FOXL2为0.0872，所述Coef_LHX6为-0.0267，所述Coef_MEIS2为0.0789。

并通过大规模样本验证(2个独立数据集，GSE39582 n＝565；ICGC-ARGO n＝351)，验证时，将待测样本所述目标基因表达水平的检测结果输入训练好的预测模型中，获取样本的预测结果。

结果证明确实可以显著预测病人预后。利用ROC曲线来检验TF-9作为CMS4生物标志物的性能，参照附图1中B：训练组中TCGA AUC＝0.83；验证组中GSE39582 AUC＝0.86，ICGC-ARGO AUC＝0.89。

实施例2

验证TF-9和9个目标基因可以作为结直肠癌的独立预后因素。

实验过程：采用实施例1提供的预测方法对916例样本进行预测。

结果如图2所示。由图2中A可知，TF-9标志物和所有9个候选转录因子(TF)基因在TCGA队列中均有预后价值，但TF-9的HR更显著(HR＝2.7，95％CI：1.8～4.0，P<0.001)。由图2中B可知，在ICGC-ARGO队列中，TF-9标志物和所有9个候选TF基因均对预后有预测价值，但TF-9的HR更显著(HR＝6.995％CI：3.813.0，P<0.001)。

实施例3

验证TF-9对结直肠癌预后的预测价值。

实验过程：采用实施例1提供的预测方法对1537例样本进行预测。

由图3中A的Kaplan-Meier生存分析显示，在训练队列(TCGA)中，高风险组的总体生存率比低风险组差。

由图3中B-C所示，在两个独立的验证队列和(D)合并队列中，高危人群的总体生存预后也非常差。

由图3中E-H所示，训练队列、两个26个独立的验证队列和合并的验证队列显示，高危人群的无复发存活率的预后非常差。

实施例4

本实施例进行单变量及多变量分析，证明使用实施例1的预测模型计算的TF-9风险分数(Risk score)能够独立预测结直肠癌病人预后风险。

单因素及多因素分析结果见表2。

表2单因素及多因素分析结果

由表2可知，结果表明转录因子相关基因模型(TF-9)对预测预后具有显著差异。

根据临床特征分层检测TF-9对结直肠癌的预后价值，结果见图4。结果可知，即使按照(图4中A)性别、(图4中B)分期(I和II对III和IV)、(图4中C)T期(T1和T2对T3和T4)、(图4中D)N分期(N0对N1和N2)、(图4中E)MSI状态(MSI对MSS)和(图4中F)原发肿瘤位置(右侧对左侧)分层，TF-9仍然可以将患者分成具有显著预后价值的低风险和高风险组。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.检测目标基因表达水平的试剂在制备用于预测结直肠癌预后风险的试剂盒中的应用，其特征在于，所述目标基因包括：MEIS3和KLF17中的至少一种。

2.根据权利要求1所述的检测目标基因表达水平的试剂在制备用于预测结直肠癌预后风险的试剂盒中的应用，其特征在于，所述目标基因还包括：SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2中的至少一种；

优选地，所述目标基因还包括SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2中的至少五种；

优选地，所述目标基因还包括SNAI1、BARX1、ZNF532、HEYL、FOXL2、LHX6和MEIS2。

3.一种用于预测结直肠癌预后风险的试剂盒，其特征在于，其包括检测目标基因表达水平的试剂，所述目标基因为如权利要求1或2所述的应用中的目标基因。

4.一种结直肠癌预后风险预测模型的训练方法，其特征在于，其包括：

获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如权利要求1或2所述的应用中的目标基因；

5.一种结直肠癌预后风险预测模型的训练装置，其特征在于，其包括：

获取模块，用于获取训练样本目标基因表达水平的检测结果以及对应的标注结果；所述目标基因为如权利要求1或2所述的应用中的目标基因；

6.一种结直肠癌预后风险预测模型的预测装置，其特征在于，其包括：

获取模块，用于获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如权利要求1或2所述的应用中的目标基因；

预测模块，用于将所述检测结果输入由权利要求4所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

7.根据权利要求6所述的结直肠癌预后风险预测模型的预测装置，其特征在于，所述预测模块通过将所述预测结果代入式1中，获得所述待测样本的风险分数，式1如下：

8.根据权利要求7所述的结直肠癌预后风险预测模型的预测装置，其特征在于，所述Coef_MEIS3为-0.14～-0.16，所述Coef_SNAI1为0.12～0.14，所述Coef_KLF17为0.01～0.03，所述Coef_BARX1为0.07～0.09，所述Coef_ZNF532为-0.02～-0.04，所述Coef_HEYL为0.2～0.4，所述Coef_FOXL2为0.07～0.09，所述Coef_LHX6为-0.01～-0.03，所述Coef_MEIS2为0.06～0.08。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如权利要求4所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：

获取待测样本所述目标基因表达水平的检测结果，所述目标基因为如权利要求1或2所述的应用中的目标基因；

将所述检测结果输入由权利要求4所述的结直肠癌预后风险预测模型的训练方法训练好的预测模型中，获取样本的预测结果。

10.一种计算机可读介质，所述计算机可读介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求4所述的结直肠癌预后风险预测模型的训练方法，或结直肠癌预后风险的预测方法：