CN113113150A

CN113113150A - 淋巴结转移预测模型构建与训练方法、装置、设备和介质

Info

Publication number: CN113113150A
Application number: CN202110406089.1A
Authority: CN
Inventors: 陈万涛; 张瑱; 邹欣; 曹巍
Original assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-13

Abstract

本申请提供的一种淋巴结转移预测模型构建与训练方法、装置、设备和介质，本申请通分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；根据留一交叉验证法将样本测序数据分为训练集与测试集；判断是否发生淋巴结转移以计算二值化的转移值，并进行去均值的归一化处理，进行偏最小二乘回归模型和逻辑回归模型的建立，将测试集score值作为预测结果，得到测试集的逻辑回归预测值；循环M次以完成淋巴结转移预测模型的训练。本申请通过将标记物的表达矩阵带入机器学习模型，可实现对淋巴结转移的判断，利用转录组和miRNA两个层面数据，可将AUC提高到了90％以上，极大提高了诊断效率。

Description

淋巴结转移预测模型构建与训练方法、装置、设备和介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种淋巴结转移预测模型构建与训练方法、装置、设备和介质。

背景技术

口腔鳞癌是口腔颌面部最为常见的恶性肿瘤之一，晚期口腔鳞癌5年生存率差，其中淋巴结转移是口腔鳞癌患者生存预测的独立预测指标。提高口腔鳞癌患者淋巴结转移预测水平，有利于指导治疗手段的制定，是临床上提高口腔鳞癌患者生存率的主要方式之一。目前淋巴结转移预测仍然依赖于影像学和临床专科检测，由于医师专业水平存在地域及培训教育水平的差异，临床上淋巴结转移预测准确性和特异性都不高。

随着精准医学的发展，分子分型主导的诊断技术越来越受到重视。基于转录组高通量测序技术和机器学习(Machine Learning)技术对分子标志物进行筛选并建立诊断模型，保证了判断的敏感性和特异性，从而实现口腔癌淋巴结转移的高效诊断。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种淋巴结转移预测模型构建与训练方法、装置、设备和介质，以解决现有技术中的问题。

为实现上述目的及其他相关目的，本申请提供一种淋巴结转移预测模型构建与训练方法，所述方法包括：S1、分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；S2、根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；S3、对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；S4、利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；S5、利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；S6、返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

于本申请的一实施例中，在筛选出标记物后，且在划分测序集之前，从全部转录组样本测序数据与全部miRNA样本测序数据中选取二者基于同一样本数据进行测序的转录组样本测序数据miRNA样本测序数据。

于本申请的一实施例中，建立偏最小二乘回归模型后，分别提取对应转录组水平的组分数量或特征数，以及对应miRNA水平的组分数量或特征数。

于本申请的一实施例中，所述判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵，包括：依据临床信息判断样本测序数据是否发生淋巴结转移；定义发生淋巴结转移为1，不发生淋巴结转移为0，以此计算表征样本测序数据是否发生淋巴结转移的二值化的第一转移值矩阵。

于本申请的一实施例中，所述对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵，包括：计算训练集中每个标记物的表达量的表达量平均值，将训练集中每个标记物的表达量减去表达量平均值以得到归一化处理后的训练集表达量矩阵；将测试集中标记物的表达量减去表达量平均值以得到归一化处理后的测试集表达量矩阵；计算第一转移值矩阵中全部转移值的转移平均值，将第一转移值矩阵中各转移值减去转移平均值以得到归一化处理后的第二转移值矩阵。

于本申请的一实施例中，所述loading值用于描述区分转移不转移的贡献大小。

于本申请的一实施例中，所述方法还包括：计算各逻辑回归预测值与转录组/miRNA样本测序数据对应临床信息中的真实值的AUC值，以供对淋巴结转移预测模型的训练结果进行验证。

为实现上述目的及其他相关目的，本申请提供一种淋巴结转移预测模型构建与训练装置，所述装置包括：获取模块，用于分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；处理模块，用于根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

为实现上述目的及其他相关目的，本申请提供一种计算机设备，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法。

为实现上述目的及其他相关目的，本申请提供一种计算机可读存储介质，存储有计算机指令，所述计算机指令被运行时执行如上所述的方法。

综上所述，本申请的一种淋巴结转移预测模型构建与训练方法、装置、设备和介质，具有以下有益效果：

本申请通过将标记物的表达矩阵带入机器学习模型，可实现对淋巴结转移的判断。目前文献所报道的基于RNA表达量的口腔癌淋巴结转移模型，其AUC仅为75％左右，而本申请的模型利用转录组和miRNA两个层面数据，可将AUC提高到了90％以上，极大提高了诊断效率。

附图说明

图1显示为本申请于一实施例中的淋巴结转移预测模型构建与训练方法的流程示意图。

图2显示为本申请于一实施例中的样本测序数据的筛选标记物的结果示意图。

图3-4显示为本申请于一实施例中的曲线下面积AUC值的曲线示意图。

图5显示为本申请于一实施例中的淋巴结转移预测模型构建与训练装置的模块示意图。

图6显示为本申请于一实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，但其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本申请范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

需要说明的是，本申请所述的淋巴结转移预测模型构建与训练方法，其基于表达谱的淋巴结转移预测模型并非仅限于口腔鳞癌，其还可适用于任何肿瘤。

如图1所示，展示为本申请一实施例中的淋巴结转移预测模型构建与训练方法的流程示意图。如图所示，所述方法包括：

S1、分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物。

转录(Transcription)是遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的一条链(模板链用于转录，编码链不用于转录)为模板，以A,U,C,G四种核糖核苷酸为原料，在RNA聚合酶催化下合成RNA的过程。作为蛋白质生物合成的第一步，进行转录时，一个基因会被读取并被复制为mRNA，即特定的DNA片断作为遗传信息模板，以依赖DNA的RNA聚合酶作为催化剂，通过碱基互补的原则合成前体mRNA。

转录组是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA；也称为剪切体。一条基因通过内含子的不同剪接可构成不同的转录组。设计转录组实验可以研究内含子剪切机制、表观遗传、RNA编辑等，通常是考察一条基因对应的不同转录组的调节机制等。

于本实施例中，可以从医院或科研机构中已有或获取的临床样本数据进行转录组和miRNA测序，也可以直接获取医院或科研机构中已测序或得到的转录组样本测序数据与miRNA样本测序数据。基于上述不同的数据来源情况，因此，获取的转录组样本测序数据与miRNA样本测序数据的数量不要求一定相同，而且筛选标记物时也不要求二者数量一定相同，筛选出的m个转录组标记物或n个miRNA标记物也不要求一定相同，这里不做限制。这样可以使优先的样本数据充分被利用。

简单来说，本申请一方面基于转录组样本测序数据来构建模型，另一方面还基于对同样临床样本数据的miRNA测序数据构建模型，以此使构建的模型更科学、合理、准确。

然后，为了便于后续处理的对比，以及验证处理结果，本申请在进行后续进行S2-S6步骤时，需要采用基于同一样本数据进行测序的的转录组样本测序数据miRNA样本测序数据。

具体地，当二者数量不相同时，可以先对每个样本测序数据筛选标记物，然后从全部转录组样本测序数据与全部miRNA样本测序数据中选取二者基于同一样本数据进行测序的，以筛选出数量相同的转录组样本测序数据和miRNA样本测序数据来进行S2-S6步骤的运算。

需要强调的是，后续步骤S2-S6中提到的转录组/miRNA样本测序数据，可以是以转录组样本测序数据为基础进行的，也可以是以miRNA样本测序数据样为基础进行的，提到的标记物则对应的可以是转录组标记物或者是miRNA标记物。

另外，所述的样本测序数据对应有临床信息，该临床信息记载有淋巴结是否发生转移的信息。

于本实施例中，依据相关性分析，从多个转录组样本测序数据中筛选出m个标记物，从多个miRNA样本测序数据中筛选出n个miRNA标记物。

S2、根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集x’，剩余的转录组/miRNA样本测序数据为训练集x，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵y。

简单来说，本申请中模型的构建采用机器学习的方法，采用留一交叉验证法进行模型训练，假设选取了M例转录组/miRNA样本测序数据，则选取M-1例样本的数据作为训练组，剩余1例样本作为测试组，使用M-1例样本训练出的模型预测剩余1例样本的期望值。

所述留一交叉验证法就是留一法(Leave-One-Out，简称LOO)，就是把一个大的数据集分为k个小数据集，其中k-1个作为训练集，剩下的一个作为测试集，然后选择下一个作为测试集，剩下的k-1个作为训练集，以此类推。最终的结果是这k次验证的均值。其中k等于数据集中数据的个数，每次只使用一个作为测试集，剩下的全部作为训练集，这种方法得出的结果与训练整个测试集的期望值最为接近。

于本申请一实施例中，判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵，包括：

A、依据临床信息判断样本测序数据是否发生淋巴结转移；

B、定义发生淋巴结转移为1，不发生淋巴结转移为0，以此计算表征样本测序数据是否发生淋巴结转移的二值化的第一转移值矩阵。

S3、对训练集中每个标记物的表达量x以及第一转移值矩阵y中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵X、测试集表达量矩阵X’、及第二转移值矩阵Y。

于一或多个可实现的实施例中，可通过R语言apply函数实现去均值的归一化处理。而进行归一化处理的目的是突出差异。

本申请步骤S3具体包括：

A、计算训练集M-1个样本测序数据的每个标记物表达量的表达量平均值μ，将训练集M-1个样本测序数据中每个标记物表达量x减去表达量平均值μ以得到归一化处理后的训练集表达量矩阵X；

B、将测试集1个样本测序数据中的标记物表达量x’减去表达量平均值μ以得到归一化处理后的测试集表达量矩阵X’；

C、计算第一转移值矩阵y中转移平均值z，将第一转移值矩阵中每个转移值减去转移平均值z以得到归一化处理后的第二转移值矩阵Y。

S4、利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值。

具体地，训练集的score值为X×loadings，测试集的score值为X’×loadings，其中所述loading值用于描述区分转移不转移的贡献大小。

通常诸如基因组学、转录组学、蛋白组学及代谢组学等高通量数据分析，由于自变量数目大于病例数(未知数大于方程个数)，无法直接使用传统的统计分析模型。比如，线性回归的窘境：如果样例数m相比特征数n少(m<n)或者特征间线性相关时，由于X^TX(n*n矩阵)的秩小于特征个数(即X^TX不可逆)。因此最小二乘法就会失效。遇到这种情况，需要先降维处理，有监督的降维方法，除了常用的LASSO，还有一种叫PLS(偏最小二乘法Partial LeastSquares)，或称偏最小二乘法回归。

需要说明的是，目前针对基于表达谱的淋巴结转移预测或预后预测模型普遍采用单因素cox结合lasso回归的方法，这种方法的不足之处是，由于个体差异的存在，需要差异非常显著的标记物来进行分析，而很多具有诊断价值的标记物因为受到了个体差异噪声的干扰被忽略了。因此，其得到的AUC值不够高，仅为75％左右。

而本申请使用偏最小二乘法进行特征提取，实际上放大了这些标记物的信号，减少了背景噪声的干扰，从而提高了诊断效率。同时因为在循环的最后一步使用了逻辑回归，可以把具有不同维度特点的数据归于同一维度，方便了数据的整合，进一步增加了诊断的效率。

另外，与传统多元线性回归模型相比，偏最小二乘回归还具有以下特点：

(1)能够在自变量存在严重多重相关性的条件下进行回归建模；

(2)允许在样本点个数少于变量个数的条件下进行回归建模；

(3)偏最小二乘回归在最终模型中将包含原有的所有自变量；

(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声)；

(5)在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

于本申请一实施例中，建立偏最小二乘回归模型后，可通过R语言的plsr函数，或者matlab和python等语言，本申请并不局限于提到的实现方式，分别提取对应转录组水平的组分数量或特征数，以及对应miRNA水平的组分数量或特征数。

S5、利用训练集score值和第一转移值矩阵Y进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值。

与本实施例汇总，使用训练集X×loadings和Y进行逻辑回归建立模型，这里可以通过如R语言glm函数实现，使用X’×loading作为测试集预测结果，这里可以通过如R语言predict函数实现，最终得到测试集的逻辑回归预测值。

S6、返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

于本申请一实施例中，首先返回返回步骤S2重新选取样本测序数据作为新的测试集，然后再按步骤S2-S5得到新的逻辑回归预测值，然后依次循环直至得到得到M个逻辑回归预测值，以完成淋巴结转移预测模型的训练。

本申请所述方法还包括：计算各逻辑回归预测值与样本测序数据对应的临床信息中的真实值的AUC值，以供对淋巴结转移预测模型的训练结果进行验证。

举例来说，将上述三层机器学习流程使用for函数套成一个循环，即进行100次运算得到100个最终逻辑回归预测值，可使用pROC函数计算预测值和真实值的AUC值。单须知的是，计算ACU的方法并不局限于使用pROC函数。

所述AUC值为曲线下面积(Area Under Curve)，是一种分类问题评估指标。曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。例如，AUC的一般判断标准为：0.5–0.7：效果较低；0.7–0.85：效果一般；0.85–0.95：效果很好；0.95–1：效果非常好，但一般不太可能。

需要说明的是，本申请首先在步骤S3的归一化处理利用了步骤S2中依据留一交叉验证法划分的测试集和训练集，以及计算得到的淋巴结转移值；其次，在步骤S4中又利用步骤S3得到的最新的训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立；最后，在步骤S5中又利用步骤S4中得到的训练集score值和第一转移值矩阵进行逻辑回归模型的建立。即每次取出一例新的数据作为测试集，其余99例作为训练集，得到的结果能够最接近真实情况，由此本申请实际上完成一个三重机器学习模型，训练效果更接近真实值。

为了更清楚地说明本申请实施例的技术方案，下面将举例说明本申请的具体实施方式。但须知的是，下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。实施例具体如下：

1)获取样本测序数据：假设依据医院或科研单位获取已存储的临床样本数据得到转录组样本测序数据147例，测序出miRNA样本测序数据100例。

2)筛选标记物：依据相关性分析从147例转录组样本测序数据和100例miRNA样本测序数据中，筛选出了29个转录组标记物以及22个miRNA标记物，如图2所示，展示为样本测序数据的筛选标记物的结果示意图。

其中，具体与转移相关的转录组标记物可参见下表1所示，miRNA标记物可参见下表2所示。

表1转录组标记物

表2 miRNA标记物

其中，cc表示correlation coefficient相关系数，p.value是相关性的统计学显著性，adjust.p是p.value的校正值。相关系数的绝对值越接近1说明相关性越大，p.value和adjust.p都是越小越说明统计学显著性。转录组的数据本申请设置的cut off是adjust.p<0.05；miRNA的cut off是p.value<0.05；上述表1和表2中的值都是通过r语言的cor函数得到的，原始数据是测序产生的数据，以及样本对应的临床信息。

3)划分训练集与测试集：由于miRNA样本测序数据的数量最小，故从147例转录组样本测序数据中选出100例来对应100例miRNA样本测序数据。然后采用留一交叉验证法进行模型训练，即选取99例样本测序数据作为训练集，剩余1例样本测序数据作为测试集，使用99例样本训练出的模型预测剩余1例样本的期望值。

4)归一化处理：计算训练集99例样本测序数据每个标记物表达量x的平均值μ，以训练集表达量减去平均值x-μ作为新训练集矩阵X(如可通过R语言apply函数处理)。测试集为测试集表达量x’-μ得到矩阵X’。依据临床信息判断样本测序数据是否发生淋巴结转移，然后定义发生淋巴结转移为1，不发生淋巴结转移为0，计算第一转移值矩阵y的平均值z，得到第二转移值矩阵Y。

5)偏最小二乘回归模型：使用新训练集的X和Y进行偏最小二乘回归模型建立，其中可通过R语言plsr函数中提取合适的组分(comp)数量，如确定转录组水平组分数量为2，miRNA水平组分数量为3。从偏最小二乘的结果中提取训练集的loading值，训练集的score值为X×loadings，则可得到测试集的score值为X’×loadings。

6)逻辑回归模型：这一步的训练集为X×loadings，测试集为X’×loadings。使用X×loadings和y进行逻辑回归建立模型(如可通过R语言glm函数处理)，使用X’×loading作为测试集预测结果(如可通过R语言predict函数处理)，得到测试集的逻辑回归预测值。

7)循环100次：将上述三层机器学习流程使用for函数套成一个循环，即进行100次运算得到100个最终逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

8)AUC值验证：在完成淋巴结转移预测模型的训练后，可使用pROC函数计算预测值和真实值(样本测序数据对应的临床信息中获得)的AUC值。

如图3所示，展示为本申请所计算的曲线下面积AUC值，得到诊断曲线下面积AUC为0.908。即依据AUC的一般判断标准可知，本申请的预测模型训练效果很好。

进一步地，当对标记物进一步筛选缩小范围至10个转录组标记物以及10个miRNA标记物时，得到诊断曲线下面积为AUC＝0.872，如图4所示，即在本申请的预测模型中即使缩小标记物数量，得到的训练效果也还是比较好的。

须知的是，目前文献所报道的基于RNA表达量的口腔来淋巴结转移模型，其AUC仅为75％左右，而本申请的模型利用转录组和miRNA两个层面数据，将AUC提高到了90％以上，因此，本申请所述的淋巴结转移预测模型构建与训练方法极大提高了诊断效率。

如图5所示，展示为本申请于一实施例中的淋巴结转移预测模型构建与训练装置的模块示意图。如图所示，所述装置500包括：

获取模块501，用于分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；

处理模块502，用于根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请所述方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

还需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块502可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块502的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图6所示，展示为本申请于一实施例中的计算机设备的结构示意图。如图所示，所述计算机设备600包括：存储器601、及处理器602；所述存储器601用于存储计算机指令；所述处理器602运行计算机指令实现如图1所述的方法。

在一些实施例中，所述计算机设备600中的所述存储器601的数量均可以是一或多个，所述处理器602的数量均可以是一或多个，而图6中均以一个为例。

于本申请一实施例中，所述计算机设备600中的处理器602会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器601中，并由处理器602来运行存储在存储器601中的应用程序，从而实现如图1所述的方法。

所述存储器601可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器601存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中，所述计算机设备600的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图6中将各种总线都成为总线系统。

于本申请的一实施例中，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的方法。

在任何可能的技术细节结合层面，本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

综上所述，本申请提供的一种淋巴结转移预测模型构建与训练方法、装置、设备和介质，通过分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种淋巴结转移预测模型构建与训练方法，其特征在于，所述方法包括：

S1、分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；

S2、根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；

S3、对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；

S4、利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；

S5、利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；

2.根据权利要求1所述的方法，其特征在于，在筛选出标记物后，且在划分测序集之前，从全部转录组样本测序数据与全部miRNA样本测序数据中选取二者基于同一样本数据进行测序的转录组样本测序数据miRNA样本测序数据。

3.根据权利要求1所述的方法，其特征在于，建立偏最小二乘回归模型后，分别提取对应转录组水平的组分数量或特征数，以及对应miRNA水平的组分数量或特征数。

4.根据权利要求1所述的方法，其特征在于，所述判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵，包括：

依据临床信息判断样本测序数据是否发生淋巴结转移；

定义发生淋巴结转移为1，不发生淋巴结转移为0，以此计算表征样本测序数据是否发生淋巴结转移的二值化的第一转移值矩阵。

5.根据权利要求1所述的方法，其特征在于，所述对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵，包括：

计算训练集中每个标记物的表达量的表达量平均值，将训练集中每个标记物的表达量减去表达量平均值以得到归一化处理后的训练集表达量矩阵；

将测试集中标记物的表达量减去表达量平均值以得到归一化处理后的测试集表达量矩阵；

计算第一转移值矩阵中全部转移值的转移平均值，将第一转移值矩阵中各转移值减去转移平均值以得到归一化处理后的第二转移值矩阵。

6.根据权利要求1所述的方法，其特征在于，所述loading值用于描述区分转移不转移的贡献大小。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算各逻辑回归预测值与转录组/miRNA样本测序数据对应临床信息中的真实值的AUC值，以供对淋巴结转移预测模型的训练结果进行验证。

8.一种淋巴结转移预测模型构建与训练装置，其特征在于，所述装置包括：

获取模块，用于分别获取多个转录组样本测序数据或多个miRNA样本测序数据，并从中筛选出m个转录组标记物或n个miRNA标记物；

处理模块，用于根据留一交叉验证法选取1个转录组/miRNA样本测序数据为测试集，剩余的转录组/miRNA样本测序数据为训练集，同时判断每个样本测序数据是否发生淋巴结转移以计算二值化的第一转移值矩阵；对训练集中每个标记物的表达量以及第一转移值矩阵中各转移值进行去均值的归一化处理，以得到训练集表达量矩阵、测试集表达量矩阵、及第二转移值矩阵；利用训练集表达量矩阵和第二转移值矩阵进行偏最小二乘回归模型的建立，并基于偏最小二乘的结果中提取的loading值，得到训练集score值和测试集score值；利用训练集score值和第一转移值矩阵进行逻辑回归模型的建立，并将测试集score值作为预测结果，得到测试集的逻辑回归预测值；返回步骤S2重新选取转录组/miRNA样本测序数据为测试集，直至获得所有转录组/miRNA样本测试数据作为测试集所对应的逻辑回归预测值，以供完成淋巴结转移预测模型的训练。

9.一种计算机设备，其特征在于，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机指令，所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。