CN109063418A

CN109063418A - 疾病预测分类器的确定方法、装置、设备及可读存储介质

Info

Publication number: CN109063418A
Application number: CN201810799478.3A
Authority: CN
Inventors: 栾欣泽; 王晓婷; 何光宇; 孟健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-21

Abstract

本发明提供一种疾病预测分类器的确定方法、装置、设备及可读存储介质。方法包括：根据比例风险回归模型确定样本数据对应的风险函数，其中，样本数据包括基因变量、生存时间；根据风险函数确定基因变量的系数；根据基因变量的系数训练分类器，确定疾病预测分类器。本发明提供的方案能够根据样本数据确定基因变量的系数，再基于基因变量的系数训练得到疾病预测分类器。其中的基因变量的系数能够表征基因变量与疾病间的关联程度，因此，基于基因变量的系数训练得到的疾病预测分类器较为准确，同时，基于基因变量的系数训练分类器，还能够减小计算量。

Description

疾病预测分类器的确定方法、装置、设备及可读存储介质

技术领域

本发明涉及基因技术，尤其涉及一种疾病预测分类器的确定方法、装置、设备及可读存储介质。

背景技术

基因(遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列，储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。通过基因检测技术能够从基因序列中得到大量数据，尤其是高通量测序技术的发展，能够一次对几十万到几百万个基因分子进行序列测定。

目前，基于基因进行疾病研究得到广泛的发展。现有技术可以从基因中提取到大量的基因数据，再基于处理模型对基因数据进行处理，得到基因数据与疾病之间的关系。但是，由于基因中包括的大量的基因数据，导致在确定基因数据与疾病之间关系的过程计算量较大。

因此，现有技术中亟需一种确定基因数据与疾病之间关系的方法，以解决上述技术问题。

发明内容

本发明提供一种疾病预测分类器的确定方法、装置、设备及可读存储介质，以解决现有技术中的确定基因数据与疾病之间关系的过程计算量较大的问题。

本发明的第一个方面是提供一种疾病预测分类器的确定方法，包括：

根据比例风险回归模型确定样本数据对应的风险函数，其中，所述样本数据包括基因变量、生存时间；

根据所述风险函数确定所述基因变量的系数；

根据所述基因变量的系数训练分类器，确定疾病预测分类器。

本发明的另一个方面是提供一种疾病预测分类器的确定装置，包括：

函数确定模块，用于根据比例风险回归模型确定样本数据对应的风险函数，其中，所述样本数据包括基因变量、生存时间；

系数确定模块，用于根据所述风险函数确定所述基因变量的系数；

训练模块，用于根据所述基因变量的系数训练分类器，确定疾病预测分类器。

本发明的又一个方面是提供一种疾病预测分类器的确定设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上述第一方面所述的疾病预测分类器的确定方法。

本发明的再一个方面是提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述第一方面所述的疾病预测分类器的确定方法。

本发明提供的疾病预测分类器的确定方法、装置、设备及可读存储介质的技术效果是：

本实施例提供的疾病预测分类器的确定方法、装置、设备及可读存储介质，包括：根据比例风险回归模型确定样本数据对应的风险函数，其中，样本数据包括基因变量、生存时间；根据风险函数确定基因变量的系数；根据基因变量的系数训练分类器，确定疾病预测分类器。本实施例提供的疾病预测分类器的确定方法、装置、设备及可读存储介质能够根据样本数据确定基因变量的系数，再基于基因变量的系数训练得到疾病预测分类器。其中的基因变量的系数能够表征基因变量与疾病间的关联程度，因此，基于基因变量的系数训练得到的疾病预测分类器较为准确，同时，基于基因变量的系数训练分类器，还能够减小计算量。

附图说明

图1为本发明一示例性实施例示出的疾病预测分类器的确定方法的流程图；

图2为本发明另一示例性实施例示出的疾病预测分类器的确定方法的流程图；

图3为本发明一示例性实施例示出的疾病预测分类器的确定装置的结构图；

图4为本发明另一示例性实施例示出的疾病预测分类器的确定装置的结构图；

图5为本发明一示例性实施例示出的疾病预测分类器的确定设备的结构图。

具体实施方式

图1为本发明一示例性实施例示出的疾病预测分类器的确定方法的流程图。

如图1所示，本实施例提供的疾病预测分类器的确定方法包括：

步骤101，根据比例风险回归模型确定样本数据对应的风险函数。

其中，样本数据包括基因变量、生存时间。

其中，比例风险回归模型(proportional hazards model，简称Cox模型)，是由英国统计学家D.R.Cox提出的一种半参数回归模型，该模型可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。截尾数据是指失访或随访结束还存活的样本数据。

进一步的，样本数据是指预先采集的数据，该数据中可以包括采集到的基因变量以及生存时间，例如，样本数据中的一个样本可以是：基因数据A、基因数据B、基因数据C，生存时间25个月。另外，样本数据中还可以包括样本状态，用于表征该样本数据对应的病人为生存状态还是死亡状态。可以用0、1标注样本状态，例如样本数据对应的病人处于生存状态，则样本状态为1。

实际应用时，由于基因中包括大量的基因变量，因此，每个样本都具有大量的基因数据，可以设置每类基因变量对应的系数，例如，共有p种基因数据，则可以设置p个系数β1、β2、β3、…β_p，每个系数对应一类基因变量。具体可以基于现有技术中的方式基因变量进行分类，还可以基于基因的结构对基因变量进行分类，如第一段基因数据，第二段基因数据等。基因变量的系数可以用于表征基因变量对样本生存时间和/或样本对应的疾病的影响程度，例如，针对肺癌样本数据进行分析发现，在众多的基因变量中，只有4个基因变量的系数较大，其他为0或与0相近的值，那么可以认为这4个基因变量对于肺癌这种疾病具有较大的影响。

其中，还可以将样本数据以表格形式进行存储，可以将第一列设置为生存时间，其他列设置为基因变量，每一个样本数据占用一行，从而使得每列存储的数据为同一属性的数据。

具体的，可以采用比例风险回归模型对样本数据进行分析，确定基因变量与生存时间之间的关系，从而确定出对生存时间的影响较大的基因变量。假设一个样本数据中共包括n条样本，研究生存时间t与变量x间的关系。根据比例风险回归模型对该样本数据建立风险函数，具体为：

h(t|β)＝h₀(t)exp(β^Tx)

其中，h(t|β)是指在基因变量系数为β时，生存时间为t的概率。

具体的，h₀(t)当X为0时，h(t|β)的值。β是基因变量对应的系数。一般来说，样本数据中的每个样本都会包括多个基因变量x，因此，x可以是(x₁，x₂，x₃…x_p)，即变量向量。相应的，β也可以是系数向量(β₁、β₂、β₃、…β_p)。

进一步的，由于Cox回归模型对h₀(t)未作任何假定，因此Cox回归模型在处理问题时具有较大的灵活性；另一方面，在许多情况下，我们只需估计出参数β，因此，即使在h₀(t)未知的情况下，仍可根据大量的样本数据估计出参数β。

在一种实施方式中，可以对每一个样本都确定出对应的上述风险函数，例如，第一个样本对应的风险函数为：

h(t₁|β)＝h₀(t)exp(β^Tx₁)

若样本数据中包括n个样本，那么可以得到n个上述与每个样本都应的风险函数。

步骤102，根据风险函数确定基因变量的系数。

其中，可以根据比例风险回归模型的确定系数方式得到基因变量的系数。

具体的，还可以根据每个样本对应的风险函数都能确定出多个符合该风险函数的系数，例如，对于第一个样本，来说能够得到多个满足该样本的β¹，对于第二个样本来说，也能够得到满足第二个样本的多个系数β²。可以根据确定的多个系数β确定最终适用于所有样本数据的β。

由于在样本数据中有一些数据对应的病人是生存状态，有一些数据对应的病人是死亡状态，而该样本状态对于确定基因与疾病间关系也是很重要的参数，因此还可以对风险函数进行处理，得到包括样本状态的过程函数，对过程函数进行求解，从而得到基因变量的未知系数。例如，过程函数可以是：

其中，i是样本序号，j是样本内的基因变量序号，n是样本总量。δ_i是样本状态，若样本对应的病人死亡，则δ_i为0，否则为1。可以基于预先采集的样本数据求解过程函数，得到每个基因变量对应的系数。

具体的，可以预先设置基因变量对应的最初系数，再基于该最初系数、过程函数确定基因变量的新的系数，并比对最初系数与新的系数的差异，若差异较大，则基于该新的系数以及过程函数继续确定新的系数，直到连续两次确定的系数之间的差异较小为止。可以将基因变量的最初系数设置为(0,0,0,0…0)，该值表示不限制任何基因变量与样本数据结果之间的关系，从而可以通过上述迭代过程，确定出最优的基因变量系数。

进一步的，由于基因中包括的基因变量较多，而基因变量系数能够表征基因变量与疾病间关联关系的程度，而在众多的基因变量中，仅有部分变量与疾病间具有关系，例如，确定的到的系数向量β中，大部分数值均为0，仅有少部分系数具有向量值，如仅有系数β₁、β₂不为0，那么基于该基因变量的系数向量β训练分类器时，能够使得计算量较小。

步骤103，根据基因变量的系数训练分类器，确定疾病预测分类器模型。

进一步的，可以将基因变量的系数输入SVM分类器，训练得到疾病预测分类器模型。

Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分，然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去，这种分类器被称为支持向量机(Support Vector Machine，简称SVM)。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。

SVM的主要思想可以概括为两点：

它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。

它基于结构风险最小化理论之上在特征空间中构建最优超平面，使得学习器得到全局最优化，并且在整个样本空间的期望以某个概率满足一定上界。

由于SVM分类器能够对非线性特征进行线性分析，而基因变量属于非线性特征，因此，训练SVM分类器得到的疾病预测分类器模型更加准确。

可以采用确定的疾病预测分类器对待检测基因样本进行处理，并确定该样本对应的患病结果。

本实施例提供的方法用于根据样本数据确定疾病预测分类器，该方法由安装有本实施例提供的方法的设备执行，其中，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的疾病预测分类器的确定方法，包括：根据比例风险回归模型确定样本数据对应的风险函数，其中，样本数据包括基因变量、生存时间；根据风险函数确定基因变量的系数；根据基因变量的系数训练分类器，确定疾病预测分类器。本实施例提供的疾病预测分类器的确定方法能够根据样本数据确定基因变量的系数，再基于基因变量的系数训练得到疾病预测分类器。其中的基因变量的系数能够表征基因变量与疾病间的关联程度，因此，基于基因变量的系数训练得到的疾病预测分类器较为准确，同时，基于基因变量的系数训练分类器，还能够减小计算量。

图2为本发明另一示例性实施例示出的疾病预测分类器的确定方法的流程图。

如图2所示，本实施例提供的疾病预测分类器的确定方法，包括：

步骤201，根据比例风险回归模型确定样本数据对应的风险函数。

其中，样本数据包括基因变量、生存时间。

步骤201与步骤101的具体原理和实现方式类似，此处不再赘述。

步骤202，根据风险函数、样本状态确定最大似然函数。

其中，样本数据中还包括样本状态。样本状态用于表征该样本对应的病人的状态，例如，病人处于死亡状态，则样本状态为0，病人处于生存状态，则样本状态为1。

具体的，可以基于步骤201中确定的风险函数确定最大似然函数，若风险函数为

h(t|β)＝h₀(T)exp(β^Tx)

则最大似然函数可以是：

进一步的，δ_i是第i个样本的样本状态。j是样本序号，若样本数据中包括p个样本，则j可以取值为1、2…p。i也是样本序号，i的取值可以为1、2…p。

步骤203，将基因变量的预设系数确定为基系数。

其中，还可以预先设置基因变量的系数，例如，预设系数β为(0,0,0…0)，即预设系数向量中所有的向量值均为0。并将该预设系数确定为基系数。

步骤203与步骤201-202的时序不做限制。

步骤204，根据基系数、最大似然函数确定基因变量的当前系数。

具体的，可以对最大似然函数进行求解，得到当前系数。

进一步的，可以根据最大似然函数确定包括基因变量的未知系数的过程参数。

实际应用时，可以对最大似然函数进行求导，得到过程参数：

上述过程参数中包括未知的基因变量的系数，此时，在首次执行本步骤时，可以将预设系数带入以上公式，得到过程参数

还可以设置迭代次数t，用于标识计算次数，在t＝1时，可以将预设系数β⁰带入上式，得到对应的过程参数的值。

还可以根据过程参数的值确定基因变量的当前系数。

在第t次迭代时，对于每个j＝1,2…p，均有：

其中，是的第j个值，λ是调试参数，可以根据需求对λ进行设置。

定义：

通过上述过程参数可以根据基系数确定出当前系数。

步骤205，根据基系数、当前系数确定是否满足预设规则。

其中，可以预先设置预设规则，若基系数、当前系数满足预设规则，则可以确定计算出了最优的系数，也就是求解出了基因变量的系数，因此可以执行步骤207；否则，执行步骤206，继续确定当前系数。

具体的，可以判断当前系数是否收敛于基系数，若是，则确定基系数、当前系数满足预设规则。

进一步的，可以通过公式确定当前系数是否收敛于基系数：

其中，是当前系数，是基系数，若每个基因变量对应的当前系数与基系数的差值总和的绝对值小于10^-5，则可以确定当前系数是否收敛于基系数，此时则可以将当前系数确定为最终的基因变量的系数。

步骤206，将当前系数确定为基系数。并继续执行步骤204。

若当前的基系数、当前系数不满足预设规则，则确定还没有找到合适的基因变量系数，此时，基于当前系数继续确定新的当前系数，直到基系数与当前系数满足预设规则为止。通过上述迭代过程，能够确定出最优的基因变量系数，从而使根据该变量系数得到的分类器更加准确。

步骤207，根据基因变量的系数训练分类器，确定疾病预测分类器。

步骤207与步骤103的具体原理和实现方式类似，此处不再赘述。

可选的，本实施例提供的疾病预测分类器的确定方法还可以包括：

步骤208，根据比例风险回归模型确定待测样本数据对应的待测风险函数。

待测样本数据包括：待测基因变量。

其中，在确定了疾病预测分类器后，可以基于该分类器对待测样本数据进行检测，从而得到该样本对应的疾病预测结果。

具体的，可以根据比例风险回归模型确定待测样本数据对应的待测风险函数。具体的方式与确定样本数据对应的风险函数的方式相似，不再赘述。

进一步的，待测样本数据中仅包括待测基因变量，该待测样本数据对应的生存时间、样本状态等需要由疾病预测分类器确定，因此，在待测风险函数中，生存时间是未知参数。

步骤209，将待测风险函数输入疾病预测分类器，以使疾病预测分类器根据所测基因变量预测待测样本数据对应的结果。

实际应用时，分类器经过基因变量系数的训练以后，能够对输入的待测基因变量进行分类，根据基因变量系数提取其中有用的基因，再基于这些有用基因确定待检测基因变量确定待测样本数据对应的结果。

本实施例提供的方法中，由于疾病预测分类器能够根据基因变量系数在待检测基因变量中提取出有用的基因，再基于这些有用基因输出结果，能够降低计算量，从而提高计算速度。

图3为本发明一示例性实施例示出的疾病预测分类器的确定装置的结构图。

如图3所示，本实施例提供的疾病预测分类器的确定装置，包括：

函数确定模块31，用于根据比例风险回归模型确定样本数据对应的风险函数，其中，所述样本数据包括基因变量、生存时间；

系数确定模块32，用于根据所述风险函数确定所述基因变量的系数；

训练模块33，用于根据所述基因变量的系数训练分类器，确定疾病预测分类器。

本实施例提供的疾病预测分类器的确定装置，包括：函数确定模块，用于根据比例风险回归模型确定样本数据对应的风险函数，其中，样本数据包括基因变量、生存时间；系数确定模块，用于根据风险函数确定基因变量的系数；训练模块，用于根据基因变量的系数训练分类器，确定疾病预测分类器。本实施例提供的疾病预测分类器的确定装置能够根据样本数据确定基因变量的系数，再基于基因变量的系数训练得到疾病预测分类器。其中的基因变量的系数能够表征基因变量与疾病间的关联程度，因此，基于基因变量的系数训练得到的疾病预测分类器较为准确，同时，基于基因变量的系数训练分类器，还能够减小计算量。

本实施例提供的疾病预测分类器的确定装置的具体原理和实现方式均与图1所示的实施例类似，此处不再赘述。

图4为本发明另一示例性实施例示出的疾病预测分类器的确定装置的结构图。

如图4所示，在上述实施例的基础上，本实施例提供的疾病预测分类器的确定装置，所述样本数据中还包括样本状态；

所述系数确定模块32包括：

函数确定单元321，用于根据所述样本状态、根据所述风险函数确定最大似然函数；

基系数确定单元322，用于将所述基因变量的预设系数确定为基系数；

当前系数确定单元323，用于根据所述基系数、所述最大似然函数确定所述基因变量的当前系数；

确定单元324，用于根据所述基系数、所述当前系数确定是否满足预设规则，若否，则所述基系数确定单元将所述当前系数确定为所述基系数，所述当前系数确定单元323继续执行根据所述基系数、所述最大似然函数确定所述基因变量的当前系数的步骤。

可选的，所述系数确定模块32还包括：

未知参数确定单元325，用于根据所述最大似然函数确定包括所述基因变量的未知系数的过程参数；

相应的，所述确定单元324还用于：

根据所述基系数确定所述过程参数的值；

根据所述过程参数的值确定所述基因变量的当前系数。

可选的，所述确定单元324具体用于：

判断所述当前系数是否收敛于所述基系数，若是，则确定所述基系数、所述当前系数满足所述预设规则。

可选的，本实施例提供的装置中，所述函数确定模块31还用于根据比例风险回归模型确定待测样本数据对应的待测风险函数；其中，所述待测样本数据包括：待测基因变量；

输入模块34，用于将所述待测风险函数输入所述疾病预测分类器，以使所述疾病预测分类器根据所述待测基因变量预测所述待测样本数据对应的结果。

本实施例提供的疾病预测分类器的确定装置的具体原理和实现方式均与图2所示的实施例类似，此处不再赘述。

如图5所示，本实施例提供的疾病预测分类器的确定设备包括：

存储器51；

处理器52；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上所述的任一种疾病预测分类器的确定方法。

本实施例还提供一种可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如上所述的任一种疾病预测分类器的确定方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种疾病预测分类器的确定方法，其特征在于，包括：

根据所述风险函数确定所述基因变量的系数；

2.根据权利要求1所述的方法，其特征在于，所述样本数据中还包括样本状态；所述根据所述风险函数确定所述基因变量的系数包括：

根据所述样本状态、所述风险函数确定最大似然函数；

将所述基因变量的预设系数确定为基系数；

根据所述基系数、所述最大似然函数确定所述基因变量的当前系数；

根据所述基系数、所述当前系数确定是否满足预设规则，若否，则将所述当前系数确定为所述基系数，并继续执行根据所述基系数、所述最大似然函数确定所述基因变量的当前系数的步骤。

3.根据权利要求2所述的方法，其特征在于，还包括：

根据所述最大似然函数确定包括所述基因变量的未知系数的过程参数；

相应的，所述根据所述基系数、所述最大似然函数确定所述基因变量的当前系数，包括：

根据所述基系数确定所述过程参数的值；

根据所述过程参数的值确定所述基因变量的当前系数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述基系数、所述当前系数确定是否满足预设规则，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

根据比例风险回归模型确定待测样本数据对应的待测风险函数；其中，所述待测样本数据包括：待测基因变量；

将所述待测风险函数输入所述疾病预测分类器，以使所述疾病预测分类器根据所述待测基因变量预测所述待测样本数据对应的结果。

6.一种疾病预测分类器的确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述样本数据中还包括样本状态；

所述系数确定模块包括：

函数确定单元，用于根据所述样本状态、所述风险函数确定最大似然函数；

基系数确定单元，用于将所述基因变量的预设系数确定为基系数；

当前系数确定单元，用于根据所述基系数、所述最大似然函数确定所述基因变量的当前系数；

确定单元，用于根据所述基系数、所述当前系数确定是否满足预设规则，若否，则所述基系数确定单元将所述当前系数确定为所述基系数，所述当前系数确定单元继续执行根据所述基系数、所述最大似然函数确定所述基因变量的当前系数的步骤。

8.根据权利要求7所述的装置，其特征在于，所述系数确定模块还包括：

未知参数确定单元，用于根据所述最大似然函数确定包括所述基因变量的未知系数的过程参数；

相应的，所述确定单元还用于：

根据所述基系数确定所述过程参数的值；

根据所述过程参数的值确定所述基因变量的当前系数。

9.一种疾病预测分类器的确定设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1-5任一种所述的方法。

10.一种可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-5任一种所述的方法。