CN117476246B

CN117476246B - 基于多类型复发事件的患者生存分析方法、介质及装置

Info

Publication number: CN117476246B
Application number: CN202311792169.0A
Authority: CN
Inventors: 李喆; 黄炜; 陈誉宏; 涂平; 王宇奇; 黄毅; 李元; 傅腾宇; 林知心; 肖伟鹏
Original assignee: Fujian Big Data First Level Development Co ltd
Current assignee: Fujian Big Data First Level Development Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-04-19
Anticipated expiration: 2043-12-25
Also published as: CN117476246A

Abstract

本发明提供的基于多类型复发事件的患者生存分析方法、介质及装置，其方法包括：收集第一多类型复发疾病组合的历史患者数据来作为训练数据；在多类型复发事件下的比例风险回归模型中，通过B‑样条估计方法将所述比例风险回归模型中的时变系数转化为常系数进行估计，并建立带有测量误差情形的估计方程；根据所述估计方程和所述训练数据求得所述比例风险回归模型中各个变量的回归系数，得到患者生存模型；获取属于所述第一多类型复发疾病组合的当前患者数据，将所述当前患者数据输入到所述患者生存模型中，得到当前患者的生存分析结果。本发明能提高患者生存分析的准确性。

Description

基于多类型复发事件的患者生存分析方法、介质及装置

技术领域

本发明涉及医疗技术领域，特别涉及一种基于多类型复发事件的患者生存分析方法、介质及装置。

背景技术

在生存分析中，试验中某些感兴趣的事件有可能反复发生，称这些事件为复发事件。在研究某种癌症的治疗效果时，研究对象在完成治疗后，癌症有可能会复发，癌症就是一种复发事件，并且此时需要考虑这种复发事件对患者生存的影响。生存分析可以帮助研究者估计复发事件对患者生存率的影响。通过分析疾病复发的时间和概率，医生可以制定更好的治疗方案，以延长患者的生存时间。

在实际中，现在的生存分析存在以下缺点：

1、患者往往身患不止一种疾病，且这些疾病同时存在复发的可能，而现有的生存分析仅考虑单个疾病对患者生存时间造成的影响。

2、在实际数据的获取过程中，由于测量手段有限、测量仪器精度有限等原因，数据往往会存在测量误差。现在的生存分析忽略了测量误差对实际估计结果带来的影响，所得的估计有可能会出现偏差，进而导致错误的推断。

发明内容

为了解决现有技术的上述问题，本发明提供一种基于多类型复发事件的患者生存分析方法、介质及装置，提高了患者生存分析的准确性。

为了达到上述目的，本发明采用的技术方案为：

第一方面，本发明提供一种基于多类型复发事件的患者生存分析方法，包括：

步骤S1、收集第一多类型复发疾病组合的历史患者数据来作为训练数据；

步骤S2、在多类型复发事件下的比例风险回归模型中，通过B-样条估计方法将所述比例风险回归模型中的时变系数转化为常系数进行估计，并建立带有测量误差情形的估计方程；

步骤S3、根据所述估计方程和所述训练数据求得所述比例风险回归模型中各个变量的回归系数，得到患者生存模型；

步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据，将所述当前患者数据输入到所述患者生存模型中，得到当前患者的生存分析结果。

本发明的有益效果在于：本发明通过多类型复发事件下的比例风险回归模型来考虑了病患同时患有多种疾病的情形，在该情形下给出了相应的结果，适用范围更加广泛，且患者生存分析更加准确；同时，通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计，避开了现有方法中的间接估计形式，提高了比例风险回归模型中系数估计的准确性，以提高了患者生存分析的准确性；最后，在估计方程中考虑了测量误差情形，避免了测量误差对实际估计结果带来的影响，以进一步提高患者生存分析的准确性。

可选地，所述比例风险回归模型为：

其中，i表示某一个体在n个个体中的编号，k为某一类复发事件在K类复发事件中的编号，X_ik(t)和W_ik(t)表示个体i的第k类复发事件的协变量，X_ik(t)和W_ik(t)分别为p×1和q×1向量，T表示矩阵转置，exp为指数函数，μ_0k(t)为真实的基准比率函数，η₀(t)和γ₀分别为时变系数向量和常系数向量；

所述比例风险回归模型在加性测量误差情形时，每个个体i所观测到的数据形式为：

Y_ik(t)=I(C_ik≥t)

其中，和/>分别为X_ik(t)和W_ik(t)的替代协变量，/>和/>为相应的测量误差，均值为/>，维数分别为p和q，Y_ik(t)表示风险过程，C_ik表示个体i的第k类复发事件的删失时间，I为分段函数，当C_ik≥t成立时，I(C_ik≥t)=1，否则，I(C_ik≥t)=0，N_ik(t)表示个体i在时间[0，t]上经历的第k类复发事件的次数。

根据上述描述可知，建立多类型复发事件下的比例风险回归模型，并考虑了测量误差情形。

可选地，所述步骤S2中具体包括：

在多类型复发事件下的比例风险回归模型中，通过B-样条估计方法将所述比例风险回归模型中的时变系数向量η₀(t)和常系数向量γ₀转化为常系数向量θ进行估计，并建立带有测量误差情形的估计方程。

可选地，所述步骤S2具体为：

在多类型复发事件下的比例风险回归模型中，对时变系数向量η₀(t)的第r个分量，则样条系数α_r、样条基函数B_r(t)分别为：

其中，n_r为估计时变系数向量η₀(t)的样条函数的节点数，d为样条函数的次数；

则有时变系数向量η₀(t)估计：

令：

则将时变系数向量η₀(t)和常系数向量γ₀转化为常系数向量θ表示为：

得到向量θ的维数D为

定义分块对角矩阵blkdiag{A₁，…，A_t}，其中A_i为向量或矩阵，并令B(t)=blkdiag{B₁(t)，…，B_p(t)}为样条基函数构成的维矩阵；

令D维向量Z_ik(t)为：

根据广义估计方程的思想有第一公式和第二公式，所述第一公式为：

所述第二公式为：

其中，0<τ<+∞是预先确定的常数，满足P(C≥τ)>0，C=min(C_ik)；

在θ给定的情况下，由第一公式得到关于μ_0k(t)的估计，得到第三公式为：

将第三公式带入第二公式可以得到向量θ的估计方程为：

其中：

对任意随机变量V=(V₁，…，V_n)，定义其经验期望：

由此，在有测量误差情形下，重写向量θ的估计方程为：

令和/>为/>中随机选取的两个观测值，其中：

可以得到M(M-1)组不同的有序集合，定义算子为遍历所有不同的集合的均值算子，并采用渐近无偏估计量方式得到带有测量误差情形的估计方程为：

。

可选地，所述步骤S3具体为：

根据所述训练数据对所述估计方程进行求解，将方程的解作为向量θ的估计值/>作为所述比例风险回归模型中各个变量的回归系数，得到患者生存模型。

第二方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时，实现第一方面的基于多类型复发事件的患者生存分析方法。

第三方面，本发明提供基于多类型复发事件的患者生存分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的基于多类型复发事件的患者生存分析方法。

其中，第二方面所提供一种计算机可读存储介质以及第三方面所提供的基于多类型复发事件的患者生存分析装置所对应的技术效果参照第一方面所提供的基于多类型复发事件的患者生存分析方法的相关描述。

附图说明

图1为本发明实施例的基于多类型复发事件的患者生存分析方法的主要流程示意图；

图2为本发明实施例的基于多类型复发事件的患者生存分析装置的框架示意图。

【附图标记说明】

1：基于多类型复发事件的患者生存分析装置；

2：处理器；

3：存储器。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

本实施例适用于需要对患者进行生存分析的应用场景，尤其是患者的疾病容易复发且患者自身有多种疾病的场景下。现有的患者生存分析仅考虑单个疾病对患者生存时间造成的影响，且忽略了测量误差对实际估计结果带来的影响，导致患者生存分析的结果存在准确性较差的问题。而本实施例通过建立多类型复发事件下的比例风险回归模型，通过将比例风险回归模型的时变系数转换为常系数进行估计并且考虑了测量误差情形，从而能够提高患者生存分析的准确性。具体见下面描述。

请参照图1，基于多类型复发事件的患者生存分析方法，包括步骤：

其中，第一多类型复发疾病组合为某一个包括多种类型复发疾病的组合，比如包括胰腺癌和糖尿病的组合，则步骤S1将同时具有胰腺癌和糖尿病的历史患者数据来作为训练数据。

其中，历史患者数据包含患者个体数据和患者病例数据，患者个体数据为患者年龄、性别、身高、体重等等，患者病例数据为患者所患疾病、所进行的诊疗手段以及在不同时间点的疾病特征数据等等。

步骤S2、在多类型复发事件下的比例风险回归模型中，通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计，并建立带有测量误差情形的估计方程；

在本实施例中，假设训练数据中共有n个个体，并且n个个体之间数据都是独立的，但同一个个体的不同事件之间可能是相关的，每个个体可能会经历K类复发事件。采用计数过程的记号，令N_ik(t)表示个体i在时间[0，t]上经历的第k类复发事件的次数，1≤k≤K。令C_ik表示个体i的第k类复发事件的删失时间，这里假定删失时间是无信息的，即删失时间不会给出生存时间的任何信息。令Y_ik(t)=I(C_ik≥t)表示风险过程，其中，I为数学中的示性函数，具体定义为分段函数，当C_ik≥t成立时，I(C_ik≥t)=1，否则，I(C_ik≥t)=0。由于删失的存在，个体的部分事件或者全部事件可能无法观测到，则可观测事件的数量用计数过程N_ik(t)表示为：

对计数过程N_ik(t)，用表示N_ik(t)在区间[t，t+dt)上的增量，即：

其中，dt为一个无穷小量。

令X_ik(t)和W_ik(t)表示个体i的第k类复发事件的协变量，其中X_ik(t)和W_ik(t)分别为p×1和q×1向量，则第k类复发事件过程的比率函数可写成：

其中，E为概率论中的期望函数，该式在本实施例的实际计算中可以认为是的平均值。

由此，考虑到时变系数的比例风险回归模型（简称Cox模型）为：

其中，T表示矩阵转置，exp为指数函数，μ_0k(t)为真实的基准比率函数，η₀(t)和γ₀分别为时变系数向量和常系数向量；

在有测量误差的情况下，无法观测到X_ik(t)和W_ik(t)的真实值，只能观测到它们的替代协变量和/>。同时，假设对每个个体，总共可以获得M个替代量的观测值：

其中，是X_ik(t)的独立同分布的重复，即对协变量进行相同条件的M次重复测量。重复数M>1是随机的，其选取依赖于协变量真值、事件复发时间和删失时间。在实际的测量中，重复数通常是固定的或是预先给定的。类似地，可以定义：

由此，比例风险回归模型在加性测量误差情形时，每个个体i所观测到的数据形式为：

其中，和/>为相应的测量误差，均值为/>，维数分别为p和q。

其中，在无测量误差情形下，此时观测到的协变量均为真实值，观测到的数据集由以下独立同分布的数据组成：

定义

容易验证，M_ik(t;η₀,γ₀)在给定模型和独立删失假设下是一个零均值的随机过程。

即上述方程式是生存分析中的鞅残差，在Cox模型的一般参数估计中通常采用这样的构造，可以简单理解成：构造一个具有特定性质的随机过程，以应用生存分析中的某些结论进行参数估计。

接下来，需要对时变系数向量η₀(t)和常系数向量γ₀进行估计，由此，步骤S2中具体包括：

在多类型复发事件下的比例风险回归模型中，通过B-样条估计方法将比例风险回归模型中的时变系数向量η₀(t)和常系数向量γ₀转化为常系数向量θ进行估计，并建立带有测量误差情形的估计方程。

在本实施例中，为了估计时变系数向量η₀(t)，采用B-样条估计方法，具体为：

其中，样条系数α_r、样条基函数B_r(t)均为列向量。具体而言，样条系数α_r有n_r+d个元素，比如n_r+d为30，则样条系数α_r包含的一列元素依次为：α_r1、α_r2……α_r30。样条基函数B_r(t)的表达含义与样条系数α_r同理。

则有时变系数向量η₀(t)估计：

令：

其中，表示将前述定义的p个列向量放到一起形成一个矩阵，等同于：(α₁,α_2,……,α_p)。

得到向量θ的维数D为

令D维向量Z_ik(t)为：

所述第二公式为：

其中，0<τ<+∞是预先确定的常数，满足P(C≥τ)>0，C=min(C_ik)，即意为所有C_ik中的最小值；

将第三公式带入第二公式可以得到向量θ的估计方程为：

其中：

对任意随机变量V=(V₁，…，V_n)，定义其经验期望：

由此，在有测量误差情形下，重写向量θ的估计方程为：

在本实施例中，假设协变量X_ik(t)和W_ik(t)与测量误差相互独立，且无法对协变量进行准确测量，只能测量到它们的替代协变量和/>。一个简单的想法是，直接用替代协变量的均值作为协变量的真实值进行估计，但这样计算出的参数估计往往是有偏的，因此需要一个更好的方法实现对测量误差的纠正。

由此，在本实施例中，令和/>为/>中随机选取的两个观测值，其中：

。

步骤S3、根据估计方程和训练数据求得比例风险回归模型中各个变量的回归系数，得到患者生存模型；

在本实施例中，步骤S3具体为：

步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据，将当前患者数据输入到患者生存模型中，得到当前患者的生存分析结果。

由此，当需要对第一多类型复发疾病组合的某一患者进行生存分析时，将该患者的数据输入到患者生存模型中，得到当前患者的生存分析结果。

综上，本实施例的优异之处在于：

（1）通过多类型复发事件下的比例风险回归模型来考虑了病患同时患有多种疾病且存在复发风险的情形，在该情形下给出了相应的结果，适用范围更加广泛，且患者生存分析更加准确。

（2）通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计，避开了现有方法中的间接估计形式，提高了比例风险回归模型中系数估计的准确性，以提高了患者生存分析的准确性。

（3）在估计方程中考虑了测量误差情形，避免了测量误差对实际估计结果带来的影响，以进一步提高患者生存分析的准确性。

（4）在考虑测量误差情形时，通过随机选取观测值并组成不同集合来根据替代协变量估计协变量的真实值，提高了比例风险回归模型中系数估计的准确性，以提高了患者生存分析的准确性。

即本实施例从生存分析模型改进、模型系数估计方法改进、数据使用情况改进以及协变量真实值估计方法改进来提高了患者生存分析的准确性。

实施例二

本发明提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，当计算机程序被执行时，实现实施例一中的基于多类型复发事件的患者生存分析方法。

实施例三

请参照图2，基于多类型复发事件的患者生存分析装置1，包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序，所述处理器2执行所述计算机程序时实现上述实施例一中的步骤。

由于本发明上述实施例所描述的系统/装置，为实施本发明上述实施例的方法所采用的系统/装置，故而基于本发明上述实施例所描述的方法，本领域所属技术人员能够了解该系统/装置的具体结构及变形，因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统/装置都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（装置）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.基于多类型复发事件的患者生存分析方法，其特征在于，包括：

步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据，将所述当前患者数据输入到所述患者生存模型中，得到当前患者的生存分析结果；

所述比例风险回归模型为：

其中，假设对每个个体，总共可以获得M个替代量的观测值：

其中，是X_ik(t)的独立同分布的重复，即对协变量进行相同条件的M次重复测量，/>同理；

Y_ik(t)=I(C_ik≥t)

其中，和/>分别为X_ik(t)和W_ik(t)的替代协变量，/>和/>为相应的测量误差，均值为/>，维数分别为p和q，Y_ik(t)表示风险过程，C_ik表示个体i的第k类复发事件的删失时间，I为分段函数，当C_ik≥t成立时，I(C_ik≥t)=1，否则，I(C_ik≥t)=0，N_ik(t)表示个体i在时间[0，t]上经历的第k类复发事件的次数；

所述步骤S2中具体包括：

2.根据权利要求1所述的基于多类型复发事件的患者生存分析方法，其特征在于，所述步骤S2具体为：

则有时变系数向量η₀(t)估计：

令：

得到向量θ的维数D为

令D维向量Z_ik(t)为：

所述第二公式为：

其中，0<τ<+∞是预先确定的常数，满足P(C≥τ)>0，C=min(C_ik)；

将第三公式带入第二公式可以得到向量θ的估计方程为：

其中：

对任意随机变量V=(V₁，…，V_n)，定义其经验期望：

由此，在有测量误差情形下，重写向量θ的估计方程为：

令和/>为/>中随机选取的两个观测值，其中：

。

3.根据权利要求1所述的基于多类型复发事件的患者生存分析方法，其特征在于，所述步骤S3具体为：

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被执行时，实现如权利要求1至3中任一项所述的基于多类型复发事件的患者生存分析方法。

5.基于多类型复发事件的患者生存分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的基于多类型复发事件的患者生存分析方法。