CN117476246B - 基于多类型复发事件的患者生存分析方法、介质及装置 - Google Patents
基于多类型复发事件的患者生存分析方法、介质及装置 Download PDFInfo
- Publication number
- CN117476246B CN117476246B CN202311792169.0A CN202311792169A CN117476246B CN 117476246 B CN117476246 B CN 117476246B CN 202311792169 A CN202311792169 A CN 202311792169A CN 117476246 B CN117476246 B CN 117476246B
- Authority
- CN
- China
- Prior art keywords
- estimation
- equation
- recurrent
- patient
- survival analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 68
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000005259 measurement Methods 0.000 claims abstract description 38
- 201000010099 disease Diseases 0.000 claims abstract description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009650 gentamicin protection assay Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供的基于多类型复发事件的患者生存分析方法、介质及装置,其方法包括:收集第一多类型复发疾病组合的历史患者数据来作为训练数据;在多类型复发事件下的比例风险回归模型中,通过B‑样条估计方法将所述比例风险回归模型中的时变系数转化为常系数进行估计,并建立带有测量误差情形的估计方程;根据所述估计方程和所述训练数据求得所述比例风险回归模型中各个变量的回归系数,得到患者生存模型;获取属于所述第一多类型复发疾病组合的当前患者数据,将所述当前患者数据输入到所述患者生存模型中,得到当前患者的生存分析结果。本发明能提高患者生存分析的准确性。
Description
技术领域
本发明涉及医疗技术领域,特别涉及一种基于多类型复发事件的患者生存分析方法、介质及装置。
背景技术
在生存分析中,试验中某些感兴趣的事件有可能反复发生,称这些事件为复发事件。在研究某种癌症的治疗效果时,研究对象在完成治疗后,癌症有可能会复发,癌症就是一种复发事件,并且此时需要考虑这种复发事件对患者生存的影响。生存分析可以帮助研究者估计复发事件对患者生存率的影响。通过分析疾病复发的时间和概率,医生可以制定更好的治疗方案,以延长患者的生存时间。
在实际中,现在的生存分析存在以下缺点:
1、患者往往身患不止一种疾病,且这些疾病同时存在复发的可能,而现有的生存分析仅考虑单个疾病对患者生存时间造成的影响。
2、在实际数据的获取过程中,由于测量手段有限、测量仪器精度有限等原因,数据往往会存在测量误差。现在的生存分析忽略了测量误差对实际估计结果带来的影响,所得的估计有可能会出现偏差,进而导致错误的推断。
发明内容
为了解决现有技术的上述问题,本发明提供一种基于多类型复发事件的患者生存分析方法、介质及装置,提高了患者生存分析的准确性。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本发明提供一种基于多类型复发事件的患者生存分析方法,包括:
步骤S1、收集第一多类型复发疾病组合的历史患者数据来作为训练数据;
步骤S2、在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将所述比例风险回归模型中的时变系数转化为常系数进行估计,并建立带有测量误差情形的估计方程;
步骤S3、根据所述估计方程和所述训练数据求得所述比例风险回归模型中各个变量的回归系数,得到患者生存模型;
步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据,将所述当前患者数据输入到所述患者生存模型中,得到当前患者的生存分析结果。
本发明的有益效果在于:本发明通过多类型复发事件下的比例风险回归模型来考虑了病患同时患有多种疾病的情形,在该情形下给出了相应的结果,适用范围更加广泛,且患者生存分析更加准确;同时,通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计,避开了现有方法中的间接估计形式,提高了比例风险回归模型中系数估计的准确性,以提高了患者生存分析的准确性;最后,在估计方程中考虑了测量误差情形,避免了测量误差对实际估计结果带来的影响,以进一步提高患者生存分析的准确性。
可选地,所述比例风险回归模型为:
其中,i表示某一个体在n个个体中的编号,k为某一类复发事件在K类复发事件中的编号,Xik(t)和Wik(t)表示个体i的第k类复发事件的协变量,Xik(t)和Wik(t)分别为p×1和q×1向量,T表示矩阵转置,exp为指数函数,μ0k(t)为真实的基准比率函数,η0(t)和γ0分别为时变系数向量和常系数向量;
所述比例风险回归模型在加性测量误差情形时,每个个体i所观测到的数据形式为:
Yik(t)=I(Cik≥t)
其中,和/>分别为Xik(t)和Wik(t)的替代协变量,/>和/>为相应的测量误差,均值为/>,维数分别为p和q,Yik(t)表示风险过程,Cik表示个体i的第k类复发事件的删失时间,I为分段函数,当Cik≥t成立时,I(Cik≥t)=1,否则,I(Cik≥t)=0,Nik(t)表示个体i在时间[0,t]上经历的第k类复发事件的次数。
根据上述描述可知,建立多类型复发事件下的比例风险回归模型,并考虑了测量误差情形。
可选地,所述步骤S2中具体包括:
在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将所述比例风险回归模型中的时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ进行估计,并建立带有测量误差情形的估计方程。
可选地,所述步骤S2具体为:
在多类型复发事件下的比例风险回归模型中,对时变系数向量η0(t)的第r个分量,则样条系数αr、样条基函数Br(t)分别为:
其中,nr为估计时变系数向量η0(t)的样条函数的节点数,d为样条函数的次数;
则有时变系数向量η0(t)估计:
令:
则将时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ表示为:
得到向量θ的维数D为
定义分块对角矩阵blkdiag{A1,…,At},其中Ai为向量或矩阵,并令B(t)=blkdiag{B1(t),…,Bp(t)}为样条基函数构成的维矩阵;
令D维向量Zik(t)为:
根据广义估计方程的思想有第一公式和第二公式,所述第一公式为:
所述第二公式为:
其中,0<τ<+∞是预先确定的常数,满足P(C≥τ)>0,C=min(Cik);
在θ给定的情况下,由第一公式得到关于μ0k(t)的估计,得到第三公式为:
将第三公式带入第二公式可以得到向量θ的估计方程为:
其中:
对任意随机变量V=(V1,…,Vn),定义其经验期望:
由此,在有测量误差情形下,重写向量θ的估计方程为:
令和/>为/>中随机选取的两个观测值,其中:
可以得到M(M-1)组不同的有序集合,定义算子为遍历所有不同的集合的均值算子,并采用渐近无偏估计量方式得到带有测量误差情形的估计方程为:
。
可选地,所述步骤S3具体为:
根据所述训练数据对所述估计方程进行求解,将方程的解作为向量θ的估计值/>作为所述比例风险回归模型中各个变量的回归系数,得到患者生存模型。
第二方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时,实现第一方面的基于多类型复发事件的患者生存分析方法。
第三方面,本发明提供基于多类型复发事件的患者生存分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的基于多类型复发事件的患者生存分析方法。
其中,第二方面所提供一种计算机可读存储介质以及第三方面所提供的基于多类型复发事件的患者生存分析装置所对应的技术效果参照第一方面所提供的基于多类型复发事件的患者生存分析方法的相关描述。
附图说明
图1为本发明实施例的基于多类型复发事件的患者生存分析方法的主要流程示意图;
图2为本发明实施例的基于多类型复发事件的患者生存分析装置的框架示意图。
【附图标记说明】
1:基于多类型复发事件的患者生存分析装置;
2:处理器;
3:存储器。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
本实施例适用于需要对患者进行生存分析的应用场景,尤其是患者的疾病容易复发且患者自身有多种疾病的场景下。现有的患者生存分析仅考虑单个疾病对患者生存时间造成的影响,且忽略了测量误差对实际估计结果带来的影响,导致患者生存分析的结果存在准确性较差的问题。而本实施例通过建立多类型复发事件下的比例风险回归模型,通过将比例风险回归模型的时变系数转换为常系数进行估计并且考虑了测量误差情形,从而能够提高患者生存分析的准确性。具体见下面描述。
请参照图1,基于多类型复发事件的患者生存分析方法,包括步骤:
步骤S1、收集第一多类型复发疾病组合的历史患者数据来作为训练数据;
其中,第一多类型复发疾病组合为某一个包括多种类型复发疾病的组合,比如包括胰腺癌和糖尿病的组合,则步骤S1将同时具有胰腺癌和糖尿病的历史患者数据来作为训练数据。
其中,历史患者数据包含患者个体数据和患者病例数据,患者个体数据为患者年龄、性别、身高、体重等等,患者病例数据为患者所患疾病、所进行的诊疗手段以及在不同时间点的疾病特征数据等等。
步骤S2、在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计,并建立带有测量误差情形的估计方程;
在本实施例中,假设训练数据中共有n个个体,并且n个个体之间数据都是独立的,但同一个个体的不同事件之间可能是相关的,每个个体可能会经历K类复发事件。采用计数过程的记号,令Nik(t)表示个体i在时间[0,t]上经历的第k类复发事件的次数,1≤k≤K。令Cik表示个体i的第k类复发事件的删失时间,这里假定删失时间是无信息的,即删失时间不会给出生存时间的任何信息。令Yik(t)=I(Cik≥t)表示风险过程,其中,I为数学中的示性函数,具体定义为分段函数,当Cik≥t成立时,I(Cik≥t)=1,否则,I(Cik≥t)=0。由于删失的存在,个体的部分事件或者全部事件可能无法观测到,则可观测事件的数量用计数过程Nik(t)表示为:
对计数过程Nik(t),用表示Nik(t)在区间[t,t+dt)上的增量,即:
其中,dt为一个无穷小量。
令Xik(t)和Wik(t)表示个体i的第k类复发事件的协变量,其中Xik(t)和Wik(t)分别为p×1和q×1向量,则第k类复发事件过程的比率函数可写成:
其中,E为概率论中的期望函数,该式在本实施例的实际计算中可以认为是的平均值。
由此,考虑到时变系数的比例风险回归模型(简称Cox模型)为:
其中,T表示矩阵转置,exp为指数函数,μ0k(t)为真实的基准比率函数,η0(t)和γ0分别为时变系数向量和常系数向量;
在有测量误差的情况下,无法观测到Xik(t)和Wik(t)的真实值,只能观测到它们的替代协变量和/>。同时,假设对每个个体,总共可以获得M个替代量的观测值:
其中,是Xik(t)的独立同分布的重复,即对协变量进行相同条件的M次重复测量。重复数M>1是随机的,其选取依赖于协变量真值、事件复发时间和删失时间。在实际的测量中,重复数通常是固定的或是预先给定的。类似地,可以定义:
由此,比例风险回归模型在加性测量误差情形时,每个个体i所观测到的数据形式为:
其中,和/>为相应的测量误差,均值为/>,维数分别为p和q。
其中,在无测量误差情形下,此时观测到的协变量均为真实值,观测到的数据集由以下独立同分布的数据组成:
定义
容易验证,Mik(t;η0,γ0)在给定模型和独立删失假设下是一个零均值的随机过程。
即上述方程式是生存分析中的鞅残差,在Cox模型的一般参数估计中通常采用这样的构造,可以简单理解成:构造一个具有特定性质的随机过程,以应用生存分析中的某些结论进行参数估计。
接下来,需要对时变系数向量η0(t)和常系数向量γ0进行估计,由此,步骤S2中具体包括:
在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将比例风险回归模型中的时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ进行估计,并建立带有测量误差情形的估计方程。
在本实施例中,为了估计时变系数向量η0(t),采用B-样条估计方法,具体为:
在多类型复发事件下的比例风险回归模型中,对时变系数向量η0(t)的第r个分量,则样条系数αr、样条基函数Br(t)分别为:
其中,nr为估计时变系数向量η0(t)的样条函数的节点数,d为样条函数的次数;
其中,样条系数αr、样条基函数Br(t)均为列向量。具体而言,样条系数αr有nr+d个元素,比如nr+d为30,则样条系数αr包含的一列元素依次为:αr1、αr2……αr30。样条基函数Br(t)的表达含义与样条系数αr同理。
则有时变系数向量η0(t)估计:
令:
其中,表示将前述定义的p个列向量放到一起形成一个矩阵,等同于:(α1,α2,……,αp)。
则将时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ表示为:
得到向量θ的维数D为
定义分块对角矩阵blkdiag{A1,…,At},其中Ai为向量或矩阵,并令B(t)=blkdiag{B1(t),…,Bp(t)}为样条基函数构成的维矩阵;
令D维向量Zik(t)为:
根据广义估计方程的思想有第一公式和第二公式,所述第一公式为:
所述第二公式为:
其中,0<τ<+∞是预先确定的常数,满足P(C≥τ)>0,C=min(Cik),即意为所有Cik中的最小值;
在θ给定的情况下,由第一公式得到关于μ0k(t)的估计,得到第三公式为:
将第三公式带入第二公式可以得到向量θ的估计方程为:
其中:
对任意随机变量V=(V1,…,Vn),定义其经验期望:
由此,在有测量误差情形下,重写向量θ的估计方程为:
在本实施例中,假设协变量Xik(t)和Wik(t)与测量误差相互独立,且无法对协变量进行准确测量,只能测量到它们的替代协变量和/>。一个简单的想法是,直接用替代协变量的均值作为协变量的真实值进行估计,但这样计算出的参数估计往往是有偏的,因此需要一个更好的方法实现对测量误差的纠正。
由此,在本实施例中,令和/>为/>中随机选取的两个观测值,其中:
可以得到M(M-1)组不同的有序集合,定义算子为遍历所有不同的集合的均值算子,并采用渐近无偏估计量方式得到带有测量误差情形的估计方程为:
。
步骤S3、根据估计方程和训练数据求得比例风险回归模型中各个变量的回归系数,得到患者生存模型;
在本实施例中,步骤S3具体为:
根据所述训练数据对所述估计方程进行求解,将方程的解作为向量θ的估计值/>作为所述比例风险回归模型中各个变量的回归系数,得到患者生存模型。
步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据,将当前患者数据输入到患者生存模型中,得到当前患者的生存分析结果。
由此,当需要对第一多类型复发疾病组合的某一患者进行生存分析时,将该患者的数据输入到患者生存模型中,得到当前患者的生存分析结果。
综上,本实施例的优异之处在于:
(1)通过多类型复发事件下的比例风险回归模型来考虑了病患同时患有多种疾病且存在复发风险的情形,在该情形下给出了相应的结果,适用范围更加广泛,且患者生存分析更加准确。
(2)通过B-样条估计方法将比例风险回归模型中的时变系数转化为常系数进行估计,避开了现有方法中的间接估计形式,提高了比例风险回归模型中系数估计的准确性,以提高了患者生存分析的准确性。
(3)在估计方程中考虑了测量误差情形,避免了测量误差对实际估计结果带来的影响,以进一步提高患者生存分析的准确性。
(4)在考虑测量误差情形时,通过随机选取观测值并组成不同集合来根据替代协变量估计协变量的真实值,提高了比例风险回归模型中系数估计的准确性,以提高了患者生存分析的准确性。
即本实施例从生存分析模型改进、模型系数估计方法改进、数据使用情况改进以及协变量真实值估计方法改进来提高了患者生存分析的准确性。
实施例二
本发明提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,当计算机程序被执行时,实现实施例一中的基于多类型复发事件的患者生存分析方法。
实施例三
请参照图2,基于多类型复发事件的患者生存分析装置1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现上述实施例一中的步骤。
由于本发明上述实施例所描述的系统/装置,为实施本发明上述实施例的方法所采用的系统/装置,故而基于本发明上述实施例所描述的方法,本领域所属技术人员能够了解该系统/装置的具体结构及变形,因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统/装置都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (5)
1.基于多类型复发事件的患者生存分析方法,其特征在于,包括:
步骤S1、收集第一多类型复发疾病组合的历史患者数据来作为训练数据;
步骤S2、在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将所述比例风险回归模型中的时变系数转化为常系数进行估计,并建立带有测量误差情形的估计方程;
步骤S3、根据所述估计方程和所述训练数据求得所述比例风险回归模型中各个变量的回归系数,得到患者生存模型;
步骤S4、获取属于所述第一多类型复发疾病组合的当前患者数据,将所述当前患者数据输入到所述患者生存模型中,得到当前患者的生存分析结果;
所述比例风险回归模型为:
其中,i表示某一个体在n个个体中的编号,k为某一类复发事件在K类复发事件中的编号,Xik(t)和Wik(t)表示个体i的第k类复发事件的协变量,Xik(t)和Wik(t)分别为p×1和q×1向量,T表示矩阵转置,exp为指数函数,μ0k(t)为真实的基准比率函数,η0(t)和γ0分别为时变系数向量和常系数向量;
其中,假设对每个个体,总共可以获得M个替代量的观测值:
其中,是Xik(t)的独立同分布的重复,即对协变量进行相同条件的M次重复测量,/>同理;
所述比例风险回归模型在加性测量误差情形时,每个个体i所观测到的数据形式为:
Yik(t)=I(Cik≥t)
其中,和/>分别为Xik(t)和Wik(t)的替代协变量,/>和/>为相应的测量误差,均值为/>,维数分别为p和q,Yik(t)表示风险过程,Cik表示个体i的第k类复发事件的删失时间,I为分段函数,当Cik≥t成立时,I(Cik≥t)=1,否则,I(Cik≥t)=0,Nik(t)表示个体i在时间[0,t]上经历的第k类复发事件的次数;
所述步骤S2中具体包括:
在多类型复发事件下的比例风险回归模型中,通过B-样条估计方法将所述比例风险回归模型中的时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ进行估计,并建立带有测量误差情形的估计方程。
2.根据权利要求1所述的基于多类型复发事件的患者生存分析方法,其特征在于,所述步骤S2具体为:
在多类型复发事件下的比例风险回归模型中,对时变系数向量η0(t)的第r个分量,则样条系数αr、样条基函数Br(t)分别为:
其中,nr为估计时变系数向量η0(t)的样条函数的节点数,d为样条函数的次数;
则有时变系数向量η0(t)估计:
令:
则将时变系数向量η0(t)和常系数向量γ0转化为常系数向量θ表示为:
得到向量θ的维数D为
定义分块对角矩阵blkdiag{A1,…,At},其中Ai为向量或矩阵,并令B(t)=blkdiag{B1(t),…,Bp(t)}为样条基函数构成的维矩阵;
令D维向量Zik(t)为:
根据广义估计方程的思想有第一公式和第二公式,所述第一公式为:
所述第二公式为:
其中,0<τ<+∞是预先确定的常数,满足P(C≥τ)>0,C=min(Cik);
在θ给定的情况下,由第一公式得到关于μ0k(t)的估计,得到第三公式为:
将第三公式带入第二公式可以得到向量θ的估计方程为:
其中:
对任意随机变量V=(V1,…,Vn),定义其经验期望:
由此,在有测量误差情形下,重写向量θ的估计方程为:
令和/>为/>中随机选取的两个观测值,其中:
可以得到M(M-1)组不同的有序集合,定义算子为遍历所有不同的集合的均值算子,并采用渐近无偏估计量方式得到带有测量误差情形的估计方程为:
。
3.根据权利要求1所述的基于多类型复发事件的患者生存分析方法,其特征在于,所述步骤S3具体为:
根据所述训练数据对所述估计方程进行求解,将方程的解作为向量θ的估计值/>作为所述比例风险回归模型中各个变量的回归系数,得到患者生存模型。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时,实现如权利要求1至3中任一项所述的基于多类型复发事件的患者生存分析方法。
5.基于多类型复发事件的患者生存分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的基于多类型复发事件的患者生存分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311792169.0A CN117476246B (zh) | 2023-12-25 | 2023-12-25 | 基于多类型复发事件的患者生存分析方法、介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311792169.0A CN117476246B (zh) | 2023-12-25 | 2023-12-25 | 基于多类型复发事件的患者生存分析方法、介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117476246A CN117476246A (zh) | 2024-01-30 |
CN117476246B true CN117476246B (zh) | 2024-04-19 |
Family
ID=89627718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311792169.0A Active CN117476246B (zh) | 2023-12-25 | 2023-12-25 | 基于多类型复发事件的患者生存分析方法、介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117476246B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112262440A (zh) * | 2020-07-15 | 2021-01-22 | 北京肿瘤医院(北京大学肿瘤医院) | 一种通过影像组学特征判断癌症治疗反应的方法及系统 |
CN115966309A (zh) * | 2023-03-17 | 2023-04-14 | 杭州堃博生物科技有限公司 | 复发位置预测方法、装置、非易失性存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2016002938A (es) * | 2013-09-11 | 2016-07-26 | Bio Theranostics Inc | Prediccion de la recidiva del cáncer de mama. |
US10842804B2 (en) * | 2017-03-01 | 2020-11-24 | Medigen Biotechnology Corporation | Muparfostat for use in treating patients with hepatitis virus-related hepatocellular carcinoma after surgical resection |
-
2023
- 2023-12-25 CN CN202311792169.0A patent/CN117476246B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112262440A (zh) * | 2020-07-15 | 2021-01-22 | 北京肿瘤医院(北京大学肿瘤医院) | 一种通过影像组学特征判断癌症治疗反应的方法及系统 |
CN115966309A (zh) * | 2023-03-17 | 2023-04-14 | 杭州堃博生物科技有限公司 | 复发位置预测方法、装置、非易失性存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
生存资料回归模型分析――Cox比例风险假设的图形检验法;宋德胜;李长平;刘媛媛;崔壮;胡良平;;四川精神卫生;20200425(02);全文 * |
限制性立方样条在Cox比例风险回归模型中的应用;魏源 等;中华预防医学杂志;20211031;第54卷(第10期);1169-1173 * |
Also Published As
Publication number | Publication date |
---|---|
CN117476246A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uschner et al. | randomizeR: an R package for the assessment and implementation of randomization in clinical trials | |
US10885803B2 (en) | System and method for real-time analysis and guidance of learning | |
Fogarty et al. | Discrete optimization for interpretable study populations and randomization inference in an observational study of severe sepsis mortality | |
CN109191345B (zh) | 一种面向学生认知过程的认知诊断方法 | |
JP2004527049A (ja) | 潜在特性の診断方法 | |
CN111159419A (zh) | 基于图卷积的知识追踪数据处理方法、系统和存储介质 | |
CN109409739A (zh) | 一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法 | |
CN108229688A (zh) | 一种基于irt的信息处理方法及装置 | |
van der Vaart et al. | Taking error into account when fitting models using Approximate Bayesian Computation | |
CN117476246B (zh) | 基于多类型复发事件的患者生存分析方法、介质及装置 | |
JP7014119B2 (ja) | データ処理装置、データ処理方法、及びプログラム | |
CN111898803A (zh) | 一种习题预测方法、系统、设备及存储介质 | |
CN114694779A (zh) | 一种提高icu患者护理满意度的方法及系统 | |
JP2010503058A (ja) | 決定論的モデルから確率論的モデルを導出する方法および装置 | |
CN110555472B (zh) | 基于主动学习的心电信号数据标注方法 | |
Follmann et al. | The effect of estimation and biasing strategies on selection bias in clinical trials with permuted blocks | |
Das et al. | A discrete simulation optimization approach towards calibration of an agent-based simulation model of hepatitis C virus transmission | |
CN107562697A (zh) | 认知诊断方法和系统 | |
Satter | Novel empirical likelihood inference procedures for zero-inflated and right censored data and their applications | |
Patel et al. | Simulation of COVID-19 Incubation Period and the Effect of Probability Distribution Function on Model Training Using MIMANSA | |
Proper | Bayesian Methods for Response-Adaptive Randomization and Drug Repurposing | |
Lamoré | Comparing a multistage and a linear summative test on ability estimate precision and classification accuracy | |
Oh | Potential of disease prediction using deep learning algorithms | |
Ledesma | Intercept estimation of semi-parametric joint models in the context of longitudinal data subject to irregular observations | |
JP2023177487A (ja) | 連合学習システム、連合学習方法および連合学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |