CN115376706A - 一种基于预测模型的乳腺癌药物方案的预测方法及装置 - Google Patents

一种基于预测模型的乳腺癌药物方案的预测方法及装置 Download PDF

Info

Publication number
CN115376706A
CN115376706A CN202211314509.4A CN202211314509A CN115376706A CN 115376706 A CN115376706 A CN 115376706A CN 202211314509 A CN202211314509 A CN 202211314509A CN 115376706 A CN115376706 A CN 115376706A
Authority
CN
China
Prior art keywords
drug
breast cancer
scheme
clinical
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211314509.4A
Other languages
English (en)
Other versions
CN115376706B (zh
Inventor
游明亮
沈伟
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Aiming Medical Technology Co ltd
Original Assignee
Hangzhou Aiming Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Aiming Medical Technology Co ltd filed Critical Hangzhou Aiming Medical Technology Co ltd
Priority to CN202211314509.4A priority Critical patent/CN115376706B/zh
Publication of CN115376706A publication Critical patent/CN115376706A/zh
Application granted granted Critical
Publication of CN115376706B publication Critical patent/CN115376706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于预测模型的乳腺癌药物方案的预测方法及装置。为了克服以基因突变为精准治疗主要手段的现状下乳腺癌患者用药获益率低,缺乏能良好体现肿瘤药物反应的数据源模型,同时解决现有技术的决策系统未纳入医学指南和医生的先验经验;本发明以乳腺癌患者肿瘤类器官药敏检测和临床资料作为输入,以融合了临床指南和医生经验的用药选择作为输出,利用TAN(树增强型朴素贝叶斯)算法建立预测模式,实现乳腺癌患者的精准用药决策。在少量样本的前提下,利用乳腺癌“试药替身”‑肿瘤类器官的药敏检测数据,融合医学指南和高年资医生乳腺癌诊疗的先验经验,结合结构化的临床训练数据,实现更高的乳腺癌用药决策的准确性。

Description

一种基于预测模型的乳腺癌药物方案的预测方法及装置
技术领域
本发明涉及一种癌症药物方案预测领域,尤其涉及一种基于预测模型的乳腺癌药物方案的预测方法及装置。
背景技术
乳腺癌作为女性恶性肿瘤发病率、致残率和死亡率都非常高的严重疾病,严重威胁人民的生命健康,给国家、社会及个人带来严重的负担。
乳腺癌是一种高度异质性的疾病,不同患者在不同发展阶段用药差异巨大。传统的乳腺癌精准治疗以基因检测为主,通过基因检测识别肿瘤的突变情况,以此来进行针对性给药。基因检测费用高,携带突变基因的患者用药选择少,且并不是所有患者都能在靶向治疗中获益。且基因突变只是乳腺癌众多特征中的一种,仅凭突变基因难以实现精准用药。研究显示,只有8.33%的肿瘤患者能从基因检测的精准治疗中获益,这已经无法满足精准医疗时代的需求,个体化治疗方案需求迫切。
利用乳腺癌患者肿瘤组织进行体外培养,构建在结构以及功能上高度模拟人体的类肿瘤组织,重现乳腺癌肿瘤组织的异质性和关键病理学特征,并可在体外进行稳定的传代扩增,能够很好的作为肿瘤患者的体外“试药替身”,为乳腺癌精准治疗提供了丰富的想象空间。对乳腺癌类器官组织进行培养和药敏检测,获取类器官组织对不同药物方案的敏感性指标,融合患者临床治疗方案和机体状态特征,通过算法建模建立乳腺癌肿瘤的数字化肿瘤类器官预测模型,有望实现乳腺癌患者的精准用药预测。
基于乳腺癌类器官的药敏检测数据真实地反映了肿瘤细胞对不同药物的反应情况,应该被纳入到精准治疗的临床决策中,联合患者临床数据建立更为精准的药物系统。而在以往的预测模型中,只纳入了临床表型数据,或者基于肿瘤穿刺/手术样本的分子检测数据。首先,临床数据只能代表患者表型,数据维度不够深、信息密度低,往往很难达到较高的准确性;此外,用于组织检测的肿瘤穿刺手术样本仅仅只能代表肿瘤部分区域,由于乳腺癌的异质性非常强,相比肿瘤类器官组织,穿刺手术样本难以代表着肿瘤整体。
传统的医学预测模型主要通过已采集的结构化训练数据,进行计算机推断,它们只是在以后的数据中发现规律,并且试图利用数据模型模拟这种规律,以便应用于后续的临床决策中。然而它们忽略了医学指南和医学经验在用药决策上的重要性。
例如,一种在中国专利文献上公开的“一种基于R-CNN-GA的抗乳腺癌候选药物分类预测方法”,其公告号CN114627978A,包括:基于RFE和RF的主特征提取,提取原始数据中对生物活性影响重要性最强的主要特征;基于CNN_FC的ERα生物活性的定量预测方法,通过选取主要的特征变量来预测化合物对应的IC50和PIC50值;基于CNN_FC的多标签分类预测方法,对数据中化合物的Caco-2、CYP3A4、hERG、HOB、MN特性进行分类预测;以及基于遗传算法的多目标优化模型,优化选取有益的特征变量及其最优取值范围。该方案没有考虑到医学指南和医学经验在用药决策上的重要性;未全面纳入乳腺癌患者用药相关的临床信息,所选取的生物样本局限于肿瘤穿刺或手术样本,难以全面体现肿瘤的结构和病理特征,模型分类的对象为化合物,从化合物到临床药物尚有很长的一段距离,难以直接用于指导临床决策。
既往决策系统未纳入医学指南和医生的先验经验。它们忽略了医学指南和医学经验在用药决策上的重要性,由于乳腺癌的高度异质性,通过完全遵守医学指南或完全依赖医生经验的决策所沉淀下来的临床用药数据,其准确性和科学性存疑。相比之下,兼顾医学指南和医生经验往往能获得更准确的治疗结果,而这些先验的知识是传统医学预测模型较少考虑的,特别是在乳腺癌的用药决策上。
作为多分类任务,需要大量的样本采集来保证模型的准确性,由于临床肿瘤病例收集困难和高质量数据采集难度大等问题的制约,大规模的数据采集不现实。
发明内容
本发明主要解决以基因突变为精准治疗主要手段的乳腺癌患者用药获益率低,缺乏能良好体现肿瘤药物反应的数据源模型,以及决策系统未纳入医学指南和医生的先验经验的问题;提供一种基于预测模型的乳腺癌药物方案的预测方法及装置,以乳腺癌患者肿瘤类器官药敏检测和临床资料作为输入,以融合了临床指南和医生经验的用药选择作为输出,利用TAN(树增强型朴素贝叶斯)算法建立预测模式,实现乳腺癌患者的精准用药决策。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于预测模型的乳腺癌药物方案的预测方法,包括以下步骤:
S1:分别采集与乳腺癌临床用药决策相关的受检者临床信息、肿瘤类器官药敏检测数据以及采集受检者的给药信息,分析用药的先验分布;
S2:以采集的受检者临床信息和肿瘤类器官药敏检测数据作为输入,以给药信息的药物类别作为输出,采用随机森林算法度量每个特征对药物类别的重要性程度进行特征选取;
S3:以随机森林算法选取的特征作为输入,以乳腺癌的药物名称为输出,利用TAN模型建立乳腺癌药物选取的预测模型;
S4:利用训练好的预测模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
本方案采用乳腺癌类器官药敏试验的数据指标联合临床数据建立用药方案预测的模型。利用乳腺癌类器官技术获取预测指标,高度模拟了肿瘤组织的生理和病理特性;联合临床数据建模,弥补了乳腺癌患者表观差异带来的用药差异,丰富了用药的决策维度,高度还原了真实临床诊疗流程。利用TAN算法建立了乳腺癌用药方案预测模型。在少量样本的前提下充分利用指南和医生的先验经验,结合结构化的训练数据,达到很好的乳腺癌用药决策的准确性。
作为优选,所述的受检测临床信息包括临床指标和病历信息;
所述的临床指标包括:血常规、血凝、血气分析、尿常规、肝肾功能电解质、血液免疫指标、肿瘤标记物和基因突变情况;
所述的病历信息包括:受检者的性别、年龄、首发症状、并发症、合并症、体检指标和既往治疗史。
受检者的临床指标可以通过受检者在接受肿瘤样本采集前进行的检查获得。病历信息可以从受检者的病历中获取。
作为优选,所述的药敏检测数据包括受检者的样本信息和药敏相关指标;
所述的受检者的样本信息包括:收样时间、开始检测时间、结束检测时间、肿瘤类型、分化程度、组织学分型、样本来源、样本形态和样本大小;
所述的受检验者的药敏相关指标包括:检测药物、药物最大浓度、药物最低浓度、半抑制浓度、浓度抑制曲线下面积、浓度抑制曲线坡度和半有效浓度。
作为优选,所述的给药信息包括单药和药物组合;
单药方案包括:卡培他滨、奥拉帕利、紫杉醇、艾立布林、长春瑞滨、吉西他滨;
联合用药方案包括:TCbHP方案、THP方案、TCbH方案、TAC方案、AT方案、AC方案、AT-NP方案和TP方案。
作为优选,用药的先验分布分析过程为:
根据指南,梳理病例诊疗信息,挑选出符合任意一种指南的乳腺癌患者,明确用药方案;
结合若干名高年资医学专家的经验,通过阅读病历的方式,确定符合高年资医学专家用药经验的乳腺癌患者,梳理受检者的治疗方案;
以RECIST标准为药物疗效的评估标准,筛选在给到明确药物方案后,在治疗周期内肿瘤完全缓解或部分缓解的受检者作为分析对象;确定乳腺癌患者用药的先验分布。
纳入医学指南和医生的先验经验,提高乳腺癌用药决策的准确性。
作为优选,特征选取的过程为:
A1:对于随机森林中已生成的每一棵决策树
Figure 100002_DEST_PATH_IMAGE002
,使用对应的最小袋外数据
Figure 100002_DEST_PATH_IMAGE004
计算准确率
Figure 100002_DEST_PATH_IMAGE006
A2:随机改变最小袋外数据
Figure 54743DEST_PATH_IMAGE004
在特征
Figure 100002_DEST_PATH_IMAGE008
的取值, 并计算
Figure 456906DEST_PATH_IMAGE002
对应的最小袋外数据
Figure 594626DEST_PATH_IMAGE004
的准确率
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE012
其中,noise为噪音;
A3:计算特征
Figure 978203DEST_PATH_IMAGE008
的重要性
Figure 100002_DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE016
其中,其中,
Figure 388325DEST_PATH_IMAGE006
为第k个变量的原始准确率;
Figure 594178DEST_PATH_IMAGE010
为第k个变量加入噪声后的准确率;
k为变量编号;K为变量总量;
A4:从当前特征空间剔除不重要的特征得到新的特征子集, 在新特征子集上构建随机森林C*(.) , 得到新特征子集对应随机森林的OOB误差率;
A5:重复步骤A1~A4,直至剩余两个特征,依据最小OOB误差率准则确定最终特征子空间。
通过随机森林算法识别并消除数据集中不重要的特征,提取出关键特征,在保证TAN模型分类准确度的前提下,有效的简化了TAN模型的计算复杂度和结构复杂度。
作为优选,所述的预测模型建立过程为:
B1:计算每个属性对之间的条件互信息;
B2:构造完全无向图;所述的完全无向图的顶点为属性特征,以条件互信息为属性对之间弧的权值;
B3:利用最大加权生成树算法建立一个跨度树,获得m-1条加权值和最大的边,并消除其它边;
B4:确定属性特征为根结点,并用有向边连接,获得一个有向图;
B5:在步骤B4的基础上将类变量C加入有向图中,并连结类变量C和根结点之间的弧, 构建一个TAN模型;其中,C为药物名称。
通过TAN模型能够在特定临床和药敏检测数据的前提下,输出不同药物的概率,来决定需要优先考虑的最佳药物或排名靠前的多种药物,帮助临床医生做乳腺癌治疗决策。
一种基于预测模型的乳腺癌药物方案的预测装置,包括:
第一数据获取单元,获取受检者临床信息;
第二数据获取单元,获取肿瘤类器官药敏检测数据;
模型运算单元,利用训练好的TAN模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
一种计算机设备,包括至少一个处理器以及至少一个存储器,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行基于预测模型的乳腺癌药物方案的预测方法。
一种计算机可读存储介质,存储有计算机程序,当所述存储介质中的程序指令由设备内的处理器执行时,使得所述设备能够执行上述的生成预测乳腺癌药物方案的预测模型的方法。
本发明的有益效果是:
1.采用乳腺癌类器官药敏试验的数据指标联合临床数据建立用药方案预测的模型。利用乳腺癌类器官技术获取预测指标,高度模拟了肿瘤组织的生理和病理特性;联合临床数据建模,弥补了乳腺癌患者表观差异带来的用药差异,丰富了用药的决策维度,高度还原了真实临床诊疗流程。
2. 利用TAN算法建立了乳腺癌用药方案预测模型。在少量样本的前提下充分利用指南和医生的先验经验,兼顾考虑特征之间的关联关系,结合结构化的训练数据,达到很好的乳腺癌用药决策的准确性。
附图说明
图1是本发明的基于预测模型的乳腺癌药物方案的预测方法流程图。
图2是本发明的基于预测模型的乳腺癌药物方案的预测装置连接框图。
图中,1.第一数据获取单元,2.第二数据获取单元,3.模型运算单元。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例一:
本实施例的一种基于预测模型的乳腺癌药物方案的预测方法,如图1所示,包括以下步骤:
S1:分别采集与乳腺癌用药决策相关的受检者临床信息、肿瘤类器官药敏检测数据以及采集受检者的给药信息。
(1)采集与乳腺癌用药决策相关的受检者临床信息。
本实施例中受检验者的临床信息包括受检者的临床指标和病历信息。
受检者的临床指标通过受检者在接受肿瘤样本采集前进行的检查获得。临床指标包括血常规、血凝、血气分析、尿常规、肝肾功能电解质、血液免疫指标、肿瘤标记物(CA153、CA125、CEA、CA199等)和基因突变情况(TP53、CDH1、CHEK2、ATM、c-myc、PIK3CA、NM23、PTEN、等)。
病历信息从受检者的病历中获取。具体地,病历信息包括受检者的性别、年龄、首发症状、并发症、合并症、体检指标和既往治疗史等。
(2)采集肿瘤类器官药敏检测数据。
本实施例中受检验者的肿瘤类器官药敏检测数据包括受检者的样本信息和药敏相关指标。
受检者的样本信息包括收样时间、开始检测时间、结束检测时间、肿瘤类型(原发灶、转移灶、复发灶)、分化程度(高分化、中分化、低分化)、组织学分型(原位癌、浸润性癌、浸润性导管癌、浸润性小叶癌、浸润性癌伴原位癌成分、髓样癌、分泌黏液的癌、恶性或交界性分叶状肿瘤等)、样本来源(手术、穿刺、胸腹水)、样本形态和样本大小。
受检者的药敏相关指标包括检测药物、药物最大浓度、药物最低浓度、IC50(半抑制浓度)、AUC(浓度抑制曲线下面积)、Hill slope(浓度抑制曲线坡度)和EC50(半有效浓度)。
采用肿瘤类器官药敏检测数据能够全面体现肿瘤的结构和病理特征。
(3)采集受检者的给药信息,探索乳腺癌用药的先验分布。
本实施例中受检者的给药信息包括了在类器官采样之后医生根据受检者病情开具的化疗药物名称,其中包含单药和药物组合。在真实临床病例中,依据临床指南和高年资医生的经验进行乳腺癌药物选择先验分布的确定。
指南包括CSCO(2021)乳腺癌指南和NCCN(2021)乳腺癌指南,梳理病例诊疗信息,挑选出符合任意一种指南的乳腺癌患者,明确用药方案;选择5名高年医生(乳腺癌诊疗经验>10年),结合高年资医学专家的经验,通过阅读病历的方式,确定符合高年资医生用药经验的乳腺癌患者(至少3名医生认可方案),梳理受检者的治疗方案。
以RECIST标准(实体瘤反应评价标准)为药物疗效的评估标准,筛选在给到明确药物方案后疗效良好(在治疗周期内肿瘤完全缓解或部分缓解)的受检者作为分析对象。通过上述方法确定乳腺癌患者用药的先验分布。
在本实施例中,乳腺癌单药方案包括卡培他滨、奥拉帕利、紫杉醇、艾立布林、长春瑞滨、吉西他滨。
联合用药方案包括TCbHP方案(多西他赛、卡铂、曲妥珠单抗、帕妥珠单抗)、THP方案(多西他赛、曲妥珠单抗、帕妥珠单抗)、TCbH方案(多西他赛、卡铂、曲妥珠单抗)、TAC方案(多西他赛、多柔比星、环磷酰胺)、AT方案(表柔比星、多西他赛)、AC方案(表柔比星、环磷酰胺、紫杉醇)、AT-NP方案(表柔比星、多西他赛、长春瑞滨、顺铂)、TP方案(紫杉醇、顺铂/卡铂)。
以临床药物作为分类对象,能够直接用于指导临床决策。
S2:以采集的受检者临床信息和肿瘤类器官药敏数检测据作为输入,以给药信息的药物类别作为输出,采用随机森林算法度量每个特征对药物类别的重要性程度进行特征选取。
随机森林算法通过度量每个特征对药物类别的重要性程度来对特征进行排序,最后依据最小袋外数据(Out of bad,OOB)误差率准则进行特征选择,确定最终进入到贝叶斯模型的特征组合。
通过对预测样本的特征添加某些噪声后,随机森林模型的预测准确率会下降,而发生的变化正体现了特征对模型的重要性。
在本实施例中,采用随机森林算法进行特征选择的过程为:
首先,对于随机森林中已生成的每一棵决策树,使用相应的OOB数据来计算它的准确率;
计算已建立分类器
Figure 586405DEST_PATH_IMAGE002
,在相应
Figure 734358DEST_PATH_IMAGE004
上的准确率
Figure 710404DEST_PATH_IMAGE006
随后,对OOB数据集中的任意某个特征
Figure 454370DEST_PATH_IMAGE008
(比如:IC50)随机加入干扰噪声,在此情况下再来计算OOB数据准确率;
随机改变最小袋外数据
Figure 566682DEST_PATH_IMAGE004
在特征
Figure 636269DEST_PATH_IMAGE008
的取值, 并计算
Figure 83300DEST_PATH_IMAGE002
对应的最小袋外数据
Figure 630956DEST_PATH_IMAGE004
的准确率
Figure 597775DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012A
其中,noise为噪音。
之后,计算特征
Figure 556373DEST_PATH_IMAGE008
的重要性度量值,即原始OOB准确率与加入噪声后的OOB准确率之差;
最后,重复上述步骤,计算出随机森林模型中所有决策树上相应特征
Figure DEST_PATH_IMAGE018
的重要性度量值,求出它们总和并取平均值,即是特征
Figure 444694DEST_PATH_IMAGE018
的原始重要性度量值。
计算特征
Figure 796041DEST_PATH_IMAGE008
的重要性
Figure 132213DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016A
其中,
Figure 481286DEST_PATH_IMAGE006
为第k个变量的原始准确率;
Figure 653642DEST_PATH_IMAGE010
为第k个变量加入噪声后的准确率;
k为变量编号;K为变量总量。
从当前特征空间剔除不重要的特征得到新的特征子集, 在新特征子集上构建随机森林C*(.) , 得到新特征子集对应随机森林的OOB误差率。
重复上述步骤,直至剩余两个特征,依据最小OOB误差率准则确定最终特征子空间。
在本实施例中,通过随机森林算法最终确定的优化预测模型的输入是患者年龄、CA153(糖类抗原15-3)、CA125(糖类抗原125)、既往化疗史、病理类型、分化程度、IC50、AUC、Hill slope。
也即,当以年龄、CA153、CA125、既往化疗史、病理类型、分化程度、IC50、AUC、Hillslope作为TAN分类模型的输入,乳腺癌药物名称作为输出时,TAN模型的参数和拟合精度可以为最优。
通过随机森林算法识别并消除数据集中不重要的特征,提取出关键特征,在保证TAN模型分类准确度的前提下,有效的简化了TAN模型的计算复杂度和结构复杂度。
S3:以随机森林算法选取的特征作为输入,以乳腺癌的药物名称为输出,利用TAN模型建立乳腺癌药物选取的预测模型。
TAN模型结构中会考虑特征属性间的关联依赖性,这是与朴素贝叶斯模型的最大不同之处,与实际的临床场景和数据特征更加贴合。TAN在朴素贝叶斯结构的基础上增加属性变量之间的关联(边)。
Figure DEST_PATH_IMAGE020
表示特征属性结点集,即经过随机森林筛选出的N个特征;C={C1,C2,…,CL}为类别结点,其中C作为根结点,即不同的药物名称。
TAN算法的具体流程如下:
计算每个属性对间的条件互信息。
Figure DEST_PATH_IMAGE022
其中,i≠j;
I是条件互信息;
i和j是变量编号;
C是药物名称。
②构造一个完全无向图,其中顶点是属性特征
Figure DEST_PATH_IMAGE024
,用
Figure DEST_PATH_IMAGE026
标志连接
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
之间弧的权值。
③利用最大加权生成树算法建立一个跨度树,即找出m-1条边且使得这些边权值和最大,然后再消除其它边。
④确定部分特征变量为根结点,并用有向边连接起来,则得到一个有向图。
⑤在步骤④的基础上,将类变量C加入有向图中,并连结类变量C和属性结点之间的弧, 构建一个TAN模型。
通过TAN模型能够在特定临床和药敏检测数据的前提下,输出不同药物的概率,来决定需要优先考虑的最佳药物或排名靠前的多种药物,帮助临床医生做乳腺癌治疗决策。
S4:利用训练好的预测模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
在本实施例中,通过上述步骤生成了乳腺癌药物方案选择的预测模型。将受验者的年龄、CA153(糖类抗原15-3)、CA125(糖类抗原125)、既往化疗史、病理类型、分化程度、IC50、AUC、Hill slope输入至预测模型,即可知悉该受检者需要采用哪种乳腺癌药物方案。
本实施例的方案采用乳腺癌类器官药敏试验的数据指标联合临床数据建立用药方案预测的模型。利用乳腺癌类器官技术获取预测指标,高度模拟了肿瘤组织的生理和病理特性;联合临床数据建模,弥补了乳腺癌患者表观差异带来的用药差异,丰富了用药的决策维度,高度还原了真实临床诊疗流程。利用TAN算法建立了乳腺癌用药方案预测模型。在少量样本的前提下充分利用指南和医生的先验经验,结合结构化的训练数据,达到很好的乳腺癌用药决策的准确性。
实施例二:
本实施例的一种基于预测模型的乳腺癌药物方案的预测装置,如图2所示,包括第一数据获取单元1、第二数据获取单元2和模型运算单元3。
第一数据获取单元1获取受检者临床信息,将受检者临床信息传输到模型运算单元3。
第二数据获取单元2获取肿瘤类器官药敏检测数据,将肿瘤类器官药敏检测数据传输到模型运算单元3。
模型运算单元3中存储有实施例一中所述的训练好的预测模型,模型运算单元3将第一数据获取单元1和第二数据获取单元2发送的数据通过内置的随机森林算法挑选后,利用训练好的TAN模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
实施例三:
一种计算机设备,包括至少一个处理器、以及至少一个存储器,其中,存储器存储有执行实施例一中预测方法的计算机程序,当程序被所述处理器执行时,使得处理器能够执行上述的生成预测乳腺癌药物方案的预测模型的方法。
实施例四:
一种计算机可读存储介质,存储有执行实施例一中预测方法的计算机程序,当存储介质中的程序指令由设备内的处理器执行时,使得设备能够执行基于预测模型的乳腺癌药物方案的预测方法。
应理解,实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,包括以下步骤:
S1:分别采集与乳腺癌临床用药决策相关的受检者临床信息、肿瘤类器官药敏检测数据以及采集受检者的给药信息,分析用药的先验分布;
S2:以采集的受检者临床信息和肿瘤类器官药敏检测数据作为输入,以给药信息的药物类别作为输出,采用随机森林算法度量每个特征对药物类别的重要性程度进行特征选取;
S3:以随机森林算法选取的特征作为输入,以乳腺癌的药物名称为输出,利用TAN模型建立乳腺癌药物选取的预测模型;
S4:利用训练好的预测模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
2.根据权利要求1所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,所述的受检测临床信息包括临床指标和病历信息;
所述的临床指标包括:血常规、血凝、血气分析、尿常规、肝肾功能电解质、血液免疫指标、肿瘤标记物和基因突变情况;
所述的病历信息包括:受检者的性别、年龄、首发症状、并发症、合并症、体检指标和既往治疗史。
3.根据权利要求1所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,所述的药敏检测数据包括受检者的样本信息和药敏相关指标;
所述的受检者的样本信息包括:收样时间、开始检测时间、结束检测时间、肿瘤类型、分化程度、组织学分型、样本来源、样本形态和样本大小;
所述的受检验者的药敏相关指标包括:检测药物、药物最大浓度、药物最低浓度、半抑制浓度、浓度抑制曲线下面积、浓度抑制曲线坡度和半有效浓度。
4.根据权利要求1所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,所述的给药信息包括单药和药物组合;
单药方案包括:卡培他滨、奥拉帕利、紫杉醇、艾立布林、长春瑞滨、吉西他滨;
联合用药方案包括:TCbHP方案、THP方案、TCbH方案、TAC方案、AT方案、AC方案、AT-NP方案和TP方案。
5.根据权利要求1或2或3或4所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,用药的先验分布分析过程为:
根据指南,梳理病例诊疗信息,挑选出符合任意一种指南的乳腺癌患者,明确用药方案;
结合若干名高年资医学专家的经验,通过阅读病历的方式,确定符合高年资医学专家用药经验的乳腺癌患者,梳理受检者的治疗方案;
以RECIST标准为药物疗效的评估标准,筛选在给到明确药物方案后,在治疗周期内肿瘤完全缓解或部分缓解的受检者作为分析对象;确定乳腺癌患者用药的先验分布。
6.根据权利要求1所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,特征选取的过程为:
A1:对于随机森林中已生成的每一棵决策树
Figure DEST_PATH_IMAGE002
,使用对应的最小袋外数据
Figure DEST_PATH_IMAGE004
计算准确率
Figure DEST_PATH_IMAGE006
A2:随机改变最小袋外数据
Figure 660839DEST_PATH_IMAGE004
在特征
Figure DEST_PATH_IMAGE008
的取值, 并计算
Figure 781242DEST_PATH_IMAGE002
对应的最小袋外数据
Figure 29821DEST_PATH_IMAGE004
的准确率
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
其中,noise为噪音;
A3:计算特征
Figure 549664DEST_PATH_IMAGE008
的重要性
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
其中,其中,
Figure 754249DEST_PATH_IMAGE006
为第k个变量的原始准确率;
Figure 45553DEST_PATH_IMAGE010
为第k个变量加入噪声后的准确率;
k为变量编号;K为变量总量;
A4:从当前特征空间剔除不重要的特征得到新的特征子集, 在新特征子集上构建随机森林C*(.) , 得到新特征子集对应随机森林的OOB误差率;
A5:重复步骤A1~A4,直至剩余两个特征,依据最小OOB误差率准则确定最终特征子空间。
7.根据权利要求1或6所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,所述的预测模型建立过程为:
B1:计算每个属性对之间的条件互信息;
B2:构造完全无向图;所述的完全无向图的顶点为属性特征,以条件互信息为属性对之间弧的权值;
B3:利用最大加权生成树算法建立一个跨度树,获得m-1条加权值和最大的边,并消除其它边;
B4:确定属性特征为根结点,并用有向边连接,获得一个有向图;
B5:在步骤B4的基础上将类变量C加入有向图中,并连结类变量C和根结点之间的弧,构建一个TAN模型;其中,C为药物名称。
8.一种基于预测模型的乳腺癌药物方案的预测装置,执行如权利要求1~7中任意一项所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,包括:
第一数据获取单元,获取受检者临床信息;
第二数据获取单元,获取肿瘤类器官药敏检测数据;
模型运算单元,利用训练好的TAN模型计算输入的临床信息和药敏检测数据,得到乳腺癌不同药物方案的选择概率。
9.一种计算机设备,执行如权利要求1~7中任意一项所述的一种基于预测模型的乳腺癌药物方案的预测方法,其特征在于,包括至少一个处理器以及至少一个存储器,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行基于预测模型的乳腺癌药物方案的预测方法。
10.一种计算机可读存储介质,存储有如权利要求1~7中任意一项所述的一种基于预测模型的乳腺癌药物方案的预测方法的计算机程序,其特征在于,当所述存储介质中的程序指令由设备内的处理器执行时,使得所述设备能够执行基于预测模型的乳腺癌药物方案的预测方法。
CN202211314509.4A 2022-10-26 2022-10-26 一种基于预测模型的乳腺癌药物方案的预测方法及装置 Active CN115376706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211314509.4A CN115376706B (zh) 2022-10-26 2022-10-26 一种基于预测模型的乳腺癌药物方案的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211314509.4A CN115376706B (zh) 2022-10-26 2022-10-26 一种基于预测模型的乳腺癌药物方案的预测方法及装置

Publications (2)

Publication Number Publication Date
CN115376706A true CN115376706A (zh) 2022-11-22
CN115376706B CN115376706B (zh) 2023-04-07

Family

ID=84073371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211314509.4A Active CN115376706B (zh) 2022-10-26 2022-10-26 一种基于预测模型的乳腺癌药物方案的预测方法及装置

Country Status (1)

Country Link
CN (1) CN115376706B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543866A (zh) * 2023-03-27 2023-08-04 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法
CN117079716A (zh) * 2023-09-13 2023-11-17 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法
CN118016313A (zh) * 2024-04-08 2024-05-10 北京大学第三医院(北京大学第三临床医学院) 一种前列腺神经内分泌癌预测模型的训练方法
CN118039070A (zh) * 2024-04-11 2024-05-14 四川省肿瘤医院 一种用于介入手术的临床护理系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060275844A1 (en) * 2005-04-19 2006-12-07 Linke Steven P Diagnostic markers of breast cancer treatment and progression and methods of use thereof
CN111696678A (zh) * 2020-06-15 2020-09-22 中南大学 一种基于深度学习的用药决策方法和系统
CN112176021A (zh) * 2020-10-13 2021-01-05 普罗布诺(重庆)生物技术有限公司 一种体外构建的精准预测癌症患者用药的方法
CN112725279A (zh) * 2020-12-31 2021-04-30 纳肽得(青岛)生物医药有限公司 一种基于肿瘤类器官模型的药敏检测和标准建立方法以及微流控芯片结构的应用
US20210193332A1 (en) * 2019-12-18 2021-06-24 Optimdosing Llc Smart dosing for cancer therapy
WO2021247905A1 (en) * 2020-06-04 2021-12-09 Xcures, Inc. Methods and systems for precision oncology using a multilevel bayesian model
CN113889219A (zh) * 2021-10-29 2022-01-04 华中科技大学 一种用于慢性阻塞性肺疾病的药物推荐方法及系统
CN114613512A (zh) * 2022-03-01 2022-06-10 武汉工程大学 一种抗乳腺癌候选药物筛选方法、装置、设备及存储介质
CN114649094A (zh) * 2022-03-30 2022-06-21 广东省人民医院 一种基于核磁共振的乳腺癌多参数临床决策辅助装置
CN114974552A (zh) * 2021-02-19 2022-08-30 湖南省肿瘤医院 一种建立乳腺癌早期筛查模型的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060275844A1 (en) * 2005-04-19 2006-12-07 Linke Steven P Diagnostic markers of breast cancer treatment and progression and methods of use thereof
US20210193332A1 (en) * 2019-12-18 2021-06-24 Optimdosing Llc Smart dosing for cancer therapy
WO2021247905A1 (en) * 2020-06-04 2021-12-09 Xcures, Inc. Methods and systems for precision oncology using a multilevel bayesian model
CN111696678A (zh) * 2020-06-15 2020-09-22 中南大学 一种基于深度学习的用药决策方法和系统
CN112176021A (zh) * 2020-10-13 2021-01-05 普罗布诺(重庆)生物技术有限公司 一种体外构建的精准预测癌症患者用药的方法
CN112725279A (zh) * 2020-12-31 2021-04-30 纳肽得(青岛)生物医药有限公司 一种基于肿瘤类器官模型的药敏检测和标准建立方法以及微流控芯片结构的应用
CN114974552A (zh) * 2021-02-19 2022-08-30 湖南省肿瘤医院 一种建立乳腺癌早期筛查模型的方法
CN113889219A (zh) * 2021-10-29 2022-01-04 华中科技大学 一种用于慢性阻塞性肺疾病的药物推荐方法及系统
CN114613512A (zh) * 2022-03-01 2022-06-10 武汉工程大学 一种抗乳腺癌候选药物筛选方法、装置、设备及存储介质
CN114649094A (zh) * 2022-03-30 2022-06-21 广东省人民医院 一种基于核磁共振的乳腺癌多参数临床决策辅助装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
焦慧等: "乳腺癌类器官研究进展及临床应用前景", 《中国组织工程研究》 *
赵冰: "肿瘤类器官诊治平台的质量控制标准中国专家共识", 《中国癌症杂志》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543866A (zh) * 2023-03-27 2023-08-04 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法
CN116543866B (zh) * 2023-03-27 2023-12-19 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法
CN117079716A (zh) * 2023-09-13 2023-11-17 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法
CN117079716B (zh) * 2023-09-13 2024-04-05 江苏运动健康研究院 一种基于基因检测的肿瘤用药方案的深度学习预测方法
CN118016313A (zh) * 2024-04-08 2024-05-10 北京大学第三医院(北京大学第三临床医学院) 一种前列腺神经内分泌癌预测模型的训练方法
CN118039070A (zh) * 2024-04-11 2024-05-14 四川省肿瘤医院 一种用于介入手术的临床护理系统

Also Published As

Publication number Publication date
CN115376706B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115376706B (zh) 一种基于预测模型的乳腺癌药物方案的预测方法及装置
Osman et al. An effective of ensemble boosting learning method for breast cancer virtual screening using neural network model
Zhang et al. Deep learning based analysis of breast cancer using advanced ensemble classifier and linear discriminant analysis
Kumar et al. Effective analysis and diagnosis of liver disorder by data mining
Khajehei et al. Data mining and medical research studies
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN118380160B (zh) 基于大数据的口腔癌病历数据分析方法
CN112768060A (zh) 基于随机生存森林的肝癌术后复发预测方法、存储介质
Datta et al. A machine learning approach for non-invasive diagnosis of metabolic syndrome
CN115602327A (zh) 一种肺结节发生肺癌风险的预测模型的构建方法
Reddy et al. Intelligent deep learning algorithm for lung cancer detection and classification
Ramasamy et al. An improved deep convolutionary neural network for bone marrow cancer detection using image processing
Wang et al. Survival risk prediction model for ESCC based on relief feature selection and CNN
Qi et al. Prediction methods of common cancers in China using PCA-ANN and DBN-ELM-BP
Alzboon et al. A Comparative Study of Machine Learning Techniques for Early Prediction of Prostate Cancer
Kore et al. A bibliometric approach to track research trends in computer-aided early detection of cancer using biomedical imaging techniques
Ghanem et al. Deep learning approaches for glioblastoma prognosis in resource-limited settings: A study using basic patient demographic, clinical, and surgical inputs
Chen et al. Classification and Progression Based on CFS‐GA and C5. 0 Boost Decision Tree of TCM Zheng in Chronic Hepatitis B
Safia Prediction of breast cancer through Random Forest
Alfallah A Two-Stage SACI-Based Feature Selection and Classification Method for Dimensionality Reduction in Breast Cancer Diagnosis and Recurrence
Dodda et al. Pancreatic Cancer Detection Through Hyperparameter Tuning and Ensemble Methods.
Shanthi A survey on non-small cell lung cancer prediction using machine learning methods
Singh et al. Bio-inspired swarm-intelligent with machine learning framework for prediction and classification of lung cancer
Mohammed et al. Important Features Identification for Prostate Cancer Patients Stratification Using Isolation Forest and Interactive Clustering Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant