CN118016313A

CN118016313A - 一种前列腺神经内分泌癌预测模型的训练方法

Info

Publication number: CN118016313A
Application number: CN202410410660.0A
Authority: CN
Inventors: 卢剑; 王凯; 徐赞美; 陈丽娟; 庞菲; 郝庆; 陆皓东; 何继德
Original assignee: Origimed Technology Shanghai Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Origimed Technology Shanghai Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2024-04-08
Filing date: 2024-04-08
Publication date: 2024-05-10

Abstract

本发明涉及一种前列腺神经内分泌癌预测模型的训练方法，属于医疗信息处理技术领域，解决了现有技术中无法快速无创进行前列腺神经内分泌癌预测的问题。方法包括以下步骤：获取患者的临床数据，所述临床数据包括药物疗效；所述患者包括前列腺神经内分泌癌患者和其他病理类型的前列腺癌患者；对患者的血液进行活检得到患者的肿瘤分子特征数据；基于所述临床数据和肿瘤分子特征数据构建训练样本集；构建人工智能模型，基于所述训练样本集对构建的人工智能模型进行训练，得到训练好的前列腺神经内分泌癌预测模型。得到快速无创预测前列腺神经内分泌癌的预测模型。

Description

一种前列腺神经内分泌癌预测模型的训练方法

技术领域

本发明涉及医疗信息处理技术领域，尤其涉及一种前列腺神经内分泌癌预测模型的训练方法。

背景技术

神经内分泌前列腺癌（neuroendocrine prostate，cancer，NEPC）是前列腺癌的一种具有高度侵袭性的组织学亚型，初诊时NEPC（原发性NEPC）极少见，约占2%。在11%～17%接受过激素治疗的前列腺腺癌患者中可观察到NEPC。NEPC常常发生在长期接受雄激素剥夺治疗(Androgen depr ivat ion treatment，ADT)后。

NEPC常常不伴有血清前列腺特异抗原（Prostate specific antigen，PSA）升高，影像学表现也无明显特异性，其诊断比较困难。而前列腺癌合并神经内分泌分化，因其同时存在典型的前列腺癌，其临床症状、实验室检查及影像学检查等均与单纯的前列腺癌相似，确诊有赖于病理检查(穿刺为主)发现神经内分泌分化细胞存在。

NEPC的病理诊断应该包括神经内分泌细胞形态学上的鉴定和神经内分泌分子标志物的监测，对于疾病快速进展但PSA并未明显上升的患者，尤其在合并内脏转移的情况下，应重点怀疑NEPC，并建议必要时进行病灶组织二次活检。但是病理诊断具有创伤性、二次活检、步骤多、监测周期长、需要有经验的病理医师等限制。这种情况比较依赖医生的经验，并且二次活检过程繁琐。上述的情况，容易导致无法诊断或者误诊或者延迟诊断。如果延迟诊断，临床无法及时调整治疗方案，延误有效的治疗。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种前列腺神经内分泌癌预测模型的训练方法，用以解决现有无法快速无创进行前列腺神经内分泌癌预测的问题。

一方面，本发明实施例提供了一种前列腺神经内分泌癌预测模型的训练方法，包括以下步骤：

获取患者的临床数据，所述临床数据包括药物疗效；所述患者包括前列腺神经内分泌癌患者和其他病理类型的前列腺癌患者；

对患者的血液进行检测得到患者的肿瘤分子特征数据；基于所述临床数据和肿瘤分子特征数据构建训练样本集；

构建人工智能模型，基于所述训练样本集对构建的人工智能模型进行训练，得到训练好的前列腺神经内分泌癌预测模型。

基于上述方法的进一步改进，基于所述临床数据和肿瘤分子特征数据构建训练样本集，包括：

将所述临床数据和肿瘤分子特征数据的每一项作为初始特征项；计算每项初始特征项的综合影响度；

选择综合影响度高的初始特征项作为最终特征项，构建训练样本集。

基于上述方法的进一步改进，采用以下方式计算每项初始特征项的综合影响度：

计算每项初始特征项与药物疗效间的相关系数作为相关度；

基于患者的临床数据和分子特征数据计算每项初始特征项的完整度；

计算每项初始特征项的理论影响度；

基于每项初始特征项对应的相关度、完整度和理论影响度得到每项初始特征项的综合影响度。

基于上述方法的进一步改进，采用以下公式计算第j个初始特征项的完整度：

；

其中，表示在最初获取的样本数据中，第j个初始特征项对应的数据不为空的样本的数量，N表示样本的总数量，α表示调节因子，为负数，/>表示第j个初始特征项的完整度。

基于上述方法的进一步改进，采用以下公式计算第j个初始特征项的理论影响度：

；

其中，表示公开第j个特征项和前列腺神经内分泌癌相关的文献的最高影响因子，γ表示调节因子，为负数，β表示参数，/>表示第j个初始特征项的理论影响度。

基于上述方法的进一步改进，采用以下公式计算每项初始特征项的综合影响度：

；

其中，表示第j个初始特征项的相关度，/>表示相关度的权重，/>表示第j个初始特征项的完整度，/>表示完整度的权重，/>表示第j个初始特征项的理论影响度，/>表示理论影响度的权重，/>表示第j个初始特征项的综合影响度。

基于上述方法的进一步改进，对患者的血液进行活检得到患者的肿瘤分子特征数据，包括：

对患者的血液进行循环肿瘤细胞富集得到循环肿瘤细胞富集样本；

对所述循环肿瘤细胞富集样本进行前列腺神经内分泌癌相关的目标蛋白的检测得到目标蛋白的蛋白表达水平及目标蛋白对应基因的表达水平；

对所述循环肿瘤细胞富集样本进行单细胞分离，对分离后的单细胞进行基因测序得到患者的基因变异特征数据；

所述目标蛋白的蛋白表达水平、目标蛋白对应基因的表达水平及基因变异特征数据构成患者的肿瘤分子特征数据。

基于上述方法的进一步改进，所述目标蛋白，包括：

雄激素受体变异体7、前列腺特异抗原、Delta样配体3、神经元特异性烯醇化酶、嗜铬粒蛋白A、突触素蛋白、嗜铬素A、突触素、神经细胞黏附分子CD56、基底细胞标志物P63、细胞增殖标志物Ki-67、甲基酰基辅酶A外消旋酶、前列腺酸性磷酸酶和雄激素受体。

基于上述方法的进一步改进，对分离后的单细胞进行基因测序得到患者的基因变异特征数据，包括：

采用高通量测序技术对分离后的单细胞进行基因测序；

基于基因测序结果得到基因变异特征数据；

所述基因变异特征数据包括：基因名、基因转录本、变异类型、变异临床意义类型、变异所在染色体号、染色体起始位置、染色体终止位置、变异频率、基因拷贝数以及肿瘤突变负荷。

基于上述方法的进一步改进，所述患者的临床数据还包括患者的年龄、分期数、前期药物方案、前期药物类型和前期用药周期。

与现有技术相比，通过对患者的血液进行活检得到患者的肿瘤分子特征数据，基于临床数据和肿瘤分子特征数据构建训练样本集来训练人工智能模型，基于训练好的前列腺神经内分泌癌预测模型可快速进行前列腺神经内分泌癌的预测，并且对患者无创，异质性小，预测准确性高；同时，样本容易获取，血液能反复取样而对患者伤害很小。本发明采用的方法对临床医生和病理医师的经验依赖性相对较小，训练好的前列腺神经内分泌癌预测模型可作为有效的补充或者初筛或者辅助诊断手段，尤其对于拒绝或无法进行活检的患者以及需要二次或多次活检的患者非常适用。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例前列腺神经内分泌癌预测模型的训练方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明考虑前列腺癌抗雄激素治疗诱导的治疗相关NEPC（treatment-emergentneuroendocrine prostate cancer，t-NEPC）。2016年世界卫生组织（WHO）对NEPC的组织病理学进行了分类，包括神经内分泌分化的前列腺腺泡腺癌、腺癌伴潘氏细胞样神经内分泌分化、高分化神经内分泌肿瘤和低分化神经内分泌肿瘤（包括小细胞神经内分泌癌SCNC和大细胞神经内分泌癌LCNC）。NEPC特征性的表现是雄激素受体和PSA等前列腺特异性标志物表达下降，而CHGA和NSE等神经相关标志物表达升高。

基于此，本发明的一个具体实施例，公开了一种前列腺神经内分泌癌预测模型的训练方法，如图1所示，包括以下步骤：

S1、获取患者的临床数据，所述临床数据包括药物疗效；所述患者包括前列腺神经内分泌癌患者和其他病理类型的前列腺癌患者；

S2、对患者的血液进行活检得到患者的肿瘤分子特征数据；基于所述临床数据和肿瘤分子特征数据构建训练样本集；

S3、构建人工智能模型，基于所述训练样本集对构建的人工智能模型进行训练，得到训练好的前列腺神经内分泌癌预测模型。

实施时，患者为前列腺癌患者。采用循环肿瘤细胞检测对患者的血液进行活检。药物疗效包括完全缓解（CR）、部分缓解（PR）、疾病稳定（SD）和疾病进展（PD）四种类型。

与现有技术相比，本实施例提供的前列腺神经内分泌癌预测模型的训练方法，通过对患者的血液进行活检得到患者的细胞分子特征数据，基于临床数据和肿瘤分子特征数据构建训练样本集来训练人工智能模型，基于训练好的前列腺神经内分泌癌预测模型可快速进行前列腺神经内分泌癌的预测，并且对患者的无创伤，异质性小，预测准确性高；同时，样本容易获取，血液能反复取样而对患者伤害很小。本发明采用的方法对临床医生和病理医师的经验依赖性相对较小，训练好的前列腺神经内分泌癌预测模型可作为有效的补充或者初筛或者辅助诊断手段。

实施时，首先收集患者的临床数据，患者为前列腺癌患者，包括NEPC和其他肿瘤类型的前列腺癌。

实施时，患者的临床数据还包括患者的年龄、分期、前期药物方案、前期药物类型和前期用药周期。

需要说明的是，分期采用的AJCC预后分组肿瘤分期，使用大写字母I，II，III，IV，复发和远处转移为IV。

因此，实施时，患者的前期药物方案为临床指南标准推荐的治疗方案。前期药物类型包括抗雄激素治疗、化疗、放疗、免疫治疗等类型。前期治疗方案、用药类型和周期都是可能影响患者疾病发展为NEPC的因素。

具体的，对患者的血液进行活检得到患者的肿瘤分子特征数据，包括：

S21、对患者的血液进行循环肿瘤细胞富集得到循环肿瘤细胞富集样本；

S22、对所述循环肿瘤细胞富集样本进行前列腺神经内分泌癌相关的目标蛋白的检测得到目标蛋白的蛋白表达水平及目标蛋白对应基因的表达水平；

S23、对所述循环肿瘤细胞富集样本进行单细胞分离，对分离后的单细胞进行基因测序得到患者的基因变异特征数据；

S24、所述目标蛋白的蛋白表达水平、目标蛋白对应基因的表达水平及基因变异特征数据构成患者的肿瘤分子特征数据。

实施时，采集患者血液15-20ml用采血保存管保存，然后采用循环肿瘤细胞检测试剂盒进行循环肿瘤细胞富集，得到CTC富集样本。

循环肿瘤细胞（Circulating Tumor Cell，CTC），是由肿瘤原发灶或转移灶脱落进入血液循环系统的肿瘤细胞。由于CTC非常稀少，因此需要对CTC进行富集，得到CTC富集样本。之后，对得到的CTC富集样本进行前列腺神经内分泌癌相关的目标蛋白的检测。通过CTC富集得到肿瘤细胞提高后续进行检测准确性。

具体的，目标蛋白包括：

雄激素受体变异体7（AR-V7）是雄激素受体（AR）的一个剪接变异体，它在某些形式的前列腺癌中表达，特别是在对抗雄激素治疗（ADT）产生抵抗的患者中。AR-V7的存在可能与治疗失败和疾病进展有关。因此，检测AR-V7的蛋白表达水平或mRNA表达水平可以帮助预测患者对特定药物疗效的反应，并可能指导个性化治疗方案的选择。因此，通过检测AR-V7的蛋白表达水平和对应基因的表达水平有助于NEPC的检测。

虽然前列腺特异抗原（Prostate specific antigen，PSA）通常与前列腺腺癌相关，但在NEPC中，PSA的表达可能会降低，检测PSA的表达水平有助于区分NEPC与其他类型的前列腺癌。

Delta样配体3（DLL3）在某些神经内分泌肿瘤中过表达，可能与疾病的侵袭性和预后有关，因此检测DLL3的表达水平有助于检测NEPC。神经元特异性烯醇化酶（NSE）、嗜铬粒蛋白A（Chromogranin A，CHGA）和突触素蛋白（Synaptophysin）是神经内分泌标志物，它们的表达水平在NEPC中通常升高，有助于诊断和区分NEPC

嗜铬素A(CgA)、突触素(SYP)和神经细胞黏附分子CD56是神经内分泌标志物，这些标志物的阳性表达表明肿瘤细胞具有神经内分泌特性，有助于判断是否是NPEC。

基底细胞标志物P63通常在前列腺癌的基底细胞中表达，NEPC中通常阴性，因此，检测P63有助于判断是否是NPEC。

细胞增殖标志物Ki-67是细胞增殖的指标，NEPC通常表现为高增殖指数，但Ki-67阴性可能表明较低的增殖活性，因此，检测Ki-67有助于判断是否是NPEC。

甲基酰基辅酶A外消旋酶AMACR在某些前列腺癌中表达阳性，有助于与其他类型的前列腺疾病区分。

NEPC中AR表达通常为阴性，这与前列腺癌的其他类型不同，有助于与其他类型的前列腺疾病进行区分。

实施时，对CTC富集样本进行前列腺神经内分泌癌相关的目标蛋白的检测得到目标蛋白的蛋白表达水平及目标蛋白对应基因的表达水平，包括：

S221、对所述CTC富集样本采用多重PCR方法检测得到目标蛋白对应基因的表达水平；

S222、对所述CTC富集样本进行免疫组化染色检测得到目标蛋白的蛋白表达水平。

通过免疫组化染色检测提取蛋白层面的分子特征，通过PCR检测提取RNA层面的分子特征，再结合DNA层面的基因变异特征，从而更全面分析NEPC相关的分子特征，为精准诊断提供关键信息。

检测得到目标蛋白的蛋白表达水平及目标蛋白对应基因的表达水平后，对所述CTC富集进行单细胞分离，对分离后的CTC单细胞进行基因测序得到患者的基因变异特征数据。实施时，可采用多重退火循环扩增法(Multiple Annealing and Looping BasedAmplification Cycles，MALBAC)技术或DEPArray 技术进行CTC单细胞分离。

对分离后的单细胞进行基因测序，由于是直接对肿瘤单细胞进行基因测序，从而得到在DNA层面更准确的基因变异特征数据，为后续准确训练模型提供数据基础。

具体的，对分离后的单细胞进行基因测序得到患者的基因变异特征数据，包括：

S231、采用高通量测序技术对分离后的单细胞进行基因测序；

S232、基于基因测序结果得到基因变异特征数据；

具体的，基因RB1、TP53和PTEN表达的缺失以及基因MYCN、 AURKA和DLL3的扩增是NEPC分化的关键驱动因素（PMID: 37455903）。这些变异有助于了解NEPC的分子机制，并可能揭示新的治疗靶点。

因此，提取基因RB1、TP53、PTEN、MYCN和AURKA的基因名、基因转录本、变异类型、变异临床意义类型、变异所在染色体号、染色体起始位置、染色体终止位置、变异频率和基因拷贝数，构成基因变异特征数据。

其中，变异临床意义类型包括肿瘤相关变异、临床意义尚不明确的变异、以及和药物治疗相关的核苷酸多态性。通过高通量测序技术(Next-generation sequencing, NGS)，可得到变异临床意义类型。

实施时，可采用Roche/454 FLX、Illumina/Solexa Genome Analyzer或AppliedBiosystems SOLID system等测序平台进行高通量测序。

肿瘤突变负荷（Tumor Mutational Burden，简称TMB）是指在肿瘤细胞的基因组中，非遗传性的突变（包括替换、插入或缺失）的总数。用于评估肿瘤细胞中的总体突变负荷。高TMB通常与肿瘤中新抗原的产生有关，这些新抗原可能会被免疫系统识别，从而影响患者对免疫治疗的反应。因此，TMB被认为是预测肿瘤对免疫检查点抑制剂治疗反应的生物标志之一。因此，将样本的TMB也作为基因变异特征数据。

目标蛋白表达水平、目标蛋白对应基因的表达水平及基因变异特征数据构成患者的肿瘤分子特征数据。

基于所述临床数据和肿瘤分子特征数据构建训练样本集，包括：

S251、将所述临床数据和肿瘤分子特征数据的每一项作为初始特征项；计算每项初始特征项的综合影响度；

S252、选择综合影响度高的初始特征项作为最终特征项，构建训练样本集。

实施时，患者的临床数据和肿瘤分子特征数据整合在一起，每一行代表一个患者，每一列代表一个项特征，临床数据和肿瘤分子特征数据的每一项项作为初始特征项，一行数据即为一个样本。

为了便于计算，对每项数据进行编码，对于分类型特征项，根据类型数量将每种类型转化为对应的数值化元素，例如药物疗效包括完全缓解（CR）、部分缓解（PR）、疾病稳定（SD）和疾病进展（PD）四种类型，则CR对应数据值0，PR对应数值为1，SD对应数值为2，PD对应数值为3。对于数值型变量，例如等位基因频率，直接采用该数据。

由于初始特征项较多，为了提高效率及模型的预测准确度，对初始特征项进行筛选，得到用于训练模型的最终特征项。

具体的，采用以下方式计算每项初始特征项的综合影响度：

S2511、计算每项初始特征项与药物疗效间的相关系数作为相关度；

S2512、基于患者的临床数据和肿瘤分子特征数据计算每项初始特征项的完整度；

S2513、计算每项初始特征项的理论影响度；

S2514、基于每项初始特征项对应的相关度、完整度和理论影响度得到每项初始特征项的综合影响度。

前期药物疗效影响NEPC的发展，患者的临床数据和肿瘤分子特征密切相关。通过分析药物疗效与临床数据和肿瘤分子特征数据之间的相关性，与药物疗效越相关，则其影响NEPC发展的关联性越大，即相关度越大。

实施时，可采用卡方检验、t检验、方差分析（ANOVA）、相关系数计算（如皮尔逊或斯皮尔曼相关系数）等方法来评估初始特征项中的其他项与药物疗效之间相关性，得到每项其他特征项与药物疗效的相关系数，作为相关度。需要说明的是，药物疗效项的自身的相关系数为1。

每一项特征项还需要有数据量和理论的支持，因此除了计算与药物疗效的相关影响度外，还需要计算每一项初始特征项的完整度和理论影响度。

实施时，每项特征项对应的数据量只有达到一定门限，才会被纳入可选的范围，即，例如对于某个基因，在所有前列腺癌患者中突变的只有极少部分患者存在该基因突变绝大部分的患者该基因项相关的数据为空，则其数据层面的完整度较低。实施时，采用以下公式计算第j个初始特征项的完整度：

；

同样的，每项特征项对应的理论影响度只有达到一定的门限，才能被纳入可选的范围。

实施时，采用以下公式计算第j个初始特征项的理论影响度：

；其中，/>表示公开第j个特征项和NEPC相关的文献的最高影响因子,β表示参数，γ表示调节因子，为负数，/>表示第j个初始特征项的理论影响度。

例如，对于基因A，收集所有研究基因A和NEPC相关的文献，取其中最高的文献影响因子，作为基因A相关特征项对应的最高影响因子，从而基于最高影响因子计算基因A相关特征项量对应的理论影响度。

通过考虑每项特征项与药物疗效的相关度、特征项对应的完整度和理论影响度，从而能够更加客观全面的评估特征对是否为NEPC的影响，使得特征筛选更加准确有效，提高分类的精度以及减小计算规模。

实施时，采用以下公式计算每项特征项的综合重要度：

；

其中，表示第j个初始特征项的相关度，/>表示相关度的权重，/>表示第j个初始特征项的完整度，/>表示完整度的权重，/>表示第j个初始特征项的理论影响度，/>表示理论影响度的权重，/>表示第j个初始特征项的综合影响度。/>、/>和/>的和应为1。

通过计算每个初始特征项的综合影响度，从其中筛选出综合影响度高的初始特征项，例如综合影响度大于第一阈值，则将其作为最终特征项。实施时，第一阈值可根据训练速度和精度要求设置。

一个患者的最终特征项的数据构成最终用于训练模型的样本数据。

由于前列腺癌中，NPEC患者数量较少，因此，可能存在数据不平衡，即正样本数量比负样本数量的差距较大，导致训练的模型准确度低。正样本即NEPC样本，负样本为非NEPC样本。为了解决数据不平衡问题，采用以下方式对训练样本集进行扩充：

对于每个真实正样本，计算该真实正样本与其他真实正样本间的距离，根据计算的距离得到该真实正样本的k个近邻正样本；

根据该真实正样本和对应的k个近邻正样本，生成该真实正样本对应的拟合正样本；

将所述生成的拟合正样本加入所述训练样本集中对所述训练样本集进行扩充。

实施时，可计算该真实正样本与其他真实正样本间的欧式距离，根据计算的欧式距离，取距离最近的k个真实正样本作为该真实正样本的k个近邻正样本。

实施时，根据该真实正样本和对应的k个近邻正样本，生成该真实正样本对应的拟合正样本，包括：

根据该真实正样本的每个近邻正样本，生成每个近邻正样本对应的新的样本；

判断每个新的样本的类别是否是正样本；随机选取类别为正样本的m个新的样本作为拟合正样本。

实施时，m根据训练样本集中真实正样本和负样本的比例设置，使得每个正样本生成m个拟合正样本后，真实正样本和拟合正样本的总数与负样本的比例达到模型训练要求的比例。

采用以下公式生成每个近邻正样本对应的新的样本X：

，其中，/>表示第i个真实正样本，/>表示第i个真实正样本的邻近样本，R表示随机向量。

需要说明的是，R的每个元素值在[0,1]范围内，每个近邻正样本对应的新的样本可包含多个。

对于一个样本，若其周围大部分样本是同一类，则该样本属于该类的概率很大。因此，对于生成的新的样本，通过判断其周围的样本的类型，从而判断其类别。

具体的，采用以下方式判断新的样本的类别属性；

计算新的正样本与训练样本集中每个样本间的距离，根据计算的距离得到该新的正样本的p个近邻样本；

若所述p个近邻样本中正样本的比例超过第二阈值，则该新的正样本为正样本，否则，该新的正样本不是正样本。

训练样本集中的样本集真实正样本和负样本，通过计算新的正样本与训练样本集中每个样本的距离，取最近的p个近邻样本，若p个近邻样本中正样本的比例超过第二阈值，则将其归属于正样本，否则不属于正样本。

实施时，第二阈值大于0.5小于1。

实施时，从训练样本集中划分一部分样本构建验证样本集。

实施时，构建人工智能模型，例如机器学习模型或深度学习模型，基于训练样本集对构建的人工智能模型进行训练，得到训练好的前列腺神经内分泌癌预测模型。

实施时，因由于多层感知机在处理结构化的向量数据方面具有良好的性，因此可构建基于多层感知机的深度学习模型。构建的多层感知机模型包含多个全连接层。每个全连接层都由一系列神经元组成，每个神经元都是输入向量与一组权重的线性组合，后接一个非线性激活函数，如ReLU或Sigmoid。

实施时，采用以下公式计算当前训练批次的损失Loss：

；

其中，表示当前训练批次中真实正样本的损失，/>表示真实正样本的权重，/>表示当前训练批次中负样本的损失，/>表示负样本的权重，/>表示当前训练批次中拟合正样本的损失，/>表示拟合正样本的权重。由于真实正样本的数量最小，因此将真实正样本的权重/>应大于负样本的权重/>和拟合正样本的权重/>。/>、/>和/>的和应为1。

其中，当前训练批次中真实正样本的损失、当前训练批次中负样本的损失和当前训练批次中拟合正样本的损失/>均可采用二元交叉熵损失函数。

根据损失函数反向传播更新模型的参数，以最小化损失函数，还采用了如Adam或RMSprop等优化器来提高训练的稳定性和收敛速度。当模型达到预设的训练次数或者达到预设的精度，则停止训练得到训练好的前列腺神经内分泌癌预测模型。该模型能够根据输入的分子特征向量数据预测患者是否有NEPC的风险。最后，在独立的验证样本集上评估了模型的性能，使用了准确率、召回率和AUC（Area Under the Curve）等指标来量化模型的预测能力。

对于待预测患者，可按照本发明S1-S2中的步骤获得其临床数据和分子特征数据，然后将最终特征项的数据输入训练好的前列腺神经内分泌癌预测模型，即可判断其是否为前列腺神经内分泌癌。仅通过患者的15-20ml血液，即可快速无创得到其NPEC风险的概率，不需要对病例组织进行创伤性的活检。并且可随着对患者进行检测，避免了误诊和漏诊，提高了预测的效率。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种前列腺神经内分泌癌预测模型的训练方法，其特征在于，包括以下步骤：

对患者的血液进行活检得到患者的肿瘤分子特征数据；基于所述临床数据和肿瘤分子特征数据构建训练样本集；

2.根据权利要求1所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，基于所述临床数据和肿瘤分子特征数据构建训练样本集，包括：

3.根据权利要求2所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，采用以下方式计算每项初始特征项的综合影响度：

计算每项初始特征项与药物疗效间的相关系数作为相关度；

基于患者的临床数据和肿瘤分子特征数据计算每项初始特征项的完整度；

计算每项初始特征项的理论影响度；

4.根据权利要求3所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，采用以下公式计算第j个初始特征项的完整度：

；

其中，表示在最初获取的样本数据中第j个初始特征项对应的数据不为空的样本的数量，N表示样本的总数量，α表示调节因子，为负数，/>表示第j个初始特征项的完整度。

5.根据权利要求3所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，采用以下公式计算第j个初始特征项的理论影响度：

；

6.根据权利要求3所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，采用以下公式计算每项初始特征项的综合影响度：

；

7.根据权利要求1所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，对患者的血液进行活检得到患者的肿瘤分子特征数据，包括：

对所述循环肿瘤细胞富集样本进行前列腺神经内分泌癌相关的目标蛋白的检测得到目标蛋白的蛋白表达水平和目标蛋白对应基因的表达水平；

8.根据权利要求7所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，所述目标蛋白，包括：

9.根据权利要求3所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，对分离后的单细胞进行基因测序得到患者的基因变异特征数据，包括：

采用高通量测序技术对分离后的单细胞进行基因测序；

基于基因测序结果得到基因变异特征数据；

10.根据权利要求1所述的前列腺神经内分泌癌预测模型的训练方法，其特征在于，所述患者的临床数据还包括患者的年龄、分期数、前期药物方案、前期药物类型和前期用药周期。