CN111312392B

CN111312392B - 一种基于集成法的前列腺癌辅助分析方法、装置及电子设备

Info

Publication number: CN111312392B
Application number: CN202010175933.XA
Authority: CN
Inventors: 吴嘉; 庄庆贺; 余庚花; 谭延林; 田晓明
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-08-22
Anticipated expiration: 2040-03-13
Also published as: CN111312392A

Abstract

本发明公开了一种基于集成法的前列腺癌辅助分析方法、装置和电子设备，包括：获取用户的至少一个特征数据集；根据至少一个特征数据集，生成至少一个特征向量；将特征向量作为预先训练的第一支持向量机模型的输入向量，根据输出值判断用户的前列腺癌是良性或恶性；若判断所述用户的前列腺癌为恶性，则将特征向量分别作为预先训练的各模型的输入向量，分别得到各模型的输出向量；将各输出向量集成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出值判断用户的前列腺癌所处的分期。该前列腺癌辅助分析方法采用经典机器学习方法，并使用集成学习方法来降低单一模型出错的风险。

Description

一种基于集成法的前列腺癌辅助分析方法、装置及电子设备

技术领域

本发明涉及癌症分析技术领域，特别是指一种基于集成法的前列腺癌辅助分析方法、装置及电子设备。

背景技术

2018年，全球新增和死亡的前列腺癌患者分别占男性癌症新发和死亡的13.5％和6.7％。全球185个国家中，有105个国家男性发病第一位的癌症是前列腺癌，有46个国家的男性主要死于前列腺癌。前列腺癌无疑已成为全球男性健康的主要威胁之一。在较为发达的高HDI(human development index)国家，前列腺癌发病率较高(37.5/10万)，低HDI国家虽然发病率较低(11.4/10万)，但是依旧呈现逐渐上升的趋势，且增长速度快。以中国为例，1998年粗发病率约为3.25/10万，到2012年粗发病率增加到约为8.14/10w，在2013年达到8.58/10万，这些原因使得全球内前列腺癌患者人数庞大。

在医疗资源匮乏的发展中国家，大量的病患得不到及时有效的诊断和治疗，会使医患矛盾进一步激化，以中国为例，2018年中国每千人口执业(助理)医师仅有2.59人，在中国的大城市北京，少量的优质医院的医护人员不仅要为北京市两千多万的人口提供医疗服务，还有许多其他地区的肿瘤患者到此寻求诊断和治疗。医护人员长期超负荷工作，势必会对诊断的准确率产生影响，酿成严重后果。

其他发展中国家也面临着类似的困境：

·由于病患数量多，医疗资源较少，病人难以得到及时有效的诊断和治疗；

·医生长期的高负荷工作使得诊断的效率和准确率下降；

·许多医院医疗设备落后，进一步降低诊断的准确率；

·发展中国家人均收入较低，难以负担部分昂贵但是准确的诊断方法，如PET-CT等。

这些困境可以通过构建医疗辅助决策装置来缓解，医疗决策装置通过对大量病人数据的分析提取出诊断模型，当新的病人出现会根据所学习的模型来为医生提供相关诊断或治疗建议。医生根据系统的建议并结合自身的知识和经验为病人提供最终的诊断结论和治疗方案。医疗辅助决策装置能够一定程度上减轻医生负担，缓和医患矛盾。

发明内容

针对现有技术的不足之处，本发明的目的是提出一种基于集成法的前列腺癌辅助分析方法、装置及电子设备，该前列腺癌辅助分析方法采用经典机器学习方法，并使用集成学习方法来降低单一模型出错的风险。

基于上述目的，本发明提供的一种基于集成法的前列腺癌辅助分析方法，包括：

获取用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

根据至少一个所述特征数据集，生成至少一个特征向量；

将所述特征向量作为预先训练的第一支持向量机模型的输入向量，根据第一支持向量机模型的输出值判断所述用户的前列腺癌是良性或恶性；

若判断所述用户的前列腺癌为恶性，则将所述特征向量分别作为预先训练的第二支持向量机模型、第一神经网络模型和第二神经网络模型的输入向量，分别得到第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量；

将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出值判断所述用户的前列腺癌所处的分期；其中，所述分期包括I期、II期、III期或IV期。

在本发明的一个实施例中，上述基于集成法的前列腺癌辅助分析方法还包括：

根据所述用户的前列腺癌所处的分期推荐治疗方案，所述治疗方案包括化疗、放疗、手术、药物组合治疗和住院观察。

获取采用推荐治疗方案治疗后用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

根据所述特征数据集和基于集成法的前列腺癌辅助分析方法，得到多元线性回归模型的输出值；

根据所述用户治疗前后多元线性回归模型的输出值的变化，得到对推荐治疗方案的评估结果。

在本发明的一个实施例中，所述第二支持向量机模型为多组，每组包括多个第二支持向量机子模型，组内的第二支持向量机子模型采用相同的核函数，组间的第二支持向量机模型采用不同的核函数；所述核函数包括线性核、多项式核或高斯核；

所述第一神经网络模型包括多个第一神经网络子模型，分别选用不同结构的MLP网络训练得到；

所述第二神经网络模型包括多个第二神经网络子模型，分别选用不同结构的RBF网络训练得到。

在本发明的一个实施例中，将所述特征向量作为预先训练的第二支持向量机模型的输入向量，得到第二支持向量机模型的输出向量的步骤包括：

将所述特征向量同时作为多个第二支持向量机子模型的输入向量，每组第二支持向量机模型的输出结果为组内多个第二支持向量机子模型的投票结合，以4维的one-hot向量表示；

将每组第二支持向量机模型的one-hot向量集成到一起作为第二支持向量机模型的输出向量。

在本发明的一个实施例中，所述多元线性回归模型的训练过程为：

获取输入向量v和标记值y；其中，输入向量是将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量得到的，标记值是指Ⅰ期、Ⅱ期、Ⅲ期或Ⅳ期分别所对应的标记值；

初始化权重矩阵W^T＝(w₁,w₂…,w₃₆)，W∈R^36×1；

学习模型lny＝W^Tv，设定多元线性回归模型的损失函数采用平方损失函数，即：

其中EM_i为模型评估的第i个患者的恶性值，EM’_i为预先设定的病人的恶性值；

获得W^T后即得到多元线性回归模型。

基于相同的发明构思，本发明还提供了一种基于集成法的前列腺癌辅助分析装置，包括：

第一获取模块，被配置为获取用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

生成模块，被配置为根据至少一个所述特征数据集，生成至少一个特征向量；

第一判断模块，被配置为将所述特征向量作为预先训练的第一支持向量机模型的输入向量，根据第一支持向量机模型的输出值判断所述用户的前列腺癌是良性或恶性；

第一计算模块，被配置为若判断所述用户的前列腺癌为恶性，则将所述特征向量分别作为预先训练的第二支持向量机模型、第一神经网络模型和第二神经网络模型的输入向量，分别得到第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量；

第二判断模块，被配置为将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出值判断所述用户的前列腺癌所处的分期；其中，所述分期包括I期、II期、III期或IV期。

在本发明的一个实施例中，上述基于集成法的前列腺癌辅助分析装置还包括：

推荐模块，被配置为根据所述用户的前列腺癌所处的分期推荐治疗方案，所述治疗方案包括化疗、放疗、手术、药物组合治疗和住院观察。

第二获取模块，被配置为获取采用推荐治疗方案治疗后用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

第二计算模块，被配置为根据所述特征数据集和基于集成法的前列腺癌辅助分析方法，得到多元线性回归模型的输出值；

评估模块，被配置为根据所述用户治疗前后多元线性回归模型的输出值的变化，得到对推荐治疗方案的评估结果。

基于相同的发明构思，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于集成法的前列腺癌辅助分析方法。

与现有技术相比，本发明具有以下有益效果：

本发明构建了能够判断用户是否患有前列腺癌，并对用户进行癌症分期的前列腺癌辅助分析方法。考虑到发展中国家较低的收入水平，选取了检测价格较低的与前列腺癌相关的六项肿瘤标志物作为主要诊断特征，采用经典机器学习方法，并使用集成学习方法来降低单一模型出错的风险。

附图说明

图1为MLP网络示意图；

图2为RBF网络示意图；

图3为本发明实施例的基于集成法的前列腺癌辅助分析方法的主要流程图；

图4为本发明实施例的基于集成法的前列腺癌辅助分析方法的整个流程图；

图5为本发明实施例的基于集成法的前列腺癌辅助分析装置的结构示意图；

图6为本发明实施例的基于集成法的前列腺癌辅助分析装置的准确率与医生的准确率的对比图；

图7为过去五年内的平均EM值图；

图8为一个晚期前列腺癌病人治疗周期中的治疗手段和其EM值的变化图；

图9为患者饮食习惯对前列腺癌病患疾病恶性的影响图；

图10为患者基因对前列腺癌病患疾病恶性的影响图；

图11为本发明实施例的电子设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

医学上对于癌症的诊断通常是层层递进的，从简单便宜但准确性不高的检测逐步过渡到昂贵而精确的检测方法。相比常用的CT，MRI，PET-CT等方法，检测血清中的肿瘤标志物来诊断癌症是一种比较初级，便宜的方法，这使得以肿瘤标志物作为特征构建的医疗辅助决策装置能够适应发展中国家人均医疗支出低，医疗水平低，医疗设施落后的特点。将单一肿瘤标志物用于诊断的准确度和特异性往往不够强，因此许多相关的研究，通常采用多种肿瘤标志物/生物标记物的组合来预测某种疾病，并取得了不错的准确率。具体来说，有研究者从145例胰腺癌患者中检测了17种肿瘤标志物的血清水平，通过散点图和相对工作特征进行后向消除，选择出9种肿瘤标志物，并以此为特征建立胰腺癌判定系统CAMPAS-P，最终结果表明CAMPAS-P系统能够准确的区别出恶性胰腺癌和良性胰腺胆管疾病，但是对于诊断不常见的组织学类型胰腺肿瘤(unusual histologic typepancreatic tumors)和各种消化器官恶性肿瘤(various digestive organ malignancies)性能不佳。利用血清microRNA生物标志物(biomarker)来预测NAFLD，所筛选的标记物中有九种和NAFLD相关，并且其中部分NAFLD具有特异性。这些标记物对于NASH的分类性能较好。有研究者利用生长相关的肿瘤标志物(growth-related tumor marker)和相关的肿瘤标志物(associatedtumor marker)的组合来对癌症进行诊断,最终获得了80-90％敏感度，84-85％特异性，和83-88％准确率的结果。

SVM作为机器学习的经典算法之一，在深度学习兴起以前，在许多分类问题上表现出优异的性能。SVM同样也广泛用于医疗诊断。有研究者使用霍夫变换从乳腺癌X射线照片中提取出形状特征，使用SVM对早期乳腺癌进行诊断，获得了94％的准确率，而其他机器学习方法如线性判别分析，仅有86％的准确度。有研究这在威斯康星州乳腺癌(原始)数据集(Wisconsin Breast Cancer(original)datasets)上，利用多种机器学习方法对乳腺癌进行预测，在综合考虑模型的准确性(accuracy)，敏感性(sensitivity)，特异性(specificity)和精密度(precision)后发现SVM预测性能最好，准确度高达97.13％。有研究者利用肿瘤标志物CA-125和血清中的其他氨基酸对卵巢癌进行诊断，利用模糊粗糙集理论和SVM分别进行特征选择和分类，能够获得较快的进行学习并取得了较好的成果，模型具有快速的学习能力和良好的分类性能。

集成学习技术同样在医疗辅助诊断中应用广泛。有研究者以人口统计学，生理学，生命体征等为输入特征，将许多机器学习方法(随机森林，决策树朴素贝叶斯自适应共振理论等)进行集成，用于预测病人进入ICU后的死亡率，结果显示，集成学习算法获得了较高的AUROC(0.9±0.01)，相较传统的评分系统(SOFA,SAPS-I,APACHE-II,NEWS和qSOFA)更有优势。有研究这利用7种常见的监督学习算法和结合专家知识构成的规则分类器，通过穷举的方式构建了两种集成学习器：包含规则分类器和不包括规则分类器，来对哮喘病的控制水平进行判断，最后从召回率(recall)，准确性(precision)和精确性指标(accuracymetrics)等方面对两种集成模型进行比较。结果显示纳入专家知识的集成模型更加有效。有研究者同样基于威斯康星州乳腺癌数据集(Wisconsin Breast Cancer datasets)开发诊断乳腺癌的模型，利用置信加权投票方法和增强集成技术获得两种不同的集成模型，其中CWV-BANN-SVM模型对乳腺癌达到了100％的准确率。

下面将对本发明涉及到的模型进行详细介绍。

(1)支持向量机介绍

支持向量机最初因在文本分类中取得很好成效而被广泛使用，该模型能够在高维度下获得全局最优解，因而被广泛使用。

对于一个线性可分的二分类问题：假设输入数据集S＝{x₁,x₂,x₃...x_n}，输出标记y＝{y₁,y₂,y₃...y_n}，这里x_i是第i个样本的输入向量，以及yi∈{0,1}，它是x_i所对应的标签。SVM模型是为了寻找一个超平面H：w^Tx+b＝0，将正类和负类样本分开的同时到让正负样本到H距离最远，即优化目标为：

为了高效求解上式,求出上式的Lagrange对偶问题如下：

对于线性不可分问题，通过引入惩罚参数C和松弛变量ξ_i，上式变为

参数C代表着分隔间距大小。最终的决策模型为：

对于非线性问题，可以通过将低维的非线性问题映射成为高维线性问题，即：引入核函数/>常见核函数如下表表1所示：

表1

核函数的选择是影响SVM性能的主要因素，常用的核函数包括线性核，多项式核，高斯核，在此，我们同时选用多种核函数构造SVM，以避免因为核函数选择错误导致最终泛化性能不佳。

典型的支持向量机通常用于处理二分类问题，在本实施例中，我们先使用SVM对肿瘤的良性(标记为1)和恶性(标记为0)进行分类，为了能对可能的恶性肿瘤进行分期，采用一对一的方式完成多分类任务，即同时训练个SVM，最终通过投票方式将每个SVM的结果集成在一起，一对多的方法每个分类器的训练仅需要使用两类样本，因此训练开销较小，且不降低泛化误差。

(2)神经网络介绍

NN(神经网络)是一种拟合能力强大的模型，被各学科研究人员广泛使用，NN主要由输入层，隐藏层，输出层构成，根据NN的网络结构，可以将NN分为多种：多层感知机网络(multilayer-perceptronNN)}，RBF(radicalbasisfunction)网络，ART(adaptiveresonance theory)NN,，SOM(self-organizing mapNN)等等。在此医疗决策系统中主要使用两种网络模型，MLP和RBF。

MLP网络包含一个输入层，一个或多个隐藏层，一个输出层。每相邻层之间节点相互连接，如图1所示。此处的MLP网络的激活函数选用ReLu函数：f(x)＝max(0,x)

RBF网络是另一种被广泛使用的神经网络，其收敛较快且泛化能力强。与MLP不同的是该网络仅包含一层隐藏层，同时使用径向基函数f(x,c_i)＝exp(-β_i||x-c_i||²)作为激活函数，其中c_i是隐藏层内第i个神经元所对应的中心。RBF网络示意图如图2所示。

(3)集成学习(Ensemble learning)

集成学习是将许多基学习器集成在一起提升整体的学习能力的一种方法,常用的集成学习方法包括boosting,bagging,stacking。其中stacking方法能够并行生成所有初级学习器，并利用次级学习器将初级学习器集成，该集成方式具有合适的训练开销和较强的泛化性能。

在本实施例中，为了能够在给出恶性肿瘤分期的基础上，提供相应的治疗方案建议并对方案的疗效进行评估，我们需要将分类器的结果转换为回归问题，此时stacking方法则是一个很好的选择。为了让“集成”能够起到作用，各基学习器间需要有一定的差异，这种差异可以是来自于模型不同，输入数据不同或者样本属性不同。SVM和NN对于输入数据较不敏感，且我们的特征集较小，不适合采用样本扰动和特征扰动来提升性能。但是SVM的核函数以及NN的体系结构有较多的选择，因此，我们的决策模型采用算法的参数扰动来增大学习器的差异，提升整体的泛化性能。最后通过指数线性回归来学习各个分类器的权重，得出对肿瘤恶性的评估。

如图3所示，本实施例提供了一种基于集成法的前列腺癌辅助分析方法，包括：

步骤101，获取用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

在步骤101中，获取用户六种对前列腺癌诊断比较重要的肿瘤标志物数据，分别为PAP(前列腺特异性抗原)数据，PSMA(总前列腺特异性抗原)数据，TPSA(血红蛋白)数据，RBC(红细胞)数据，HB(酸性磷酸酶)数据，FPSA(前列腺特异性膜抗原)数据；

步骤102，根据至少一个所述特征数据集，生成至少一个特征向量；例如特征向量x＝(x_PAP,x_PSMA,x_TPSA,x_RBC,x_HB,x_FPSA)；

步骤103，将所述特征向量作为预先训练的第一支持向量机模型的输入向量，根据第一支持向量机模型的输出值判断所述用户的前列腺癌是良性或恶性；

本实施例中，可选的，第一支持向量机模型的训练过程为：

将全体数据集中的80％划分为训练集，余下20％作为测试集。首先对SVM₀进行训练，在训练过程中，不断调整核函数的参数以及SVM的惩罚参数，使其泛化误差降低到阈值ε以下，得到第一支持向量机模型。

本实施例从中国三所高水平医院：湘雅一医院，湘雅二医院和湘雅三医院中获取了大量数据，数据的相关信息展示于表2中。

表1收集数据的类型和数量.

Data type	Number
		患者信息	1,933,535项
门诊服务	691,238人
		门诊医生的设备	24,021,298项
住院	1,149,187人
		诊断	1,089,327项
电子病历	4,855,619项
		临床医生设备	25,757,699项
检验记录	157,426项
		医学实验室记录	8,725,586项
例行检查记录	22,358,881项
		操作记录	318,022项
药物记录	120,546项

对这些数据进行筛选和预处理，得到我们所需的肿瘤标志物(PAP，PSMA，TPSA，RBC，HB，FPSA)的相关记录和诊断结果(良性，I期，II期，III期，IV期)，历史患者的六种前列腺癌相关的肿瘤标志物数据以及相应的相应的诊断结果数据构成全体数据集。

表2不同肿瘤标志物的正常范围

表3中展示了六种前列腺癌相关的肿瘤标志物的正常范围，恶性患者往往会有超出正常范围数倍乃至数十倍的肿瘤标志物数值。

在步骤103中，若第一支持向量机模型的输出值为1，则判断用户的前列腺癌是良性；若第一支持向量机模型的输出值为0，则判断用户的前列腺癌是恶性。使用SVM完成肿瘤良性/恶性的判断，在医学上，肿瘤标志物的升高不一定意味着罹患恶性肿瘤，很多良性病变或炎症也有可能导致肿瘤标志物的升高，但升高幅度不大，当系统认定肿瘤为良性时，即给出下一步的检查和相应的治疗建议。

步骤104，若判断所述用户的前列腺癌为恶性，则将所述特征向量分别作为预先训练的第二支持向量机模型、第一神经网络模型和第二神经网络模型的输入向量，分别得到第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量；

本实施例中，可选的，第二支持向量机模型的训练过程为：

将全体数据集中的恶性样本提取出，将这些样本划分为两部分分别作为训练集和测试集，例如恶性样本中的80％划分为训练集，余下20％作为测试集。首先对SVM₀进行训练，在训练过程中，不断调整核函数的参数以及SVM的惩罚参数，使其泛化误差降低到阈值ε以下，得到第二支持向量机模型。

本实施例中，可选的，所述的第一神经网络模型的训练过程为：

将全体数据集中的恶性样本提取出，将这些样本划分为两部分，分别作为训练集和测试集，例如恶性样本中的80％划分为训练集，余下20％作为测试集。激活函数使用Relu函数，采用正则化来降低过拟合，在训练过程中，不断调整超参数使其泛化误差降低到阈值ε以下，得到第一神经网络模型。

本实施例中，可选的，所述的第二神经网络模型的训练过程为：

将全体数据集中的恶性样本提取出，将这些样本划分为两部分，分别作为训练集和测试集，例如恶性样本中的80％划分为训练集，余下20％作为测试集。用k-means对样本进行聚类后，确定每个隐节点的中心c_i，用径向基函数作为激活函数，在训练过程中，不断调整超参数使其泛化误差降低到阈值ε以下，得到第二神经网络模型。

步骤105，将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量连接成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出EM值判断所述用户的前列腺癌所处的分期；其中，所述分期包括I期、II期、III期或IV期。

在步骤105中，将第二支持向量机模型、第一神经网络模型和第二神经网络模型的输出向量连接成一个向量，作为次级学习器的输入向量，根据多元线性回归模型的输出EM值判断所述用户的前列腺癌所处的分期。

在本实施例中，可选的，所述多元线性回归模型(MLR)的训练过程为：

获取输入向量v和标记值y；其中，输入向量是将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量得到的，标记值是指I期、II期、III期或IV期分别所对应的标记值；

初始化权重矩阵W^T＝(w₁,w₂…,w₃₆)，W∈R^36×1；

获得W^T后即得到多元线性回归模型。

在本实施例中，通过观察数据的肿瘤标志物含量发现，对于良性肿瘤和I期病人，其肿瘤标志物往往与正常值相差不大，但是对于II期和IV期的病人，其肿瘤标志物的值则和正常值偏离极大，因此我们可以假设肿瘤标志物的在癌症发展过程中的变化符合指数增长，这个假设在医学上基本成立，肿瘤在初期往往生长缓慢，不易被发现，疾病症状不明显，而到了中晚期则野蛮生长转移扩散至全身，使肿瘤标志物急剧升高。因此，选择多元线性回归(例如指数线性回归)作为stacking方法的次级学习器对第二支持向量机模型、第一神经网络模型和第二神经网络模型的结果进行集成，将IIIIIIIV期的病理所对应的输出标记设置为3,4,5,6。注意此处指数线性回归的输出值没有设置为从1开始是为了提高模型对于正常人和良性肿瘤病例的鲁棒性，最后输出对肿瘤恶性程度的评估值EM(evaluationofmalignancy)。使用指数线性回归对初级学习器进行集成的算法如Algorithm 1所示。

多元线性回归模型训练完后，将所有恶性样例输入到模型，统计其EM值的范围，列于表4中。从表4可以看出，所有的恶性样例的EM值，都以我们事先设定EM值为中心偏差0.5左右，说明多元线性回归模型对不同分期的恶性样例有较好的拟合效果，同时也间接证明肿瘤标志物随肿瘤分期指数级增长的假设是可信的。

表4PCa各阶段的EM值

Pca的临床分期	lnEM的范围
		Stage I	2.7-3.6
Stage II	3.6-4.5
		Stage III	4.5-5.3
Stage IV	>5.3

如图4所示，本实施例的基于集成法的前列腺癌辅助分析方法，还包括：

步骤106，根据所述用户的前列腺癌所处的分期推荐治疗方案，所述治疗方案包括化疗、放疗、手术、药物组合治疗和住院观察。

如图4所示，本实施例的基于集成法的前列腺癌辅助分析方法，还包括：还包括：

步骤107，获取采用推荐治疗方案治疗后用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

步骤108，根据所述特征数据集和基于集成法的前列腺癌辅助分析方法，得到多元线性回归模型的输出EM值；

步骤109，根据所述用户治疗前后多元线性回归模型的输出EM值的变化，得到对推荐治疗方案的评估结果。

根据EM值的大小来判定肿瘤的TNM分期，并选择合适的治疗手段。常用的针对肿瘤的治疗方案包括化疗(chemotherapy)，放疗(radiotherapy)，手术(excision)，药物组合治疗(drugmethod)，住院观察(hospitalcharge)等。当为癌症患者提供治疗后，该方法会跟进患者肿瘤标志物的变化，并在检查后将检查结果输入系统，输出EM值对治疗手段进行评估，如果EM值变化不大，则会更换治疗方案，如果EM变化较大则保持原方案不变。

在本实施例中，构建了能够判断用户是否患有前列腺癌，并对用户进行癌症分期，推荐治疗方案并评估治疗方案有效性的前列腺癌辅助分析方法。考虑到发展中国家较低的收入水平，选取了检测价格较低的与前列腺癌相关的六项肿瘤标志物水平作为主要诊断特征，采用经典机器学习方法，并使用集成学习方法来降低单一模型出错的风险。

在本实施例中，可选的，所述第二支持向量机模型为多组，每组包括多个第二支持向量机子模型，组内的第二支持向量机子模型采用相同的核函数，组间的第二支持向量机模型采用不同的核函数；所述核函数包括线性核、多项式核或高斯核；

在本实施例中，可选的，将所述特征向量作为预先训练的第二支持向量机模型的输入向量，得到第二支持向量机模型的输出向量的步骤包括：

如果肿瘤被判定为恶性，则采用SVM+MLP的集成学习方法完成对肿瘤的分期。根据国际TNM分期标准，肿瘤被分为I,II,III,IV期，即系统要完成一个四分类任务。由于SVM主要针对二分类问题，因此，例如，使用6个SVM子模型构成一组SVM，每组SVM子模型的输出结果为组内6个二分类SVM子模型输出结果的投票结合，用一个4维的one-hot向量表示。通过核函数的不同实现SVM分类器的差异化，即组内的每个SVM子模型使用相同的核函数，组间的SVM模型选用不同的核函数，以此提高最终性能。在本实施例中，主要选择三种常用的核函数：线性核，多项式核和高斯核。训练时，以组内的单个SVM子模型为单位，通过调整核函数的参数以及每个SVM子模型的惩罚参数，使其泛化误差降低到阈值ε以下。

为了进一步提升泛化性能，在决策系统中加入广泛使用的NN，主要使用MLP和RBF，由于使用了6个输入特征并将样本进行四分类,因此MLP和RBF网络的输入层和输出层分别为6个节点和4个节点，选用三组不同结构的MLP网络，分别为6-9-7-4(隐藏层为两层，每层隐藏层的节点分别为9和7)，6-10-7-5-4(隐藏层为三层，每层隐藏层的节点分别为10、7和5)，6-7-5-4(隐藏层为两层，每层隐藏层的节点分别为7和5)，激活函数使用Relu函数，采用正则化来降低过拟合。同样的采用三种不同结构的RBF网络,三个网络的隐藏层的节点数分别设置为10,14,16，用k-means对样本进行聚类后，确定每个隐节点的中心c_i，用径向基函数作为激活函数。对于MLP和RBF，同样调整超参数使泛化误差降低到ε以下。

在模型的训练过程，将所有的恶性样本提取出，划分成两部分用于之后的训练。由于所选择的SVM和NN模型对于数据不敏感，且盲目划分数据容易导致数据不服从同分布或造成数据不均衡问题，本实施例选择使用相同的训练集训练各学习器，对于每组的SVM子模型，将恶性样本按照所属类别划分成四部分S_malignant＝{S_I,S_II,S_III,S_IV}，任选两个不同类别的样本对每组SVM模型下的单个SVM子模型进行训练，并采用投票的方式将每组内6个SVM子模型的结果进行整合。对于NN则直接将恶性样本依照分期标记为(1,0,0,0)^T,(0,1,0,0)^T,(0,0,1,0)^T,(0,0,0,1)^T，最后将每组SVM和每个网络的输出重塑成一个向量，以此作为输入训练指数线性回归模型。

下面将给出一个具体的实例对本实施例中基于集成法的前列腺癌辅助分析方法作详细的介绍。

假设某一输入向量为x＝(13.5,8.6,46.2,35.3,201.4,9.6)，在经过SVM₀(第一SVM)分类后，认定为恶性，下一步即需要判断具体分期。共有三组SVM，每组有6个二分类的SVM子模型，以第一组为例，每个针对类别i,j构建的二分类SVM用SVM_ij表示，其可能的分类结果如下表所示，其中1代表是某一类别，-1代表不是某一类别。

	Class 1	Class 2	Class 3	Class 4
					SVM₁₂	-1	1
SVM₁₃	-1		1
					SVM₁₄	-1		1
SVM₂₃		-1	1
					SVM₂₄		-1	1
SVM₃₄			1	-1

采用绝对多数投票后产生结果，可以看到第一组SVM判定该病例为第三类(III期)，将第一组的输出抽象为一个one-hot向量v₁＝(0,0,1,0)。

类似的，第二组和第三组结果可能为v₂＝(0,0,1,0),v₃＝(0,0,0,1)。

同时多个神经网络产生结果v₄＝(0.1,0.2,0.41,0.39),…,v₉＝(0.1,0.5,0.3,0.3。

将向量v₁,v₂,…v₉集成到一起，构成v＝(0,0,1,0,0,0,1,0,…,0.1,0.5,0.3,0.3)v∈R^1×36

将输入向量v输入到多元线性回归模型中，输出EM值为5.1，则判断用户的前列腺癌处于III期。

下面将对本发明的基于集成法的前列腺癌辅助分析装置作详细的描述。

如图5所示，本实施例提供了一种基于集成法的前列腺癌辅助分析装置，包括：

第一获取模块201，被配置为获取用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

生成模块202，被配置为根据至少一个所述特征数据集，生成至少一个特征向量；

第一判断模块203，被配置为将所述特征向量作为预先训练的第一支持向量机模型的输入向量，根据第一支持向量机模型的输出值判断所述用户的前列腺癌是良性或恶性；

第一计算模块204，被配置为若判断所述用户的前列腺癌为恶性，则将所述特征向量分别作为预先训练的第二支持向量机模型、第一神经网络模型和第二神经网络模型的输入向量，分别得到第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量；

第二判断模块205，被配置为将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出值判断所述用户的前列腺癌所处的分期；其中，所述分期包括Ⅰ期、Ⅱ期、Ⅲ期或Ⅳ期。

在本实施例中，可选的，上述基于集成法的前列腺癌辅助分析装置，还包括：

推荐模块206，被配置为根据所述用户的前列腺癌所处的分期推荐治疗方案，所述治疗方案包括化疗、放疗、手术、药物组合治疗和住院观察。

在本实施例中，可选的，上述基于集成法的前列腺癌辅助分析装置还包括：

第二获取模块207，被配置为获取采用推荐治疗方案治疗后用户的至少一个特征数据集；其中，所述特征数据集包括：前列腺特异性抗原数据、总前列腺特异性抗原数据、血红蛋白数据、红细胞数据、酸性磷酸酶数据或前列腺特异性膜抗原数据；

第二计算模块208，被配置为根据所述特征数据集和基于集成法的前列腺癌辅助分析方法，得到多元线性回归模型的输出值；

评估模块209，被配置为根据所述用户治疗前后多元线性回归模型的输出值的变化，得到对推荐治疗方案的评估结果。

在本实施例中，可选的，第一计算模块204具体被配置为：将所述特征向量同时作为多个第二支持向量机子模型的输入向量，每组第二支持向量机模型的输出结果为组内多个第二支持向量机子模型的投票结合，以4维的one-hot向量表示；

在本实施例的基于集成法的前列腺癌辅助分析装置中，选择了六种对前列腺癌诊断比较重要的肿瘤标志物(PAP，PSMA，TPSA，RBC，HB，FPSA)作为输入变量，SVM作为前列腺癌的诊断模型，采用四分类的SVM和结构扰动的神经网络的stacking集成模型来进行分期、提供治疗方案和对治疗方案进行评估。

本实施例的基于集成法的前列腺癌辅助分析装置旨在为医生决策提供一定的辅助作用，其功能涵盖对前列腺癌的诊断，对前列腺癌的分期，对治疗方案的建议以及治疗效果的评估。对前列腺癌的诊断主要是判断肿瘤是良性或恶性，对癌症的分期则是根据国际医学上肿瘤的TNM分期标准，将癌症分为I，II，III，IV期。以上两种需求可以使用常用的机器学习方法，将问题看为分类任务，但为了同时能够给出癌症治疗方案以及对治疗方案的结果进行评估，在此，本实施例将问题的整体看作回归问题，前列腺癌辅助分析装置最后输出一个肿瘤恶性评估值，值越大则恶性程度越高，越小恶性程度越低，如果在执行了某一治疗方案之后，该数值没有降低，则说明治疗方案效果不好，需要选择其他治疗方案。同时，前列腺癌辅助分析装置需要有良好的并行性，能够同时处理多个病人同时诊断的诉求。值得指出的是，医疗系统投入后，随着时间的累计所获得的数据量会逐渐增加，此时可以对决策模型重新进行训练，进一步提升泛化性能。

为了验证本实施的基于集成法的前列腺癌辅助分析装置对前列腺癌分类的有效性，将不同规模数据集上模型的准确率和医生的准确率进行对比，如图6所示，当数据量较小的时候，前列腺癌辅助分析装置的正确率很低，只有将近50％，此时医生的准确率较高，几乎是100％。但是随着数据量的增大，前列腺癌辅助分析装置的准确率不断升高，且医生的诊断由于错误的累积准确率开始下降。当数据量达到4000时，前列腺癌辅助分析装置的准确率已经和医生不相上下。这表明了本实施例的前列腺癌辅助分析装置能够有效的利用逐渐增多的数据量来提升性能，且具有较高的应用价值。

接着又统计了不同年份的EM平均值，以探究前列腺癌最近几年的发展趋势，如图7所示，从2014年开始到三个医院就诊的前列腺癌患者的EM均值就处在逐渐上升的过程，暗示了恶性前列腺癌患者的数量增多或比例的增大。这将使得医疗资源更加稀缺，因此建立基于大数据的辅助诊断系统是十分有必要且急迫的。

由于本实施例的前列腺癌辅助分析装置能够对前列腺癌的恶性程度进行量化的评估，因此可以轻松的通过其EM值的变化来判断药物的疗效，并能够针对不同EM值给出不同的治疗方法来改善前列腺癌患者的生存状况。图8中展示了一个晚期前列腺癌病人(有很高的EM值)治疗周期中的治疗手段和其EM值的变化。不难看出，系统所给出的治疗手段能够有效改善癌症患者的病况，为中晚期病人赢得更长的生存时间。

由于本实施例的前列腺癌辅助分析装置能够对肿瘤的恶性程度进行评估，因此通过控制不同的输入变量，我们能够有效的评估某一因素对前列腺癌的影响。在此，我们将部分患者的相关信息进行整理，评估了患者饮食习惯和基因对前列腺癌病患疾病恶性的影响。饮食习惯主要根据患者病历中的描述,将其分成高脂饮食和低脂饮食。从2014年-2018年数据可以看出，高脂饮食的人群在罹患癌症后往往病情更加严重，高脂饮食人群的EM值在150-190之间，而同期的低脂饮食人群罹患前列腺癌后EM值只有60-70，如图9所示。而基因遗传的影响则是根据患者父母和子女中是否有人患癌症来进行判断，如图10所示，结果表明，有基因遗传的病人的癌症恶性是无基因遗传病人癌症恶性的6至7倍。

本发明主要为医疗资源匮乏的发展中国家构建了针对前列腺癌的医疗辅助诊断装置，该装置能够在前列腺癌的诊断，分期和治疗方面给医生提供参考和建议。在大数据环境下对系统进行训练后，其准确度虽然不断上升，但是仍然无法替代专业医生，只能作为辅助诊断系统缓解医生的压力。基于本装置研究了近五年的前列腺癌发展状况，发现前列腺癌的患病率不断升高，病症逐渐加重。此外，高脂饮食和遗传因素增加了患者对前列腺癌的易感性。

由上述内容可知，本发明的主要贡献和创新如下：

·针对发展中国家的国情选择了合适的特征用于前列腺癌辅助分析装置的构建；

·构建的系统能够在对给出的治疗方案进行评估，以判断方案的有效性；

·采用集成学习方法，利用二级学习器对初级结果进行集成，降低了模型出错的风险；

·基于中国三家高水平医院的大量病人信息对系统进行了训练，并利用构建的系统对影响前列腺癌的部分因素进行了分析。

基于相同的发明构思，本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的基于集成法的前列腺癌辅助分析方法。

图11示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集成法的前列腺癌辅助分析方法，其特征在于，包括：

根据至少一个所述特征数据集，生成至少一个特征向量；

2.根据权利要求1所述的基于集成法的前列腺癌辅助分析方法，其特征在于，还包括：

3.根据权利要求2所述的基于集成法的前列腺癌辅助分析方法，其特征在于，还包括：

4.根据权利要求1所述的基于集成法的前列腺癌辅助分析方法，其特征在于，所述第二支持向量机模型为多组，每组包括多个第二支持向量机子模型，组内的第二支持向量机子模型采用相同的核函数，组间的第二支持向量机模型采用不同的核函数；所述核函数包括线性核、多项式核或高斯核；

5.根据权利要求4所述的基于集成法的前列腺癌辅助分析方法，其特征在于，将所述特征向量作为预先训练的第二支持向量机模型的输入向量，得到第二支持向量机模型的输出向量的步骤包括：

6.一种基于集成法的前列腺癌辅助分析装置，其特征在于，包括：

第二判断模块，被配置为将第二支持向量机模型的输出向量、第一神经网络模型的输出向量和第二神经网络模型的输出向量集成一个向量，作为预先训练的多元线性回归模型的输入向量，根据多元线性回归模型的输出值判断所述用户的前列腺癌所处的分期；其中，所述分期包括Ⅰ期、Ⅱ期、Ⅲ期或Ⅳ期。

7.根据权利要求6所述的基于集成法的前列腺癌辅助分析装置，其特征在于，还包括：

8.根据权利要求7所述的基于集成法的前列腺癌辅助分析装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-5任意一项所述的基于集成法的前列腺癌辅助分析方法。