CN114300126A

CN114300126A - 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统

Info

Publication number: CN114300126A
Application number: CN202111659157.1A
Authority: CN
Inventors: 孙明旭; 谢双波; 肖凌凤; 陈艳丽; 徐元; 章罕
Original assignee: JINAN CENTER HOSPITAL; Shandong Beiming Medical Technology Co ltd; University of Jinan
Current assignee: JINAN CENTER HOSPITAL; Shandong Beiming Medical Technology Co ltd; University of Jinan
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本发明提供了一种基于早癌筛查问卷与前馈神经网络的癌症预测系统，包括：数据获取模块，其被配置为：获取调查问卷的样本数据，其中，所述样本数据包括：调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素和病理数据；特征提取模块，其被配置为：提取所述样本数据的特征数据；癌症概率预测模块，其被配置为：基于所述特征数据，采用训练好的癌症预测模型，得到预测癌症的概率。

Description

一种基于早癌筛查问卷与前馈神经网络的癌症预测系统

技术领域

本发明属于医疗诊断领域，具体涉及一种基于早癌筛查问卷与前馈神经网络的癌症预测系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

癌症习惯上泛指所有恶性肿瘤，指的是一种致命的渐进性病变。癌症的发生是一个长期的、渐进的过程，要经过多个病理阶段，可分为致癌、促癌、演变三个过程。癌症是世界范围内损害人类健康的重大疾病之一，大多数恶性肿瘤早期无明显症状，被发现时已经处于中晚期，从而失去了最佳治疗时机，给患者造成了极大的心理和生理痛苦，给社会和家庭造成了严重的经济负担。因此，癌症的早期筛查和诊断是重要的降低癌症死亡率的有效方法。

癌症与环境、生活方式、年龄、遗传因素等密切相关。目前，通过调查问卷的形式，收集城市人群致癌的相关信息，从而判断癌症发病风险。

目前判定癌症风险的诊断方面存在以下问题：

1、在进行癌症诊断前，需要大量的人力物力以筛查出高危人群。

2、在以前的癌症诊断过程中，需要医生对患者进行各项病理检测，给患者和医生带来了不便。

3、医生需要对患者的病理检测结果进行分析，需要花费大量的时间及人力。

发明内容

本发明为了解决上述问题，提出了一种基于早癌筛查问卷与前馈神经网络的癌症预测系统，本发明能够根据调查问卷得到的相关特征自动给出预测结果，使患者可以不受场地和时间的限制随时进行结果评估，也可为临床医师提供辅助性的参考，减轻医师的工作负担，在预测过程中显示患者的状态供临床医师做参考。

根据一些实施例，本发明采用如下技术方案：

一种基于早癌筛查问卷与前馈神经网络的癌症预测系统，包括：

数据获取模块，其被配置为：获取调查问卷的样本数据，其中，所述样本数据包括：调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素和病理数据；

特征提取模块，其被配置为：提取所述样本数据的特征数据；

癌症概率预测模块，其被配置为：基于所述特征数据，采用训练好的癌症预测模型，得到预测癌症的概率。

进一步地，所述的患者生活方式包括：是否经常大量饮酒、是否高盐饮食、是否食用超过设定阈值的腌晒食品和是否有吸烟史。

进一步地，所述的个人患病史包括：个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史和短暂脑缺血发作病史。

进一步地，所述的癌症家族史包括：上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史和乳腺良性肿瘤病史。

进一步地，所述系统还包括数据预处理模块，其被配置为：将样本数据中男性的乳腺癌病史部分空置。

进一步地，特征提取模块，还被配置为：采用主成分分析法对样本数据进行特征提取、数据降维后，保存贡献率前95％的特征属性，再对特征数据归一化处理。

进一步地，所述系统还包括训练预测模型模块，其被配置为：采用贝叶斯正则化反向传播算法对癌症预测模型进行训练优化，得到模型的最优权重值和偏差值，根据模型的最优权重值和偏差值得到训练好的癌症预测模型。

进一步地，所述得到预测癌症的概率具体包括：以假阳性为横坐标，以灵敏度为纵坐标，在不同的概率阈值下取值，绘制灵敏度与假阳性的关系曲线，其中灵敏度与假阳性的关系曲线下方的面积为AUC值。

进一步地，所述癌症预测模型包括一个输入层、两个隐藏层和一个输出层。

进一步地，所述系统包括显示模块，其被配置为：根据癌症的概率，显示正常或者患癌。

与现有技术相比，本发明的有益效果为：

1、本发明使用早癌筛查问卷收集患者的致癌数据，通过主成分分析对样本数据进行特征提取、数据降维，并进行归一化处理，得到预处理数据。

2、本发明的基于人工神经网络的癌症预测系统，为临床医师的诊断癌症提供了辅助功能，减少了临床医师的工作量：给出各个样本的预测结果，并输出对样本的估测值，从而确定患者的患癌概率。

3、本发明使用的贝叶斯正则化算法，优化了神经网络的性能，提高了样本分类的准确率，上述系统的诊断效能更好。

4、本发明的基于人工神经网络的癌症预测系统提前预测患者的患癌概率，促使患者前往医院进行病理检测，从而实现早诊早治。

5、本发明使用的基于人工神经网络的癌症预测系统可以单做成软件，也可与其他硬件配套装置成套使用，操作简单，结果明晰。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例示出的基于早癌筛查问卷与神经网络的癌症预测系统的框架图；

图2是本发明实施例示出的神经网络训练过程的流程图；

图3是本发明本发明实施例示出的癌症预测的ROC曲线图及AUC值。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1，本实施例提供了一种基于早癌筛查问卷与神经网络的癌症预测系统，包括：

(1)数据获取模块，获取早癌筛查问卷中的样本数据，样本数据主要包括调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等数据信息。并将问卷数据导出并转换成预测模型所需要的格式。其中，忽略样本数据中的私人信息，按照预测模型要求格式保存问卷样本数据。对数据集进行数据脱敏，过滤姓名、身份证号、联系方式等个人隐私信息，从初步建立的数据集中选出模型的输入和输出特征属性。去除不需要的样本记录、离群值，以同一指标的计算结果(均值、中位数、众数等)填充缺失值。

数据预处理模块，用于处理上述获得的样本数据，用‘NaN’代替缺失值，使用主成分分析对样本数据进行特征提取、数据降维，保存贡献率前95％的特征属性，再进行数据归一化，每个样本得到一个预处理数据，构建得到预处理数据集。

数据预处理模块，早癌筛查问卷是指重点慢病早诊早治评估表，调查问卷主要包括患者基本信息、上消化道癌、下消化道癌、肺癌、肝癌、乳腺癌、心脑血管疾病等方面，样本数据包括早癌筛查问卷中收集到的患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等31个特征属性。

训练预测模型模块，使用所有预处理数据对预测模型进行训练与测试，通过贝叶斯正则化算法优化神经网络，得到最佳预测模型。

将预处理数据集分为训练集与测试集，分别对所述训练集进行训练和对所述测试集进行测试，采用贝叶斯正则化算法对神经网络进行优化，以处理得到基于神经网络的癌症预测模型。

输入新的样本数据，用于验证上述癌症预测模型的性能，同时由GUI界面输出上述预测模型对于新的样本数据的预测结果。

具体实施例子中，早癌筛查问卷数据包括患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等特征。其中“0”代表否定，“1”代表肯定。

其中患者生活方式：经常大量饮酒、高盐饮食、腌晒食品摄入偏多、吸烟史；

个人患病史：个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史、短暂脑缺血发作病史；

癌症家族史：上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史、乳腺良性肿瘤病史；

环境因素：环境或高危职业暴露史；

病理数据：幽门螺杆菌阳性、乙肝表面抗原检测阳性；

其他因素：性别、年龄、身高、体重、视力低于0.4～0.6以下、肝癌其他高危因素、明显超重或肥胖；

分析处理得到的样本数据：对样本数据进行预处理及特征提取，并进行分类。

GUI界面显示预测结果：读取预测出的结果。其中“0”代表正常，“1”代表患癌。

在获取早癌筛查数据后，对数据进行预处理及特征提取分类预测的工作。先对问卷中缺失的数据进行处理。

处理缺失值以后，对问卷数据进行降维，本系统采用主成分分析方法。步骤如下：

计算标量化矩阵X的协方差矩阵C：

计算协方差矩阵C的特征方程：

|C-λI_p|＝0

得到特征值λ_j和相应的特征向量α_j，其中j＝0,1…，p。确定主成分k的数值，确保信息利用率高于95％。

特征值按从大到小排列，取前k个最大特征值对应的特征向量，得到一个k行p列的特征向量矩阵v。

计算得到n行k列的矩阵Y，这个矩阵X就是降维后的变量矩阵，包含k个主要成分的数据。

Y＝(VX^T)^T＝ZX^T

计算每个特征根的贡献率Vi；Vi＝xi/(x1+x2+........)。

得到降维的数据矩阵Y后，对数据进行归一化处理，将数据的取值范围转化为统一的区间如[0，1]。函数表达式为：

式中，Y_norm为归一化后的数据，Y_i为原始数据的第i列，Y_max、Y_min分别为原始数据集的最大值和最小值。

经过归一化，将数据的取值范围转化为统一的区间如[0,1]，有利于加快训练网络的收敛性。得到每个样本的特征向量，对特征进行分类，本系统通过神经网络对样本进行分类预测。

训练预测模型模块，使用所有所述预处理数据对预测模型进行训练与测试，通过贝叶斯正则化算法训练优化神经网络，得到最佳预测模型。

所选择的训练算法是贝叶斯正则化反向传播算法，它需要更长的时间，但更好地解决复杂问题。该算法根据Levenberg-Marquardt优化更新权重和偏差，确定最佳组合，以生成一个分布良好的网络。Marquardt调整参数的值是0.005的标准值。使用基于贝叶斯正则化算法的人工神经网络模型对其进行分类，将预处理后的数据集分为训练集和测试集，随机抽取70％的数据作为训练集，15％的数据作为验证集，15％的数据作为测试集。在得到每个样本的特征向量后，样本标签为{0,1}，分别代表正常和癌症。利用十折交叉验证计算分类识别的准确率，得到模型后再对数据进行预测。

神经网络是发生在神经元生物网络中的信息处理行为的数学表示。它们的灵感来自于生物神经系统中不同神经元突触之间的相互作用。神经网络广泛用于癌症相关的研究。神经网络的固有结构使其成为处理复杂数据集的强大工具，其特征是输入数据和目标预测之间高度非线性的相互作用。因此，决定训练神经网络来学习分类器，以便将样本分类为癌症或正常。所采用的人工神经网络的结构是具有输入层、隐藏层和输出层的前馈神经网络的结构。所使用的人工神经网络包含一个输入层、两个隐藏层、一个输出层，其中，输入层包括31个神经元(对应31个特征属性)，2个隐藏层分别包含20个神经元，隐藏层激活函数是sigmoid函数；输出层包括2个神经元，输出值大于0.5的患癌概率低，输出值大于0.5的患癌概率高；所选择的训练算法是贝叶斯正则化反向传播算法，它需要更长的时间，但更好地解决复杂问题。该算法根据Levenberg-Marquardt优化更新权重和偏差，确定最佳组合，以生成一个分布良好的网络。Marquardt调整参数的标准值是0.005。

如图2所示，所使用的神经网络是由一个多层神经元结构组成，每一层神经元拥有输入(它的输入是前一层神经元的输出)和输出，每一层Layer(i)是由Ni(Ni代表在第i层上的N)个网络神经元组成，每个Ni上的网络神经元把对应在Ni-1上的神经元输出做为它的输入，我们把神经元和与之对应的神经元之间的连线用生物学的名称，叫做突触，在数学模型中每个突触有一个加权数值，我们称做权重，那么要计算第i层上的某个神经元所得到的势能等于每一个权重乘以第i-1层上对应的神经元的输出，然后全体求和得到了第i层上的某个神经元所得到的势能，然后势能数值通过该神经元上的激活函数(activationfunction，常是∑函数Sigmoid function)以控制输出大小。学习过程由信号的正向传播和误差的反向传播两个过程组成，从输入层输入，经隐层处理以后，传向输出层。如果输出层的实际输出和期望输出不符合，就进入误差的反向传播阶段。误差反向传播是将输出误差以某种形式通过隐层向输入层反向传播，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号，这个误差信号就作为修正个单元权值的依据。直到输出的误差满足一定条件或者迭代次数达到一定次数。

所使用的多元前馈神经网络使用权重W₁、W₂、W₃和偏差B₁、B₂、B₃，人工神经网络通过具有自变量z的逻辑激活函数σ＝σ(z)的以下三个组成部分从输入数据X向前传播到输出

激活函数如下：

σ(z)＝1/(e^-z+1)

逻辑函数z如下：

z＝B_i+W_ix

由L-M算法执行的对n维向量x的更新由下式给出:

δ_x＝-[J^T(x)J(x)+μI]^-1J^T(x)e(x)

e(x)是误差向量，J(x)是雅可比矩阵，由n维中每个维的误差函数的偏导数组成。μ是在算法运行期间迭代修改的参数，I是单位矩阵。

损失函数(交叉熵)如下：

可以批量输入新的样本数据，用于验证上述癌症预测模型的性能，同时由GUI界面输出上述预测模型对于新的样本数据的预测结果，输出并保存到Excel表格中。输出值在[0,1]，输出值大于0.5的患癌概率低，输出值大于0.5的患癌概率高。

癌症概率预测模块，基于所述的数据预处理模块和最佳预测模型，对新样本进行预测，并输出预测结果。

在模型的评价指标中，本实施例以准确率、灵敏度、特异性、AUC(Area UnderCurve)受试者操作特征曲线和ROC(Receiver Operating Characteristic Curve)曲线为导向，其中准确率定义为TP+TN/(TP+TN+FP+FN)，灵敏度定义为TP/(TP+FN)，特异性定义为TN/(TN+FP)，ROC以假阳性：FP/(FP+TN)为横坐标，以灵敏度为纵坐标，在不同的概率阈值下取值(例如，以0.1位步长，对输出概率进行切分)下，绘制灵敏度与假阳性的关系曲线。该曲线下方面积，为AUC值。

预测结果在(0,1)，越接近于1代表患癌的概率越大，大于0.5代表患癌概率高，低于0.5代表患癌概率低。

如图3所示，本实施例的一种基于早癌筛查问卷与神经网络的癌症预测系统的评价指标：准确率为99.29％，AUC值为0.84445，相对于同样使用问卷进行癌症的实例，准确率与AUC值更高，本发明的诊断效能更好。

实现了的技术效果如下：1.患者与医生不需要面对面接触，患者填写早癌筛后，系统输出预测结果，患者可以前往医院进行诊断。2.系统输出患者的预测结果，医生可以进行针对性诊断，这样的方式使癌症诊断更加有意义。3.癌症预测系统可以辅助医生完成诊断，减少医生的工作负担，提高癌症诊断的效率，从而实现早诊早治的目标。

在一个具体实施例中：一位会操作癌症预测系统技术人员，需要一个可以要进行癌症诊断的患者，一位临床医师。

第一步：由患者按照要求填写早癌筛查问卷，问卷保存在数据库中。

第二步：技术人员将患者填写的早癌筛查问卷导出，并输入癌症预测系统。

第三步：技术人员确定癌症预测系统的数据预处理模块可以正确接收并转换导入的问卷数据格式。

第四步：通过导入的问卷数据对患者进行预测，并能预测出患者患癌的概率，输出的数值在(0,1)之间，越靠近于1，患癌的概率越大。

第五步：临床医师根据患者的状态进行病理检测，从而最后确定患者是否患有癌症。

需要说明的是：本发明的一种基于早癌筛查问卷与人工神经网络的癌症预测系统的使用门槛很低，经过简单的培训说明，可以有医生或护士使用，由技术人员导入患者的问卷数据之后，可以不限地点的进行癌症预测，然后由预测系统给出癌症预测数据，此时就可以去医院进行病理检测，为临床医师进行下一步癌症病理诊断做参考。或本发明的一种基于基于人工神经网络的癌症预测系统为临床医师做癌症诊断时提供参考。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，包括：

2.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述的患者生活方式包括：是否经常大量饮酒、是否高盐饮食、是否食用超过设定阈值的腌晒食品和是否有吸烟史。

3.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述的个人患病史包括：个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史和短暂脑缺血发作病史。

4.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述的癌症家族史包括：上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史和乳腺良性肿瘤病史。

5.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述系统还包括数据预处理模块，其被配置为：将样本数据中男性的乳腺癌病史部分空置。

6.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，特征提取模块，还被配置为：采用主成分分析法对样本数据进行特征提取、数据降维后，保存贡献率前95％的特征属性，再对特征数据归一化处理。

7.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述系统还包括训练预测模型模块，其被配置为：采用贝叶斯正则化反向传播算法对癌症预测模型进行训练优化，得到模型的最优权重值和偏差值，根据模型的最优权重值和偏差值得到训练好的癌症预测模型。

8.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述得到预测癌症的概率具体包括：以假阳性为横坐标，以灵敏度为纵坐标，在不同的概率阈值下取值，绘制灵敏度与假阳性的关系曲线，其中灵敏度与假阳性的关系曲线下方的面积为AUC值。

9.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述癌症预测模型包括一个输入层、两个隐藏层和一个输出层。

10.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统，其特征在于，所述系统包括显示模块，其被配置为：根据癌症的概率，显示正常或者患癌。