CN114974589A

CN114974589A - 一种宫颈癌预测方法

Info

Publication number: CN114974589A
Application number: CN202210657960.XA
Authority: CN
Inventors: 张忠平; 李帅; 魏棉鑫
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-08-30

Abstract

本发明公开了一种宫颈癌预测方法，属于以大数据为基础的人工智能与医疗健康领域的交叉领域，包括对获取宫颈癌患者的特征属性数据进行预处理；基于已训练的MLP多层神经网络分类器作为预测模型；其中，训练过程具体为根据预处理后的数据集分为训练集与测试集，训练集转化成特征向量作为MLP多层神经网络的输入，进行训练；测试过程具体为通过测试集进行测试，选取最优的训练结果作为预测模型；通过预测模型对待预测者进行预测，输出宫颈癌的预测结果；本发明相对于医院做细胞学检测而言，更加简单快捷。

Description

一种宫颈癌预测方法

技术领域

本发明属于以大数据为基础的人工智能与医疗健康领域的交叉领域，尤其涉及一种宫颈癌预测方法。

背景技术

分类作为一种重要的数据挖掘和数据分析方法，作为一种有监督的学习，可以在一群已经知道类别标号的样本中，训练出一种分类器，让其能够对某种未知的样本进行分类。在机器学习、模式识别、数据挖掘、图像处理等领域已经得到了广泛研究和应用。

分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。构造分类器的过程一般分为训练和测试两个步骤。在训练阶段,分析训练数据集的特点,为每个类别产生一个对相应数据集的准确描述或模型。在测试阶段,利用类别的描述或模型对测试进行分类,测试其分类准确度。目前，许多分类算法已被提出，如C4.5决策树算法、朴素贝叶斯网络、贝叶斯信念网络、随机森林和K-最近邻分类等等。

人工神经网络模型是MLP模型(多层感知器)，是一种监督学习算法，多层感知机的层与层之间是全连接的，一般都是由输入层，隐藏层和输出层构成。图1显示的是只有一个隐藏层的MLP模型。由于存在隐藏层，使得该模型可以处理线性不可分的分类数据。

对于分类问题，输出层的各个分量表示样本属于不同类别的概率值。每一层都由不同个数的神经元组成。其中一个经典的神经元如图2所示。图中第j条“树突”的输入值表示连接权重，是该神经元上所有输入信号的线性组合，系数即为对应的权重值，也是该神经元的阈值，通过求和形式的简单相加，即可得到中间值。f(.)是激活函数，表示该神经元的输出。隐藏层中每个神经元都需要相应的权重参数和阈值参数用以得到输出结果。确定这些参数即可得到训练好的分类模型。该算法首先需要确定隐藏层的层数和各层神经元的个数，然后随机初始化所有神经元的参数，使用如梯度下降法不断的迭代训练，直至算法定义的方差最小，即可得到训练最好的分类模型。

宫颈癌在世界范围内为女性最常见的第四大恶性肿瘤，严重影响着女性的身心健康，每年都有数以千万计的妇女因此而丧失生命。近年来，随着筛检、治疗技术的进步，宫颈癌患者的生存率得到提高。但是，研究发现发病年龄逐渐年轻化。早发现、早诊断、早治疗毋庸置疑，因此如何对宫颈癌进行有效的预防和及时的发现变得极为重要。

宫颈癌细胞学筛查是降低宫颈癌发病率最经济有效的方法，目前许多国家已经开始普及HPV疫苗，使得宫颈癌的防治工作有了巨大的提升，但最重要的是推广宫颈癌的危害性以及在病发前及时筛查的重要性。

同时，以大数据为基础的人工智能技术是大数据科学、计算机科学、机器学习和数据挖掘技术高度发展与相关医疗辅助相互融合的产物，是新兴交叉学科中发展最活跃的领域之一。

发明内容

本发明为了解决上述缺陷，提出了一种宫颈癌预测方法。

为实现其目的，采用以下方案：

一种宫颈癌预测方法，包括：

对获取宫颈癌患者的特征属性数据进行预处理；

基于已训练的MLP多层神经网络分类器作为预测模型；其中，训练过程具体为根据预处理后的数据集分为训练集与测试集，训练集转化成特征向量作为MLP多层神经网络的输入，进行训练；测试过程具体为通过测试集进行测试，选取最优的训练结果作为预测模型；

通过预测模型对待预测者进行预测，输出宫颈癌的预测结果。

本方法的进一步改进在于：所述对获取宫颈癌患者的特征属性数据进行预处理包括：

数据预处理包括数据清洗和降维处理；其中，数据清洗要求数据集中数据完整有效，需检查数据的一致性，处理无效值和缺失值，将缺失的数据进行填补或者删除，避免错误的数据训练出不标准的模型；降维处理，用于去除权重十分低的属性值，可提高模型的性能。

本方法的进一步改进在于：所述MLP多层神经网络分类器包括：第一层的输入层、最后一层的输出层以及中间的隐藏层，其中“多层”体现在隐藏层。

MLP多层神经网络分类器的不同层之间是全连接的，即上一层的任何一个神经元与下一层的所有神经元都有连接，这样可以使各层的神经元进行复杂的线性运算，提高运算后的分类效果，从而提高分类器的质量，其隐藏层的激活函数选用ReLU函数，输出层的激活函数选用Sigmoid函数。

本方法的进一步改进在于：所述预测模型的优劣根据待预测者的数据集进行训练时得到损失函数决定，由损失函数更新权重，选取出损失函数最小时得到权重的值，训练出较好的模型。

一种宫颈癌预测方法，应用于智能终端的页面，包括：

在页面显示疾病种类的标签；

接受在疾病种类的标签触发的指令，生成预测者的若干个可接受输入的第一参数、若干个可接受选中或未选中的第二参数和接受触发的标示，并将其以页面形式展现；

若干个的第一参数接受全部输入，若干个第二参数接受全部选中，预测的标识接受触发指令后，通过已训练的MLP多层神经网络分类器对第一参数和第二参数进行处理，并将处理后的预测结果以页面方式进行展现。

本方法的进一步改进在于：所述第一参数包括年龄、怀孕次数、第一次性交年龄、吸烟时长、复用激素避孕时长和已上节育环时长。

本方法的进一步改进在于：所述第二参数包括是否吸烟、是否有复用激素避孕药、是否有上节育环、是否患有性病、是否患有尖锐湿疣、是否患有宫颈尖锐湿疣、是否患有阴道尖锐湿疣、是否患有外阴阴部尖锐湿疣、是否患有梅毒、是否患有盆腔炎、是否患有生殖器疱疹、是否患有艾滋病、是否含有HPV病毒、是否患有宫颈炎症和是否患有癌症。

本方法的进一步改进在于：所述预测结果为低风险人群、中风险人群或高风险人群。

由于采用了上述技术方案，本发明取得的技术进步是：

(1)本发明相对于医院做细胞学检测而言，更加简单快捷，用户只需输入一些相关的信息，即可了解自己换上宫颈癌的风险程度，作为一种医疗辅助诊断，让用户更加的重视该疾病的严重性，早发现、早诊断、早治疗，对于宫颈癌的有效防护和及时的发现做出了重要的贡献。

(2)本发明将人工神经网络算法应用在其中，最终以独立网站的形式展现，模型简约大方，容易接受，且功能实用，具有极大的推广价值和应用意义，网站的编写形式较为简练，对于日后的扩展及以功能为部件应用到其他软件中提供了重要前提。

附图说明

为了更清楚地说明本发明运行原理和使用的技术方案，下面将对运行原理和使用的技术所需要使用的附图做简单地介绍。显而易见，下面描述中的附图仅是本发明的一些运行例子，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明选用的算法的MLP模型；

图2是经典神经元的样例图；

图3是本发明的实际流程图；

图4是本发明的网站主页效果图；

图5是本发明信息采集页效果图；

图6是本发明预测结果页效果图。

具体实施方式

下面结合附图及实施例对本发明的技术方案做进一步的详细说明：

图1是本发明选用的MLP多层神经网络模型，用于对已有的宫颈癌患者的特征属性数据进行训练，构建分类模型。该发明是在已经训练好的分类器的基础上根据用户输入的各项参数来预测宫颈癌，因此需要先构建好分类器。

所述MLP多层神经网络分类器的特点如下：

MLP神经网络的一个重要特点就是“多层”。通常情况下感知器是最简单的前馈式人工神经网络，包含输入层和输出层，并且输入层和输出层是直接相连的，它对二分类问题十分有效，但对于非线性的数据并不能进行有效的分类；而MLP神经网络是由三部分组成：第一层的输入层、最后一层的输出层以及中间的隐藏层，其中“多层”体现在隐藏层。MLP并没有规定隐层的数量，因此可以根据各自的需求选择合适的隐藏层数，且对于输出层神经元的个数也没有限制，能够有效的处理多分类问题。

MLP多层神经网络的不同层之间是全连接的，即上一层的任何一个神经元与下一层的所有神经元都有连接，这样可以使各层的神经元进行复杂的线性运算，提高运算后的分类效果，从而提高模型的质量，其隐藏层的激活函数选用ReLU函数，输出层的激活函数选用Sigmoid函数。

MLP多层神经网络的基本单元相对简单，并且通过全连接的形式使多个基本单元可扩展为非常复杂的非线性函数。因此易于构建，同时模型有很强的表达能力。在训练和测试上，MLP模型计算的并行性非常好，有利于分布式系统的应用。

MLP多层神经网络分类器的隐藏层的激活函数是ReLU函数，因为它的求导只有两种情况，让参数消失，或者让参数通过，这使得ReLU函数的优化表现更好，并且ReLU函数减轻了困扰以往神经网络梯度消失的问题。输出层的激活函数选用Sigmoid函数，该函数是便于求导的平滑函数，能压缩数据，保证数据幅度不会有问题。

根据图3的预测流程，需要先对已知患者的特征数据进行数据清洗和降维处理，之后接受部分数据作为训练集输入已创建好的多层感知机模型中进行训练，并通过剩余的数据进行测试，直到训练出最优的分类器。

数据清洗要保证训练的数据集中数据的完整有效，检查数据的一致性，处理无效值和缺失值，将缺失的数据进行填补或者删除。

降维处理是对于影响宫颈癌的多个因素，有些因素的数值对预测结果影响较大，而有些因素的影响较小，几乎不会对预测结果产生影响，因而抛弃权重特别小的属性，选取剩余权重较大的属性进行训练，可以有效提高分类器的性能。

本发明选取信息熵的大小作为衡量权重大小的依据，信息熵代表一个数据集中属性所包含信息的不确定程度大小，熵值越大，则信息的不确定程度越大，即属性中包含更多的信息，因而权重较大，反之权重较小。一般信息熵的计算方式为

通过该方式计算出训练集中每个属性上的信息熵，以此抛弃信息熵十分低的属性，选取包含剩余属性的全部数据来训练模型。

对患者数据集进行处理后，选用一部分数据作为训练集进行训练，将剩余数据作为测试集进行测试。使用MLP模型对训练集进行建模的过程具体如下：

本发明选用的MLP多层神经网络模型是一个多层感知器用作分类的神经网络，由输入层、输出层和隐藏层组成，输入层是输入患者的数据，是一个包含全部训练集中多个属性的特征向量矩阵。MLP神经网络不同层之间是全连接的，即上一层的任何一个神经元与下一层的所有神经元都有连接。根据图1的模型与图2的神经元样例图，在输入层接收到的数据先进行线性变换后输出为

其中x_i为输入的训练集数据，w_ji与b_i分别为MLP模型输入层的权重和偏差；然后应用于非线性激活函数。隐藏层的激活函数采用ReLU函数，其公式为f(x)＝max(0,x)，因而隐藏层的输出为h_i＝max(0,l_i)，代表某一层第i个神经元的输出，然后将激活函数的得到的值应用于下一层。

输出层与隐藏层大致相同，但激活函数不同。输出层的激活函数采用Sigmoid函数，该函数可以将输出的值转换到0-1的值域内，其公式为f(x)＝1/(1+e^-x)，所以第i个神经元的输出为

其中h_i'表示第i个神经元在隐藏层的最后一层输出的值。

神经网络的训练需要根据损失函数来更新权重，损失函数是通过不断迭代，计算出损失函数最小时权重与偏差的值。根据模型的输出和真实的标签，损失函数的计算方式如下:

该式中，m表示神经元的总数，y_i是第i层的输出值，

是第i层的预测值。

MLP的构建与训练结束，使用测试集测试训练出的模型，确保算法的有效性和合理性，将达到指标的模型作为最终的分类器。

基于上述已训练好的MLP神经网络模型，可以由该模型接受用户的信息进行预测宫颈癌。

为在实际应用中使用本文的宫颈癌预测模型，本发明构建了一个自主开发完整的门户网站系统作为载体，运用该预测模型，如图4所示。该网页是用HTML搭配CSS以及JavaScript编写的前端设计，用PHP作为后端语言来连接前端的HTML以及Python的分类器。

为保证预测结果的准确性，预测页面采集的信息从降维处理后宫颈癌数据集中权重较高的属性选取，预测指令通过点击页面上的预测按钮后触发，如图5所示。用户在信息采集页面输入各项信息后，点击预测按钮，所收集的信息被传送到服务器，通过$POST[“name”]接受前端传送的信息，如果有未填写的内容，会反馈到信息采集页面，提示用户信息输入不完整，并重新输入；当全部信息的格式填写正确后，服务器会完整接收所有信息，通过EXER函数调用python端执行外部程序算法MLPClassifier.py文件，并将所有参数信息传入该文件中，由joblib加载已经训练好的分类器，通过MLP模型分类器的predict()方法，将数据信息放入分类器中进行预测，结果会返回预测的标签。之后python端将标签传递给服务器，由服务器对标签进行判断，并给出相应的结果在页面中进行展示。

除预测结果外，页面还显示了抽烟、年龄、性病、节育环对患宫颈癌分险影响的视图展示，如图6所示。该内容是根据已知患者的数据集中选择了权重较大的因素进行分析所得到的数据，便于用户各知晓哪些因素对患宫颈癌的分险影响较大，从而预防疾病的发生。

通过采集已有的宫颈癌患者的特征属性数据，借助数据的预处理技术，对于收集到的数据集进行数据清洗，包括剔除其中的异常样本，补全缺失的样本值等。对特征属性数据集进行特征选择，降低数据的维度，得到完整且可靠的数据。数据经过预处理以后，将一部分数据作为训练集，选用MLP模型算法进行训练，最终得出一个分类器，再用剩余的数据测试分类器，确保算法的有效性和合理性，将达到指标的分类器作为最终的分类器。以网页为载体，借助得到的分类器模型，根据用户输入的信息进行宫颈癌患病风险性预测。另外，网页上还提供了查看HPV病毒容易诱发的高危疾病的科普，以及宫颈癌相关的国内外最新科研成果报告文章。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种宫颈癌预测方法，其特征在于，包括：

对获取宫颈癌患者的特征属性数据进行预处理；

2.根据权利要求1所述的一种宫颈癌预测方法，其特征在于，所述对获取宫颈癌患者的特征属性数据进行预处理包括：

3.根据权利要求1所述的一种宫颈癌预测方法，其特征在于，所述MLP多层神经网络分类器包括：第一层的输入层、最后一层的输出层以及中间的隐藏层，其中“多层”体现在隐藏层；

4.根据权利要求1所述的一种宫颈癌预测方法，其特征在于，所述预测模型的优劣根据待预测者的数据集进行训练时得到的损失函数决定，由损失函数更新权重，选取出损失函数最小时得到权重的值，训练出较好的模型。

5.一种宫颈癌预测方法，其特征在于，应用于智能终端的页面，包括：

在页面显示宫颈癌的标签；

接受在宫颈癌的标签触发的指令，生成预测者的若干个可接受输入的第一参数、若干个可接受选中或未选中的第二参数和接受触发的标示，并将其以页面形式展现；

若干个的第一参数接受全部输入，若干个第二参数接受全部选中，预测的标识接受触发指令后，通过已训练好的MLP多层神经网络分类器对第一参数和第二参数进行处理，并将处理后的预测结果以页面方式进行展现。

6.根据权利要求5所述的一种宫颈癌预测方法，其特征在于，所述第一参数包括年龄、怀孕次数、第一次性交年龄、吸烟时长、复用激素避孕时长和已上节育环时长。

7.根据权利要求5所述的一种宫颈癌预测方法，其特征在于，所述第二参数包括是否吸烟、是否有复用激素避孕药、是否有上节育环、是否患有性病、是否患有尖锐湿疣、是否患有宫颈尖锐湿疣、是否患有阴道尖锐湿疣、是否患有外阴阴部尖锐湿疣、是否患有梅毒、是否患有盆腔炎、是否患有生殖器疱疹、是否患有艾滋病、是否含有HPV病毒、是否患有宫颈炎症和是否患有癌症。

8.根据权利要求6所述的一种宫颈癌预测方法，其特征在于，所述预测结果为为低风险人群、中风险人群或高风险人群。