CN114300126A - 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 - Google Patents
一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 Download PDFInfo
- Publication number
- CN114300126A CN114300126A CN202111659157.1A CN202111659157A CN114300126A CN 114300126 A CN114300126 A CN 114300126A CN 202111659157 A CN202111659157 A CN 202111659157A CN 114300126 A CN114300126 A CN 114300126A
- Authority
- CN
- China
- Prior art keywords
- cancer
- data
- neural network
- history
- questionnaire
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 129
- 201000011510 cancer Diseases 0.000 title claims abstract description 128
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 42
- 238000012216 screening Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000007613 environmental effect Effects 0.000 claims abstract description 8
- 230000007170 pathology Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 19
- 230000035945 sensitivity Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 208000026310 Breast neoplasm Diseases 0.000 claims description 6
- 208000002699 Digestive System Neoplasms Diseases 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 210000001035 gastrointestinal tract Anatomy 0.000 claims description 5
- 201000007270 liver cancer Diseases 0.000 claims description 5
- 208000014018 liver neoplasm Diseases 0.000 claims description 5
- 208000024172 Cardiovascular disease Diseases 0.000 claims description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 4
- 201000005202 lung cancer Diseases 0.000 claims description 4
- 208000020816 lung neoplasm Diseases 0.000 claims description 4
- 206010006187 Breast cancer Diseases 0.000 claims description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 3
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 claims description 3
- 208000032928 Dyslipidaemia Diseases 0.000 claims description 3
- 206010020772 Hypertension Diseases 0.000 claims description 3
- 208000017170 Lipid metabolism disease Diseases 0.000 claims description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 3
- 208000006011 Stroke Diseases 0.000 claims description 3
- 208000032109 Transient ischaemic attack Diseases 0.000 claims description 3
- 210000000481 breast Anatomy 0.000 claims description 3
- 230000002490 cerebral effect Effects 0.000 claims description 3
- 208000019425 cirrhosis of liver Diseases 0.000 claims description 3
- 206010012601 diabetes mellitus Diseases 0.000 claims description 3
- 230000037213 diet Effects 0.000 claims description 3
- 235000005911 diet Nutrition 0.000 claims description 3
- 206010017758 gastric cancer Diseases 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 208000008128 pulmonary tuberculosis Diseases 0.000 claims description 3
- 230000000391 smoking effect Effects 0.000 claims description 3
- 201000011549 stomach cancer Diseases 0.000 claims description 3
- 201000010875 transient cerebral ischemia Diseases 0.000 claims description 3
- 208000016752 upper digestive tract disease Diseases 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 17
- 238000000034 method Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000001575 pathological effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013399 early diagnosis Methods 0.000 description 3
- 238000005381 potential energy Methods 0.000 description 3
- 210000000225 synapse Anatomy 0.000 description 3
- 230000000711 cancerogenic effect Effects 0.000 description 2
- 231100000315 carcinogenic Toxicity 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 241000590002 Helicobacter pylori Species 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 206010073310 Occupational exposures Diseases 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229940037467 helicobacter pylori Drugs 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 231100000675 occupational exposure Toxicity 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 208000037821 progressive disease Diseases 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000010863 targeted diagnosis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种基于早癌筛查问卷与前馈神经网络的癌症预测系统,包括:数据获取模块,其被配置为:获取调查问卷的样本数据,其中,所述样本数据包括:调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素和病理数据;特征提取模块,其被配置为:提取所述样本数据的特征数据;癌症概率预测模块,其被配置为:基于所述特征数据,采用训练好的癌症预测模型,得到预测癌症的概率。
Description
技术领域
本发明属于医疗诊断领域,具体涉及一种基于早癌筛查问卷与前馈神经网络的癌症预测系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
癌症习惯上泛指所有恶性肿瘤,指的是一种致命的渐进性病变。癌症的发生是一个长期的、渐进的过程,要经过多个病理阶段,可分为致癌、促癌、演变三个过程。癌症是世界范围内损害人类健康的重大疾病之一,大多数恶性肿瘤早期无明显症状,被发现时已经处于中晚期,从而失去了最佳治疗时机,给患者造成了极大的心理和生理痛苦,给社会和家庭造成了严重的经济负担。因此,癌症的早期筛查和诊断是重要的降低癌症死亡率的有效方法。
癌症与环境、生活方式、年龄、遗传因素等密切相关。目前,通过调查问卷的形式,收集城市人群致癌的相关信息,从而判断癌症发病风险。
目前判定癌症风险的诊断方面存在以下问题:
1、在进行癌症诊断前,需要大量的人力物力以筛查出高危人群。
2、在以前的癌症诊断过程中,需要医生对患者进行各项病理检测,给患者和医生带来了不便。
3、医生需要对患者的病理检测结果进行分析,需要花费大量的时间及人力。
发明内容
本发明为了解决上述问题,提出了一种基于早癌筛查问卷与前馈神经网络的癌症预测系统,本发明能够根据调查问卷得到的相关特征自动给出预测结果,使患者可以不受场地和时间的限制随时进行结果评估,也可为临床医师提供辅助性的参考,减轻医师的工作负担,在预测过程中显示患者的状态供临床医师做参考。
根据一些实施例,本发明采用如下技术方案:
一种基于早癌筛查问卷与前馈神经网络的癌症预测系统,包括:
数据获取模块,其被配置为:获取调查问卷的样本数据,其中,所述样本数据包括:调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素和病理数据;
特征提取模块,其被配置为:提取所述样本数据的特征数据;
癌症概率预测模块,其被配置为:基于所述特征数据,采用训练好的癌症预测模型,得到预测癌症的概率。
进一步地,所述的患者生活方式包括:是否经常大量饮酒、是否高盐饮食、是否食用超过设定阈值的腌晒食品和是否有吸烟史。
进一步地,所述的个人患病史包括:个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史和短暂脑缺血发作病史。
进一步地,所述的癌症家族史包括:上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史和乳腺良性肿瘤病史。
进一步地,所述系统还包括数据预处理模块,其被配置为:将样本数据中男性的乳腺癌病史部分空置。
进一步地,特征提取模块,还被配置为:采用主成分分析法对样本数据进行特征提取、数据降维后,保存贡献率前95%的特征属性,再对特征数据归一化处理。
进一步地,所述系统还包括训练预测模型模块,其被配置为:采用贝叶斯正则化反向传播算法对癌症预测模型进行训练优化,得到模型的最优权重值和偏差值,根据模型的最优权重值和偏差值得到训练好的癌症预测模型。
进一步地,所述得到预测癌症的概率具体包括:以假阳性为横坐标,以灵敏度为纵坐标,在不同的概率阈值下取值,绘制灵敏度与假阳性的关系曲线,其中灵敏度与假阳性的关系曲线下方的面积为AUC值。
进一步地,所述癌症预测模型包括一个输入层、两个隐藏层和一个输出层。
进一步地,所述系统包括显示模块,其被配置为:根据癌症的概率,显示正常或者患癌。
与现有技术相比,本发明的有益效果为:
1、本发明使用早癌筛查问卷收集患者的致癌数据,通过主成分分析对样本数据进行特征提取、数据降维,并进行归一化处理,得到预处理数据。
2、本发明的基于人工神经网络的癌症预测系统,为临床医师的诊断癌症提供了辅助功能,减少了临床医师的工作量:给出各个样本的预测结果,并输出对样本的估测值,从而确定患者的患癌概率。
3、本发明使用的贝叶斯正则化算法,优化了神经网络的性能,提高了样本分类的准确率,上述系统的诊断效能更好。
4、本发明的基于人工神经网络的癌症预测系统提前预测患者的患癌概率,促使患者前往医院进行病理检测,从而实现早诊早治。
5、本发明使用的基于人工神经网络的癌症预测系统可以单做成软件,也可与其他硬件配套装置成套使用,操作简单,结果明晰。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例示出的基于早癌筛查问卷与神经网络的癌症预测系统的框架图;
图2是本发明实施例示出的神经网络训练过程的流程图;
图3是本发明本发明实施例示出的癌症预测的ROC曲线图及AUC值。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1,本实施例提供了一种基于早癌筛查问卷与神经网络的癌症预测系统,包括:
(1)数据获取模块,获取早癌筛查问卷中的样本数据,样本数据主要包括调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等数据信息。并将问卷数据导出并转换成预测模型所需要的格式。其中,忽略样本数据中的私人信息,按照预测模型要求格式保存问卷样本数据。对数据集进行数据脱敏,过滤姓名、身份证号、联系方式等个人隐私信息,从初步建立的数据集中选出模型的输入和输出特征属性。去除不需要的样本记录、离群值,以同一指标的计算结果(均值、中位数、众数等)填充缺失值。
数据预处理模块,用于处理上述获得的样本数据,用‘NaN’代替缺失值,使用主成分分析对样本数据进行特征提取、数据降维,保存贡献率前95%的特征属性,再进行数据归一化,每个样本得到一个预处理数据,构建得到预处理数据集。
数据预处理模块,早癌筛查问卷是指重点慢病早诊早治评估表,调查问卷主要包括患者基本信息、上消化道癌、下消化道癌、肺癌、肝癌、乳腺癌、心脑血管疾病等方面,样本数据包括早癌筛查问卷中收集到的患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等31个特征属性。
训练预测模型模块,使用所有预处理数据对预测模型进行训练与测试,通过贝叶斯正则化算法优化神经网络,得到最佳预测模型。
将预处理数据集分为训练集与测试集,分别对所述训练集进行训练和对所述测试集进行测试,采用贝叶斯正则化算法对神经网络进行优化,以处理得到基于神经网络的癌症预测模型。
输入新的样本数据,用于验证上述癌症预测模型的性能,同时由GUI界面输出上述预测模型对于新的样本数据的预测结果。
具体实施例子中,早癌筛查问卷数据包括患者生活方式、个人患病史、癌症家族史、环境因素、病理数据、其他因素等特征。其中“0”代表否定,“1”代表肯定。
其中患者生活方式:经常大量饮酒、高盐饮食、腌晒食品摄入偏多、吸烟史;
个人患病史:个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史、短暂脑缺血发作病史;
癌症家族史:上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史、乳腺良性肿瘤病史;
环境因素:环境或高危职业暴露史;
病理数据:幽门螺杆菌阳性、乙肝表面抗原检测阳性;
其他因素:性别、年龄、身高、体重、视力低于0.4~0.6以下、肝癌其他高危因素、明显超重或肥胖;
分析处理得到的样本数据:对样本数据进行预处理及特征提取,并进行分类。
GUI界面显示预测结果:读取预测出的结果。其中“0”代表正常,“1”代表患癌。
在获取早癌筛查数据后,对数据进行预处理及特征提取分类预测的工作。先对问卷中缺失的数据进行处理。
处理缺失值以后,对问卷数据进行降维,本系统采用主成分分析方法。步骤如下:
计算标量化矩阵X的协方差矩阵C:
计算协方差矩阵C的特征方程:
|C-λIp|=0
得到特征值λj和相应的特征向量αj,其中j=0,1…,p。确定主成分k的数值,确保信息利用率高于95%。
特征值按从大到小排列,取前k个最大特征值对应的特征向量,得到一个k行p列的特征向量矩阵v。
计算得到n行k列的矩阵Y,这个矩阵X就是降维后的变量矩阵,包含k个主要成分的数据。
Y=(VXT)T=ZXT
计算每个特征根的贡献率Vi;Vi=xi/(x1+x2+........)。
得到降维的数据矩阵Y后,对数据进行归一化处理,将数据的取值范围转化为统一的区间如[0,1]。函数表达式为:
式中,Ynorm为归一化后的数据,Yi为原始数据的第i列,Ymax、Ymin分别为原始数据集的最大值和最小值。
经过归一化,将数据的取值范围转化为统一的区间如[0,1],有利于加快训练网络的收敛性。得到每个样本的特征向量,对特征进行分类,本系统通过神经网络对样本进行分类预测。
训练预测模型模块,使用所有所述预处理数据对预测模型进行训练与测试,通过贝叶斯正则化算法训练优化神经网络,得到最佳预测模型。
所选择的训练算法是贝叶斯正则化反向传播算法,它需要更长的时间,但更好地解决复杂问题。该算法根据Levenberg-Marquardt优化更新权重和偏差,确定最佳组合,以生成一个分布良好的网络。Marquardt调整参数的值是0.005的标准值。使用基于贝叶斯正则化算法的人工神经网络模型对其进行分类,将预处理后的数据集分为训练集和测试集,随机抽取70%的数据作为训练集,15%的数据作为验证集,15%的数据作为测试集。在得到每个样本的特征向量后,样本标签为{0,1},分别代表正常和癌症。利用十折交叉验证计算分类识别的准确率,得到模型后再对数据进行预测。
神经网络是发生在神经元生物网络中的信息处理行为的数学表示。它们的灵感来自于生物神经系统中不同神经元突触之间的相互作用。神经网络广泛用于癌症相关的研究。神经网络的固有结构使其成为处理复杂数据集的强大工具,其特征是输入数据和目标预测之间高度非线性的相互作用。因此,决定训练神经网络来学习分类器,以便将样本分类为癌症或正常。所采用的人工神经网络的结构是具有输入层、隐藏层和输出层的前馈神经网络的结构。所使用的人工神经网络包含一个输入层、两个隐藏层、一个输出层,其中,输入层包括31个神经元(对应31个特征属性),2个隐藏层分别包含20个神经元,隐藏层激活函数是sigmoid函数;输出层包括2个神经元,输出值大于0.5的患癌概率低,输出值大于0.5的患癌概率高;所选择的训练算法是贝叶斯正则化反向传播算法,它需要更长的时间,但更好地解决复杂问题。该算法根据Levenberg-Marquardt优化更新权重和偏差,确定最佳组合,以生成一个分布良好的网络。Marquardt调整参数的标准值是0.005。
如图2所示,所使用的神经网络是由一个多层神经元结构组成,每一层神经元拥有输入(它的输入是前一层神经元的输出)和输出,每一层Layer(i)是由Ni(Ni代表在第i层上的N)个网络神经元组成,每个Ni上的网络神经元把对应在Ni-1上的神经元输出做为它的输入,我们把神经元和与之对应的神经元之间的连线用生物学的名称,叫做突触,在数学模型中每个突触有一个加权数值,我们称做权重,那么要计算第i层上的某个神经元所得到的势能等于每一个权重乘以第i-1层上对应的神经元的输出,然后全体求和得到了第i层上的某个神经元所得到的势能,然后势能数值通过该神经元上的激活函数(activationfunction,常是∑函数Sigmoid function)以控制输出大小。学习过程由信号的正向传播和误差的反向传播两个过程组成,从输入层输入,经隐层处理以后,传向输出层。如果输出层的实际输出和期望输出不符合,就进入误差的反向传播阶段。误差反向传播是将输出误差以某种形式通过隐层向输入层反向传播,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,这个误差信号就作为修正个单元权值的依据。直到输出的误差满足一定条件或者迭代次数达到一定次数。
激活函数如下:
σ(z)=1/(e-z+1)
逻辑函数z如下:
z=Bi+Wix
由L-M算法执行的对n维向量x的更新由下式给出:
δx=-[JT(x)J(x)+μI]-1JT(x)e(x)
e(x)是误差向量,J(x)是雅可比矩阵,由n维中每个维的误差函数的偏导数组成。μ是在算法运行期间迭代修改的参数,I是单位矩阵。
损失函数(交叉熵)如下:
可以批量输入新的样本数据,用于验证上述癌症预测模型的性能,同时由GUI界面输出上述预测模型对于新的样本数据的预测结果,输出并保存到Excel表格中。输出值在[0,1],输出值大于0.5的患癌概率低,输出值大于0.5的患癌概率高。
癌症概率预测模块,基于所述的数据预处理模块和最佳预测模型,对新样本进行预测,并输出预测结果。
在模型的评价指标中,本实施例以准确率、灵敏度、特异性、AUC(Area UnderCurve)受试者操作特征曲线和ROC(Receiver Operating Characteristic Curve)曲线为导向,其中准确率定义为TP+TN/(TP+TN+FP+FN),灵敏度定义为TP/(TP+FN),特异性定义为TN/(TN+FP),ROC以假阳性:FP/(FP+TN)为横坐标,以灵敏度为纵坐标,在不同的概率阈值下取值(例如,以0.1位步长,对输出概率进行切分)下,绘制灵敏度与假阳性的关系曲线。该曲线下方面积,为AUC值。
预测结果在(0,1),越接近于1代表患癌的概率越大,大于0.5代表患癌概率高,低于0.5代表患癌概率低。
如图3所示,本实施例的一种基于早癌筛查问卷与神经网络的癌症预测系统的评价指标:准确率为99.29%,AUC值为0.84445,相对于同样使用问卷进行癌症的实例,准确率与AUC值更高,本发明的诊断效能更好。
实现了的技术效果如下:1.患者与医生不需要面对面接触,患者填写早癌筛后,系统输出预测结果,患者可以前往医院进行诊断。2.系统输出患者的预测结果,医生可以进行针对性诊断,这样的方式使癌症诊断更加有意义。3.癌症预测系统可以辅助医生完成诊断,减少医生的工作负担,提高癌症诊断的效率,从而实现早诊早治的目标。
在一个具体实施例中:一位会操作癌症预测系统技术人员,需要一个可以要进行癌症诊断的患者,一位临床医师。
第一步:由患者按照要求填写早癌筛查问卷,问卷保存在数据库中。
第二步:技术人员将患者填写的早癌筛查问卷导出,并输入癌症预测系统。
第三步:技术人员确定癌症预测系统的数据预处理模块可以正确接收并转换导入的问卷数据格式。
第四步:通过导入的问卷数据对患者进行预测,并能预测出患者患癌的概率,输出的数值在(0,1)之间,越靠近于1,患癌的概率越大。
第五步:临床医师根据患者的状态进行病理检测,从而最后确定患者是否患有癌症。
需要说明的是:本发明的一种基于早癌筛查问卷与人工神经网络的癌症预测系统的使用门槛很低,经过简单的培训说明,可以有医生或护士使用,由技术人员导入患者的问卷数据之后,可以不限地点的进行癌症预测,然后由预测系统给出癌症预测数据,此时就可以去医院进行病理检测,为临床医师进行下一步癌症病理诊断做参考。或本发明的一种基于基于人工神经网络的癌症预测系统为临床医师做癌症诊断时提供参考。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,包括:
数据获取模块,其被配置为:获取调查问卷的样本数据,其中,所述样本数据包括:调查问卷收集到的患者生活方式、个人患病史、癌症家族史、环境因素和病理数据;
特征提取模块,其被配置为:提取所述样本数据的特征数据;
癌症概率预测模块,其被配置为:基于所述特征数据,采用训练好的癌症预测模型,得到预测癌症的概率。
2.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述的患者生活方式包括:是否经常大量饮酒、是否高盐饮食、是否食用超过设定阈值的腌晒食品和是否有吸烟史。
3.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述的个人患病史包括:个人上消化道疾病史、个人下消化道系统疾病史、合并慢阻肺或有肺结核病史、肝硬化、高血压、血脂异常、糖尿病、心血管病史、脑卒中病史和短暂脑缺血发作病史。
4.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述的癌症家族史包括:上消化道肿瘤家族史、一级亲属中存在有胃癌患者、下消化道肿瘤家族史、肺癌家族史、肝癌家族病史、乳腺恶性肿瘤家族病史和乳腺良性肿瘤病史。
5.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述系统还包括数据预处理模块,其被配置为:将样本数据中男性的乳腺癌病史部分空置。
6.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,特征提取模块,还被配置为:采用主成分分析法对样本数据进行特征提取、数据降维后,保存贡献率前95%的特征属性,再对特征数据归一化处理。
7.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述系统还包括训练预测模型模块,其被配置为:采用贝叶斯正则化反向传播算法对癌症预测模型进行训练优化,得到模型的最优权重值和偏差值,根据模型的最优权重值和偏差值得到训练好的癌症预测模型。
8.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述得到预测癌症的概率具体包括:以假阳性为横坐标,以灵敏度为纵坐标,在不同的概率阈值下取值,绘制灵敏度与假阳性的关系曲线,其中灵敏度与假阳性的关系曲线下方的面积为AUC值。
9.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述癌症预测模型包括一个输入层、两个隐藏层和一个输出层。
10.根据权利要求1所述的基于早癌筛查问卷与前馈神经网络的癌症预测系统,其特征在于,所述系统包括显示模块,其被配置为:根据癌症的概率,显示正常或者患癌。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111659157.1A CN114300126A (zh) | 2021-12-30 | 2021-12-30 | 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111659157.1A CN114300126A (zh) | 2021-12-30 | 2021-12-30 | 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114300126A true CN114300126A (zh) | 2022-04-08 |
Family
ID=80974359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111659157.1A Pending CN114300126A (zh) | 2021-12-30 | 2021-12-30 | 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114300126A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724717A (zh) * | 2022-04-20 | 2022-07-08 | 山东大学齐鲁医院 | 一种胃早癌高危风险筛查系统 |
CN115691813A (zh) * | 2022-12-30 | 2023-02-03 | 神州医疗科技股份有限公司 | 基于基因组学和微生物组学的遗传性胃癌评估方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
CN112116966A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院大学宁波华美医院 | 一种基于机器学习算法的智能化癌症问卷分析方法 |
CN113409943A (zh) * | 2021-06-22 | 2021-09-17 | 浙江工业大学 | 一种基于bp神经网络的心理健康智能筛查系统 |
-
2021
- 2021-12-30 CN CN202111659157.1A patent/CN114300126A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析系统 |
CN112116966A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院大学宁波华美医院 | 一种基于机器学习算法的智能化癌症问卷分析方法 |
CN113409943A (zh) * | 2021-06-22 | 2021-09-17 | 浙江工业大学 | 一种基于bp神经网络的心理健康智能筛查系统 |
Non-Patent Citations (1)
Title |
---|
李红霞;许士国;范垂仁;: "基于主成分分析和贝叶斯正则化方法的神经网络年最大洪峰流量预测模型探讨", 水文, no. 06, 25 December 2006 (2006-12-25), pages 1 - 3 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724717A (zh) * | 2022-04-20 | 2022-07-08 | 山东大学齐鲁医院 | 一种胃早癌高危风险筛查系统 |
CN114724717B (zh) * | 2022-04-20 | 2024-04-12 | 山东大学齐鲁医院 | 一种胃早癌高危风险筛查系统 |
CN115691813A (zh) * | 2022-12-30 | 2023-02-03 | 神州医疗科技股份有限公司 | 基于基因组学和微生物组学的遗传性胃癌评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alam et al. | A model for early prediction of diabetes | |
LaFreniere et al. | Using machine learning to predict hypertension from a clinical dataset | |
Miao et al. | Coronary heart disease diagnosis using deep neural networks | |
Ramezani et al. | A novel hybrid intelligent system with missing value imputation for diabetes diagnosis | |
Shahid et al. | A novel approach for coronary artery disease diagnosis using hybrid particle swarm optimization based emotional neural network | |
CN111261289A (zh) | 一种基于人工智能模型的心脏疾病的检测方法 | |
Nandipati et al. | Polycystic Ovarian Syndrome (PCOS) classification and feature selection by machine learning techniques | |
CN108492877B (zh) | 一种基于ds证据理论的心血管病辅助预测方法 | |
CN114300126A (zh) | 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 | |
Shaban | Automated screening of Parkinson's disease using deep learning based electroencephalography | |
CN112932501B (zh) | 一种基于一维卷积神经网络自动识别失眠方法 | |
Pavithra et al. | Hybrid feature selection technique for prediction of cardiovascular diseases | |
CN111261278A (zh) | 一种基于三维图像的深度学习模型的心脏疾病检测方法 | |
CN114203295A (zh) | 脑卒中风险预测干预方法及系统 | |
Su et al. | Diabetes Mellitus risk prediction using age adaptation models | |
Dhar | An adaptive intelligent diagnostic system to predict early stage of parkinson's disease using two-stage dimension reduction with genetically optimized lightgbm algorithm | |
Joloudari et al. | FCM-DNN: diagnosing coronary artery disease by deep accuracy fuzzy C-means clustering model | |
Bhowmick et al. | Heart Disease Prediction Using Different Machine Learning Algorithms | |
US20210158967A1 (en) | Method of prediction of potential health risk | |
Kuila et al. | ECG signal classification to detect heart arrhythmia using ELM and CNN | |
Geng et al. | Pathological voice detection and classification based on multimodal transmission network | |
Hidayat et al. | Comparison of K-Nearest Neighbor and Decision Tree Methods using Principal Component Analysis Technique in Heart Disease Classification | |
Venkatrao et al. | HDLNET: a hybrid deep learning network model with intelligent IoT for detection and classification of chronic kidney disease | |
Logeshwaran et al. | Optimizing the Capacity of Extreme Learning Machines for Biomedical Informatics Applications | |
Hariri et al. | Presenting a model for the diagnosis of heart failure using cumulative and deep learning algorithms: a case study of tehran heart center |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |