CN111161879A - 一种基于大数据的疾病预测系统 - Google Patents

一种基于大数据的疾病预测系统 Download PDF

Info

Publication number
CN111161879A
CN111161879A CN202010112710.9A CN202010112710A CN111161879A CN 111161879 A CN111161879 A CN 111161879A CN 202010112710 A CN202010112710 A CN 202010112710A CN 111161879 A CN111161879 A CN 111161879A
Authority
CN
China
Prior art keywords
sample data
data
cluster
sample
disease prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010112710.9A
Other languages
English (en)
Other versions
CN111161879B (zh
Inventor
王奔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuzheng Intelligent Technology (Beijing) Co.,Ltd.
Original Assignee
Meili Medical Technology Yangpu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meili Medical Technology Yangpu Co Ltd filed Critical Meili Medical Technology Yangpu Co Ltd
Priority to CN202010850524.5A priority Critical patent/CN111986811B/zh
Priority to CN202010112710.9A priority patent/CN111161879B/zh
Publication of CN111161879A publication Critical patent/CN111161879A/zh
Application granted granted Critical
Publication of CN111161879B publication Critical patent/CN111161879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于大数据的疾病预测系统,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块用于获取人体生理参数样本数据和患者的生理参数数据,所述数据处理模块分别对获取的样本数据和患者的生理参数数据进行处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示预测结果。本发明创造的有益效果:将大数据技术结合支持向量机应用于疾病预测中,提高了疾病预测的精度。

Description

一种基于大数据的疾病预测系统
技术领域
本发明创造涉及疾病预测领域,具体涉及一种基于大数据的疾病预测系统。
背景技术
人体的生理参数数据反应了人体的身体状况,如果能够对获取的生理参数进行有效的分析,就能够更加准确地对疾病进行预测,但是这些生理参数数据的范围较大,涉及的专业领域也较多,如果单纯的通过医生对这些生理参数数据进行分析,不仅要耗费医生大量的精力,还会出现准确率较低的情况。为了使患者对自身的人体状况更加的了解,使医生更加准确地对疾病进行诊断,将大数据技术应用于疾病预测系统中,让其多维化、准确化的处理人体生理参数数据,从而实现了疾病的有效预测。
发明内容
针对上述问题,本发明旨在提供一种基于大数据的疾病预测系统。
本发明创造的目的通过以下技术方案实现:
一种基于大数据的疾病预测系统,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第二数据处理单元用于对采集的患者的生理参数数据进行平滑处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
本发明创造的有益效果:本发明将大数据技术结合支持向量机应用于疾病预测中,采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机学习的复杂性和过拟合;采用粒子群算法对支持向量机的参数进行优化,提高了支持向量机的预测精度。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种基于大数据的疾病预测系统,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第二数据处理单元用于对采集的患者的生理参数数据进行平滑处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
本优选实施例将大数据技术结合支持向量机应用于疾病预测中,采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机学习的复杂性和过拟合;采用粒子群算法对支持向量机的参数进行优化,提高了支持向量机的预测精度。
优选地,所述第一数据处理单元采用K均值聚类算法将收集的人体生理参数样本数据划分为L个样本子集,设收集的人体生理参数样本数据组成的样本集为X,且X={X1,X2,...,Xn},其中,n为样本数,Xi为样本集X中的第i个样本数据,设Ω(Xi,Ri)为样本数据Xi的有效局部邻域,其中,Ri表示样本数据Xi的有效局部邻域半径,Ω(Xi,Ri)为以样本数据Xi为球心,以Ri为半径的球形区域,采用迭代的方式确定样本数据Xi的有效局部邻域半径Ri的值:
设ri(t)表示第t次迭代时样本数据Xi的局部邻域半径,令ri(t)以步长1进行迭代增加,且样本数据Xi的初始邻域半径ri(0)=minj=1,2,...,n|Xi-Xj|,其中,Xj表示样本集X中的第j个数据,每一次迭代后,对样本数据Xi进行检测,定义样本数据Xi在局部邻域Ω(Xi,ri(t))中的邻域检测系数为P(ri(t)),且P(ri(t))的表达式为:
Figure BDA0002390564960000031
其中,Xg表示局部邻域Ω(Xi,ri(t))中的第g个样本数据,Xa和Xb分别表示样本集X中的第a和第b个样本数据,Ω(Xi,ri(t))表示以样本数据Xi为球心,以ri(t)为半径的球形区域;X(max)表示样本集X中的样本数据的最大值,
Figure BDA0002390564960000032
表示局部邻域Ω(Xi,ri(t))中样本数据的平均值,M(Xi,ri(t))表示局部邻域Ω(Xi,ri(t))中的样本数据个数:
给定邻域检测阈值T(ri(t)),且
Figure BDA0002390564960000033
其中,P(ri(j))表示样本数据Xi在局部邻域Ω(Xi,ri(j))中的邻域检测系数,ri(j)表示第j次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j))表示以样本数据Xi为球心,以ri(j)为半径的球形区域,P(ri(j-1))表示样本数据Xi在局部邻域Ω(Xi,ri(j-1))中的邻域检测系数,ri(j-1)表示第(j-1)次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j-1))表示以样本数据Xi为球心,以ri(j-1)为半径的球形区域;
当样本数据Xi在t时刻的邻域检测系数P(ri(t))满足:
Figure BDA0002390564960000034
时,令Ri=ri(t),其中,ri(t+1)表示第(t+1)次迭代时样本数据Xi的局部邻域半径,P(ri(t+1))表示样本数据Xi在局部邻域Ω(Xi,ri(t+1))中的邻域检测系数,Ω(Xi,ri(t+1))为以样本数据Xi为球心,以ri(t+1)为半径的球形区域。
本优选实施例采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机训练过程的复杂性和过拟合;在采用K均值聚类算法进行聚类时,首先在样本集X中选取L个聚类中心,在考虑样本数据集中的样本数据是否担任聚类中心时,为了减小噪声样本数据对聚类中心选取结果的影响,本优选实施例通过综合考虑样本数据和其局部邻域中的样本数据确定该样本数据是否担任聚类中心,在传统的方式中,对样本集中的所有样本数据都采用统一大小的局部邻域半径,容易造成和样本数据并不属于同一类的邻域样本数据也被归于所述样本数据的局部邻域中,这样选取的聚类中心会影响聚类结果的准确性,针对上述情况,本优选实施例通过定义邻域检测系数对样本数据和其局部邻域内的邻域样本数据进行检测,从而确定所述样本数据的有效局部邻域半径,保证了样本数据和其有效局部邻域内的邻域样本数据属性的统一性,为选取有效的聚类中心奠定了基础。
优选地,在样本集X中选取L个聚类中心,具体包括:
(1)选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心l1
(2)在样本集中剩余的样本数据中选取剩余的(L-1)个聚类中心,定义样本数据Xi的信息值为Q(i),则Q(i)的表达式为:
Figure BDA0002390564960000041
式中,P(Ri)表示样本数据Xi在有效局部邻域Ω(Xi,Ri)中的邻域检测系数,P(Ri+1)表示样本数据Xi在局部邻域Ω(Xi,Ri+1)中的邻域检测系数,Ω(Xi,Ri+1)表示以样本数据Xi为球心,以(Ri+1)为半径的球形区域,M(Xi,Ri)表示有效局部邻域Ω(Xi,Ri)中样本数据的个数,Xs表示有效局部邻域Ω(Xi,Ri)中的第s个数据,lj表示第j个聚类中心,l表示当前已选取的聚类中心数,Rj表示样本数据Xj的有效局部邻域半径,Ω(lj,Rj)表示以聚类中心lj为球心、以Rj为半径的球形区域,Xk为有效局部区域Ω(lj,Rj)中的第k个数据,M(lj,Rj)表示有效局部邻域Ω(lj,Rj)中样本数据的个数;
计算样本集X中未选取为聚类中心的样本数据的信息值,选取信息值最大的样本数据为第二个聚类中心l2
(3)重复步骤(2)中的选取方式,直到选取了L个聚类中心后停止。
本优选实施例用于在样本集中选取聚类中心,选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心,通过定义样本数据的信息值进行剩余聚类中心的选取,在计算样本数据的信息值时,综合引入了样本数据的有效局部邻域中邻域样本数据的个数,样本数据和其有效局部邻域的外围样本数据之间的分离性,以及样本数据和已选取的聚类中心之间的分离性,保证了选取的聚类中心具有较高的数据密度以及和其他聚类中心之间具有较高的分离性,从而提高了聚类结果的准确性。
优选地,所述疾病预测构建模块采用聚类所得的样本子集分别对支持向量机进行训练,并采用粒子群算法对支持向量机的惩罚参数和核函数参数进行优化,所述核函数采用的是径向基函数,设Cj(j=1,2,...,L)表示第一数据处理单元聚类所得的第j个样本子集,且Cj={Xj(i),i=1,2,...,M(Cj)},其中,Xj(i)表示样本子集Cj中的第i个样本数据,M(Cj)表示样本子集Cj中的样本数据个数,设Cj组成的训练样本集为A,且A={(Xj(i),Qj(i)),i=1,2,...,M(Cj)},设Y={Yj(i),i=1,2,...,M(Cj)}为训练样本集A在支持向量机中的实际输出,定义粒子群算法的适应度函数f的表达式为:
Figure BDA0002390564960000051
式中,Qj(i)为样本数据Xj(i)在支持向量机中的期望输出,Yj(i)为样本数据Xj(i)在支持向量机中的实际输出。
本优选实施例设置均方误差MSE为粒子群算法的适应度函数,适应度函数值越小,表明粒子的寻优结果越好。
优选地,设粒子群的规模为N,在粒子群中随机选取NA个粒子组成集群A,粒子群中剩余的的粒子组成集群B,设NB表示集群B中的粒子数,NA+NB=1,且0<NA<NB;设置集群A中的粒子采用下式决定下一代的位置:
Figure BDA0002390564960000052
式中,
Figure BDA0002390564960000053
表示集群A中粒子i在(t+1)时刻的位置,
Figure BDA0002390564960000054
表示集群A中粒子i在t时刻的位置,
Figure BDA0002390564960000055
表示生成服从均值为0,标准差为
Figure BDA0002390564960000056
的正态分布的随机数,设fm(t)表示在t时刻粒子群中粒子适应度值的中值,
Figure BDA0002390564960000057
表示集群A中粒子i在t时刻的位置
Figure BDA0002390564960000058
对应的适应度值,当
Figure BDA0002390564960000059
时,
Figure BDA00023905649600000510
Figure BDA00023905649600000511
时,
Figure BDA00023905649600000512
所述疾病预测构建模块设置寻优检测单元,用于在粒子群算法的每一次迭代后对集群B中的粒子进行检测,定义集群B中粒子i在t时刻的检测系数为
Figure BDA00023905649600000513
Figure BDA00023905649600000514
的表达式为:
Figure BDA00023905649600000515
式中,
Figure BDA0002390564960000061
表示集群B中粒子i在t时刻的位置
Figure BDA0002390564960000062
对应的适应度值,
Figure BDA0002390564960000063
表示集群B中粒子j在t时刻的位置
Figure BDA0002390564960000064
对应的适应度值,f(gB(t))表示集群B中粒子在t时刻的全局最优位置gB(t)对应的适应度值,f(gA(t))表示集群A中粒子在t时刻的全局最优位置gA(t)对应的适应度值;
当f(gA(t))≥f(gB(t))或{(f(gA(t))<f(gB(t)))且
Figure BDA0002390564960000065
时,其中,
Figure BDA0002390564960000066
为给定的检测阈值,且
Figure BDA0002390564960000067
集群B中的粒子i采用下式决定下一代的位置:
Figure BDA0002390564960000068
Figure BDA0002390564960000069
式中,
Figure BDA00023905649600000610
Figure BDA00023905649600000611
分别表示集群B中粒子i在t时刻的位置和速度,
Figure BDA00023905649600000612
Figure BDA00023905649600000613
分别表示集群B中粒子i在(t+1)时刻的位置和速度,
Figure BDA00023905649600000614
表示集群B中粒子i在t时刻的个体最优位置,gB(t)表示集群B中粒子在t时刻的全局最优位置,c1和c2为学习因子,且c1和c2的值均取2,rand()为(0,1)之间的随机数,ω为惯性权重因子;
当f(gA(t))<f(gB(t))且
Figure BDA00023905649600000615
时,集群B中的粒子i采用下式决定下一代的位置:
Figure BDA00023905649600000616
Figure BDA00023905649600000617
式中,
Figure BDA00023905649600000618
为随机从集群A中选取的适应度值小于
Figure BDA00023905649600000619
的粒子j在t时刻的位置。
本优选实施例采用粒子群算法对支持向量机的参数进行优化,能够有效的提高支持向量机的预测精度;在所述粒子群的寻优过程中,将粒子群分为集群A和集群B,集群A中的粒子具有较高的全局搜索能力,设置的粒子决定下一代位置的公式中,通过引入
Figure BDA00023905649600000620
从而生成服从均值为0,标准差为
Figure BDA00023905649600000621
的正态分布的随机数对粒子的位置进行更新,将集群A中的粒子和粒子群中粒子的适应度中值进行比较,从而判断其当前位置的好坏,集群A中的粒子当前的位置越差,其对应的标准差
Figure BDA00023905649600000622
的值越小,即增加随机数的选取范围,使得集群A中的粒子在下一代时远离当前的较差位置,从而增加了粒子的多样性,提高了粒子群的全局搜索能力;设置寻优检测单元,用于在粒子群每一次迭代后对集群B中的粒子进行检测,当集群B中的全局最优位置优于集群A中的全局最优位置时,集群B中的粒子保持传统的方式决定下一代的位置,当集群A中的全局最优位置优于集群B中的全局最优位置时,在集群B中选取部分粒子向集群A的全局最优位置的方向进行搜索,根据定义的检测系数在集群B中选取向集群A的全局最优位置学习的部分粒子,当集群B中的粒子和集群A的全局最优位置的距离越近,其对应的检测系数越小,即增加了该粒子向集群A的全局最优位置的方向搜索的概率,此外,在检测系数中,引入了集群A的全局最优位置优于集群B的全局最优位置程度对检测系数进行调整,集群A的全局最优位置越优,集群B中的粒子的检测系数越小,即选取越多的粒子向集群A的全局最优位置进行搜索,增加了搜索到全局最优位置的概率,提高了粒子算法的寻优能力,集群A和集群B相结合的搜索方式,平衡了粒子群算法的全局搜索能量和局部开发能力,避免了粒子群算法易陷入局部最优的缺陷。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (5)

1.一种基于大数据的疾病预测系统,其特征是,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第二数据处理单元用于对采集的患者的生理参数数据进行处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
2.根据权利要求1所述的一种基于大数据的疾病预测系统,其特征是,所述第一数据处理单元采用K均值聚类算法将收集的人体生理参数样本数据划分为L个样本子集,设收集的人体生理参数样本数据组成的样本集为X,且X={X1,X2,...,Xn},其中,n为样本数,Xi为样本集X中的第i个样本数据,设Ω(Xi,Ri)为样本数据Xi的有效局部邻域,其中,Ri表示样本数据Xi的有效局部邻域半径,Ω(Xi,Ri)为以样本数据Xi为球心,以Ri为半径的球形区域,采用迭代的方式确定样本数据Xi的有效局部邻域半径Ri的值:
设ri(t)表示第t次迭代时样本数据Xi的局部邻域半径,令ri(t)以步长1进行迭代增加,且样本数据Xi的初始邻域半径ri(0)=minj=1,2,...,n|Xi-Xj|,其中,Xj表示样本集X中的第j个数据,每一次迭代后,对样本数据Xi进行检测,定义样本数据Xi在局部邻域Ω(Xi,ri(t))中的邻域检测系数为P(ri(t)),且P(ri(t))的表达式为:
Figure FDA0002390564950000011
其中,Xg表示局部邻域Ω(Xi,ri(t))中的第g个样本数据,Xa和Xb分别表示样本集X中的第a和第b个样本数据,Ω(Xi,ri(t))表示以样本数据Xi为球心,以ri(t)为半径的球形区域,X(max)表示样本集X中的样本数据的最大值,
Figure FDA0002390564950000012
表示局部邻域Ω(Xi,ri(t))中样本数据的平均值,M(Xi,ri(t))表示局部邻域Ω(Xi,ri(t))中的样本数据个数:
给定邻域检测阈值T(ri(t)),且
Figure FDA0002390564950000013
其中,P(ri(j))表示样本数据Xi在局部邻域Ω(Xi,ri(j))中的邻域检测系数,ri(j)表示第j次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j))表示以样本数据Xi为球心,以ri(j)为半径的球形区域,P(ri(j-1))表示样本数据Xi在局部邻域Ω(Xi,ri(j-1))中的邻域检测系数,ri(j-1)表示第(j-1)次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j-1))表示以样本数据Xi为球心,以ri(j-1)为半径的球形区域;
当样本数据Xi在t时刻的邻域检测系数P(ri(t))满足:
Figure FDA0002390564950000021
时,令Ri=ri(t),其中,ri(t+1)表示第(t+1)次迭代时样本数据Xi的局部邻域半径,P(ri(t+1))表示样本数据Xi在局部邻域Ω(Xi,ri(t+1))中的邻域检测系数,Ω(Xi,ri(t+1))为以样本数据Xi为球心,以ri(t+1)为半径的球形区域。
3.根据权利要求2所述的一种基于大数据的疾病预测系统,其特征是,在样本集X中选取L个聚类中心,具体包括:
(1)选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心l1
(2)在样本集X的剩余的样本数据中选取剩余的(L一1)个聚类中心,定义样本数据Xi的信息值为Q(i),则Q(i)的表达式为:
Figure FDA0002390564950000022
式中,P(Ri)表示样本数据Xi在有效局部邻域Ω(Xi,Ri)中的邻域检测系数,P(Ri+1)表示样本数据Xi在局部邻域Ω(Xi,Ri+1)中的邻域检测系数,Ω(Xi,Ri+1)表示以样本数据Xi为球心,以(Ri+1)为半径的球形区域,M(Xi,Ri)表示有效局部邻域Ω(Xi,Ri)中样本数据的个数,Xs表示有效局部邻域Ω(Xi,Ri)中的第s个数据,lj表示第j个聚类中心,l表示当前已选取的聚类中心数,Rj表示聚类中心lj的有效局部邻域半径,Ω(lj,Rj)表示以聚类中心lj为球心、以Rj为半径的球形区域,Xk为有效局部区域Ω(lj,Rj)中的第k个数据,M(lj,Rj)表示有效局部邻域Ω(lj,Rj)中样本数据的个数;
计算样本集X中未选取为聚类中心的样本数据的信息值,选取信息值最大的样本数据为第二个聚类中心l2
(3)重复步骤(2)中的选取方式,直到选取了L个聚类中心后停止。
4.根据权利要求3所述的一种基于大数据的疾病预测系统,其特征是,所述疾病预测构建模块采用聚类所得的样本子集分别对支持向量机进行训练,并采用粒子群算法对支持向量机的惩罚参数和核函数参数进行优化,设Cj(j=1,2,...,L)表示第一数据处理单元聚类所得的第j个样本子集,且Cj={Xj(i),i=1,2,...,M(Cj)},其中,Xj(i)表示样本子集Cj中的第i个样本数据,M(Cj)表示样本子集Cj中的样本数据个数,设样本子集Cj组成的训练样本集为A,且A={(Xj(i),Qj(i)),i=1,2,...,M(Cj)},设Y={Yj(i),i=1,2,...,M(Cj))为训练样本集A在支持向量机中的实际输出,定义粒子群算法的适应度函数f的表达式为:
Figure FDA0002390564950000031
式中,Qj(i)为样本数据Xj(i)在支持向量机中的期望输出,Yj(i)为样本数据Xj(i)在支持向量机中的实际输出。
5.根据权利要求4所述的一种基于大数据的疾病预测系统,其特征是,设粒子群的规模为N,在粒子群中随机选取NA个粒子组成集群A,粒子群中剩余的的粒子组成集群B,设NB表示集群B中的粒子数,NA+NB=1,且0<NA<NB;设置集群A中的粒子采用下式决定下一代的位置:
Figure FDA0002390564950000032
式中,
Figure FDA0002390564950000033
表示集群A中粒子i在(t+1)时刻的位置,
Figure FDA0002390564950000034
表示集群A中粒子i在t时刻的位置,
Figure FDA0002390564950000035
表示生成服从均值为0,标准差为
Figure FDA0002390564950000036
的正态分布的随机数,设fm(t)表示在t时刻粒子群中粒子适应度值的中值,
Figure FDA0002390564950000037
表示集群A中粒子i在t时刻的位置
Figure FDA0002390564950000038
对应的适应度值,当
Figure FDA0002390564950000039
时,
Figure FDA00023905649500000310
Figure FDA00023905649500000311
时,
Figure FDA00023905649500000312
所述疾病预测构建模块设置寻优检测单元,用于在粒子群算法的每一次迭代后对集群B中的粒子进行检测,定义集群B中粒子i在t时刻的检测系数为
Figure FDA00023905649500000313
Figure FDA00023905649500000314
的表达式为:
Figure FDA00023905649500000315
式中,
Figure FDA0002390564950000041
表示集群B中粒子i在t时刻的位置
Figure FDA0002390564950000042
对应的适应度值,
Figure FDA0002390564950000043
表示集群B中粒子j在t时刻的位置
Figure FDA0002390564950000044
对应的适应度值,f(gB(t))表示集群B中粒子在t时刻的全局最优位置gB(t)对应的适应度值,f(gA(t))表示集群A中粒子在t时刻的全局最优位置gA(t)对应的适应度值;
当f(gA(t))≥f(gB(t))或{(f(gA(t))<f(gB(t)))
Figure FDA0002390564950000045
时,其中,
Figure FDA0002390564950000046
为给定的检测阈值,且
Figure FDA0002390564950000047
集群B中的粒子i采用下式决定下一代的位置:
Figure FDA0002390564950000048
Figure FDA0002390564950000049
式中,
Figure FDA00023905649500000410
Figure FDA00023905649500000411
分别表示集群B中粒子i在t时刻的位置和速度,
Figure FDA00023905649500000412
Figure FDA00023905649500000413
分别表示集群B中粒子i在(t+1)时刻的位置和速度,
Figure FDA00023905649500000414
表示集群B中粒子i在t时刻的个体最优位置,gB(t)表示集群B中粒子在t时刻的全局最优位置,c1和c2为学习因子,且c1和c2的值均取2,rand()为(0,1)之间的随机数,ω为惯性权重因子;
当f(gA(t))<f(gB(t))且
Figure FDA00023905649500000415
时,集群B中的粒子i采用下式决定下一代的位置:
Figure FDA00023905649500000416
Figure FDA00023905649500000417
式中,
Figure FDA00023905649500000418
为随机从集群A中选取的适应度值小于
Figure FDA00023905649500000419
的粒子j在t时刻的位置。
CN202010112710.9A 2020-02-24 2020-02-24 一种基于大数据的疾病预测系统 Active CN111161879B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010850524.5A CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测系统
CN202010112710.9A CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010112710.9A CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010850524.5A Division CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测系统

Publications (2)

Publication Number Publication Date
CN111161879A true CN111161879A (zh) 2020-05-15
CN111161879B CN111161879B (zh) 2020-10-09

Family

ID=70566367

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010850524.5A Active CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测系统
CN202010112710.9A Active CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010850524.5A Active CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测系统

Country Status (1)

Country Link
CN (2) CN111986811B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612261A (zh) * 2020-05-28 2020-09-01 洋浦美诺安电子科技有限责任公司 基于区块链的金融大数据分析系统
CN111710410A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 一种基于青筋固定部位征兆的疾病推测系统
CN111863232A (zh) * 2020-08-06 2020-10-30 罗春华 基于区块链和医学影像的远程疾病智能诊断系统
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112687393A (zh) * 2020-12-29 2021-04-20 康奥生物科技(天津)股份有限公司 一种基于大数据的疾病预测系统
CN113096806A (zh) * 2021-04-15 2021-07-09 王小娟 基于医学影像算法和区块链的疾病预测系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532630B (zh) * 2020-11-30 2021-09-24 广州瘦吧网络科技有限公司 基于算法、5g和区块链的基因大数据疾病预测系统
CN112869722B (zh) * 2021-01-11 2022-07-19 北京择天众康科技有限公司 基于物联网的智慧医疗养老用5g智能采集终端及采集方法
CN113327674A (zh) * 2021-06-24 2021-08-31 广东德澳智慧医疗科技有限公司 基于人工智能、大数据和算法的创伤信息系统
CN116432064B (zh) * 2023-03-06 2023-10-27 北京车讯互联网股份有限公司 一种数据预处理系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682219A (zh) * 2012-05-17 2012-09-19 鲁东大学 一种支持向量机短期负荷预测方法
WO2016075096A1 (en) * 2014-11-10 2016-05-19 Ventana Medical Systems, Inc. Classifying nuclei in histology images
CN105930663A (zh) * 2016-04-26 2016-09-07 北京科技大学 一种帕金森病早期诊断方法
CN106340008A (zh) * 2016-08-09 2017-01-18 杭州健培科技有限公司 基于特征值选择及svm参数优化的肺部影像识别方法
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
US20170124280A1 (en) * 2015-10-28 2017-05-04 Wisconsin Alumni Research Foundation Determining a class type of a sample by clustering locally optimal model parameters
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107153837A (zh) * 2017-04-14 2017-09-12 中国科学技术大学苏州研究院 深度结合K‑means和PSO的聚类方法
CN108549912A (zh) * 2018-04-19 2018-09-18 北京工业大学 一种基于机器学习的医学图像肺结节检测方法
CN109344492A (zh) * 2018-09-27 2019-02-15 中国人民解放军海军航空大学 一种基于k-均值聚类与粒子群核极限学习机的航空发动机推力估计方法
CN109411093A (zh) * 2018-10-16 2019-03-01 烟台翰宁信息科技有限公司 一种基于云计算的智慧医疗大数据分析处理方法
CN110085322A (zh) * 2019-04-18 2019-08-02 岭南师范学院 一种k-means聚类糖尿病预警模型的改进方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200759A (zh) * 2011-05-28 2011-09-28 东华大学 一种非线性核化自适应预测方法
US10722115B2 (en) * 2015-08-20 2020-07-28 Ohio University Devices and methods for classifying diabetic and macular degeneration
CN108597601B (zh) * 2018-04-20 2021-06-25 山东师范大学 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法
CN108875365B (zh) * 2018-04-22 2023-04-07 湖南省金盾信息安全等级保护评估中心有限公司 一种入侵检测方法及入侵检测检测装置
CN109102884A (zh) * 2018-07-19 2018-12-28 南京邮电大学 基于混合核函数支持向量机模型的帕金森疾病诊断方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682219A (zh) * 2012-05-17 2012-09-19 鲁东大学 一种支持向量机短期负荷预测方法
WO2016075096A1 (en) * 2014-11-10 2016-05-19 Ventana Medical Systems, Inc. Classifying nuclei in histology images
US20170124280A1 (en) * 2015-10-28 2017-05-04 Wisconsin Alumni Research Foundation Determining a class type of a sample by clustering locally optimal model parameters
CN105930663A (zh) * 2016-04-26 2016-09-07 北京科技大学 一种帕金森病早期诊断方法
CN106340008A (zh) * 2016-08-09 2017-01-18 杭州健培科技有限公司 基于特征值选择及svm参数优化的肺部影像识别方法
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107153837A (zh) * 2017-04-14 2017-09-12 中国科学技术大学苏州研究院 深度结合K‑means和PSO的聚类方法
CN108549912A (zh) * 2018-04-19 2018-09-18 北京工业大学 一种基于机器学习的医学图像肺结节检测方法
CN109344492A (zh) * 2018-09-27 2019-02-15 中国人民解放军海军航空大学 一种基于k-均值聚类与粒子群核极限学习机的航空发动机推力估计方法
CN109411093A (zh) * 2018-10-16 2019-03-01 烟台翰宁信息科技有限公司 一种基于云计算的智慧医疗大数据分析处理方法
CN110085322A (zh) * 2019-04-18 2019-08-02 岭南师范学院 一种k-means聚类糖尿病预警模型的改进方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HARSHIT SAXENA等: "Intrusion Detection System using K- means, PSO with SVM Classifier: A Survey", 《INTERNATIONAL JOURNAL OF EMERGING TECHNOLOGY AND ADVANCED ENGINEERING》 *
MARCELO BARROS DE ALMEIDA: "SVM-KM: speeding SVMs learning with a priori cluster selection and k-means", 《PROCEEDINGS. VOL.1. SIXTH BRAZILIAN SYMPOSIUM ON NEURAL NETWORKS》 *
张琼等: "基于改进PSO_SVM算法的帕金森疾病诊断研究", 《计算机与数字工程》 *
方丽英等: "基于tlPSO-SVM模型的肿瘤进展预测", 《计算机工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612261A (zh) * 2020-05-28 2020-09-01 洋浦美诺安电子科技有限责任公司 基于区块链的金融大数据分析系统
CN112330067A (zh) * 2020-05-28 2021-02-05 洋浦美诺安电子科技有限责任公司 基于区块链的金融大数据分析系统
CN112330067B (zh) * 2020-05-28 2021-06-25 山东深度网络科技有限公司 基于区块链的金融大数据分析系统
CN111710410A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 一种基于青筋固定部位征兆的疾病推测系统
CN111863232A (zh) * 2020-08-06 2020-10-30 罗春华 基于区块链和医学影像的远程疾病智能诊断系统
CN111863232B (zh) * 2020-08-06 2021-02-19 深圳市柯尼达巨茂医疗设备有限公司 基于区块链和医学影像的远程疾病智能诊断系统
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112259220B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112687393A (zh) * 2020-12-29 2021-04-20 康奥生物科技(天津)股份有限公司 一种基于大数据的疾病预测系统
CN113096806A (zh) * 2021-04-15 2021-07-09 王小娟 基于医学影像算法和区块链的疾病预测系统

Also Published As

Publication number Publication date
CN111161879B (zh) 2020-10-09
CN111986811A (zh) 2020-11-24
CN111986811B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN111986811B (zh) 一种基于算法和大数据的疾病预测系统
Pritom et al. Predicting breast cancer recurrence using effective classification and feature selection technique
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
CN110503187B (zh) 一种用于功能核磁共振成像数据生成的生成对抗网络模型的实现方法
Kusy et al. Weighted probabilistic neural network
KR101779800B1 (ko) 기계학습 기반 다면적 성장 평가 방법 및 시스템
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN111079074A (zh) 一种基于改进的正弦余弦算法构建预测模型的方法
CN110567721A (zh) 一种滚动轴承故障诊断方法及系统
CN114093448B (zh) 一种疾病风险预测模型的构建方法
CN106601271B (zh) 一种语音异常信号检测系统
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN110957046B (zh) 医疗健康案例知识匹配方法和系统
De Toro et al. Evolutionary algorithms for multiobjective and multimodal optimization of diagnostic schemes
CN114821157A (zh) 基于混合模型网络的多模态影像分类方法
CN112382382B (zh) 一种代价敏感的集成学习分类方法及系统
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN108446740B (zh) 一种用于脑影像病历特征提取的多层一致协同方法
CN113989543A (zh) 一种covid-19医学影像检测分类方法及装置
Zhou et al. Research on intelligent diagnosis algorithm of diseases based on machine learning
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN111563411A (zh) 一种利用优化的AdaBoost加权方式和弱分类器对心电信号分类的方法
CN115222945B (zh) 基于多尺度自适应课程学习的深度语义分割网络训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200908

Address after: Room 301-3045, 3 / F, building 1, 2, 3, QinChun home, Xisanqi, Haidian District, Beijing 100089

Applicant after: Wuzheng Intelligent Technology (Beijing) Co.,Ltd.

Address before: 578000 administration center building, No.8 Yantian Road, xinyingwan District, Yangpu Economic Development Zone

Applicant before: Meili medical technology (Yangpu) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant