CN111312403A - 基于实例和特征共享级联的疾病预测系统、设备及介质 - Google Patents
基于实例和特征共享级联的疾病预测系统、设备及介质 Download PDFInfo
- Publication number
- CN111312403A CN111312403A CN202010070744.6A CN202010070744A CN111312403A CN 111312403 A CN111312403 A CN 111312403A CN 202010070744 A CN202010070744 A CN 202010070744A CN 111312403 A CN111312403 A CN 111312403A
- Authority
- CN
- China
- Prior art keywords
- disease
- data set
- probability distribution
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 97
- 201000010099 disease Diseases 0.000 title claims abstract description 94
- 238000009826 distribution Methods 0.000 claims abstract description 60
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 claims abstract description 30
- 238000013508 migration Methods 0.000 claims abstract description 23
- 230000005012 migration Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 206010067775 Upper airway obstruction Diseases 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010006458 Bronchitis chronic Diseases 0.000 description 2
- 208000014085 Chronic respiratory disease Diseases 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 206010006451 bronchitis Diseases 0.000 description 2
- 208000007451 chronic bronchitis Diseases 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010014561 Emphysema Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000011623 Obstructive Lung disease Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 208000008203 tachypnea Diseases 0.000 description 1
- 206010043089 tachypnoea Diseases 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Pathology (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开公开了基于实例和特征共享级联的疾病预测系统、设备及介质,其中系统,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。
Description
技术领域
本公开涉及疾病辅助诊断技术领域,特别是涉及基于实例和特征共享级联的疾病预测系统、设备及介质。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
数据挖掘中,样本数据越多,其分析、计算结果越可靠。而对于某些样本容量较小的小样本数据,如何有效利用小样本数据的潜在信息进行分析,并保证分析结果的有效性就尤为重要。尤其是在医学领域,采取适当的方法对数据稀少的疾病进行准确预测有利于提高临床诊断效率。慢性阻塞性肺疾病(COPD)是一种常见的以持续气流受限为特征的慢性呼吸道疾病,由于大气污染及吸烟人数增加等因素,COPD的发病率逐年提升,成为仅次于高血压、糖尿病的中国第三大常见慢性病,有效的预测模型在慢性呼吸道疾病的诊治上扮演着重要角色。本公开会以慢阻肺疾病为例实现对小样本数据疾病的准确预测。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
目前,一般的数据挖掘方法,特别是基于深度学习的方法都需要大量样本,这些方法不适合对小样本数据的疾病分析与诊断。
目前针对小样本数据疾病预测系统的诊断精度不高。
发明内容
为了解决现有技术的不足,本公开提供了基于实例和特征共享级联的疾病预测系统、设备及介质;
第一方面,本公开提供了基于实例和特征共享级联的疾病预测系统;
基于实例和特征共享级联的疾病预测系统,包括:
待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;
待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。
第二方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述系统中各个模块的功能。
第三方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述系统中各个模块的功能。
与现有技术相比,本公开的有益效果是:
1、能够利用该模型预测待预测疾病是否是慢性阻塞性肺疾病,是辅助医生进行诊断治疗的系统。
2、利用病人共有实例和特征,使用实例和特征共享级联方法对小样本数据的疾病诊断系统尚未出现。
3、本公开可以减少诊断整体误差,实现更高的分类准确率。使用实例共享级联学习的方法初始化训练数据的权值分布,获得与目标域更为接近的实例数据;
4、通过特征共享级联学习方法,传递相关数据的共享特征子集;
5、引入平衡参数λ,调整特征共享级联模块输出特征的边缘概率分布和条件概率分布,对两类概率分布融合,并根据参数λ,预测源域和目标域的相似性。
6、构造预训练的基于实例和特征共享级联模型,使用弹性网络对模型进行优化,并对模型进行测试,且该模型具有结构简单、高效的特点。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例一的方法流程图;
图2为本公开实施例一的经跨域过滤特征算法后的共现特征图;
图3为本公开实施例一的准确率比较图;
图4为本公开实施例一的F1比较图;
图5为本公开实施例一的准确率对比图;
图6为本公开实施例一的AUC对比图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于实例和特征共享级联的疾病预测系统;
基于实例和特征共享级联的疾病预测系统,包括:
待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;
待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。
作为一个或多个实施例,如图1所示,已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块,包括:
训练集获取单元,其被配置为:获取第一数据集和第二数据集;所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集;所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集;所述第二数据集为小样本数据集;
基于特征和实例迁移的平衡概率分布模型构建单元,用于构建基于特征和实例迁移的平衡概率分布模型,所构建的基于特征和实例迁移的平衡概率分布模型(EquilibriumProbability Distribution,BPD)包括:依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元;
实例共享级联单元,其被配置为:从第一数据集中筛选出统计次数最多的N种疾病名称;
特征共享级联单元,其被配置为:筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征;
特征共享级联优化单元,其被配置为:根据N种疾病名称和M种疾病特征,计算第一数据集与第二数据集之间的平衡概率分布值;
预测单元,其被配置为:根据平衡概率分布值与设定阈值的比较,输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病;
验证单元,其被配置为:将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中,弹性网络输出损失函数值,如果损失函数值达到最小值,则表示基于特征和实例迁移的平衡概率分布模型训练结束;否则,继续对基于特征和实例迁移的平衡概率分布模型进行训练。
作为一个或多个实施例,第一数据集被视为源域数据集,第二数据集被视为目标域数据集。
作为一个或多个实施例,小样本,例如样本数量少于1000条。
作为一个或多个实施例,慢性阻塞性肺疾病的前期疾病数据集,包括:慢性支气管炎、上气道阻塞综合症或肺气肿等。
作为一个或多个实施例,所述训练集获取单元之后,所述基于特征和实例迁移的平衡概率分布模型构建单元之前,还包括:预处理单元,所述预处理单元,用于对第一数据集和第二数据集均进行预处理。
作为一个或多个实施例,所述预处理单元包括:
数据转换子单元,用于将文字数据转换为数字数据;
数据筛选子单元,用于将噪声数据剔除,噪声数据是指与待预测疾病数据不相关的数据;数据中的测试号、住院号、姓名、种族、科别与本公开无关,是非需求数据,因此将其直接删除掉;
数据填充子单元,用于对缺失数据进行填充;对筛选出的重要生理指标的缺失值进行填充;
数据归一化子单元,用于对数据进行归一化处理。对原始的FEV1/FVC值归一化到0~1范围内,进一步提高计算精度。
作为一个或多个实施例,实例共享级联单元,其被配置为:将的第一数据集中疾病名称相同的患者记录进行统计,按照统计结果从多到少进行排序,排序靠前的N种疾病被赋予高权重;最后得到高权重对应的N种疾病名称;
作为一个或多个实施例,所述特征共享级联单元,其被配置为:
对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,计算特征之间的距离,如果第一数据集的疾病特征a与第二数据集的疾病特征b距离小于设定阈值,则表示两个特征相似,对第一数据集的疾病特征a赋予设定的高权重;否则,对第一数据集的疾病特征a赋予设定的低权重;最后得到赋予权重后的若干个疾病特征;
利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤,剔除不相关特征和冗余特征,得到过滤后的M种特征。图2为本公开实施例一的经跨域过滤特征算法后的共现特征图。
作为一个或多个实施例,特征共享级联优化单元,其被配置为:
计算第一数据集中N种疾病名称的每种疾病名称c的M种特征,与第二数据集中疾病的M种特征的边缘概率分布和条件概率分布;对边缘概率分布和条件概率分布进行加权求和,得到平衡概率分布值。
作为一个或多个实施例,所述预测单元,其被配置为:
如果平衡概率分布值大于设定阈值,则表示疾病名称c对应的疾病,是慢性阻塞性肺疾病;如果平衡概率分布值小于等于设定阈值,则表示疾病名称c对应的疾病,不是慢性阻塞性肺疾病。
作为一个或多个实施例,所述实例共享级联单元,其被配置为:实例作为桥梁连接起不同的域,对不同类别的实例进行学习,找到共同或相似的实例,实现实例共享,并且这个方法可以迭代进行,实现级联实例共享学习。比如,两类疾病数据集中患者甲与患者乙中有共同的实例病症“慢性支气管炎”,将“慢性支气管炎”赋予高权重进行迁移;在患者乙与患者丙中有“上气道阻塞综合征”,将“上气道阻塞综合征”赋予高权重进行迁移,以此类推进行逐级的迁移学习。
作为一个或多个实施例,所述特征共享级联单元,其被配置为:使用跨域过滤特征方法在源域和目标域数据集中获取共同的跨领域的特征集,在获得的特征集中将特征进行变换,对变换到同一空间的不同特征赋予不同的权重,即对源域和目标域中的共同特征赋予高权重,源域中与目标域无关的特征则被赋予的权重较低,同时采用最大均值差异方法减小不同域间的分布距离。
作为一个或多个实施例,所述对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,是利用多维标度法将特征映射到同一个特征空间。
利用多维标度法将特征映射到同一维度后构建特征空间,在该空间里保留了特征间的差异度,发现特征之间的关系。
进一步地,利用多维标度法将特征映射到同一个特征空间,具体步骤包括:
特征空间中每个特征都有相近分布的表示,记为:
X=(Xs,XT)=(xs1,xs2,…,xsm,xt1,xt2,…,xtm) (6)
其中,Xs为源域特征集,XT为目标域特征集,n为源域特征数,m为目标域特征数。
作为一个或多个实施例,所述利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤,剔除不相关特征和冗余特征,是利用对称不确定性定义的近似马尔科夫毯过滤不相关特征和冗余特征,选出相关特征集。近似马尔科夫毯是启发式方法,保留通过对称不确定性的相对较弱的相关性特征。
进一步地,对特征进行过滤和冗余性分析,具体步骤包括:
计算特征x的信息熵E(x),计算公式为:
E(x)=-∑iP(xi)log2P(xi) (8)
计算类别y的信息熵E(y),计算公式为:
E(y)=-∑iP(yi)log2P(yi) (9)
计算条件熵E(x|y),计算公式为:
E(x|y)=-∑jP(yj)∑iP(xi|yj)log2P(xi|yj) (10)
计算不同特征的互信息MI(x|y),互信息描述了特征含有的信息量及为了得知特征空间X的信息而使得类别空间Y的信息不确定性减少的程度,计算公式为:
MI(y|x)=E(x)-E(x|y)(11)
计算最大互信息Mnax(x|y),筛选重要特征,计算公式为:
计算特征x和类别y的对称不确定性EC(x|y),计算公式为:
给定一个阈值μ,若EC(x|y)≥μ,则x对于y来说是相关性高的特征,应该被保留;反之x应该被删除。
进一步地,所述对源域和目标域中过滤和剔除冗余数据的共现特征赋予高权重,对相似度低的特征赋予低权重,以减小域间分布差异,其中高权重与低权重是相对而言的。高权重,例如:0.6、0.8、0.9;低权重,例如:0.2、0.3、0.4等。
作为一个或多个实施例,对边缘概率分布和条件概率分布进行加权求和,得到平衡概率分布值,步骤包括:
计算特征共享级联模块输出特征的边缘概率分布和条件概率分布,引入平衡参数λ动态的调整两种概率分布,对两类概率分布融合,
平衡概率分布定义为:
其中,P(xs)、P(xt)为边缘概率分布,Q(ys|xs)、Q(yt|xt)为条件概率分布;平衡参数λ∈[0,1],对边缘概率分布和条件概率分布起到权重调节的作用。
作为一个或多个实施例,边缘概率分布的计算步骤包括:
源域和目标域特征边缘概率计算:公式(1)中,MMD(Ps,Pt)表示源域和目标域特征的边缘概率分布,引入核映射定义为公式(2):
n为源域特征数,源域Ds的特征总数为s=1,2,...n;m为目标域的特征数,目标域Dt的特征总数为t=1,2,...m;,M0是MMD矩阵,定义如公式(3):
作为一个或多个实施例,条件概率分布的计算步骤包括:
源域和目标域特征条件缘概率计算:式(1)中,MMD(Q(ys|xs),Q(yt|xt))是源域和目标域特征的条件概率分布,引入核映射后为公式(4):
n(y)表示源域中第y类的特征个数,m(y)表示目标域中第y类的特征个数;Ds(y)代表源域中属于类别y的特征集合,Dt(y)代表目标域中属于类别y的特征集合;适配类别矩阵的Mc计算如下:
作为一个或多个实施例,对预处理后的源域数据中不同患者间相同的疾病实例进行共享级联学习,首先初始化训练数据的权值分布,然后使用具有权值分布的数据集进行学习。
作为一个或多个实施例,所述从预处理后的源域和目标域数据中提取若干个特征;如气促、咳嗽、咳痰、呼吸困难、反复呼吸道感染等、呼吸急促等;采用跨域过滤特征算法来获取共同的跨领域的特征集。
平衡参数λ趋近于1时,源域和目标域有较高的相似性;λ趋近于0时,源域和目标域有较大的差异性。在本文所使用的COPD数据集中,λ=0.6时,取得的适配效果最好。
利用弹性网络进行正则化约束,进一步提高模型的学习性能。
弹性网络的目标函数如下式:
其中,yi代表第i个疾病类别的预测结果;xi是第i个疾病的所属特征;α是
估计回归系数,μ是最小化均方误差;正则化项Pβ(α)为:
其中β∈[0,1],当β=0时,表示为岭回归;当β=1时,表示为Lasso回归,此处选择使用α作为交叉验证。
将前一次得到的类别标签作为下一次识别的伪标签,而参与迁移的特征不会改变,迭代t次后,函数最小值不再变化,即达到模型的优化,说明已获得最优值。
y是疾病的类别空间集,共有j个疾病类别;y(x)为特征x预测类别,z(x)为特征x的真实类别。在医学数据集中,通常是采用精度作为评估算法多分类性能的评价准则,计算如下:
引入准确率,召回率和F1值作为评价本文模型的指标。
以COPD为例,目标域的任一样本经基于特征和实例迁移的平衡概率预测模型后有4中输出结果:
COPD样本被正确地预测为COPD疾病,记为TP;
非COPD样本被错误地预测为COPD疾病,记为FP;
COPD样本被错误地预测为非COPD疾病,记为FN;
非COPD样本被正确地划分为非COPD样本,记为TN。
准确率(precision):在所有被预测为COPD的样本中,被正确划分的样本所占的比例。
precision=TO/(TP+FP)(17)
召回率(recall):在所有COPD样本中,被正确预测的样本所占的比例。
recall=TP/(TP+FN)(18)
F1:通过准确率和召回率,可以全面反映方法实际性能的优劣。
为了验证本公开模型的有效性,将本公开的模型与TraAdaBoost算法、迁移成分分析算法(Transfer Component Analysis,TCA)和经典迁移学习方法多任务学习算法(Multi-Task Learning,MTL)在准确率和F1值上进行了比较,结果如图3,图4所示。除了与其他迁移学习算法比较,我们还与J.M.Marin和Morten H Jensen提出的方法进行了比较,如图5、图6所示。
实施例二,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述系统中各个模块的功能。
实施例三,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述系统中各个模块的功能。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于实例和特征共享级联的疾病预测系统,其特征是,包括:
待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;
待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。
2.如权利要求1所述的系统,其特征是,已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块,包括:
训练集获取单元,其被配置为:获取第一数据集和第二数据集;所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集;所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集;所述第二数据集为小样本数据集;
基于特征和实例迁移的平衡概率分布模型构建单元,用于构建基于特征和实例迁移的平衡概率分布模型,所构建的基于特征和实例迁移的平衡概率分布模型,包括:依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元;
实例共享级联单元,其被配置为:从第一数据集中筛选出统计次数最多的N种疾病名称;
特征共享级联单元,其被配置为:筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征;
特征共享级联优化单元,其被配置为:根据N种疾病名称和M种疾病特征,计算第一数据集与第二数据集之间的平衡概率分布值;
预测单元,其被配置为:根据平衡概率分布值与设定阈值的比较,输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病;
验证单元,其被配置为:将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中,弹性网络输出损失函数值,如果损失函数值达到最小值,则表示基于特征和实例迁移的平衡概率分布模型训练结束;否则,继续对基于特征和实例迁移的平衡概率分布模型进行训练。
3.如权利要求2所述的系统,其特征是,所述训练集获取单元之后,所述基于特征和实例迁移的平衡概率分布模型构建单元之前,还包括:预处理单元,所述预处理单元,用于对第一数据集和第二数据集均进行预处理。
4.如权利要求3所述的系统,其特征是,所述预处理单元包括:
数据转换子单元,用于将文字数据转换为数字数据;
数据筛选子单元,用于将噪声数据剔除,噪声数据是指与待预测疾病数据不相关的数据;
数据填充子单元,用于对缺失数据进行填充;对筛选出的重要生理指标的缺失值进行填充。
5.如权利要求2所述的系统,其特征是,实例共享级联单元,其被配置为:将的第一数据集中疾病名称相同的患者记录进行统计,按照统计结果从多到少进行排序,排序靠前的N种疾病被赋予高权重;最后得到高权重对应的N种疾病名称。
6.如权利要求2所述的系统,其特征是,所述特征共享级联单元,其被配置为:
对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,计算特征之间的距离,如果第一数据集的疾病特征a与第二数据集的疾病特征b距离小于设定阈值,则表示两个特征相似,对第一数据集的疾病特征a赋予设定的高权重;否则,对第一数据集的疾病特征a赋予设定的低权重;最后得到赋予权重后的若干个疾病特征;
利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤,剔除不相关特征和冗余特征,得到过滤后的M种特征。
7.如权利要求2所述的系统,其特征是,特征共享级联优化单元,其被配置为:
计算第一数据集中N种疾病名称的每种疾病名称c的M种特征,与第二数据集中的M种特征的边缘概率分布和条件概率分布;对边缘概率分布和条件概率分布进行加权求和,得到平衡概率分布值。
8.如权利要求2所述的系统,其特征是,所述预测单元,其被配置为:
如果平衡概率分布值大于设定阈值,则表示疾病名称c对应的疾病,是慢性阻塞性肺疾病;如果平衡概率分布值小于等于设定阈值,则表示疾病名称c对应的疾病,不是慢性阻塞性肺疾病;
所述对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,是利用多维标度法将特征映射到同一个特征空间。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1所述系统中各个模块的功能。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1所述系统中各个模块的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010070744.6A CN111312403B (zh) | 2020-01-21 | 2020-01-21 | 基于实例和特征共享级联的疾病预测系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010070744.6A CN111312403B (zh) | 2020-01-21 | 2020-01-21 | 基于实例和特征共享级联的疾病预测系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111312403A true CN111312403A (zh) | 2020-06-19 |
CN111312403B CN111312403B (zh) | 2024-09-10 |
Family
ID=71161546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010070744.6A Active CN111312403B (zh) | 2020-01-21 | 2020-01-21 | 基于实例和特征共享级联的疾病预测系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312403B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669968A (zh) * | 2020-12-31 | 2021-04-16 | 上海电气集团股份有限公司 | 一种疾病风险预测方法和设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050556A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 一种垃圾邮件的特征选择方法及其检测方法 |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
CN106548410A (zh) * | 2015-09-18 | 2017-03-29 | 中国电力科学研究院 | 一种含分布式电源的配电网电压不平衡概率评估方法 |
CN106897570A (zh) * | 2017-03-02 | 2017-06-27 | 山东师范大学 | 一种基于机器学习的慢性阻塞性肺疾病测试系统 |
CN107704862A (zh) * | 2017-11-06 | 2018-02-16 | 深圳市唯特视科技有限公司 | 一种基于语义实例分割算法的视频对象分割方法 |
CN108414226A (zh) * | 2017-12-25 | 2018-08-17 | 哈尔滨理工大学 | 基于特征迁移学习的变工况下滚动轴承故障诊断方法 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN109146782A (zh) * | 2018-07-23 | 2019-01-04 | 深圳积木易搭科技技术有限公司 | 一种全景影像拼接方法及系统 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN110163421A (zh) * | 2019-04-29 | 2019-08-23 | 广东电网有限责任公司电网规划研究中心 | 中长期电力负荷预测方法 |
CN110188621A (zh) * | 2019-05-09 | 2019-08-30 | 东南大学 | 一种基于ssf-il-cnn的三维人脸表情识别方法 |
CN110346142A (zh) * | 2019-07-25 | 2019-10-18 | 哈尔滨理工大学 | 基于无监督特征对齐的变负载下滚动轴承故障诊断方法 |
CN110378366A (zh) * | 2019-06-04 | 2019-10-25 | 广东工业大学 | 一种基于耦合知识迁移的跨域图像分类方法 |
CN110533193A (zh) * | 2019-08-20 | 2019-12-03 | 武汉理工大学 | 半监督场景下特征和实例联合迁移学习方法 |
-
2020
- 2020-01-21 CN CN202010070744.6A patent/CN111312403B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050556A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 一种垃圾邮件的特征选择方法及其检测方法 |
CN106548410A (zh) * | 2015-09-18 | 2017-03-29 | 中国电力科学研究院 | 一种含分布式电源的配电网电压不平衡概率评估方法 |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
CN106897570A (zh) * | 2017-03-02 | 2017-06-27 | 山东师范大学 | 一种基于机器学习的慢性阻塞性肺疾病测试系统 |
CN107704862A (zh) * | 2017-11-06 | 2018-02-16 | 深圳市唯特视科技有限公司 | 一种基于语义实例分割算法的视频对象分割方法 |
CN108414226A (zh) * | 2017-12-25 | 2018-08-17 | 哈尔滨理工大学 | 基于特征迁移学习的变工况下滚动轴承故障诊断方法 |
CN108597601A (zh) * | 2018-04-20 | 2018-09-28 | 山东师范大学 | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 |
CN109146782A (zh) * | 2018-07-23 | 2019-01-04 | 深圳积木易搭科技技术有限公司 | 一种全景影像拼接方法及系统 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN110163421A (zh) * | 2019-04-29 | 2019-08-23 | 广东电网有限责任公司电网规划研究中心 | 中长期电力负荷预测方法 |
CN110188621A (zh) * | 2019-05-09 | 2019-08-30 | 东南大学 | 一种基于ssf-il-cnn的三维人脸表情识别方法 |
CN110378366A (zh) * | 2019-06-04 | 2019-10-25 | 广东工业大学 | 一种基于耦合知识迁移的跨域图像分类方法 |
CN110346142A (zh) * | 2019-07-25 | 2019-10-18 | 哈尔滨理工大学 | 基于无监督特征对齐的变负载下滚动轴承故障诊断方法 |
CN110533193A (zh) * | 2019-08-20 | 2019-12-03 | 武汉理工大学 | 半监督场景下特征和实例联合迁移学习方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669968A (zh) * | 2020-12-31 | 2021-04-16 | 上海电气集团股份有限公司 | 一种疾病风险预测方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111312403B (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597601B (zh) | 基于支持向量机的慢性阻塞性肺疾病诊断辅助系统及方法 | |
Christen et al. | Quality and complexity measures for data linkage and deduplication | |
CN109817339B (zh) | 基于大数据的患者分组方法和装置 | |
CN111248913B (zh) | 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质 | |
US20120167183A1 (en) | Methods and systems for testing performance of biometric authentication systems | |
CN109935337B (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN109255029A (zh) | 一种采用加权优化训练集增强自动Bug报告分配的方法 | |
CN112464281B (zh) | 基于隐私分组和情感识别的网络信息分析方法 | |
CN110379521A (zh) | 基于信息论的医疗数据集特征选择方法 | |
Everitt et al. | The clustering of mixed-mode data: a comparison of possible approaches | |
CN112562863A (zh) | 流行病监测预警方法、装置、电子设备 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
Soldaini et al. | Inferring individual attributes from search engine queries and auxiliary information | |
Nair et al. | A life cycle on processing large dataset-LCPL | |
Nababan et al. | Implementation of K-Nearest Neighbors (KNN) algorithm in classification of data water quality | |
CN111312403B (zh) | 基于实例和特征共享级联的疾病预测系统、设备及介质 | |
Hannig et al. | Testing for calibration discrepancy of reported likelihood ratios in forensic science | |
Mossman | Analyzing the performance of risk assessment instruments: A response to Vrieze and Grove (2007) | |
WO2019218482A1 (zh) | 基于大数据的人群筛选方法、装置、终端设备及可读存储介质 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Melucci | Impact of query sample selection bias on information retrieval system ranking | |
Mistry et al. | Estimating missing data and determining the confidence of the estimate data | |
Veres et al. | Is enough enough? What is sufficiency in biometric data? | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 | |
Salman et al. | A Prediction Approach for Small Healthcare Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |