CN112434737B - 用于脑卒中分析的多智能体评价准则融合的特征选择系统 - Google Patents
用于脑卒中分析的多智能体评价准则融合的特征选择系统 Download PDFInfo
- Publication number
- CN112434737B CN112434737B CN202011333029.3A CN202011333029A CN112434737B CN 112434737 B CN112434737 B CN 112434737B CN 202011333029 A CN202011333029 A CN 202011333029A CN 112434737 B CN112434737 B CN 112434737B
- Authority
- CN
- China
- Prior art keywords
- feature
- agent
- sequence
- fusion
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 title claims abstract description 47
- 208000006011 Stroke Diseases 0.000 title claims abstract description 43
- 206010008190 Cerebrovascular accident Diseases 0.000 title claims abstract description 34
- 230000002490 cerebral effect Effects 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000007477 logistic regression Methods 0.000 claims abstract description 14
- 238000005728 strengthening Methods 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 28
- 230000002787 reinforcement Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 238000007689 inspection Methods 0.000 claims description 13
- 238000000546 chi-square test Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000001134 F-test Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 5
- 208000014882 Carotid artery disease Diseases 0.000 description 4
- 208000037876 carotid Atherosclerosis Diseases 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 208000023516 stroke disease Diseases 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于脑卒中分析的多智能体评价准则融合的特征选择系统,包括数据输入单元、数据预处理单元、初始特征序列建立单元、多智能体强化单元、特征融合单元、逻辑回归模型单元,通过对脑卒中数据进行不同属性的处理,并通过多智能体强化学习将三种特征评价准则按照最优权重策略进行特征融合,进一步得到所有特征的重要性排序序列和最优的特征子集,本发明在提高准确率的前提下减少特征子集,得到与脑卒中最相关的影响因素,进而从特征选择的角度提高对脑卒中疾病的预测性能。
Description
技术领域
本发明涉及机器学习预测分析与医疗健康技术领域,具体涉及一种基于多智能体多评价准则融合的特征选择方法。
背景技术
脑卒中是常发生在中老年人群中的一种脑血管疾病,目前已经成为我国发病率非常高的疾病。目前,对脑卒中高危人群筛查是一项必不可少的工作,主要是是对长期吸烟、喝酒、高血压等患者进行风险评估及相关检查,以阻止脑卒中危险因素的进一步发展,预防脑卒中的发生。颈动脉粥样硬化与脑卒中发病有着密切的联系,因此通过有效的特征选择,从脑卒中高危人群的数据中找到影响颈动脉粥样硬化的相关因素,可以尽早预测和发现颈动脉斑块,并及时干预,对减少脑卒中疾病的发生具有重大意义。
传统的特征选择方法,如Filter、Wrapper等,都是采用单一的评价准则,存在一定的片面性,无法有效地评价特征选择的性能,导致所选特征子集的通用性差,分类精度低。近年来,也有一些研究提出使用多评价准则融合的方法,如将特征排序值进行求和、取最小值或者采用序关系分析法来确定融合系数,但这些融合方法在评价准则重要性程度的判断上有一定的主观性,而且参数的选择(如评价准则的权重、特征子集的维度等)存在很大的难度。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种用于脑卒中分析的多智能体评价准则融合的特征选择系统,对脑卒中数据进行不同属性的处理,并通过多智能体强化学习将三种特征评价准则按照最优权重策略进行特征融合,进一步得到所有特征的重要性排序序列和最优的特征子集,在保证提高准确率的前提下减少特征子集的大小,保留有价值的特征,得到与脑卒中最相关的影响因素,进而从特征选择的角度提高对脑卒中疾病的预测性能。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种用于脑卒中分析的多智能体评价准则融合的特征选择系统,包括数据输入单元、数据预处理单元、初始特征序列建立单元、多智能体强化单元、特征融合单元、逻辑回归模型单元,其中:
所述数据输入单元用于输入原始脑卒中数据。
所述数据预处理单元用于对输入原始脑卒中数据进行预处理,得到处理后的数据集。
所述初始特征序列建立单元包括卡方检验模块、F检验模块和互信息检验模块,所述卡方检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列一。所述F检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列二。所述互信息检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列三。
RankChi={RC(1),RC(2),RC(3),...,RC(N)}
RankF={RF(1),RF(2),RF(3),...,RF(N)}
RankMut={RM(1),RM(2),RM(3),...,RM(N)}
其中,N表示为原始特征空间的特征维数,RankChi表示卡方检验准则下第i个特征在N维特征集中的权值排序序号,RankF表示F检验验准则下第i个特征在N维特征集中的权值排序序号,RankMut表示互信息检验准则下第i个特征在N维特征集中的权值排序序号。根据卡方检验准则下第i个特征在N维特征集中的权值排序序号得到特征序列一,根据F检验验准则下第i个特征在N维特征集中的权值排序序号得到特征序列二,根据互信息检验准则下第i个特征在N维特征集中的权值排序序号得到特征序列三。
所述多智能体强化单元使用多智能体强化学习,为卡方检验模块、F检验模块和互信息检验模块三种评价准则分配一个智能体,根据得到的特征序列一、特征序列二、特征序列三和环境反馈的奖励回报进行动作的调整,得到三种评价准则的最优权重分配方法。将特征序列一、特征序列二、特征序列三根据最优权重分配方法进行特征融合,得到最终特征重要性排序序列。
所述多智能体强化单元中通过建立一个Q_Table来保存智能体c、不同的状态s和将会采取的动作a,即Q(c,s,a),智能体每次根据epsilon-贪心法选择当前最佳的动作,动作值决定其对应的评价准则在特征融合中对应的权重系数。
所述多智能体强化单元随机初始化第一个状态s,智能体从Q_Table中使用epsilon-贪心法基于当前状态s选择动作a={aChi,aF,aMut}得到当前的权重,将三种评价准则进行特征融合,得到当前的融合特征序列RankCur,表示如下:
RankCur={RCur(1),RCur(2),...,RCur(N)}
式中,RCur(i)为融合后第i个特征在特征集中的排序值,RCur(i)定义如下:
RCur(i)=ωChi*RC(i)+ωF*RF(i)+ωMut*RM(i)
其中,ωChi表示根据卡方检验准则得到的特征在融合时的权重,ωF表示根据F检验准则得到的特征在融合时的权重,ωMut表示根据互信息检验准则得到的特征在融合时的权重,RC(i)表示根据卡方检验准则得到的第i个特征在N维特征集中的权值排序序号,RF(i)表示根据F检验准则得到的第i个特征的权值排序序号,RM(i)表示根据互信息检验准则得到的第i个特征的权值排序序号。
根据当前的融合特征序列RankCur得到新的特征空间,将新特征空间输入环境中,构建逻辑回归模型进行训练,得到新的特征子集和对应的准确率,作为环境对智能体当前采取的动作反馈的奖励回报R(c,s,a)。
更新进入新状态s′,基于状态s′,使用epsilon-贪心法选择新动作a′。对每一个智能体ci,使用Q-learning算法更新表中Q(ci,s,a)的值,计算方法如下:
Q(ci,s,a)←Q(ci,s,a)+α[R(ci,s,a)+Q(ci,s′,a′)-Q(ci,s,a)]
其中,Q(ci,s,a)表示智能体ci在当前状态s下执行动作a后更新得到的Q值,←表示将右边的值赋值给左边,α表示学习率,R(ci,s,a)表示智能体ci在当前状态s下执行动作a后获得的奖励回报,Q(ci,s′,a′)表示智能体ci在新状态s′下执行新动作a′后得到的Q值,Q(ci,s,a)表示智能体ci在当前状态s下执行动作a后得到的Q值。
继续循环到指定的训练轮数为止,得到最终特征重要性排序序列。
所述逻辑回归模型单元用于将最终特征重要性排序序列输入逻辑回归模型进行训练,得到最优的特征子集和最佳分类准确率。
优选的:所述数据输入单元为键盘或者语音输入模块。
优选的:所述数据预处理单元中包括缺失值填充、离散特征独热编码处理、连续特征鲁棒性处理。
优选的:所述缺失值填充指通过将数据集中的缺失数据统一填充“-1”进行代替。
优选的:所述离散特征独热编码处理指将原始脑卒中数据中的支付方式、工作类型进行独热编码处理。
优选的:所述连续特征鲁棒性处理指将原始脑卒中数据中的年龄、身高进行离散化处理。
本发明相比现有技术,具有以下有益效果:
本发明考虑到脑卒中数据集中无关特征和冗余特征的问题,针对已有特征选择方法的不足做出改进与创新,采用多评价准则融合与多智能体强化学习相结合的方式。通过将三种特征选择评价准则相融合,避免了单一评价准则对于特征子集评价的片面性,从而得到更优的特征子集;在基于多评价准则的基础上使用强化学习,可以从每一次选择的不同特征子集组成的环境中获得回报奖励并学习,平衡开发和探索,寻找长期的最佳权重分配策略;同时,通过多智能体强化学习为每个评价准则分配一个智能体,最终得到不同评价准则在特征融合中对应的权重系数,保证了参数选择的客观性,使模型更具有普适性和通用性;同时,在特征子集的选择上,结合了强化学习的决策能力,旨在找到对脑卒中患者发生颈动脉粥样硬化最相关的影响因素,进而从特征选择的角度提高对脑卒中疾病的分类性能,在提高准确率的前提下减少特征子集的大小;与此同时,对于数据集中缺失值、连续特征和离散特征的处理,能够进一步扩充特征空间,更好的简化模型,降低模型过拟合的风险。
附图说明
图1所示为本发明一实施例的一种用于脑卒中疾病分析的多智能体多评价准则融合的特征选择方法流程图;
图2所示为本发明一实施例的脑卒中数据预处理过程的流程图;
图3所示为本发明一实施例的多智能体强化学习得到最优权重分配策略的示意图;
图4所示为本发明一实施例的基于最优权重分配策略进行特征选择的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在本实施例中,提供一种用于脑卒中疾病分析的多智能体多评价准则融合的特征选择方法,如图1所示,包括如下步骤:
S10获取数据集,在中国脑卒中筛查与预防项目中,收集了脑卒中高危人群的前驱期筛查和回访数据,包括患者的人口学信息,既往病史信息,个人史家族史信息以及颈动脉彩超结果信息等。
所述步骤S10所述数据集来源于2012-2016年度参加南京脑科医院脑梗死高危人群筛查项目的人群,最终纳入6527例样本,每个样本有68个属性。数据集以<特征属性1,…,特征属性68,对应标签>的格式保存。
S20对样本数据进行预处理,考虑缺失值填充和离散型特征与连续型特征的不同影响,将一些离散型特征进行独热编码处理,将一些连续型特征进行数据分箱的离散化处理。
如图2所示,为本发明进行数据预处理的流程图,包括缺失值填充、离散特征处理和连续特征处理。
所述缺失值填充为,将数据集中的缺失数据统一填充“-1”进行代替,因为原始数据集中的属性取值都是大于等于0的数值,统一给缺失值填充“-1”,更有利于分类模型区分缺失值和正常值,达到填充缺失值的目的。
所述离散特征处理为,将一些离散型特征(特征的取值之间没有大小的意义,如支付方式、工作类型等)进行独热编码(One-Hot Encoding)处理,使数据分布更稀疏,如支付方式有三种:城镇职工基本医疗保险、新城镇居民基本医疗保险、新型农村合作医疗,其对应的独热编码分别为100,010,001。
所述连续特征处理为,将一些连续型特征(如年龄、身高等)进行离散化处理,使离散化后的特征对异常数据有很强的鲁棒性,如将年龄的属性值进行分段,将40~50岁患者的年龄属性赋值为“1”,50~60岁患者的年龄属性赋值为“2”…,以此类推。
S30采用卡方检验(Chi-square test)、F检验(F test)和互信息检验(MutualInformation)三种评价准则进行特征选择得到每个特征的权重,将特征权重进行降序排序,得到三种评价准则对应的初始特征序列。
采用卡方检验(Chi-square test)、F检验(F test)和互信息(MutualInformation)三种评价准则对特征进行排序,计算的特征权值越大,代表该特征的分类能力越强,且权值越大的特征排序序号越小。通过对权值大小进行降序排列,可以得到初始的三个排序结果,表示如下:
RankChi={RC(1),RC(2),RC(3),...,RC(N)} (1)
RankF={RF(1),RF(2),RF(3),...,RF(N)} (2)
RankMut={RM(1),RM(2),RM(3),...,RM(N)} (3)
其中,N表示为原始特征空间的特征维数,RankChi、RankF,RankMut分别表示在三种准则下第i个特征在N维特征集中的权值排序序号。
S40使用多智能体强化学习,为每个评价准则分配一个智能体,智能体将决定其对应的评价准则在特征融合中对应的权重系数,得到当前融合的特征序列,将其输入逻辑回归模型进行训练得到分类准确率作为环境的反馈,智能体根据反馈的奖励或惩罚进行动作的调整,最终得到最大奖励对应的不同评价准则的最优权重分配策略。
如图3所示,为本发明进行多智能体强化学习得到最优权重分配策略的示意图。作为后续强化学习的基础,需要得到初始的三种评价准则对于特征重要性的排序序列。具体地,将数据集作为输入,分别使用卡方检验、F检验和互信息检验进行特征选择,得到初始的三个特征序列。
S41:使用多智能体强化学习,为每个评价准则分配一个智能体,分别对应Agentc,Agentf,Agentm。建立一个Q_Table来保存智能体c、不同的状态s和将会采取的动作a,即Q(c,s,a)。智能体每次根据epsilon-贪心法选择当前最佳的动作,动作值决定其对应的评价准则在特征融合中对应的权重系数,如ωChi,ωF,ωMut。
S42:随机初始化第一个状态s,每个智能体分别从Q_Table中使用epsilon-贪心法基于当前状态s选择动作a={aChi,aF,aMut}得到当前的权重策略,将三种评价准则进行特征融合,得到当前的融合特征序列。
表示如下:
RankCur={RCur(1),RCur(2),...,RCur(N)} (4)
式中,RCur(i)为融合后第i个特征在特征集中的排序值,RCur(i)定义如下:
RCur(i)=ωChi*RC(i)+ωF*RF(i)+ωMut*RM(i) (5)
根据融合后的特征序列得到新的特征空间,将新特征空间输入环境中,构建逻辑回归模型进行训练,得到新的特征子集和对应的准确率,作为环境对智能体当前采取的动作反馈的奖励回报R(c,s,a)。
根据融合后的特征序列得到新的特征空间,将新特征空间输入奖励函数,构建逻辑回归模型进行训练,得到新特征子集对应的准确率,作为环境对智能体当前采取的动作反馈的奖励回报R(s,a)。
S43:更新进入新状态s′,基于状态s′,使用epsilon-贪心法选择新动作a′。对每一个智能体ci,得到新的奖励回报R(ci,s′,a′),使用Q-learning算法更新表中Q(ci,s,a)的值,,计算方法如下:
Q(ci,s,a)←Q(ci,s,a)+α[R(ci,s,a)+Q(ci,s′,a′)-Q(ci,s,a)] (6)
按照步骤S42-S43继续循环到指定的训练轮数为止。
S50将卡方检验、F检验和互信息检验三种评价准则根据权重分配策略进行特征融合,得到最终的特征重要性排序序列,将其输入逻辑回归模型进行训练,得到最优的特征子集和最佳分类准确率。
如图4所示,为本发明基于多智能体强化学习进行特征选择的流程图,将S40输出的结果作为最终强化学习得到的最优权重分配策略,进行基于三种评价准则的特征融合,得到最终特征序列,并将其输入逻辑回归模型进行训练,得到对脑卒中数据集的最佳分类结果,并输出最优特征子集。
一种用于脑卒中分析的多智能体评价准则融合的特征选择系统,包括数据输入单元、数据预处理单元、初始特征序列建立单元、多智能体强化单元、特征融合单元、逻辑回归模型单元,其中:
所述数据输入单元用于输入原始脑卒中数据,所述数据输入单元为键盘。
所述数据预处理单元用于对输入原始脑卒中数据进行预处理,得到处理后的数据集。
所述初始特征序列建立单元包括卡方检验模块、F检验模块和互信息检验模块,所述卡方检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列一。所述F检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列二。所述互信息检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列三。
所述多智能体强化单元使用多智能体强化学习,为卡方检验模块、F检验模块和互信息检验模块三种评价准则分配一个智能体,根据得到的特征序列一、特征序列二、特征序列三和环境反馈的奖励回报进行动作的调整,得到三种评价准则的最优权重分配方法。将特征序列一、特征序列二、特征序列三根据最优权重分配方法进行特征融合,得到最终特征重要性排序序列。
所述逻辑回归模型单元用于将最终特征重要性排序序列输入逻辑回归模型进行训练,得到最优的特征子集和最佳分类准确率。
综上所述,本发明能够通过将不同的评价准则作为不同的智能体进行强化学习,根据得到的权重分配策略进行特征融合,进而从不同角度评价特征的重要程度,进行有效的特征选择,获得最优的特征子集,得到与脑卒中患者颈动脉粥样硬化最相关的影响因素;同时不同评价准则进行融合能够提高算法的稳定性,提升分类的精度。并针对脑卒中数据集给出了数据预处理的策略,可进一步提升模型分类性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:包括数据输入单元、数据预处理单元、初始特征序列建立单元、多智能体强化单元、特征融合单元、逻辑回归模型单元,其中:
所述数据输入单元用于输入原始脑卒中数据;
所述数据预处理单元用于对输入原始脑卒中数据进行预处理,得到处理后的数据集;
所述初始特征序列建立单元包括卡方检验模块、F检验模块和互信息检验模块,所述卡方检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列一;所述F检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列二;所述互信息检验模块用于根据数据集进行特征选择得到特征的权重,将特征权重降序排序得到特征序列三;
RankChi={RC(1),RC(2),RC(3),...,RC(N)}
RankF={RF(1),RF(2),RF(3),...,RF(N)}
RankMu={RM(1),RM(2),RM(3),...,RM(N)}
其中,N表示为原始特征空间的特征维数,RankChi表示卡方检验准则下第i个特征在N维特征集中的权值排序序号,RankF表示F检验验准则下第i个特征在N维特征集中的权值排序序号,RankMut表示互信息检验准则下第i个特征在N维特征集中的权值排序序号;根据卡方检验准则下第i个特征在N维特征集中的权值排序序号得到特征序列一,根据F检验验准则下第i个特征在N维特征集中的权值排序序号得到特征序列二,根据互信息检验准则下第i个特征在N维特征集中的权值排序序号得到特征序列三;
所述多智能体强化单元使用多智能体强化学习,为卡方检验模块、F检验模块和互信息检验模块三种评价准则分配一个智能体,根据得到的特征序列一、特征序列二、特征序列三和环境反馈的奖励回报进行动作的调整,得到三种评价准则的最优权重分配方法;将特征序列一、特征序列二、特征序列三根据最优权重分配方法进行特征融合,得到最终特征重要性排序序列;
所述多智能体强化单元中通过建立一个Q_Table来保存智能体c、不同的状态s和将会采取的动作a,即Q(c,s,a),智能体每次根据epsilon-贪心法选择当前最佳的动作,动作值决定其对应的评价准则在特征融合中对应的权重系数;
所述多智能体强化单元随机初始化第一个状态s,智能体从Q_Table中使用epsilon-贪心法基于当前状态s选择动作a={aChi,aF,aMut}得到当前的权重,将三种评价准则进行特征融合,得到当前的融合特征序列RankCur,表示如下:
RankCur={RCur(1),RCur(2),...,RCur(N)}
式中,RCur(i)为融合后第i个特征在特征集中的排序值,RCur(i)定义如下:
RCu(i)=ωChi*RC(i)+ωF*RF(i)+ωMut*RM(i)
其中,ωChi表示根据卡方检验准则得到的特征在融合时的权重,ωF表示根据F检验准则得到的特征在融合时的权重,ωMut表示根据互信息检验准则得到的特征在融合时的权重,RC(i)表示根据卡方检验准则得到的第i个特征在N维特征集中的权值排序序号,RF(i)表示根据F检验准则得到的第i个特征的权值排序序号,RM(i)表示根据互信息检验准则得到的第i个特征的权值排序序号;
根据当前的融合特征序列RankCur得到新的特征空间,将新特征空间输入环境中,构建逻辑回归模型进行训练,得到新的特征子集和对应的准确率,作为环境对智能体当前采取的动作反馈的奖励回报R(c,s,a);
更新进入新状态s′,基于状态s′,使用epsilon-贪心法选择新动作a′;对每一个智能体ci,使用Q-learning算法更新表中Q(ci,s,a)的值,计算方法如下:
Q(ci,s,a)←Q(ci,s,a)+α[R(ci,s,a)+Q(ci,s′,a′)-Q(ci,s,a)]
其中,Q(ci,s,a)表示智能体ci在当前状态s下执行动作a后更新得到的Q值,←表示将右边的值赋值给左边,α表示学习率,R(ci,s,a)表示智能体ci在当前状态s下执行动作a后获得的奖励回报,Q(ci,s′,a′)表示智能体ci在新状态s′下执行新动作a′后得到的Q值,Q(ci,s,a)表示智能体ci在当前状态s下执行动作a后得到的Q值;
继续循环到指定的训练轮数为止,得到最终特征重要性排序序列;
所述逻辑回归模型单元用于将最终特征重要性排序序列输入逻辑回归模型进行训练,得到最优的特征子集和最佳分类准确率。
2.根据权利要求1所述用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:所述数据输入单元为键盘或者语音输入模块。
3.根据权利要求2所述用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:所述数据预处理单元中包括缺失值填充、离散特征独热编码处理、连续特征鲁棒性处理。
4.根据权利要求3所述用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:所述缺失值填充指通过将数据集中的缺失数据统一填充“-1”进行代替。
5.根据权利要求4所述用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:所述离散特征独热编码处理指将原始脑卒中数据中的支付方式、工作类型进行独热编码处理。
6.根据权利要求5所述用于脑卒中分析的多智能体评价准则融合的特征选择系统,其特征在于:所述连续特征鲁棒性处理指将原始脑卒中数据中的年龄、身高进行离散化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333029.3A CN112434737B (zh) | 2020-11-25 | 2020-11-25 | 用于脑卒中分析的多智能体评价准则融合的特征选择系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333029.3A CN112434737B (zh) | 2020-11-25 | 2020-11-25 | 用于脑卒中分析的多智能体评价准则融合的特征选择系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434737A CN112434737A (zh) | 2021-03-02 |
CN112434737B true CN112434737B (zh) | 2024-03-19 |
Family
ID=74697474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011333029.3A Active CN112434737B (zh) | 2020-11-25 | 2020-11-25 | 用于脑卒中分析的多智能体评价准则融合的特征选择系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434737B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111918A (zh) * | 2021-03-17 | 2021-07-13 | 重庆城市管理职业学院 | 基于异常样本检测和多维信息输出的脑卒中风险筛查方法 |
CN114139835A (zh) * | 2021-12-23 | 2022-03-04 | 深圳供电局有限公司 | 一种电力负荷预测关键因素的辨识方法及系统 |
CN114913979A (zh) * | 2022-05-23 | 2022-08-16 | 宝石花医疗信息科技(成都)有限公司 | 一种疾病风险等级预测模型及其构建方法和应用 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389626A (zh) * | 2018-02-09 | 2018-08-10 | 上海长江科技发展有限公司 | 基于人工智能的脑卒中筛查方法及系统 |
CN108511056A (zh) * | 2018-02-09 | 2018-09-07 | 上海长江科技发展有限公司 | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 |
KR102094377B1 (ko) * | 2019-04-12 | 2020-03-31 | 주식회사 이글루시큐리티 | 비지도학습 이상탐지를 위한 모델 선택 시스템 및 그 방법 |
CN111091911A (zh) * | 2019-12-30 | 2020-05-01 | 重庆同仁至诚智慧医疗科技股份有限公司 | 一种卒中风险筛查系统及方法 |
CN111243696A (zh) * | 2020-01-08 | 2020-06-05 | 温州医科大学 | 一种脑卒中发病的自动检测方法 |
CN111430029A (zh) * | 2020-03-24 | 2020-07-17 | 浙江达美生物技术有限公司 | 基于人工智能的多维度脑卒中预防筛查方法 |
CN111428786A (zh) * | 2020-03-23 | 2020-07-17 | 电子科技大学 | 基于PageRank的数据特征集降维方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111883253A (zh) * | 2020-07-16 | 2020-11-03 | 山东大学 | 基于医学知识库的疾病数据分析方法和肺癌风险预测系统 |
-
2020
- 2020-11-25 CN CN202011333029.3A patent/CN112434737B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389626A (zh) * | 2018-02-09 | 2018-08-10 | 上海长江科技发展有限公司 | 基于人工智能的脑卒中筛查方法及系统 |
CN108511056A (zh) * | 2018-02-09 | 2018-09-07 | 上海长江科技发展有限公司 | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 |
KR102094377B1 (ko) * | 2019-04-12 | 2020-03-31 | 주식회사 이글루시큐리티 | 비지도학습 이상탐지를 위한 모델 선택 시스템 및 그 방법 |
CN111091911A (zh) * | 2019-12-30 | 2020-05-01 | 重庆同仁至诚智慧医疗科技股份有限公司 | 一种卒中风险筛查系统及方法 |
CN111243696A (zh) * | 2020-01-08 | 2020-06-05 | 温州医科大学 | 一种脑卒中发病的自动检测方法 |
CN111428786A (zh) * | 2020-03-23 | 2020-07-17 | 电子科技大学 | 基于PageRank的数据特征集降维方法 |
CN111430029A (zh) * | 2020-03-24 | 2020-07-17 | 浙江达美生物技术有限公司 | 基于人工智能的多维度脑卒中预防筛查方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111883253A (zh) * | 2020-07-16 | 2020-11-03 | 山东大学 | 基于医学知识库的疾病数据分析方法和肺癌风险预测系统 |
Non-Patent Citations (4)
Title |
---|
Antlion re-sampling based deep neural network model for classification of imbalanced multimodal stroke dataset;Thippa Reddy G等;Multimedia Tools and Applications;第81卷;41429–41453 * |
Ischemic Stroke Lesion Segmentation Using Multi-Plane Information Fusion;Long Zhang等;IEEE Access;第8卷;45715 - 45725 * |
支持向量机在阿尔茨海默症演变过程中的多模态和纵向分类研究;张应腾;中国博士学位论文全文数据库 医药卫生科技辑;E071-15 * |
面向特征融合的脑卒中脑电信号分类方法;王灿等;计算机工程与应用;第55卷(第24期);154-158 * |
Also Published As
Publication number | Publication date |
---|---|
CN112434737A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434737B (zh) | 用于脑卒中分析的多智能体评价准则融合的特征选择系统 | |
AU2012245343B2 (en) | Predictive modeling | |
CN109102867A (zh) | 远程医疗的智能分诊方法及智能分诊平台 | |
CN109920547A (zh) | 一种基于电子病历数据挖掘的糖尿病预测模型构建方法 | |
JP5645761B2 (ja) | 医療データ解析方法、医療データ解析装置およびプログラム | |
CN110046757B (zh) | 基于LightGBM算法的门诊量预测系统及预测方法 | |
CN111105860A (zh) | 面向慢性病康复的精准运动大数据智能预测、分析及优化系统 | |
JP6379199B2 (ja) | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム | |
CN107145715B (zh) | 一种基于推举算法的临床医学智能判别装置 | |
Overweg et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
JP2019169139A (ja) | 顔画像からの定性的特徴を評価するコンピュータ実行ツールを構築する方法 | |
CN111387938A (zh) | 一种基于特征重排一维卷积神经网络的病人心衰死亡风险预测系统 | |
Popkes et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
CN115101160A (zh) | 药品销售数据挖掘和检索方法及装置 | |
CN114242234A (zh) | 基于聚合神经网络的tavr术后并发症风险值预测方法 | |
JP2006163489A (ja) | 発症確率算出装置、および、プログラム | |
Ekong et al. | A Softcomputing Model for Depression Prediction. | |
CN116543911A (zh) | 一种疾病风险预测模型训练方法及装置 | |
CN114613465B (zh) | 一种脑卒中患病风险预测和个性化治疗推荐方法及系统 | |
CN115295115A (zh) | 基于深度学习的丙戊酸钠血药浓度预测方法及装置 | |
KR20200059430A (ko) | 질병 증상 추천 시스템 및 방법 | |
CN114822849A (zh) | 基于数字孪生的数据监测方法、装置、设备和存储介质 | |
Heitz et al. | WRSE-a non-parametric weighted-resolution ensemble for predicting individual survival distributions in the ICU | |
Makino | Inferring Gene regulatory networks using Graph Neural Networks | |
CN114491268B (zh) | 一种基于热度排序的降采样方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |