CN111091916A - 人工智能中基于改进粒子群算法的数据分析处理方法及系统 - Google Patents
人工智能中基于改进粒子群算法的数据分析处理方法及系统 Download PDFInfo
- Publication number
- CN111091916A CN111091916A CN201911347321.8A CN201911347321A CN111091916A CN 111091916 A CN111091916 A CN 111091916A CN 201911347321 A CN201911347321 A CN 201911347321A CN 111091916 A CN111091916 A CN 111091916A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- flexible logic
- particle swarm
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002245 particle Substances 0.000 title claims abstract description 35
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 31
- 238000007405 data analysis Methods 0.000 title claims abstract description 24
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 76
- 208000017667 Chronic Disease Diseases 0.000 claims abstract description 67
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000013135 deep learning Methods 0.000 claims abstract description 20
- 238000010606 normalization Methods 0.000 claims abstract description 17
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 41
- 230000002068 genetic effect Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 28
- 239000010410 layer Substances 0.000 description 72
- 230000006870 function Effects 0.000 description 16
- 230000036541 health Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000002265 prevention Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000007418 data mining Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 208000024172 Cardiovascular disease Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 230000006806 disease prevention Effects 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000002759 z-score normalization Methods 0.000 description 3
- 208000014085 Chronic respiratory disease Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000035488 systolic blood pressure Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010003658 Atrial Fibrillation Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000007177 Left Ventricular Hypertrophy Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Abstract
本发明实施例提供一种人工智能中基于改进粒子群算法的数据分析处理方法及系统,其包括以下步骤:步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;步骤S2,利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;步骤S3,对迭代复杂柔性逻辑矩阵进行归一化算法处理;步骤S4,优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。该人工智能中基于改进粒子群算法的数据分析处理方法及系统利用粗糙集和柔性逻辑理论,简化训练样本集,消除冗余数据,提高了DBN的学习效率。
Description
技术领域
本发明涉及慢性病干预领域,尤其涉及一种人工智能中基于改进粒子群算法的数据分析处理方法及系统。
背景技术
随着经济社会的快速发展,慢性病已经成为影响我国居民健康的重大公共卫生问题。据卫生部统计,我国目前已确诊的慢性病患者超过2.6亿人,且每年死于慢性病的人数超过300万人。更为严重的是,伴随我国工业化、城镇化、老龄化进程的加快和环境污染的加剧,慢性病发病人数正以每年550万例快速增长,平均每天增长1.5万例,而且因慢性病致死的人数已经上升至居民总死亡人数的85%,医疗费用负担占疾病总负担的70%,因此慢性病已经严重影响我国经济社会的发展和人民生活质量的提高。
随着医疗技术水平的提升,当前慢性病对我国居民的危害已经取代了过去流行性传染病对人体的伤害,尤其是近年来,在中老年人群中,对导致慢性病危险因素的知晓率和控制率都很低。危险因素长期大量蓄积与伤害人体,势必增加中老年人患慢性病的风险,致使慢性病患病率逐年上升,成为导致我国居民死亡的第一要因。可见慢性病已经成为影响人民对美好生活追求的头号杀手。据此,国务院2017年2月首次发布了《中国防治慢性病中长期规划(2017—2025年)》,规划要求到2020年由慢性病导致的过早死亡率较2015年降低10%,到2025年降低20%,力争30—70岁人群因心脑血管疾病、癌症、慢性呼吸系统疾病和糖尿病导致的过早死亡率较2015年降低20%,逐步提高居民健康期望寿命,有效控制慢性病发生。
慢性病主要包括心脑血管疾病、恶性肿瘤、糖尿病和慢性呼吸系统疾病等。据研究,慢性病的发生与个人生活方式(60%)、遗传因素(15%)、社会条件(10%)、医疗条件(8%)和自然环境(7%)等因素密切相关,而目前我国对于慢性病的防控研究深度还远远不够,很多慢性病致病机理尚未完全清楚,精准有效的防控措施与方法有待研究。
当前慢性病治疗是世界性难题,发达国家主要依托健康管理,采用以预防为主、治疗为辅的措施,降低慢性病发病率,这与我国中医所倡导的“不治已病,治未病”同一渊源。医疗实践发现:治疗慢性病关键在于早发现,早预防,即:可以通过慢性病健康管理进行精准干预。慢性病健康干预是指对影响慢性病健康的不良行为、不良生活方式、生态环境及个人习惯等危险因素,结合遗传基因进行综合处置的医疗措施和方法。其中精准诊断和
精准干预是健康管理的关键所在,是慢性病综合防治的重点。健康管理重在“精准预防”,
即:在患者身体还处于亚健康状态时期,就提前采用各种医疗措施进行精准干预,阻断病变器官或组织进一步恶化。
当前慢性病精准医疗的快速发展得益于大规模人类基因组生物数据库的建立、高通量蛋白组学、代谢组学以及各种检测手段的兴起,还有人工智能、计算分析和大规模数据处理技术的发展。该项工作如果采用传统的人工防控模式,工作量大、效率低、覆盖面小、难以普及推广,甚至不可能实现。而随着人工智能、数据挖掘、大数据、物联网和云端超级计算技术的快速发展,深度置信网络(Deep Belief Network,DBN)学习算法在人工智能和计算机精准医疗等领域的广泛应用,为慢性病的精准防控提供了技术支持。
但由于慢性病的医学机理比较复杂,相关风险因素较多,各因素之间相互影响,且影响量呈非线性关系,而且描述病理信息的数据格式也比较复杂,既有连续数据又有离散数据,既有定性又有定量,甚至还有图像信息等,数据量巨大。而当神经网络规模较大,输入样本较多时,数据冗余,其学习能力将受到制约,降低了DBN的学习效率。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
针对现有技术存在的问题,本发明实施例提供一种人工智能中基于改进粒子群算法的数据分析处理方法及系统。
第一方面,本发明实施例提供一种人工智能中基于改进粒子群算法的数据分析处理方法,包括以下步骤:
步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
步骤S2,利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;
步骤S3,对迭代复杂柔性逻辑矩阵进行归一化算法处理;
步骤S4,优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
进一步地,步骤S3中,采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理。
进一步地,步骤S4中,选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
第二方面,本发明实施例提供一种人工智能中基于改进粒子群算法的数据分析处理系统,包括:
约简和分类模块,用于采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
构建矩阵模块,用于利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;
归一化算法处理模块,用于采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
构建深度学习样本集模块,用于选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的人工智能中基于改进粒子群算法的数据分析处理方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的人工智能中基于改进粒子群算法的数据分析处理方法的步骤。
本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法及系统利用粗糙集和柔性逻辑理论,采用信息熵属性约束条件和柔性逻辑对海量的与慢性病致病因子相关的数据进行约简和分类,简化训练样本集,消除冗余数据,提高了DBN的学习效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人工智能中基于改进粒子群算法的数据分析处理方法的流程示意图;
图2为本发明实施例提供的方法简化的数据作为DBN的输入的样本训练及实际应用示意图;
图3本发明实施例提供的人工智能中基于改进粒子群算法的数据分析处理系统的原理图;
图4本发明实施例提供的一种电子设备的实体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
研究构建慢性病高危人群致病风险因子属性约简模型,旨在提高DBN模型的鲁棒性和高效性。基于粗糙集和柔性逻辑理论的慢性病特征分型指标体系构建主要包括:慢性病特征分类及风险级别评估量化表、改进的基于Framingham慢性病分类和风险评估指标体系。其中慢性病特征分类及风险级别评估量化表主要涉及:生活地区、遗传基因、生活习惯、环境差异、从事职业、健康档案、历史病例、性格、性别、年龄、未治疗收缩压、治疗后收缩压、糖尿病、吸烟史、心血管疾病、左心室肥厚、心房纤颤等离散元素;而改进的基于Framingham慢性病分类和风险评估指标体系构建原则是根据慢性病特征分类及风险级别评估指标,能够满足慢性病精准分类识别的无限集解的要求。据此粗糙集构造必须具备以下功能:①能够通过选取最重要最具代表性的因素来反映可能出现的结果;②能够通过指标实现对不同对象的横向比较和对同一对象的纵向比较。横向比较有助于实现对不同对象特症的认识,纵向比较有助于了解发展趋势,从而做出判断;③能够通过对对象的客观状况做出评价,表达因果关系,提取本质特征;④能够根据概率分布状况对慢性病相关数据和作用结果分类与分级,能够采用关联数据分析法分析孤立数据之间隐藏的相关性。
基于以上目标,在构建指标体系时,针对不同类型的复杂数据,利用本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法简化训练样本集,消除冗余数据,提高了DBN的学习效率。
本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法遵循的原则:全面性、系统性、动态性、可操作性和髙概括性与低相关性原则。
图1为本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法流程图,该方法利用粗糙集和柔性逻辑理论,粗糙集是用确定的方法处理不完备和不确定信息和数据,它在智能数据分析、知识获取、数据挖掘方面取得了很大成功。粗糙集理论主要是针对不精确、不统一和不确定特性的海量原始数据,通过条件约简删除冗余属性和异常数据,并从中抽取出各种尚未发现的、有用的知识及规律的方法,实现对知识表达空间的精准定义并获取规则。它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。在用粗糙集处理问题时,先从问题描述集合出发,用不可分辨关系来划分等价类,确定出问题的近似域,最后达到我们的目标即找到相关知识、规律。目前粗糙集理论己经形成一套较为完善的数据预处理、属性约简、值约简、规则获取等数据挖掘理论与方法,并在实践中取得了很好的应用效果。但是由于粗糙集理论自身的局限性,对于连续变化的数据在处理上存在一定的局限性,而柔性逻辑的数据处理正好能弥补这些局限。
粗糙集理论和柔性逻辑虽然两者都是描述集合的不确定性理论,但是柔性逻辑理论侧重的是描述集合内部元素的不确定性,而粗糙集理论侧重描述的是集合之间的不确定性,两者互不矛盾,互补性很强,是当前国内外研究的一个热点之一。
采用粗糙集和柔性逻辑理论,结合遗传进化算法,建立基于改进粒子群算法的粗糙集属性约简算法,降低数据维度、减少冗余数据,在尽可能保留重要信息的前提下简化神经网络训练样本数据集,作为DBN的约简数据源,采用归一化算法对复杂的慢性病防控参数进行降维,并结合慢性病诊断与防控等相关知识,建立适用于慢性病动态渐变指标精准分类体系模型,设计基于DBN的慢性病健康管理精准干预模型框架,并通过标签数据训练和自适应学习,建立有监督分类函数模型的逐层神经网络训练算法,获取慢性病的过程检测、诊断和防控模型参数,采用基于样本训练的慢性病健康管理精准干预模型语义信息提取算法,提取慢性病精准分类语义信息特征值,生成慢性病精准诊断和健康干预策略特征库,最后将约简算法和训练模型相结合,共同构成高效的多层神经网络慢性病精准防控参数自主学习模型,并依据模型生成个性化的实体慢性病精准干预方案。将该模型应用到慢性病防控医疗云服务平台,结合医疗云平台的协同防治模式和信息共享机制,提高平台的服务效率。
如图1所示,本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法包括以下步骤:
步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
步骤S2,利用步骤S1中约简和分类的数据构建迭代复杂柔性逻辑矩阵;
步骤S3,采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
步骤S4,选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
其中,将信息熵约简算法与粗糙集及柔性逻辑相结合,对构建的数据集进行约简:
其中:
U/IND(P)={X1,X2...XN} (2)
P(X)=(|Xi|/|U|) (i=1,2,...,m) (3)
式中|Xi|表示集合Xi的基数;
|U|——表示集合的基数。
S=(U,A,V,f)是一个信息系统,属性在a∈A中的重要性,定义为:
SA(a)=|H(A)-H(A-{a})| (4)
当SA(a)>0时,称a∈A在A中是必要的:当SA(a)=0时,a∈A在A中是冗余的。据此筛选出关键的数据。
由于数据物理意义和数量级均不相同,所以根据数据性质分别采用线性函数转换(5)和服从正态分布的Z-score标准化方法(6)对数据集进行归一化处理。
线性函数转换:是对要处理的原始数据进行线性变换,最后获得映射在区间[0,1]上的值,转换函数如公式:
y=(x-MinValue)/(MaxValue-MinValue) (5)
其中x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
Z-score标准化方法:它是通过原始数据集的均值以及标准差进行数据的归一化,经过这种方法处理后的数据集会符合正态分布,即均值是0,而标准差是1,公式为:
其中μ是所有样本数据的平均值,δ是所有样本数据的标准差。采用Z-score标准化方法对数据进行归一化处理。通过对初步选择后的程序进行计算,计算出数据集中各个属性的平均值,再根据公式(7)计算出数据集的标准差。
其中N为样本的个数。最后再进行数据的归一化处理,把归一化处理的结果存在新的文件中。
如图2所示,将利用本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理方法简化的数据作为DBN的输入,构建DBN模型及其自适应参数信息结构;其中,深度置信网络(Deep Belief Network,DBN)学习算法在人工智能和计算机精准医疗等领域的广泛应用,为慢性病的精准防控提供了技术支持。DBN是人工神经网络的一种,它模仿人脑的学习机制来解释数据,其动机在于建立、模拟人脑进行分析学习。DBN采用多层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)框架,层间采用逐层训练解决特征提取最优问题,同时也保证了分类的精度问题。深度学习作为人工智能算法的一个新技术,其目的在于建立、模拟人脑学习的神经网络系统,与传统的神经网络比较,该系统主要包括一个输入层、多个隐层(可单层、可多层)和一个输出层的多层网络结构,深度学习算法的提出克服了传统人工神经网络的缺陷,它通过无监督的特征学习实现对高层的特征表示。
考虑到慢性病的医学机理较为复杂,相关影响因素较多,各因素之间既有自影响,又有互影响,既有定性,又有定量,且影响因素与发病结果之间是非线性关系,所形成的医疗数据呈多元性、复杂性、非线性和数据量超大等特性,因而采用传统的BP神经网络[BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络]学习模型在解决该问题中不适用。而DBN是深度学习算法的一种,它是由多层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)和BP神经网络组成的一种深度学习算法,底层由多个RBM堆叠而成,实现对数据的抽象表示,顶层为BP神经网络,底层算法采用逐层贪婪无监督学习,对DBN进行分层学习,然后在顶层通过有标签数据对网络进行有监督学习,使网络的重构误差最小。DBN学习框架通过学习一种深层非线性网络结构,只需简单的网络结构即可实现复杂函数的逼近,并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。由于模型的层次深(通常有5层、6层,甚至10多层的隐藏层节点),表达能力强,能够获得更好地表示大规模数据的特征。因此该模型既具有无监督深度学习处理大规模数据的优势,又兼容高精度识别特征数据的优势。
DBN能够通过底层无监督学习和顶层有监督参数调整相结合的方式,最终实现知识发现与精准分类的目的。同时,DBN的学习算法使其在处理大量数据时能够实现快速学习的目标,从而提高模型的效率和准确率。目前多数疾病诊断与防控技术,以分类、回归等算法为主,而采用DBN能够通过无监督学习对原始数据进行分层表示,通过多层传播实现复杂函数的模拟,最终实现从大量的样本数据中学习本质特征的功能。
在构建DBN模型时,有两个非常重要的参数需要确定,就是隐含层和隐含层结点的个数,通常在计算系统的层数和节点的个数时,各节点的权值也得到确定。隐含层越多处理能力越强大,但是计算效率也越低,而隐含层的结点的个数过多,也会出现过拟合,从而导致计算结果错误。本项目采用基于稀疏特征约束条件限制的自优化层间特征损失传递函数,确保层间信息传递损失最少。深度学习的过程就是获得逐层学习特征的表示,每层学习均可得到一种新的表示,这种表示还能通过某种方式表示成原来的数据。对于一个特征的表示,如果越稀疏,就说明这样的特征只被少数的上层节点所激活,在一定程度上起到了抽象的作用。所以,选择基于稀疏特征约束条件限制的模型,得到的特征判别效果更优。而且可以通过调整层间特征损失函数权重来提高模型得到特征的稀疏性。如此该模型采用分层无监督学习,然后在顶层通过有标签数据对网络进行有监督学习,使网络的重构误差最小。项目根据层间特征的继承性,采用优势遗传算法来确定DBN模型的最优结构。当DBN模型的隐含层个数为1时,在输入层中,把输入结点的个数设置为1~10之间改变的10个不同值。把隐含层的结点个数设置为4、8、12、16和20五个不同的值。这样设置的结果是:相对与输入结点的个数变化,网络的预测效果对隐含层结点个数的改变更加敏感。在对数据集的实验结果中,通过优势遗传算法,结合损失函数过程最小的约束条件,寻找出识别率最高时对应的输入层结点个数和隐含层结点个数,之后再增加新的隐含层,判断新的隐含层中结点个数的变化对预测效果的影响,从而确定最佳节点个数,同时也确定了隐含层的层数。
对于状态(v,h),RBM的能量函数取值最小计算公式:
式中:Wi,j——显层第i个节点和隐层第j个节点之间的权重;
ai——显层节点i的偏置大小;
bi——隐层节点j的偏置大小。
其中,RBM模型参数为θ={W,a,b},将可视层和隐含层的各节点带入能量函数的公式中,可以得到整个RBM连接结构的能量。
根据吉布斯分布(Gibbs)可以得出:RBM处于当前状态(v,h)时的概率为:
这个概率可以看作显层状态和隐层状态的联合概率分布,根据联合概率分布可以得出显层状态的边缘分布为:
最后,基于样本训练的慢性病健康管理精准干预模型语义特征信息提取模型。
DBN的核心是由多层RBM堆栈构成,通过无监督贪婪逐层算法可以训练RBM,将学习得到的权重θ={W,a,b}传递给DBN构成慢性病特征分类库,训练数据计算得到的RBM隐层状态作为下一个RBM的输入数据,来进一步学习RBM隐层单元之间的依赖关系。将这个学习过程重复多次,在重复的过程中,结合信息特征的继承性和损失函数最小约束条件,采用优势遗传算法实现最优路径的优化问题,从而确定受限玻尔兹曼机的最优堆叠层结构,且学习到数据中复杂的语义结构信息。在完成了逐层的RBM预训练后,RBM堆叠构成一个DBN,在最顶层増加一个分类层BP,便可构成一个自下而上的前馈深层神经网络,且在顶层实现语义概念抽象。在项目中,选用BP算法,通过带标签的数据用BP算法对判别性能做微调整。DBN的算法步骤可以概括为:①预训练阶段:通过RBM自训练算法结合遗传优势进化算法,选择由低层到髙层逐层无监督地训练出所有的RBM结构;②微调阶段:将最后一层RBM的输出信息由输入端传到输出端,使用BP神经网络作为模型有监督的分类器,通过网络传递误差作为修正标准,将误差从输出端向输入端进行反向传播,修改DBN的权重参数,再次循环。RBM堆叠构造的DBN学习语义信息特征提取算法构建过程:
1)数据采集和预处理。从慢性病特征分类及风险级别评估量化表的各项数据流中挖掘组成原始数据集,然后对原始采集数据进行预处理,最后把数据集划分为训练样本和测试数据两份。
2)提取基于多层RBM堆栈的慢性病DBN特征分类参数。采用遗传优势进化算法结合样本训练的方法,进行慢性病的DBN模型的最优网络结构参数计算,包括输入层结点的个数、隐含层结点的个数和隐含层的层数。
3)确定DBN慢性病精准干预模型网络传输参数权重。利用训练数据对DBN精准预测和干预模型进行训练,为了加速训练,计算实际输出和目标输出的误差,使用与网络权重W相关的函数来表示这个误差,用共轭梯度算法来调整权重矩阵,最后得到的是误差函数达到最小的网络权重矩阵W。
4)特征语义信息测试阶段。将测试数据输入到DBN精准干预模型中,计算慢性病概念的精准干预结果。
5)预测结果分析。对于相同的训练数据和测试数据,利用经典的预测方法进行预测,将预测结果与DBN模型的干预结果进行对比。据此:DBN模型的学习训练核心包括受限玻尔兹曼机的无监督自主训练和BP算法的有监督训练。在DBN模型训练的时候,如果同时进行整个网络所有层的训练,会导致时间复杂度过高,而如果采用贪婪逐层学习算法将会解决这个问题。
基于样本训练的DBN中的语义信息挖掘算法包括:低层到高层的语义抽象遗传优化算法,高层语义信息生成和网络中层语义特征挖掘,并构建各层语义信息库。在高层语义信息生成方面,研究如何在深度学习框架下,学习和选取底层特征信息提取的RBM模板集,然后采用组合函数生成高层语义信息,再利用DBN对获得的高层语义信息进行解析,从而得到最终可用的高层语义信息,并将获得的高层语义信息融合到DBN学习模型框架中,形成抽象的慢性病健康管理精准干预体系语义信息特征库。
综上RBM网络的表示需要尽可能拟合输入数据。计算如下:
设对于一组满足独立同分布的样本集:D={V(1),V(2),...,V(N)},需要学习参数θ={W,a,b},设S表示样本空间,q表示输入的样本分布,q(A)表示输入样本A的概率,p是RBM网络表示的边缘分布,则q和p为KL距离为:
对RBM网络来说,即让RBM网络随机发生多次(v,h)状态,训练样本出现的概率最高。对概率模型,选择一个参数,使当前的观测样本概率最大,优化问题为使得数据似然值最大的参数:
θ*=argmaxln(P(v;θ)) (13)
由于显层和隐层内部之间没有连接,所以输入变量和模型分布下的各状态的条件期望值,给定训练数据v,隐层节点的状态为:
P(hj=1|v)=σ(bj+∑iviwi,j) (14)
根据CD-k算法得出由隐层计算出的显层重构状态为:
P(vi=1|h)=σ(ai+∑ihjwi,j) (15)
其中σ(A)=1/(1+exp(-x)),即为Sigmoid函数。
根据以上公式,可以求得近似梯度,使用梯度下降法更新RBM参数:
RBM模型的参数优化过程可以看作对模型能量最小化过程,即重构误差最小。在其无监督训练过程中通常采用对比散度(Contrastive Divergence,CD)方式来更新权重参数,即
式中,ε为学习率,Edata(·)是将可见状态值取为训练样本值时得到的依赖数据的期望值,为整个网络单元的联合概率分布期望值;Edata(·)是可见单元为随机二值状态时的期望值。
基于上述任一实施例,图3为本发明实施例提供的一种人工智能中基于改进粒子群算法的数据分析处理系统的原理图,该系统包括:
约简和分类模块,用于采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
构建矩阵模块,用于利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;
归一化算法处理模块,用于采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
构建深度学习样本集模块,用于选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
综上所述,本发明实施例提供的人工智能中基于改进粒子群算法的数据分析处理方法及系统利用粗糙集和柔性逻辑理论,采用信息熵属性约束条件和柔性逻辑对海量的与慢性病致病因子相关的数据进行约简和分类,简化训练样本集,消除冗余数据,提高了DBN的学习效率。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:
步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
步骤S2,利用步骤S1中约简和分类的数据构建迭代复杂柔性逻辑矩阵;
步骤S3,采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
步骤S4,选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
步骤S2,利用步骤S1中约简和分类的数据构建迭代复杂柔性逻辑矩阵;
步骤S3,采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
步骤S4,选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种人工智能中基于改进粒子群算法的数据分析处理方法,其特征在于,包括以下步骤:
步骤S1,采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
步骤S2,利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;
步骤S3,对迭代复杂柔性逻辑矩阵进行归一化算法处理;
步骤S4,优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
2.根据权利要求1所述的人工智能中基于改进粒子群算法的数据分析处理方法,其特征在于,所述步骤S3中,采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理。
3.根据权利要求2所述的人工智能中基于改进粒子群算法的数据分析处理方法,其特征在于,所述步骤S4中,选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
4.一种人工智能中基于改进粒子群算法的数据分析处理系统,其特征在于,包括:
约简和分类模块,用于采用信息熵属性约束条件和柔性逻辑对与慢性病致病因子相关的数据进行约简和分类;
构建矩阵模块,用于利用约简和分类的数据构建迭代复杂柔性逻辑矩阵;
归一化算法处理模块,用于采用粒子群算法对迭代复杂柔性逻辑矩阵进行归一化算法处理;
构建深度学习样本集模块,用于选择改进遗传算法优化稀疏迭代复杂柔性逻辑矩阵,以构建统一的深度学习样本集。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的人工智能中基于改进粒子群算法的数据分析处理方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3任一项所述的人工智能中基于改进粒子群算法的数据分析处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347321.8A CN111091916A (zh) | 2019-12-24 | 2019-12-24 | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347321.8A CN111091916A (zh) | 2019-12-24 | 2019-12-24 | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091916A true CN111091916A (zh) | 2020-05-01 |
Family
ID=70396714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911347321.8A Pending CN111091916A (zh) | 2019-12-24 | 2019-12-24 | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091916A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815574A (zh) * | 2020-06-18 | 2020-10-23 | 南通大学 | 一种用于眼底视网膜血管图像分割的粗糙集神经网络方法 |
CN113777000A (zh) * | 2021-10-09 | 2021-12-10 | 山东科技大学 | 一种基于神经网络的粉尘浓度检测方法 |
CN116386848A (zh) * | 2023-03-10 | 2023-07-04 | 王子骁 | 基于ai技术的多维度甲状腺结节精准化评价系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150611A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | Ii型糖尿病发病概率分层预测方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
-
2019
- 2019-12-24 CN CN201911347321.8A patent/CN111091916A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150611A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | Ii型糖尿病发病概率分层预测方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
Non-Patent Citations (5)
Title |
---|
刘城霞: "柔性逻辑在数据挖掘中的应用研究", pages 138 - 35 * |
宋玉磊: "基于DBN脑血管病智慧健康管理模式的移动平台研究", pages 070 - 66 * |
许庆勇: "基于深度学习理论的纹身图像识别与检测研究", 31 December 2018, 华中科技大学出版社, pages: 38 - 42 * |
郭亦玮: "基于可持续发展观的电源投资综合效益评价", 30 April 2012, 煤炭工业出版社, pages: 105 * |
黄宪芳: "粗糙集和遗传算法在心脑血管慢性病中的应用研究", pages 135 - 138 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815574A (zh) * | 2020-06-18 | 2020-10-23 | 南通大学 | 一种用于眼底视网膜血管图像分割的粗糙集神经网络方法 |
CN111815574B (zh) * | 2020-06-18 | 2022-08-12 | 南通大学 | 一种基于粗糙集神经网络的眼底视网膜血管图像分割方法 |
CN113777000A (zh) * | 2021-10-09 | 2021-12-10 | 山东科技大学 | 一种基于神经网络的粉尘浓度检测方法 |
CN113777000B (zh) * | 2021-10-09 | 2024-04-12 | 山东科技大学 | 一种基于神经网络的粉尘浓度检测方法 |
CN116386848A (zh) * | 2023-03-10 | 2023-07-04 | 王子骁 | 基于ai技术的多维度甲状腺结节精准化评价系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zenke et al. | The remarkable robustness of surrogate gradient learning for instilling complex function in spiking neural networks | |
CN111128380A (zh) | 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统 | |
Baldeon-Calisto et al. | AdaResU-Net: Multiobjective adaptive convolutional neural network for medical image segmentation | |
Amer et al. | A review of modularization techniques in artificial neural networks | |
Louati et al. | Deep convolutional neural network architecture design as a bi-level optimization problem | |
CN105160249B (zh) | 一种基于改进的神经网络集成的病毒检测方法 | |
CN111091916A (zh) | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 | |
CN112906770A (zh) | 一种基于跨模态融合的深度聚类方法及系统 | |
CN111105877A (zh) | 基于深度置信网络的慢性病精确干预方法及系统 | |
US20210406687A1 (en) | Method for predicting attribute of target object based on machine learning and related device | |
CN112070277A (zh) | 基于超图神经网络的药物-标靶相互作用预测方法 | |
Zhang et al. | A rough set-based multiple criteria linear programming approach for the medical diagnosis and prognosis | |
CN112037179B (zh) | 一种脑疾病诊断模型的生成方法、系统及设备 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
Feng et al. | A review of methods for classification and recognition of ASD using fMRI data | |
Xu et al. | Optimizing the prototypes with a novel data weighting algorithm for enhancing the classification performance of fuzzy clustering | |
CN113807299A (zh) | 基于平行频域脑电信号的睡眠阶段分期方法及系统 | |
CN109409434A (zh) | 基于随机森林的肝脏疾病数据分类规则提取的方法 | |
Uzer et al. | A novel feature selection using binary hybrid improved whale optimization algorithm | |
Nimitha et al. | An improved deep convolutional neural network architecture for chromosome abnormality detection using hybrid optimization model | |
Fan et al. | Large margin nearest neighbor embedding for knowledge representation | |
CN111767825B (zh) | 一种人脸属性不变鲁棒性人脸识别方法及系统 | |
Mei et al. | An improved brain emotional learning algorithm for accurate and efficient data analysis | |
Di Nuovo et al. | Psychology with soft computing: An integrated approach and its applications | |
De Fausti et al. | Multilayer perceptron models for the estimation of the attained level of education in the Italian Permanent Census |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |