CN109697512B - 基于贝叶斯网络的个人数据分析方法及计算机存储介质 - Google Patents
基于贝叶斯网络的个人数据分析方法及计算机存储介质 Download PDFInfo
- Publication number
- CN109697512B CN109697512B CN201811596679.XA CN201811596679A CN109697512B CN 109697512 B CN109697512 B CN 109697512B CN 201811596679 A CN201811596679 A CN 201811596679A CN 109697512 B CN109697512 B CN 109697512B
- Authority
- CN
- China
- Prior art keywords
- network
- bayesian network
- data
- node
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000006399 behavior Effects 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 230000002068 genetic effect Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000008719 thickening Effects 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 125000002015 acyclic group Chemical group 0.000 claims description 4
- 238000013398 bayesian method Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 2
- 230000000391 smoking effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 208000019901 Anxiety disease Diseases 0.000 description 7
- 230000036506 anxiety Effects 0.000 description 7
- 230000037213 diet Effects 0.000 description 6
- 235000005911 diet Nutrition 0.000 description 6
- 108700003861 Dominant Genes Proteins 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002028 premature Effects 0.000 description 4
- 208000007848 Alcoholism Diseases 0.000 description 3
- 206010003805 Autism Diseases 0.000 description 3
- 208000020706 Autistic disease Diseases 0.000 description 3
- 201000007930 alcohol dependence Diseases 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 206010014950 Eosinophilia Diseases 0.000 description 2
- 208000008589 Obesity Diseases 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 235000020824 obesity Nutrition 0.000 description 2
- YXCKIFUUJXNFIW-UHFFFAOYSA-N 5-[4-(1,3-dioxo-2-benzofuran-5-yl)phenyl]-2-benzofuran-1,3-dione Chemical compound C1=C2C(=O)OC(=O)C2=CC(C2=CC=C(C=C2)C=2C=C3C(=O)OC(C3=CC=2)=O)=C1 YXCKIFUUJXNFIW-UHFFFAOYSA-N 0.000 description 1
- 206010004716 Binge eating Diseases 0.000 description 1
- 208000032841 Bulimia Diseases 0.000 description 1
- 206010013954 Dysphoria Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 208000014679 binge eating disease Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于贝叶斯网络的个人数据分析方法及计算机存储介质,方法包括以下步骤:(1)将个人生活行为数据具体化为行为和行为属性的一维向量,行为属性中至少包含时间属性,经过数据预处理,得到生活行为数据记录;(2)通过混合结构学习算法对数据进行学习,构建生活数据贝叶斯网络;(3)根据生活数据贝叶斯网络进行参数学习,学习得到每个网络节点的条件概率分布表;(4)根据生活数据贝叶斯网络,使用联合树推理算法,基于特定行为的概率计算其他行为发生的概率,完成个人生活行为分析预测。本方法将贝叶斯网络应用到个人行为数据分析中去,并对网络构造方法进行了改进,有效地提高学习的准确率和算法的收敛性,提升运行性能。
Description
技术领域
本发明涉及一种个人数据分析方法及计算机存储介质,特别是涉及一种基于贝叶斯网络的个人数据分析方法及计算机存储介质。
背景技术
近年来,随着移动互联网技术的飞速发展和移动智能终端的兴起与普及,对于人们在工作、购物、睡觉、吃饭、锻炼以及交流等行为中所产生的数据,可以实时、安全并私密地通过移动智能终端采集下来。人们每天都在产生这样的“数字痕迹”,社交网络、搜索引擎、移动运营商、网络游戏和电子商务网站都在广泛地应用着这些数据。他们会聚类并分析这些数据,来进行广告推广并改善服务体系的性能。通过分析日常生活数据,可以发现这些数据中的潜在信息,对这些信息充分利用,可以驱使着事物向有利的方向发展。贝叶斯网络作为一种图形化的建模工具,提供了一种表示变量间因果关系的有效方法,可以用来发现隐藏在数据中的知识。贝叶斯网络将图论和概率论有效地结合了起来,在不确定性推理方面发挥了很大的优势。根据采集的数据,构建一个高精度的贝叶斯网络,对后面的参数学习和推理至关重要。
贝叶斯网络结构学习需要确定网络中节点之间的边和边的方向。基于依赖分析的方(如TPDA、PC、SGS)通常通过互信息来确定两个变量间的关系,然后通过条件互信息对冗余边进行去除,最后通过“碰撞检测”来进行因果关系的确定,即方向的确定。由于碰撞检验方法的局限性,导致学习出的网络结构存在着一些未定向边,影响了结构学习的准确率。同时,该类方法采用一种绝对的方式来衡量不同变量间的关系,即如果变量A与变量B的互信息大于某一正数,就认为A,B存在关联,可以添加一条无向边,但该方法容易丢失弱联合依赖边,可能导致最终学习出的网络是个非连通图,从而导致所学习出的结果不是全局最优解。基于评分搜索的方法能够学习到一个较优的网络结构,但容易陷入局部最优,而且一些算法(例如K2)需要事先知道节点的拓扑序列,一个低准确率的拓扑序列会导致学习结果的准确率低。混合搜索方法(如MMHC)在降低搜索空间复杂度的同时,也缩小了解空间的范围,在评分搜索阶段由于空间结构的限制,无法修正这一错误,容易陷入局部最优解,从而难以学习到最佳的网络结构。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于贝叶斯网络的个人数据分析方法及计算机存储介质,将贝叶斯网络应用到个人行为数据分析中去,对个人的行为可能的发生原因与后果进行推理与预测;并对贝叶斯网络构造方法进行了改进,在结构学习过程中保持了网络的连通性,且对边定向的正确率比较高,有效地提高了学习的准确率,在推理过程中对现有算法收敛速度慢、易早熟等不足进行了改进,有效提高了算法的收敛性,提高了运行性能。
技术方案:本发明所述的基于贝叶斯网络的个人数据分析方法,其特征在于包括以下步骤:
(1)将个人生活行为数据具体化为行为和行为属性的一维向量,行为属性中至少包含时间属性,经过数据预处理,得到生活行为数据记录;
(2)通过混合结构学习算法对数据进行学习,构建生活数据贝叶斯网络;
(3)根据步骤(2)中的生活数据贝叶斯网络进行参数学习,学习得到每个网络节点的条件概率分布表;
(4)根据步骤(2)中的生活数据贝叶斯网络,使用联合树推理算法,基于特定行为的概率计算其他行为发生的概率,完成个人生活行为分析预测。
进一步的,步骤(1)中的行为属性包括行为主体、时间、地点、环境、状态、客体和结果。
为了保证网络的连通性,提高结构学习的准确率,步骤(2)中的生活数据贝叶斯网络构建过程为:
(21)选定行为作为节点,根据行为之间的逻辑关系及时序关系进行网络的初始化,得到一个有向无环网络;
(22)通过最大信息系数来衡量网络中两个节点Xi与Xj的关联程度,进行初始化,得到一个单连通网络;
(23)通过条件互信息进行条件独立性检测,对步骤(22)中的单连通网络进行增厚,得到无向网络S;
(24)在保证无向网络S连通性的前提下,进行条件独立性检测,进行网络中的冗余边去除;
(25)利用BDe评分函数和贪婪搜索算法进行结构学习,得到评分最优的网络结构。
进一步的,步骤(22)中进行初始化的过程为,计算每个节点Xi与其他节点的最大信息化系数MIC,找出其最大值MMIC(Xi),找出满足MICδ(Xi,Xj)≥αMMIC(Xi)或者MICδ(Xi,Xj)≥αMMIC(Xj)的边Xi→Xj,并将满足要求的边加入序列L,对序列进行降序排列,若Xi和Xj之间不存在边,则添加边,如此重复,构造一个单连通网络,其中阈值因子α=0.8。
进一步的,步骤(23)中所述的网络增厚的方法为:对于每对顶点(Xi,Xj),找出与节点Xi相连的节点集合N1以及与Xj相连的节点集合N2,通过dSeparateA函数对N1和N2进行D-separate检测,若不满足条件独立性,则在两点之间添加一条边,如此反复,完成网络增厚;步骤(24)中所述的冗余边去除的方法为:找出与N1相连的节点集N1’以及与N2相连的节点集N2’,对集合N1+N1’和N2+N2’进行D-separate检测,若满足条件独立性,则删除两点之间的边,如此反复,完成网络冗余边的去除。
进一步的,步骤(25)中进行结构学习的过程为:对于与Xi相连接的每个节点Xj,计算添加边Xi→Xj之后的BDe评分,找出使评分最大化增加的边Xj→Xi,添加到贝叶斯网络中,直到评分不再增加为止;然后计算将每条边转向之后的BDe评分,对增加评分的边执行转向操作,直到评分不再增加为止。
进一步的,步骤(3)中得到条件概率分布表的过程为将每个行为或行为/属性看作随机变量θ,根据已有数据计算其先验概率P(θ),得到每个节点的条件概率分布表。
进一步的,步骤(4)中的联合树推理算法具体步骤为:
(41)对步骤(2)得到的贝叶斯网络进行道义化,将所有有向边转换位无向边,对每个节点的父节点添加无向边,得到道义网络;
(42)利用自适应交叉算子改进遗传算法,使用改进的遗传算法对所述的道义网络进行三角化,通过添加边来破除长度大于3的回路,得到有弦网络;
(43)根据所述的有弦网络构造联合树,联合树的顶点是有弦网络中的子团,联合树的边是两个子团的分割集;
(44)根据联合树通过贝叶斯方法计算任意查询变量的条件概率分布,利用种群迁移策略对推理和分析过程进行优化,快速获得最优推理结果。
为了改进遗传算法,保证优势基因的遗传,提高收敛速度,缓解早熟现象的发生,步骤(42)中所述的自适应交叉算子,依据父代个体的适应度大小来控制交叉点的个数,适应度大的个体遗传到下一代的优势基因比较多,交叉点个数为:
count2=nodeCount-count1,
其中,f1、f2为两个个体的适应度值,nodeCount为节点个数。
本发明所述的一种计算机存储介质,其上存储有计算机程序,所述程序被计算机处理器执行时实现上述的方法。
有益效果:本发明能够将贝叶斯网络应用到个人行为数据分析中去,综合分析人们的相关行为与状态数据,挖掘行为模式关联知识,并基于个人实时的行为状态对其可能的发生原因与后果进行推理与预测,有利于人们有效调整生活模式与习惯,提高生活健康度。同时对贝叶斯网络构造方法进行了改进,提高了结构准确度和学习结果准确率,对种群迁移推理方法进行改进,缓解了易早熟的现象,保证优势基因的遗传,提高了收敛速度,更易习得最佳网络结构。
附图说明
图1是本方法整体流程图;
图2是根据大学生生活方式与健康普查数据构建的有向无环网络示意图;
图3是初始化之后的贝叶斯网络结构示意图;
图4是网络增厚之后的贝叶斯网络结构示意图;
图5是冗余边去除之后的贝叶斯网络结构示意图;
图6是确定边方向之后的贝叶斯网络结构示意图;
图7是对贝叶斯网络道义化之后的道义网络示意图;
图8是对道义网络三角化之后的有弦网络示意图;
图9是根据有弦网络构造的联合树示意图。
具体实施方式
如图1所示,本发明的具体实施分为以下步骤。
步骤(1):将行为数据具体化为行为和行为属性的一维向量,经过数据预处理,得到生活数据记录,数据处理主要通过实践窗口实例化为行为及行为属性组成的元组。
行为事件可以具体化表示为:E=f(B,A)。其中B表示发生的行为;A表示该行为发生时的相关因素,称为行为的属性,通常包括行为主体、时间、地点、环境、状态、客体、结果等。f表示行为与属性的映射关系,行为的属性用来描述所发生的行为。
对于一个时间序列T={t1,t2,...,tn},给定一个时间周期N,对于时间序列T中,以时间ti为起始时间,时间ti+N为终止时间,得到区间[ti,ti+N)作为一个时间窗口,然后以ti+1为起始时间,得到下一个时间窗口为[ti+1,ti+1+N),其中t1<t2<...<ti<...<tn。
给定不同的时间周期N,根据行为事件中的时间属性,对一天内的行为事件进行划分,可以得到许多时间窗口,每一个时间窗口就是一条数据记录,它包含多个行为事件,可以表示为R={E1,E2,...,En},这样行为数据就具体化为贝叶斯网络可读入的数据格式。
步骤(2):通过混合结构学习算法进行结构学习,得到生活数据贝叶斯网络。具体步骤如下:
一是选定研究对象行为或行为/属性作为节点,根据行为之间的逻辑关系及时序关系进行网络的初始化,得到一个有向无环网络。在网络结构中,我们为每一个节点建立一个最大信息系数MIC(Maximal information coefficient)表,里面存储该节点与其他节点之间的MIC值,用以确定节点之间的边,进而初始化网络结构。最大信息系数MIC用以衡量两个信息之间的相似程度,应用到贝叶斯网络中,即为两个节点之间的关联程度,直观表现上可以体现为:若两个节点的MIC值较高,在网络结构中,这两个节点可能直接相连或节点之间路径较短。
二是首先为每一个节点Xi(1≤i≤n)构建一张表Ti,保存节点Xi与任意节点间的MIC值。对节点Xi的表Ti进行降序排序,可以得到节点Xi的最大MIC值,记为MMIC(Xi),如果两个节点之间的MIC满足MICδ(Xi,Xj)≥αMMIC(Xi)或者MICδ(Xi,Xj)≥αMMIC(Xj)(α为阈值因子,取值为0.8),则这两个节点之间存在一条边。然后从表Ti中选出符合要求的边,存入序列L。对序列L进行降序排列然后根据序列L构造一个单连通网络。如果通过序列L不能构造出一个单连通网络,则降低阈值因子,再次选出一些符合要求的边存入序列L’,并对序列L’降序排序进行单联通网络的构造;重复执行上述步骤直到构造出单连通网络为止,完成贝叶斯网络的初始化。
三是对于L中的每对顶点(Xi,Xj),找出与节点Xi相连的节点集合N1以及与Xj相连的节点集合N2,通过dSeparateA函数对N1,N2进行D-separate检测,若不满足条件独立性,则在两点之间添加一条边,如此反复,完成对贝叶斯网络的增厚。
D-separated检测算法如下:
第一步:计算节点Xi和节点Xj的邻接点集合N1和N2,将较小的集合作为N1,较大的作为N2,并初始化条件集合C=N1;
第二步:根据此条件集C,对节点Xi和节点Xj进行初始条件独立性检测;
第三步:依次删除条件集C中的第k个节点得到新的条件集Ck,并计算Xi、Xj相对于Ck的条件互信息;
第四步:求出最小的条件互信息Pk,并进行D-separated检测,如果Pk小于阈值ε,则说明条件集Ck可以D-separated节点Xi、Xj。如果最小的条件互信息Pk对应的条件集Ck不能D-separated节点Xi、Xj,则判断是否满足Pk<v,若满足则更新下一阶段条件集合C=Ck,为下一次D-separated检测做准备;
第五步:检测另一个邻接点集合N2是否计算过,若没有,则以N2作为新的条件集合C进行检测。
四是找出与N1相连的节点集N1’以及与N2相连的节点集N2’,对集合N1+N1’和N2+N2’进行D-separate检测,若满足条件独立性,则删除两点之间的边,如此反复,完成贝叶斯网络冗余边的去除。
五是对于N1中的每个节点Xj,计算添加边Xj→Xi之后的BDe评分,找出可以使评分最大化增加的边Xj→Xi,添加到贝叶斯网络中,直到评分不再增加为止。然后计算将每条边转向之后的BDe评分,对可以增加评分的边执行转向操作,直到评分不再增加为止,完成贝叶斯网络的边方向确定。
步骤(3):根据生活数据贝叶斯网络,进行参数学习,学习出每个节点的条件概率分布表。参数学习主要是确定贝叶斯网络中每个节点的先验概率,将每个行为或行为/属性看作随机变量θ,根据以往数据计算其先验概率P(θ),得到每个节点的条件概率分布表CPTi。
步骤(4):在给定某些证据的前提下,在之前得到的贝叶斯网络上通过联合树推理算法进行因果关系的分析。联合树推理算法的主要思想是将贝叶斯网络G转换为联合树,然后在联合树上进行推理。其中,三角化过程是联合树构造的关键环节,三角化过程与道义图中节点的删除次序有关,因此寻求最佳的节点删除次序是三角化过程的关键。传统方法是利用遗传算法搜索最佳的节点删除次序,但存在标准遗传算法的缺点:1)收敛速度慢;2)易早熟。针对上述问题,本发明提出了一种基于自适应遗传算法的三角化优化算法。采用改进的线性排序选择算子,对种群中的个体进行选择,有效地保证种群的多样性。交叉算子是影响遗传算法性能的另一个重要因素,本发明提出一种新的自适应交叉算子,有效保证了优势基因的遗传,提高了收敛速度。联合树推理算法包括以下步骤:
一是对于步骤(2)得到的贝叶斯网络进行道义化,得到道义网络,道义化步骤如下:将所有有向边转换位无向边;对每个节点的父节点添加无向边。
二是对上一步得到的道义网络通过基于自适应遗传的三角化优化算法TAGA进行三角化得到有弦网络,三角化是指通过添加边来破除长度大于三的回路。基于自适应遗传的三角化优化算法TAGA可以保证优势基因的遗传,提高收敛速度。结合种群迁移策略,可以保证种群的多样性,尤其是进化后期,有效缓解了早熟现象的发生。TAGA算法具体步骤如下:第一步是随机初始化种群,第二步是执行自适应遗传算法,具体为先计算种群中每个个体的适应度,之后根据适应度值进行升序排序,并分配概率,然后执行精英选择策略选出最优解,通过线性排序选择选出用于进化的个体,分别执行交叉和变异操作,最后通过判断是否需要进行种群迁移,以执行种群迁移。自适应交叉算子,依据父代个体的适应度大小来控制交叉点的个数,适应度大的个体遗传到下一代的优势基因比较多,可有效提高遗传算法的收敛速度。两个个体的适应度值为f1、f2,则交叉点个数为:
count2=nodeCount-count1,
其中,nodeCount为节点个数。
三是根据上一步得到的有弦网络构造联合树,联合树的顶点是有弦网络中的子团,联合树的边是两个子团的分割集。根据联合树通过贝叶斯方法计算任意查询变量的条件概率分布,进行推理和分析,通过已知项对未知项进行推理计算。贝叶斯方法主要方法如下:
下面的实施例针对某大学对大学生生活方式与健康的调查数据,通过对不同学生的大量行为数据进行实例化,根据以逻辑关系构建初始关系网络,初始网络如图2所示。
对图2进行贝叶斯网络的初始化,得到如图5所示的初始结构。以图中的节点缺乏运动与暴饮暴食为例,对于节点缺乏运动,在节点缺乏运动的MIC表中,由于边<缺乏运动,饮食不规律>的MIC值最大,故在初始化阶段加入边<缺乏运动,饮食不规律>得到如图3所示的贝叶斯网络。
对图3进行网络增厚,得到如图4所示的网络结构,新增加了边<焦虑,嗜盐>、<吸烟,酗酒>,这是因为通过条件独立性检测不能D-separated这些边,而边<焦虑,孤独>没有添加,是因为{吸烟}可以D-separated节点焦虑和孤独。
对图4进行冗余边的删除,得到如图5所示的网络结构,给定集合{肥胖},边<嗜糖,糖尿病>被D-Separated,故删除边<嗜糖,糖尿病>。给定集合{酗酒},边<吸烟,孤独>被D-separated,故删除边<吸烟,孤独>。至此,根据数据集D,经过初始化、增厚和去除冗余边,便生成了一个无向图S。
通过计算所有添加有向边和转向有向边的BDe评分增加情况,对图5的网络结构进行添加方向及转向操作,得到图6所示的网络结构。对于图5,单独改变边“抑郁→吸烟”的方向,会导致图的评分减小;但同时改变边“抑郁→吸烟”和“吸烟→孤独”的方向,可能会使图的评分值增大,这是因为这两条边的均与节点吸烟相连,在之前的贪婪搜索过程中,假设首先确定边“抑郁→吸烟”,会影响到边“吸烟→孤独”边方向的确定,使得方向确定为“吸烟→孤独”,但正确的方向可能是“孤独→吸烟”和“吸烟→抑郁”,只有同时转向这两条边,才可能会使节点吸烟的评分值增大。
根据以往数据学习得到各节点的条件概率表,“吸烟”和“熬夜”的条件概率表如表1和表2所示。
表1“吸烟”的条件概率表
表2“熬夜”的条件概率表
P(熬夜) | 0.82 |
P(烦躁|熬夜) | 0.79 |
P(注意力不集中|熬夜) | 0.66 |
P(身体疲乏|熬夜) | 0.92 |
P(焦虑|熬夜) | 0.58 |
P(吸烟|焦虑,熬夜) | 0.67 |
P(饮食不规律|焦虑,熬夜) | 0.89 |
对图6所示的贝叶斯网络进行道义化,首先将所有有向边转换为无向边,然后添加每个入度大于2的节点的父节点之间的边得到如图7所示的道义图。
对图7所示的道义图进行三角化,破除所有长度大于3的环得到如图8所示的有弦图。
对图8所示的有弦图进行联合树构造,得到如图9所示的联合树。
根据行为的基本要素,结合应用实例将行为事件实例化为行为、地点、状态、时间,即E=<行为,地点,状态,时间>,得到如表3所示的某学生生活数据示例,例如,编号为1的行为事件表示为E1=<起床,宿舍,一般,4/21/2016 07:30:30>。根据表3所示的生活数据,筛选出能体现网络中节点情况的数据,如E1,E2,E8等。
表3个人生活数据实例表
对上述数据进行分析可得,该大学生有吸烟,熬夜,饮食不规律等问题,可得证据节点“熬夜”,“饮食不规律”,“吸烟”。抽象为P(熬夜)=1,P(吸烟)=1,P(饮食不规律)=1。由以上节点的概率分布表根据贝叶斯公式计算可得P(焦虑)=0.78,P(酗酒)=0.47,P(肥胖)=0.59,P(孤独)=0.69。然后根据以上数据可进一步计算该个体缺乏人际沟通,缺乏运动,以及患各种疾病的概率。总之,给定网络中任意节点的概率,可对其他任意节点进行推测。可见,用本方法分析个体的日常生活数据,可对个体的日常工作休息情况、饮食情况、体育锻炼情况、不良习惯情况等身体健康因素进行推测,对个体的健康检测以及生活方式改进的指导具有重要意义。
本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述控制的方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (9)
1.一种基于贝叶斯网络的个人数据分析方法,其特征在于包括以下步骤:
(1)将个人生活行为数据具体化为行为和行为属性的一维向量,行为属性中至少包含时间属性,经过数据预处理,得到生活行为数据记录;
(2)通过混合结构学习算法对数据进行学习,构建生活数据贝叶斯网络;
(3)根据步骤(2)中的生活数据贝叶斯网络进行参数学习,学习得到每个网络节点的条件概率分布表;
(4)根据步骤(2)中的生活数据贝叶斯网络,使用联合树推理算法,基于特定行为的概率计算其他行为发生的概率,完成个人生活行为分析预测;
步骤(2)中的生活数据贝叶斯网络构建过程为:
(21)选定行为作为节点,根据行为之间的逻辑关系及时序关系进行网络的初始化,得到一个有向无环网络;
(22)通过最大信息系数来衡量网络中两个节点Xi与Xj的关联程度,进行初始化,得到一个单连通网络;
(23)通过条件互信息进行条件独立性检测,对步骤(22)中的单连通网络进行增厚,得到无向网络S;
(24)在保证无向网络S连通性的前提下,进行条件独立性检测,进行网络中的冗余边去除;
(25)利用BDe评分函数和贪婪搜索算法进行结构学习,得到评分最优的网络结构。
2.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(1)中的行为属性包括行为主体、时间、地点、环境、状态、客体和结果。
3.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(22)中进行初始化的过程为,计算每个节点Xi与其他节点的最大信息化系数MIC,找出其最大值MMIC(Xi),找出满足MICδ(Xi,Xj)≥αMMIC(Xi)或者MICδ(Xi,Xj)≥αMMIC(Xj)的边Xi→Xj,并将满足要求的边加入序列L,对序列进行降序排列,若Xi和Xj之间不存在边,则添加边,如此重复,构造一个单连通网络,其中阈值因子α=0.8。
4.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(23)中所述对步骤(22)中的单连通网络进行增厚具体为:对于每对顶点(Xi,Xj),找出与节点Xi相连的节点集合N1以及与Xj相连的节点集合N2,通过dSeparateA函数对N1和N2进行D-separate检测,若不满足条件独立性,则在两点之间添加一条边,如此反复,完成网络增厚;步骤(24)中所述的冗余边去除的方法为:找出与N1相连的节点集N1’以及与N2相连的节点集N2’,对集合N1+N1’和N2+N2’进行D-separate检测,若满足条件独立性,则删除两点之间的边,如此反复,完成网络冗余边的去除。
5.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(25)中进行结构学习的过程为:对于与Xi相连接的每个节点Xj,计算添加边Xi→Xj之后的BDe评分,找出使评分最大化增加的边Xj→Xi,添加到贝叶斯网络中,直到评分不再增加为止;然后计算将每条边转向之后的BDe评分,对增加评分的边执行转向操作,直到评分不再增加为止。
6.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(3)中得到条件概率分布表的过程为将每个行为或行为/属性看作随机变量θ,根据已有数据计算其先验概率P(θ),得到每个节点的条件概率分布表。
7.根据权利要求1所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(4)中的联合树推理算法具体步骤为:
(41)对步骤(2)得到的贝叶斯网络进行道义化,将所有有向边转换位无向边,对每个节点的父节点添加无向边,得到道义网络;
(42)利用自适应交叉算子改进遗传算法,使用改进的遗传算法对所述的道义网络进行三角化,通过添加边来破除长度大于3的回路,得到有弦网络;
(43)根据所述的有弦网络构造联合树,联合树的顶点是有弦网络中的子团,联合树的边是两个子团的分割集;
(44)根据联合树通过贝叶斯方法计算任意查询变量的条件概率分布,利用种群迁移策略对推理和分析过程进行优化,快速获得最优推理结果。
8.根据权利要求7所述的基于贝叶斯网络的个人数据分析方法,其特征在于:步骤(42)中所述的自适应交叉算子,依据父代个体的适应度大小来控制交叉点的个数,适应度大的个体遗传到下一代的优势基因比较多,交叉点个数为:
count2=nodeCount-count1,
其中,f1、f2为两个个体的适应度值,nodeCount为节点个数。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述程序被计算机处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811596679.XA CN109697512B (zh) | 2018-12-26 | 2018-12-26 | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811596679.XA CN109697512B (zh) | 2018-12-26 | 2018-12-26 | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697512A CN109697512A (zh) | 2019-04-30 |
CN109697512B true CN109697512B (zh) | 2023-10-27 |
Family
ID=66231992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811596679.XA Active CN109697512B (zh) | 2018-12-26 | 2018-12-26 | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697512B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245984B (zh) * | 2019-06-09 | 2023-08-01 | 广东工业大学 | 一种基于因果推断的网络购物行为分析方法和系统 |
CN111597331B (zh) * | 2019-12-29 | 2023-05-02 | 东南大学 | 一种基于贝叶斯网络的裁判文书分类方法 |
CN112259228B (zh) * | 2020-11-12 | 2023-06-02 | 湖北理工学院 | 一种动态注意力网络非负矩阵分解的抑郁症筛选方法 |
CN113807522B (zh) * | 2021-03-03 | 2024-07-23 | 京东科技控股股份有限公司 | 贝叶斯网络结构的生成方法、装置、电子设备和存储介质 |
CN114093509A (zh) * | 2021-07-14 | 2022-02-25 | 北京好欣晴移动医疗科技有限公司 | 信息处理方法、装置和系统 |
CN114429211A (zh) * | 2022-02-07 | 2022-05-03 | 北京百度网讯科技有限公司 | 用于生成信息的方法、装置、设备、介质和产品 |
CN115718536B (zh) * | 2023-01-09 | 2023-04-18 | 苏州浪潮智能科技有限公司 | 一种调频方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005541A1 (en) * | 2005-05-31 | 2007-01-04 | Sarmad Sadeghi | Methods for Validation and Modeling of a Bayesian Network |
CN107644532A (zh) * | 2017-09-20 | 2018-01-30 | 中山大学 | 一种基于贝叶斯网络的交通违法行为严重等级预测方法 |
CN108197665A (zh) * | 2018-01-29 | 2018-06-22 | 中国科学院重庆绿色智能技术研究院 | 一种基于并行演化搜索的贝叶斯网络结构学习方法 |
-
2018
- 2018-12-26 CN CN201811596679.XA patent/CN109697512B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005541A1 (en) * | 2005-05-31 | 2007-01-04 | Sarmad Sadeghi | Methods for Validation and Modeling of a Bayesian Network |
CN107644532A (zh) * | 2017-09-20 | 2018-01-30 | 中山大学 | 一种基于贝叶斯网络的交通违法行为严重等级预测方法 |
CN108197665A (zh) * | 2018-01-29 | 2018-06-22 | 中国科学院重庆绿色智能技术研究院 | 一种基于并行演化搜索的贝叶斯网络结构学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697512A (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697512B (zh) | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 | |
CN104462190B (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
CN107391542B (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN110879856B (zh) | 一种基于多特征融合的社交群体分类方法及系统 | |
CN109523021A (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN111182564B (zh) | 一种基于lstm神经网络的无线链路质量预测方法 | |
WO2022077767A1 (zh) | 交通流量预测方法及装置、计算机设备及可读存储介质 | |
CN113762595B (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
CN106875004A (zh) | 复合模式神经元信息处理方法和系统 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
CN106599230A (zh) | 一种分布式数据挖掘模型评估的方法与系统 | |
CN112365708B (zh) | 基于多图卷积网络的景区交通量预测模型建立和预测方法 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
CN114580762A (zh) | 一种基于XGBoost的水文预报误差校正方法 | |
CN110889530A (zh) | 基于递归神经网络的目的地预测方法及服务器 | |
CN114780739A (zh) | 基于时间图卷积网络的时序知识图谱补全方法及系统 | |
CN112907970A (zh) | 一种基于车辆排队长度变化率的可变车道转向控制方法 | |
CN109800517A (zh) | 一种改进的磁流变阻尼器逆向建模方法 | |
CN114461931A (zh) | 一种基于多关系融合分析的用户轨迹预测方法和系统 | |
CN115270782A (zh) | 基于图神经网络的事件传播流行度预测方法 | |
CN115766125A (zh) | 一种基于lstm和生成对抗网络的网络流量预测方法 | |
CN114463596A (zh) | 一种超图神经网络的小样本图像识别方法、装置及设备 | |
CN106228029B (zh) | 基于众包的量化问题求解方法和装置 | |
CN111507499B (zh) | 预测用模型的构建方法、测试方法、装置及系统 | |
CN116523001A (zh) | 电网薄弱线路识别模型构建方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |