CN112365140A - 基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 - Google Patents
基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 Download PDFInfo
- Publication number
- CN112365140A CN112365140A CN202011188213.3A CN202011188213A CN112365140A CN 112365140 A CN112365140 A CN 112365140A CN 202011188213 A CN202011188213 A CN 202011188213A CN 112365140 A CN112365140 A CN 112365140A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- bayesian network
- satisfaction
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000008447 perception Effects 0.000 claims abstract description 52
- 230000009286 beneficial effect Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 13
- 238000010206 sensitivity analysis Methods 0.000 claims description 10
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000010924 continuous production Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 229910052742 iron Inorganic materials 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,包括如下步骤:(1)采集空铁联程用户个人属性数据以及用户感知数据;(2)对采集到的数据进行预处理;(3)在数据预处理的基础上,分析用户个人属性数据,衡量数据有效性与可信度;(4)使用有效的预处理数据建立贝叶斯网络;(5)在贝叶斯网络模型的基础上进行推理分析,识别空铁联程瓶颈因素。本发明能高效识别空铁联程系统中的关键瓶颈因素,有利于充分利用现有改善资源,最大化改善空铁联程服务,优化用户空铁联程出行体验,进而高效利用现有交通资源,有利于交通的可持续发展。
Description
技术领域
本发明涉及交通出行与数据挖掘领域,尤其涉及一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法。
背景技术
据统计,在高铁引入后,日本航空公司被迫退出东京-仙台、东京-盛岗和东京-新泻市场;韩国的与高铁服务范围相同的450km运营距离范围内的航线用户较之高铁引入前减少了20%-90%;欧洲法兰克福和科隆之间的180km运营距离范围内的航空用户下降了三分之二。为了调和航空与高铁发展之间的矛盾,高效集约化地利用交通资源,空铁联程服务(Air-Rail Integration Service,简称ARIS)的概念于二十世纪九十年代在欧洲兴起,以求实现空铁优势互补,最大化地发挥二者优势。
我国于2012年12月到2013年7月之间,在石家庄正定机场推出了中国首个ARIS服务,花费了超过200万人民币的补贴,却仅仅服务了75000名联程旅客。这种令人失望的表现意味着ARIS服务在用户中推行不是非常成功。因此,为了去提高市场份额,ARIS的瓶颈因素需要被精准识别。用户作为空铁联程的终端,一切空铁联程服务的改善或恶化最终都会影响到用户出行体验,因此需要根据用户感知情况来针对性地识别空铁联程瓶颈因素。
发明内容
发明目的:针对以上问题,本发明提出一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,从用户感知角度出发,识别空铁联程系统对用户多方面的满意度影响,进而识别空铁联程瓶颈因素。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,具体方法如下:
(1)采集关于空铁联程城际出行用户的个人属性数据以及感知数据;
其中,个人属性数据包含性别、年龄、收入、学历、职业;
感知数据是用户对最近一次空铁联程服务的直观感知数据,包含票务服务满意度、出行舒适性满意度、运营满意度、个性化服务满意度、出行衔接性满意度、可靠性满意度、信息服务满意度、可达性满意度、安全性满意度以及总体满意度;
在一种优选方案中,总体满意度评分使用李克特二级量表法:1代表不满意,2代表满意;其他满意度评分使用李克特五级量表法:从1到5依次为非常不满意、比较不满意、一般满意、比较满意、非常满意;此方法下数字越大则表示感知越好;
(2)对采集到的用户的个人属性数据和感知数据进行预处理,具体方法如下:
(21)若单一用户的数据存在缺失且缺失的数据项小于等于5项时,对该项数据进行填补;
(22)若单一用户的数据存在缺失且缺失的数据项大于5项时,则认为该用户的数据无效并删除;
(23)若单一用户的数据为异常数据时,则认为该用户的数据无效并删除;
在一种优选方案中,步骤(21)中用采集的全体用户在该缺失数据上出现次数最多的数据值对该缺失数据进行填补;
(3)对步骤(2)预处理后的用户个人属性数据进行分析以确定数据的有效性,具体方法如下:
(31)设置用户个人属性数据有效比率阈值,对采集到的每一项个人属性数据设置有效条件;
(32)分别计算符合有效条件的用户占全部用户的比率,并判断该比率值大于有效比率阈值是否成立;若成立,则表示采集到的数据具备有效性,具备可信度;否则,表示数据不具备有效性,返回步骤(1)重新采集数据;
在一种优选方案中,个人属性数据有效条件分别为:性别为男;年龄在19-50岁之间;月收入大于3000元;学历在大专及其以上学历;职业为学生或私企职员。满足上述有效条件的个人属性数据为有效信息,且为高质量信息。
(4)根据所述用户的感知数据建立贝叶斯网络,并使用GTT(Greedy ThickThinning)算法进行贝叶斯网络的结构学习,构建关于用户感知数据的贝叶斯网络的有向无环图结构;其中,贝叶斯网络图结构中的节点集合由用户感知数据训练生成;
建立贝叶斯网络时所使用的GTT结构学习算法从一个空图开始,利用评分函数度量结构与数据集的拟合度,寻求最优的网络结构,具体方法如下:
(41)建立贝叶斯网络空图;
(42)遍历用户感知数据并添加有益于网络结构的有向边,具体方法如下:
根据网络评分函数对用户的每一个感知数据均进行计算,若网络评分值增加,则将该感知数据值作为节点添加到网络结构中;否则不执行操作;
(43)遍历步骤(42)所述贝叶斯网络结构的全部节点并删除对贝叶斯网络结构无正向效应的有效边,具体方法如下:
根据网络评分函数对贝叶斯网络结构的每一个节点均进行计算,若网络评分值不变或降低,则将网络结构中包括该节点的有效边删除;否则不执行操作;
在一种优选方案中,网络评分函数选定K2评分函数,计算式如下:
其中,K2(G,D)为网络评分值;G为贝叶斯网络结构;D为步骤(3)所述处理后的用户的感知数据集合;n为集合D的长度;xi为贝叶斯网络节点的第i个变量,表示用户感知数据;qi为节点xi父节点的取值组合;ri为节点xi的取值数;Nij为数据集合中节点xi的父节点处于第k种取值组合的数量之和,Nijk为数据集合中节点xi的父节点处于第k种取值组合的数量;P(G)为贝叶斯网络结构的先验概率;
(5)使用期望最大算法对步骤(4)所述贝叶斯网络参数进行学习,并得到贝叶斯网络结构节点的条件概率表;使用传统的极大似然估计算法进行参数学习时需要明确数据的高斯分布,其处理的似然函数中仅有一个参数θi,由于采集数据的每个变量服从的分布并不明确,因此引入一个新的隐含变量zi,zi表示数据的各个变量属于哪一类高斯分布,为离散值,通过引入隐含变量zi,进而使用极大似然估计算法进行迭代求解。具体方法如下:
(51)设置初始参数θi=θ0,参数值zi,i=0,则似然函数如下所示:
其中,l(θi)为似然函数值;θi为参数;xi为贝叶斯网络节点的第i个变量,表示用户感知数据;p(xi;θi)为在参数θi下变量xi的概率;w表示用户感知数据的个数;zi表示xi采样不同高斯分布时的概率;p(zi∣xi;θi)表示在xi与θi确定的条件下zi的概率;
(52)根据参数θi计算得到隐含变量zi的条件概率,即隐含变量zi的期望值,作为其现有估计值,其中计算公式为:
Qi(zi)=p(zi∣xi;θi)
其中,Qi表示隐含变量zi的某种分布;
(53)i=i+1,根据步骤(52)所述参数zi计算得到新的参数值θi,计算公式为:
(54)重复步骤(52)-(53),直到函数收敛;
(6)对步骤(5)所述贝叶斯网络进行模型推理分析,定量识别空铁联程用户感知数据对用户总体满意度的影响,进而识别空铁联程中的瓶颈因素,具体方法如下:
(61)将用户感知数据中总体满意度的真实值与预测值对比,根据贝叶斯网络结果统计出TP、TN、FP和FN,并利用下列公式计算真阳性率TPR与假阳性率FPR:
其中,TP表示实际总体满意度和预测总体满意度都为满意的用户数;TN表示实际总体满意度和预测总体满意度都为不满意的用户数;FP为实际总体满意度为不满意,预测总体满意度为满意的用户数;FN为实际总体满意度为满意,预测总体满意度为不满意的用户数;TPR为真阳性率,表示实际总体满意度为满意且正确预测为满意的概率;FPR为假阳性率,表示表示实际总体满意度为不满意但错误预测为满意的概率;
分别以FPR为横坐标、TPR为纵坐标作图,形成ROC曲线,ROC曲线下的面积值称为AUC值,设置AUC阈值,若得到的AUC值大于阈值表示贝叶斯网络结构模型合格;否则,贝叶斯网络结构模型不合格,返回步骤(4);
其中,AUC值介于0-1之间,且该值越大代表结果越准确,值越小代表结果越不准确。
(62)对贝叶斯网络进行敏感度分析,设置总体满意度为目标变量,其他满意度为不确定因素;分别选择单一不确定因素为因变量,同时保持其他不确定因素不变,计算得到该不确定因素对总体满意度的敏感性,由此确定出空铁联程瓶颈影响因素;根据敏感性分析结果,对定空铁联程瓶颈影响因素排序,选择对用户总体满意度影响最大的因素进行改善。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
前瞻性地从用户角度研究空铁联程出行服务,识别空铁联程系统瓶颈因素,可以为空铁联程系统改善与发展提供定量决策支持方法;将贝叶斯网络算法应用到空铁联程瓶颈诊断方面,可以精准识别空铁联程系统中全方面的瓶颈因素;针对用户群体,使用本发明提出的方法改善空铁联程系统,会最大化改善用户联程出行体验,进而有利于空铁联程在我国的推广,高效利用现有交通资源,构建集约化综合交通运输体系;本发明虽然着眼在空铁联程角度,但是方法具有很好的可扩展性,对于单方面细化角度的瓶颈因素研究同样具备很好的实用性;基于本专利提出的方法可以用来构建空铁联程决策系统与评价体系系统,能够在现有有限资源的约束下最大化地改善空铁联程系统。
附图说明
图1是本发明技术方案的系统流程图;
图2是GTT结构学习算法流程图;
图3是期望最大算法流程图;
图4是实施例的贝叶斯网络图;
图5是实施例的ROC曲线图;
图6是实施例的敏感度分析图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。其中,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护本发明的范围,而是仅仅表示本发明的选定实施例。
本发明所述的一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,下面以某市为例对本发明作进一步说明:
(1)在某市联程枢纽进行实地调查,采集关于空铁联程城际出行用户的个人属性数据以及感知数据;
其中,个人属性数据包含性别、年龄、收入、学历、职业;
感知数据是用户对最近一次空铁联程服务的直观感知数据,包含票务服务满意度、出行舒适性满意度、运营满意度、个性化服务满意度、出行衔接性满意度、可靠性满意度、信息服务满意度、可达性满意度、安全性满意度以及总体满意度;
总体满意度评分使用李克特二级量表法:1代表不满意,2代表满意;其他满意度评分使用李克特五级量表法:从1到5依次为非常不满意、比较不满意、一般满意、比较满意、非常满意;
采集到的初始数据如下所示:
其中,X0表示用户ID,为统计员后续添加的字段;X1为性别名义变量,1代表男性,0代表女性;X2为年龄,为整数连续变量;X3为收入,0代表收入小于等于3000,1代表收入大于3000小于等于8000,2代表收入大于8000;X4代表学历,0代表高中及以下,1代表本科/专科,2代表硕士/博士;X5代表职业,0代表学生,1代表公务员/国企职员,2代表私营职员;X6-X15都为满意度数据,总体满意度X15使用李克特二级量表法,1代表不满意,2代表满意,其他满意度都使用李克特五级量表法,从1到5依次为非常不满意、比较不满意、一般满意、比较满意、非常满意,数字越大则感知越好;X6表示票务服务满意度,X7表示出行舒适性满意度,X8表示运营满意度,X9表示个性化服务满意度,X10表示出行衔接性满意度,X11表示可靠性满意度,X12表示信息服务满意度,X13表示可达性满意度,X14表示安全性满意度。
(2)对采集到的用户的个人属性数据和感知数据进行预处理,具体方法如下:
(21)若单一用户的数据存在缺失且缺失的数据项小于等于5项时,用采集的全体用户在该缺失数据上出现次数最多的数据值对该缺失数据进行填补;
(22)若单一用户的数据存在缺失且缺失的数据项大于5项时,则认为该用户的数据无效并删除;
(23)若单一用户的数据为异常数据时,则认为该用户的数据无效并删除;
本例中,数据预处理后,对样本编号X0进行更新得到如下数据情况:
(3)对步骤(2)预处理后的用户个人属性数据进行分析以确定数据的有效性,具体方法如下:
(31)设置用户个人属性数据有效比率阈值,对采集到的全部用户的每一项个人属性数据设置有效条件;分别计算符合有效条件的用户占全部用户的比率,并判断该比率值大于有效比率阈值是否成立;若成立,则表示采集到的数据具备有效性,具备可信度;否则,表示数据不具备有效性,返回步骤(1);
本例中个人属性数据有效条件分别为:性别为男;年龄在19-49岁之间;月收入大于3000元;学历在大专及其以上学历;职业为学生或私企职员。满足上述有效条件的个人属性数据为有效信息,且为高质量信息。
本例中,统计数据显示,男性占比57.8%,女性占比42.2%;年龄分布为:5.6%为18岁及以下,46.5%为19-29岁,25.7%为30-39岁,16.4%为40-49岁,4.9%为50-59岁,1.0%为60岁以上;关于教育水平,仅14.9%为高中及以下学历,57.6%为专科/本科学历,27.5%为硕士/博士学历;关于职业,27.9%为学生,22.9%为公务员/国企职员,49.2%受访者为私企职员;关于收入,月收入3000元占比39.1%,3001-8000元占比33.2%,大于8001元占比27.7%。
设置有效比率阈值均为55%;数据结果中,男性的比率为57.8%;年龄19-49岁的比率为88.6%;教育水平大专及其以上学历的比率为85.1%;职业为学生或私企职员的比率为77.1%;月收入大于3000元的比率为60.9%;由此得到采集的数据基本符合人群先验认知,可以表明数据具有较高的可信度与有效性。
(4)根据所述用户的感知数据建立贝叶斯网络,并使用GTT(Greedy ThickThinning)算法进行贝叶斯网络的结构学习,构建关于用户感知数据的贝叶斯网络的有向无环图结构;其中,贝叶斯网络图结构中的节点集合由用户感知数据训练生成;
建立贝叶斯网络时所使用的GTT结构学习算法从一个空图开始,利用评分函数度量结构与数据集的拟合度,寻求最优的网络结构,具体方法如下:
(41)建立贝叶斯网络空图;
(42)遍历用户感知数据并添加有益于网络结构的有向边,具体方法如下:
根据网络评分函数对用户的每一个感知数据均进行计算,若网络评分值增加,则将该感知数据值作为节点添加到网络结构中;否则不执行操作;
(43)遍历步骤(42)所述贝叶斯网络结构的全部节点并删除对贝叶斯网络结构无正向效应的有效边,具体方法如下:
根据网络评分函数对贝叶斯网络结构的每一个节点均进行计算,若网络评分值不变或降低,则将网络结构中包括该节点的有效边删除;否则不执行操作;
在一种优选方案中,网络评分函数选定K2评分函数,计算式如下:
其中,K2(G,D)为网络评分值;G为贝叶斯网络结构;D为步骤(3)所述处理后的用户的感知数据集合;n为集合D的长度;xi为贝叶斯网络节点的第i个变量,表示用户感知数据;qi为节点xi父节点的取值组合;ri为节点xi的取值数;Nij为数据集合中节点xi的父节点处于第k种取值组合的数量之和,Nijk为数据集合中节点xi的父节点处于第k种取值组合的数量;P(G)为贝叶斯网络结构的先验概率;
本例使用计算机来进行标定,可以自行编程实现标定过程,也可以使用统计分析软件如SPSS,GeNie等来进行标定,最终建立的贝叶斯网络模型如图4所示。
(5)使用期望最大算法对步骤(4)所述贝叶斯网络参数进行学习,并得到贝叶斯网络结构节点的条件概率表;使用传统的极大似然估计算法进行参数学习时需要明确数据的高斯分布,其处理的似然函数中仅有一个参数θi,由于采集数据的每个变量服从的分布并不明确,因此引入一个新的隐含变量zi,zi表示数据的各个变量属于哪一类高斯分布,为离散值,通过引入隐含变量zi,进而使用极大似然估计算法进行迭代求解。具体方法如下:
(51)设置初始参数θi=θ0,参数值zi,i=0,则似然函数如下所示:
其中,l(θi)为似然函数值;θi为参数;xi为贝叶斯网络节点的第i个变量,表示用户感知数据;p(xi;θi)为在参数θi下变量xi的概率;w表示用户感知数据的个数;zi表示xi采样不同高斯分布时的概率;p(zi∣xi;θi)表示在xi与θi确定的条件下zi的概率;
(52)根据参数θi计算得到隐含变量zi的条件概率,即隐含变量zi的期望值,作为其现有估计值,其中计算公式为:
Qi(zi)=p(zi∣xi;θi)
其中,Qi表示隐含变量zi的分布;
(53)i=i+1,根据步骤(52)所述参数zi计算得到新的参数值θi,计算公式为:
(54)重步骤(52)-(53),直到函数收敛;
(6)对步骤(5)所述贝叶斯网络进行模型推理分析,定量识别空铁联程用户感知数据对用户总体满意度的影响,进而识别空铁联程中的瓶颈因素,具体方法如下:
(61)将用户感知数据中总体满意度的真实值与预测值对比,根据贝叶斯网络结果统计出TP、TN、FP和FN,并利用下列公式计算真阳性率TPR与假阳性率FPR,具体方法如下:
其中,TP表示实际总体满意度和预测总体满意度都为满意的用户数;TN表示实际总体满意度和预测总体满意度都为不满意的用户数;FP为实际总体满意度为不满意,预测总体满意度为满意的户数;FN为实际总体满意度为满意,预测总体满意度为不满意的户数;TPR为真阳性率,表示实际总体满意度为满意且正确预测为满意的概率;FPR为假阳性率,表示表示实际总体满意度为不满意但错误预测为满意的概率;
分别以FPR为横坐标、TPR为纵坐标作图,形成ROC曲线,ROC曲线下的面积值称为AUC值;设置AUC阈值0.65,若得到的AUC值大于阈值表示贝叶斯网络结构模型合格;否则,贝叶斯网络结构模型不合格,返回步骤(4);
本例ROC曲线分析结果如图5所示,其AUC值为0.745,说明本模型的预测准确度有74.5%,同时AUC值大于AUC阈值,表示该贝叶斯网络结构模型准确度较高。
(62)对贝叶斯网络进行敏感度分析,设置总体满意度为目标变量,其他满意度为不确定因素;分别选择单一不确定因素为因变量,同时保持其他不确定因素不变,计算得到该不确定因素对总体满意度的敏感性,由此确定出空铁联程瓶颈影响因素;根据敏感性分析结果,对定空铁联程瓶颈影响因素排序,选择对用户总体满意度影响最大的因素进行改善。
本例敏感度分析结果如图6所示,从敏感度分析结果来看,个性化服务对总体满意度影响第一,影响范围为(-62.1-63.9);运营特性对总体满意度影响第二,影响范围为(-41.3-50.2);出行衔接性对总体满意度影响第三,影响范围为(-52.1-43.5);出行可靠性对总体满意度影响第四,影响范围为(-45.2-42.3);票务服务对总体满意度影响第五,影响范围为(-32.7-40.2);出行舒适性对总体满意度影响第六,影响范围为(-20.2-20.6);信息服务对总体满意度影响第七,影响范围为(-15.4-20.5);出行可达性对总体满意度影响第八,影响范围为(-8.6-8.1);安全性对总体满意度影响第九,影响范围为(-2.3-1.9)。根据敏感性分析结果,可以根据敏感性分析排序,选择对用户总体满意度影响最大的因素进行改善。
Claims (5)
1.一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,其特征在于,具体方法如下:
(1)采集关于空铁联程城际出行用户的个人属性数据以及感知数据;
(2)对采集到的用户的个人属性数据和感知数据进行预处理,具体方法如下:
(21)若单一用户的数据存在缺失且缺失的数据项小于等于5项时,对该项数据进行填补;
(22)若单一用户的数据存在缺失且缺失的数据项大于5项时,则认为该用户的数据无效并删除;
(23)若单一用户的数据为异常数据时,则认为该用户的数据无效并删除;
(3)对步骤(2)预处理后的用户个人属性数据进行分析以确定数据的有效性,具体方法如下:
设置个人属性数据有效条件,同时设置用户个人属性数据有效比率阈值;分别针对每一项个人属性数据,计算属于有效条件的用户占全部用户的比率,并判断该比率值大于有效比率阈值是否成立;
若成立,则表示采集到的数据具备有效性;否则,表示数据不具备有效性,返回步骤(1);
(4)根据所述步骤(3)预处理后的用户感知数据建立贝叶斯网络,并使用GTT算法进行贝叶斯网络结构学习,构建关于用户感知数据的贝叶斯网络的有向无环图结构;
其中,贝叶斯网络图结构中的节点集合由用户感知数据训练生成;
(5)使用期望最大算法对步骤(4)所述贝叶斯网络参数进行学习,并得到贝叶斯网络结构节点的条件概率表;
(6)对所述贝叶斯网络进行模型推理分析,定量识别空铁联程用户感知数据对用户总体满意度的影响,进而确定空铁联程中的瓶颈因素。
2.根据权利要求1所述的一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,其特征在于:步骤(1)中个人属性数据包含性别、年龄、收入、学历、职业;用户感知数据包含票务服务满意度、出行舒适性满意度、运营满意度、个性化服务满意度、出行衔接性满意度、可靠性满意度、信息服务满意度、可达性满意度、安全性满意度以及总体满意度。
3.根据权利要求1所述的一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,其特征在于:步骤(4)使用GTT算法进行贝叶斯网络的结构学习,构建关于用户感知数据的贝叶斯网络的有向无环图结构,具体方法如下:
(41)建立贝叶斯网络空图;
(42)遍历用户感知数据并添加有益于网络结构的有向边,具体方法如下:
根据网络评分函数对每一个用户感知数据均进行计算,若网络评分值增加,则将该感知数据值作为节点添加到网络结构中;否则不执行操作;
(43)遍历步骤(42)所述贝叶斯网络结构的全部节点并删除对贝叶斯网络结构无正向效应的有效边,具体方法如下:
根据网络评分函数对贝叶斯网络结构的每一个节点均进行计算,若网络评分值不变或降低,则将网络结构中包括该节点的有效边删除;否则不执行操作。
4.根据权利要求3所述的一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,其特征在于:步骤(5)使用期望最大算法得到贝叶斯网络结构节点的条件概率表,具体方法如下:
(51)设置初始参数θi=θ0,隐含参数zi,i=0,则似然函数如下所示:
其中,为似然函数值;θi为参数;xi为贝叶斯网络节点的第i个变量,表示用户感知数据;p(xi;θi)为在参数θi下变量xi的概率;w表示用户感知数据的个数;zi表示xi采样不同高斯分布时的概率;p(zi∣xi;θi)表示在xi与θi确定的条件下zi的概率;
(52)根据参数θi计算得到隐含变量zi的条件概率,即隐含变量zi的期望值,其中计算公式为:
Qi(zi)=p(zi∣xi;θi)
其中,Qi表示隐含变量zi的分布;
(53)i=i+1,根据步骤(52)所述参数zi计算得到新的参数值θi,计算公式为:
(54)重复步骤(52)-(53),直到函数收敛。
5.根据权利要求4所述的一种基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法,其特征在于:步骤(6)所述贝叶斯网络进行模型推理分析,定量识别空铁联程用户感知数据对用户总体满意度的影响,进而确定空铁联程中的瓶颈因素,具体方法如下:
(61)将用户感知数据中总体满意度的真实值与预测值对比,根据贝叶斯网络结果统计出TP、TN、FP和FN,并利用下列公式计算真阳性率TPR与假阳性率FPR,具体方法如下:
其中,TP表示实际总体满意度和预测总体满意度都为满意的用户数;TN表示实际总体满意度和预测总体满意度都为不满意的用户数;FP为实际总体满意度为不满意,预测总体满意度为满意的用户数;FN为实际总体满意度为满意,预测总体满意度为不满意的用户数;TPR为真阳性率,表示实际总体满意度为满意且正确预测为满意的概率;FPR为假阳性率,表示实际总体满意度为不满意但错误预测为满意的概率;
分别以FPR为横坐标、TPR为纵坐标作图,形成ROC曲线,ROC曲线下的面积值为AUC值;设置AUC阈值,若得到的AUC值大于阈值,表示贝叶斯网络结构模型合格;否则,贝叶斯网络结构模型不合格,返回步骤(4)重新构建贝叶斯网络模型;
(62)对贝叶斯网络进行敏感度分析,设置总体满意度为目标变量,其他满意度为不确定因素;分别选择单一不确定因素为因变量,同时保持其他不确定因素不变,计算得到该不确定因素对总体满意度的敏感性,由此确定出空铁联程瓶颈影响因素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188213.3A CN112365140A (zh) | 2020-10-30 | 2020-10-30 | 基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188213.3A CN112365140A (zh) | 2020-10-30 | 2020-10-30 | 基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112365140A true CN112365140A (zh) | 2021-02-12 |
Family
ID=74513863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188213.3A Pending CN112365140A (zh) | 2020-10-30 | 2020-10-30 | 基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365140A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936803A (zh) * | 2022-06-21 | 2022-08-23 | 江苏苏宁银行股份有限公司 | 一种基于效应量评估和贝叶斯因子的用户体验变化监测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110304075A (zh) * | 2019-07-04 | 2019-10-08 | 清华大学 | 基于混合动态贝叶斯网络和高斯过程的车辆轨迹预测方法 |
CN111160731A (zh) * | 2019-12-13 | 2020-05-15 | 东南大学 | 一种基于旅客感知的空铁联程服务综合评价方法 |
-
2020
- 2020-10-30 CN CN202011188213.3A patent/CN112365140A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110304075A (zh) * | 2019-07-04 | 2019-10-08 | 清华大学 | 基于混合动态贝叶斯网络和高斯过程的车辆轨迹预测方法 |
CN111160731A (zh) * | 2019-12-13 | 2020-05-15 | 东南大学 | 一种基于旅客感知的空铁联程服务综合评价方法 |
Non-Patent Citations (1)
Title |
---|
吴静娴等: "基于贝叶斯网络的城市常规公交服务满意度分析模型", 《东南大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936803A (zh) * | 2022-06-21 | 2022-08-23 | 江苏苏宁银行股份有限公司 | 一种基于效应量评估和贝叶斯因子的用户体验变化监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | RETRACTED: Research on the innovation of college English teaching based on curriculum thinking | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN113420488B (zh) | 一种基于轨迹重构的城市路网od估计方法 | |
CN110836675A (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN112232483A (zh) | 一种结合cnn和lstm的航班平均票价预测方法 | |
CN112200455A (zh) | 综合客运枢纽换乘引导系统便捷性测评方法及系统 | |
CN112365140A (zh) | 基于贝叶斯网络的用户空铁联程瓶颈影响因素诊断方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN114723596A (zh) | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 | |
CN112950035A (zh) | 一种改进d-s算法的医疗机构服务质量测度方法 | |
CN116150178A (zh) | 一种基于dbscan聚类算法的空间可达性测算方法 | |
CN114491971A (zh) | 一种基于混合Logit模型和贝叶斯模型平均的出行行为建模方法及应用 | |
CN112052898A (zh) | 一种城际高铁乘客的潜在分类模型构建方法和系统 | |
CN108229751B (zh) | 一种基于家长接送空间模式的接送行为预测方法 | |
CN110992101A (zh) | 车站广告媒体资源价值及收益预测回归方法及预测模型 | |
Cheng et al. | Exploring the influence of built environment on demand of online car-hailing travel using multi-scale geographically temporal weighted regression model | |
CN116994743B (zh) | 基于序贯三支的置信图卷积神经网络的自闭症分类方法 | |
Wang et al. | Human Travel Behavior Analysis Using Private Car Data | |
CN112733891B (zh) | 对出行链断链时公交ic卡乘客进行下车站点识别的方法 | |
Zhong et al. | Nonlinear Relationship between Built Environments and Metro Ridership at Station-to-Station Level on Machine Learning Methods: A Comparison of Commuters and Non-Commuters | |
Li et al. | Mining the Coopetition Relationship of Urban Public Traffic Lines Based on Time Series Correlation | |
CN117807450B (zh) | 一种城市智能化公共交通系统及方法 | |
CN112561128B (zh) | 预测未来城市轨道交通换乘常规公交日客运量的方法 | |
CN115713340A (zh) | 基于K-Means聚类算法的贵宾旅客分析方法 | |
Liu et al. | A study on the prediction of community smart pension intention based on decision tree algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |
|
RJ01 | Rejection of invention patent application after publication |