CN105404942A - 一种旅游数据最优权组合预测模型 - Google Patents
一种旅游数据最优权组合预测模型 Download PDFInfo
- Publication number
- CN105404942A CN105404942A CN201510896045.6A CN201510896045A CN105404942A CN 105404942 A CN105404942 A CN 105404942A CN 201510896045 A CN201510896045 A CN 201510896045A CN 105404942 A CN105404942 A CN 105404942A
- Authority
- CN
- China
- Prior art keywords
- tourism
- model
- data
- tourist
- prime
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000011161 development Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000010276 construction Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000009897 systematic effect Effects 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 230000001737 promoting effect Effects 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000288673 Chiroptera Species 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- YGANSGVIUGARFR-UHFFFAOYSA-N dipotassium dioxosilane oxo(oxoalumanyloxy)alumane oxygen(2-) Chemical compound [O--].[K+].[K+].O=[Si]=O.O=[Al]O[Al]=O YGANSGVIUGARFR-UHFFFAOYSA-N 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910052627 muscovite Inorganic materials 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种旅游数据最优权组合预测模型。首先分析了旅游数据影响因素,按照旅游者,旅游目的地和外部环境对旅游数据影响因素进行了分类;采用灰色关联度对影响旅游收入和入境旅游人数的旅游数据影响因素进行了分析;按照权重值大小对关联度进行了排序,从而得到了各影响因素重要性程度的分布。然后基于最小二乘准则构建了最优权组合预测模型,该模型采用最小二乘法准则,在残差平方和最小的条件下,求得各模型的最优权重值,将GM(1,l)模型和支持向量回归模型通过最优权组合在一起。最后通过最优权组合预测模型,求得最终预测值。本发明的有益效果是给出了旅游数据的最优权组合预测模型,并得到有效预测,使得旅游景区控制、旅游相关产业开发得到了有效决策数据支撑,进而促进旅游景区经济效益的提高和旅游环境的优化开发。
Description
技术领域
本发明属于数据处理技术领域,涉及一种旅游数据最优权组合预测模型。
背景技术
旅游业作为我国经济组成部分之一,保持它的健康快速发展能够促进相关产业的成长,进而推动中国经济的总体发展。在改革开放以后,社会经济高速发展在很大程度上提高了人们的生活水平,中国的旅游业发展迅速且已经呈现出较大的优势,成为成长性能良好的服务产业。旅游业不仅是推进服务业发展的主要力量,还是一个对劳动人员需求较大产业,对解决国家的就业问题起到很大的作用。随着人们群众对旅游消费日益高涨的需求和国家对产业结构的调整,旅游业必须加快改革以适应新的发展。保持旅游业快速平稳的增长,对于提高就业率、增加国民收入,促进各地区平衡发展和经济平稳增长具有重大的意义,因此,对旅游业的持续快速发展做出科学的战略规划至关重要。随着科技的发展,旅游业数字化程度越来越高,这使得旅游数据的获取越来越方便,对这些数据进行全方位的挖掘,既可以对游客的旅行决策提出建议和规划,也可以为政府部门在旅游方面的投入和决策提供依据,是一个比较有意义的研究课题。
目前还没有基于灰色理论与支持向量回归模型,通过最优权组合预测的方法能够将旅游数据收集、并根据收集的数据进行关联度分析,进而对未来旅游总收入和旅游人数进行有效预测,这样使得景区控制、旅游相关产业开发缺少有效决策数据支撑,进而影响到旅游景区经济效益的提高和旅游环境的优化开发。
发明内容
本发明的目的在于提供一种旅游数据最优权组合预测模型,解决了目前没有合适的旅游数据分析预测有效模型,导致旅游景区控制、旅游相关产业开发缺少有效决策数据支撑,进而影响到旅游景区经济效益的提高和旅游环境的优化开发问题。
本发明所采用的技术方案是按照以下步骤进行:
步骤1:首先分析旅游数据影响因素,按照旅游者,旅游目的地和外部环境对旅游数据影响因素进行分类;
步骤2:采用灰色关联度对影响旅游收入和入境旅游人数的旅游数据影响因素进行分析;
步骤3:按照权重值大小对关联度进行排序,从而得到各影响因素重要性程度分布;
步骤4:构建基于最小二乘准则的最优权组合预测模型;
使用GM(1,l)模型和支持向量回归模型构造组合模型,采用最小二乘法准则,求得残差平方和最小时各模型的权重值,然后求得最终预测值。
进一步,所述步骤1中旅游数据影响因素分为三个方面:游客个人因素:包括可支配收入、可自由支配时间、自身偏好、消费意识、消防行为习惯;旅游目的地因素:包括旅游特色、知名度、旅游价格、旅游配套服务、交通;外部环境因素:包括经济发展水平、CPI、时政政策、特殊事件。
进一步,所述步骤2的方法为:
1)设原有序列Xi=[xi(1),xi(2),…xi(n)];i=0,1,2,...,m,其中n为数列的长度,且共收集到m+1个指标序列,构成如下矩阵:
2)进行无量纲化,求各序列的均值像,令:
Xi′=Xi/Ai=[xi′(1),xi′(2),...,xi′(n)],i=0,1,2,...,m
其中Ai=(xi(1)+xi(2)+…+xi(n))/n;
得到无量纲矩阵:
3)求差序列,差序列计算公式Δi(k)=|x'0(k)-xi'(k)|,k=1,2,...,n,i=1,2,...,m,得差值矩阵:
4)求差值矩阵中最小差和最大差,记为m=Δmin,M=Δmax;
5)计算关联系数:
ξ分辨系数,ξ∈(0,1),通常取ξ=0.5,得关联矩阵:
6)计算关联度:
其中a0i(k)表示特定的影响因素特定年份所占的权重。
进一步,所述步骤3的方法为:
1)原始数组用矩阵表示如下:
2)数据的无量纲化,无量纲化的数据矩阵记为:
式中元素k=1,2,…,n;l=1,2,…,m;
3)确定样本正理想值和负理想值,分别用B+和B-表示:
式中 l=1,2,…,m;
4)计算样本点之间的距离:
k=1,2,…,n,l=1,2,…,m
计算相对接近度公式为:
k=1,2,…,n,l=1,2,…,m
对Ckl做归一化处理,得到所求权重值:
k=1,2,…,n,l=1,2,…,m。
进一步,所述步骤4中使用GM(1,l)模型和支持向量回归模型构造组合模型,记为:y1(x)和y2(x)将两个预测模型y1(x)和y2(x)构成的组合预测模型记为该组合模型中各单模型的权重值组成向量kT=[k1,k2],且向量满足k1+k2=1,得到组合模型数学表达式:
设yT=(yi|i=1,2)为实际测量向量,为第i个模型的预测值向量,组合模型的预测值矩阵为预测残差矩阵E=[e1,e2],其中是第i个模型的预测残差向量,组合模型的预测值向量和预测残差向量可表示为:
根据最小残差平方和的准则,可构造:
式中可设mT=(1,1)的2维列向量,其元素全为1,有mTk=1,对上式进行求解,可得到模型存在唯一解:
得出各单个模型在组合模型中的最优权重值以及组合模型的最小残差平方和。
本发明的有益效果是给出了旅游数据的最优权组合预测模型,并得到有效预测,使得景区控制、旅游相关产业开发得到了有效决策数据支撑,进而促进旅游景区经济效益的提高和旅游环境的优化开发。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明的技术方案步骤如下:
步骤1:首先分析旅游数据影响因素,按照旅游者,旅游目的地和外部环境对旅游数据影响因素进行分类;
本发明将旅游数据影响因素分为三个方面:游客个人因素:包括可支配收入、可自由支配时间、自身偏好、消费意识、消防行为习惯;旅游目的地因素:包括旅游特色、知名度、旅游价格、旅游配套服务、交通;外部环境因素:包括经济发展水平、CPI、时政政策、特殊事件。
游客个人因素:旅游者个人因素一般指那些将潜在旅游对象变成真正旅游者的因素,经过分析发现它可以分成两部分:客观因素和主观因素。客观方面包括旅游者家庭和个人的收入水平,可支配收入,空闲时间等。家庭和个人收入水平的提高,使得人们在满足物质生活的基础上对精神文化有了更多的追求,而旅游是享受精神文化最主要的一种形式。由于经济的快速发展,个人收入在快速增长的同时生活成本也在大幅增加,这就使可支配收入成为衡量人们追求精神消费的一个重要指标。空闲时间也就是人们可自由支配的时间越长,人们旅游的倾向越高,反之则越低。
主观方面包括个人的年龄,职业,教育水平,消费意识,消费习惯以及所处的文化环境等。青少年相对其他年龄阶段更喜欢外出游山玩水,参加体育运动。不同职业教育水平也会对旅游者产生影响。同时个人所处的环境,周围朋友、亲戚对旅游喜好程度都会对个人产生影响。随着社交网络和互联网的普及,人们更容易受到所处文化,社交环境的影响。
这些因素并不是完全独立的,有些会相互影响,从定性分析,消费意识和消费习惯跟游客自身性格和所处环境有关,即跟年龄,职业,教育水平存在关系。
旅游目的地因素:旅游目的地是指一个地区内一系列不同的自然、文化、艺术或环境资源的总和,同时也可以指一个地区内具有的吸引游客的产品总和。影响游客选择旅游目的地的因素中最重要的是旅游价格,旅游价格主要包括两部分,一是在旅游目的地消费的旅游产品价格,包括游览景点门票、娱乐消费、内部交通花费、餐饮、住宿和购物等;二是从出发地到目的地之间的交通消费价格。旅游价格同时又受到目的地通货膨胀率,汇率等的影响。旅游价格上涨势必会使得旅游人数、旅游收入下降,反之亦然。影响目的地选择的其他因素还包括目的地旅游项目的数量,旅游项目的特色和知名度,旅游相关的基础设施是否完备,景区的服务质量,旅游产业相关配套服务,旅游政策,交通等。这些影响因素可以综合成一个影响因子,即旅游目的地的吸引力。一个地区自然风景优美,人文景观丰富,交通便利,住宿餐饮业发达,而价格又不是太高,这样的地区自然对游客的吸引力就高。此外,具有独特自然景观或者人文历史积淀的地区也对特定的游客有很大的吸引力。
外部环境因素:外部环境指旅游目的所处的大环境,包括宏观经济、政治、文化以及突发事件等。外部环境的变化会对旅游业产生很大的影响,导致旅游人数及收入的巨大变化。经济发展快速平稳,使得景区开发,基础设施建设,旅游配套服务得到更多资金及更快的发展,而旅游业的发展也会带动当地经济的发展;政府等主管部门的大力支持,出台一系列相关政策可以促进旅游产业的快速增长;突发事件一般指战争,地震、海啸等自然灾害害和恐怖主义事件等。
另外,重大事件也会对旅游数据产生重大影响。例如举办大型活动,以2008年奥运会为例,青岛举办帆船比赛,吸引了大量游客前来观赛旅游,对青岛旅游业产生了积极的影响,增加旅游人数和收入。而2003年的SARS则给旅游带来了极大的负面影响。这些特殊性事件对整个旅游行业以及旅游数据的影响是巨大的。
步骤2:采用灰色关联度对影响旅游收入和入境旅游人数的旅游数据影响因素进行分析。具体步骤如下:
1)设原有序列Xi=[xi(1),xi(2),…xi(n)];i=0,1,2,...,m。其中n为数列的长度,且共收集到m+1个指标序列,构成如下矩阵:
2)进行无量纲化,求各序列的均值像。令:
Xi′=Xi/Ai=[xi′(1),xi′(2),...,xi′(n)],i=0,1,2,...,m
其中Ai=(xi(1)+xi(2)+…+xi(n))/n。
得到无量纲矩阵:
3)求差序列。差序列计算公式Δi(k)=|x'0(k)-xi'(k)|,k=1,2,...,n,i=1,2,...,m,得差值矩阵:
4)求差值矩阵中最小差和最大差。记为m=Δmin,M=Δmax。
5)计算关联系数。
ξ分辨系数,ξ∈(0,1),通常取ξ=0.5,得关联矩阵:
6)计算关联度
其中a0i(k)表示特定的影响因素特定年份所占的权重。
通过对计算出的关联度排序,我们可以清晰的得出各影响因素与目标值的关联程度大小。此外,为了避免不必要计算开销,我们需要去除各影响因素之间关联度较高的因素。于是应用同样的方法,计算各个影响因素之间的灰色关联度,关联度较高的各影响因素之中选取一个参与计算。
步骤3:按照权重值大小对关联度进行排序,从而得到各影响因素重要性程度分布:
1)原始数组用矩阵表示如下:
2)数据的无量纲化。无量纲化的数据矩阵记为:
式中元素k=1,2,…,n;l=1,2,…,m。
3)确定样本正理想值和负理想值。分别用B+和B-表示:
式中 l=1,2,…,m。
4)计算样本点之间的距离:
k=1,2,…,n,l=1,2,…,m
计算相对接近度公式为:
k=1,2,…,n,l=1,2,…,m
对Ckl做归一化处理,得到所求权重值:
k=1,2,…,n,l=1,2,…,m;
步骤4:构建基于最小二乘准则的最优权组合预测模型;
基于灰色理论的GM(1,l)模型和支持向量回归模型构造组合模型,记为:y1(x)和y2(x),采用最小二乘法准则,求得残差平方和最小时各模型的权重值,然后求得最终预测值。
灰色系统理论是由华中科技大学著名学者邓聚龙教授在1982年提出的,主要针对概率统计和模糊数学在解决特定问题时的局限性,着重研究“小样本、贫信息、不确定”问题,其特点是“少数据建模”。基于灰色理论的GM(1,1)模型是最经常使用的模型,它由一个单变量的一阶微分方程构成。
支持向量机算法是一种非线性算法,由六十年代俄罗斯的广义肖像算法(GeneralizedPortraitAlgorithm)发展而来,同样的,它是以统计学习理论为基础的。支持向量机算法(SupportVectorMachine,SVM)在1992年由Vapnik和同事在著名的贝尔实验室提出,随后得到了全面的发展。支持向量机算法以结构风险最小化思想为基础,有很好的泛化能力,能较好的解决过学习、小样本、局部极小值问题,广泛的应用于回归分析、文本分类、模式识别等方面。
均方根误差(RMSE:RootMeanSquareError)是指预测值与真实值误差平方和均值的开方,也即残差平方和均值的开方,可以用来衡量模型整体的预测效果。由于最优权组合是在残差平方和最小的条件下求得的,此时均方根误差也取得最小值,由此可知最优权组合将取得最好的预测效果。
使用GM(1,l)模型和支持向量回归模型构造组合模型,记为:y1(x)和y2(x),将两个预测模型y1(x)和y2(x)构成的组合预测模型记为该组合模型中各单模型的权重值组成向量kT=[k1,k2],且向量满足k1+k2=1,得到组合模型数学表达式:
设yT=(yi|i=1,2)为实际测量向量,为第i个模型的预测值向量。组合模型的预测值矩阵为预测残差矩阵E=[e1,e2],其中是第i个模型的预测残差向量。组合模型的预测值向量和预测残差向量可表示为:
根据最小残差平方和的准则,可构造:
式中可设mT=(1,1)的2维列向量,其元素全为1,有mTk=1,对上式进行求解,可得到模型存在唯一解:
可得出各单个模型在组合模型中的最优权重值以及组合模型的最小残差平方和。本发明方法的实验数据:
旅游数据预测模型实际应用——以青岛市为例
本部分将前面介绍的影响因素的筛选方法和旅游数据预测模型应用于一个具体的实例,即青岛旅游统计数据预测,首先介绍青岛旅游资源概况,然后采用改进的距离分析法计算各影响因素与预测数据及各影响因素之间的关联度。根据关联分析结果确定最终的影响因素。分别采用灰色理论模型,支持向量回归模型和最优权组合模型预测青岛旅游总收入和青岛入境旅游人数,并分别计算三种预测模型预测结果的平均准确度和均方根误差。通过对比各自的平均准确度和均方根误差,验证最优权组合模型具有较好的预测精度。
青岛旅游资源概况
青岛地处山东半岛南部,东临碧波浩淼的黄海,全部海岸线总长730.6千米。青岛有着丰富的各具特色的旅游资源,其中自然旅游资源1117个,占全部旅游资源总数的30%。其中具有较好的开发前景的优良自然旅游资源达到208个,占总体的18.62%。沿海旅游是青岛最重要的旅游特色,一共有936个资源单体分布在海岸线1公里范围内,占旅游资源总量的25.88%;1821个资源单体分布在海岸线3公里范围内,占旅游资源单体总量的50.34%。
青岛作为山东省经济中心,国家级历史文化名城,有着“中国品牌之都”、“世界啤酒之城”的美誉。青岛旅游资源主要分布在沿海地带,沿着海岸线分布着大大小小且别具特色的六个海湾景区,还有“海上第一名山”的崂山风景区。这些自然景观凭借优美的海滨风光,优质的沙滩,奇特的海蚀地貌吸引大量游客,并且还有众多分布距陆地较近的海岛,气候温和凉爽。此外,青岛人文资源和社会资源同样很丰富,这里有战国时代齐长城遗址,也有近代名人的故居;这里手工艺品做工精湛,历史悠久;这里物产富饶,交通便利。这些都为青岛发展旅游业打下坚实的基础。随着旅游方式的变迁,会展旅游越来越受到重视,青岛市把握机遇,修建很多大型会展中心,每年举办很多大型展会,例如青岛国际电影节、青岛国际车展等,并在国际上享有很高的知名度。
凭借着独特的海洋旅游资源,青岛的旅游业得到迅猛发展。自改革开放以来,青岛旅游业保持每年18.61%的增长速度,接待国内游客从1998年的1013万人到2014年的6716万人,海外游客19.95万人到128.28万人,旅游收入从1998年的69.08亿元到2014年的1061.1亿元,占青岛GDP总量的12.21%。青岛市政府对旅游业的发展高度重视,加大对旅游业政策扶持,增加对基础设施的资金投入并加强旅游相关产业的管理。
由上可知,青岛旅游资源丰富且海洋特色明显,旅游业在青岛整体经济发展占据具有重要地位。因此,整理搜集青岛旅游统计数据,并利用数据挖掘知识发现数据中的信息,对未来几年青岛旅游数据进行预测,为旅游管理部门制定合理规划和投资提供高效的决策参考,同时可以促进青岛旅游业健康可持续发展。
青岛旅游数据来源
青岛旅游信息主要来源于青岛旅游政务网、青岛统计局统计数据等。本部分选取青岛1998-2014年数据作为实验数据,示例数据具体见表1。
表11998-2014年青岛旅游业主要统计数据
应用灰色关联度对旅游收入影响因素进行筛选
对青岛旅游总收入样本数据的筛选
样本特征数量的选择,关系到预测的精度和计算效率,因此选择一个合适样本特征数量很有必要。对样本集{y1:x12:x23:x3……n:xn},假设y为2014年预测数据,则x1表示预测年份的前一年(2013)的数据值,x2表示预测样本前两年(2012)的数据,以此类推xn表示前n年的数据。
根据前面分析的灰色关联算法设计MATLAB程序,计算相邻几年数据的关联度。将青岛1998~2014年的旅游总收入数据分组,计算平均关联度,结果如表2所示。
表2样本特征数据空间的灰色关联度
样本特征数据 | 与预测数据的关联度值 |
前一年(x1) | 0.9286 |
前二年(x2) | 0.9226 |
前三年(x3) | 0.8969 |
前四年(x4) | 0.8591 |
前五年(x5) | 0.8205 |
前六年(x6) | 0.7925 |
前七年(x7) | 0.7990 |
由表可以看出,随着年份距离预测年份越远,关联度越小,为了平衡算法复杂度及精确度,本文选择x1,x2,x3,x4即待预测年份的前四年的数据作为样本的特征。分别选取三年,四年,五年,六年,七年数据作为样本的特征数量,通过灰色预测模型进行预测,将1998-2014年旅游收入作为训练样本,每个特征数量取10组作为训练样本,计算10组预测结果的均方根误差RMSE,结果如表3所示。
表3灰色理论预测模型验证不同样本特征量的RMSE
样本特征数据量 | 前三年 | 前四年 | 前五年 | 前六年 | 前七年 |
灰色模型RMSE | 33.002 | 32.135 | 33.446 | 38.901 | 37.576 |
排序 | 2 | 1 | 3 | 5 | 4 |
由表3可以看出,当使用样本特征数量为前四年时预测模型RMSE最小,验证关联度分析所选的样本特征数量,因为四年样本数据波动性较五年、六年、七年小,而预测的趋势性比三年的好一些。因此,本文选择预测年份前四年数据作为样本特征数据。
对青岛旅游总收入影响因素的分析筛选
以历年青岛旅游总收入X0为参考序列,将影响因素中可以量化的因素,包括青岛接待国内旅游人数X1和国际旅游人数X2,同时还有国内人均旅游支出X3以及国际人均旅游支出X4,国内生产总值(GDP)X5、人均国内生产总值X6、城镇职工年平均工资X7、城镇居民家庭人均可支配收入X8的历年数据为比较数列见表4。按照前面阐述的基于距离法改进的灰色关联分析法的详细计算步骤,将表4中的数据进行处理。分析处理后的结果可知1998-2014年青岛旅游总收入与各影响因素之间的灰色关联度及灰色关联排名矩阵。如表5所示。
表41998-2014年青岛旅游收入及主要影响因素
年份 | X0 | X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 |
1998 | 69.08 | 1013.58 | 597.7821 | 199547 | 512.6612 | 84402.3 | 6796 | 7446 | 5425.10 |
1999 | 81.1 | 1131 | 633.0681 | 227697 | 502.7734 | 89677.1 | 7159 | 8319 | 5854 |
2000 | 100.5 | 1285.57 | 689.9663 | 260592 | 548.29 | 99214.6 | 7858 | 9333 | 6280.00 |
2001 | 118 | 1519.13 | 676.7031 | 323079 | 549.4322 | 109655.2 | 8622 | 10834 | 6859.60 |
2002 | 150.52 | 1795 | 727.688 | 417452 | 574.3175 | 120332.7 | 9398 | 12373 | 7702.80 |
2003 | 136.8 | 1654.57 | 736.7473 | 341158 | 529.4028 | 135822.8 | 10542 | 13969 | 8472 |
2004 | 207.7 | 2157.44 | 851.8429 | 522498 | 550.271 | 159878.3 | 12336 | 15920 | 9421.6 |
2005 | 256.68 | 2449.03 | 908.8905 | 684407 | 606.2638 | 184937.4 | 14185 | 18200 | 10493 |
2006 | 325.2 | 2801 | 1006.034 | 854462 | 635.0429 | 216314.4 | 16500 | 20856 | 11759.5 |
2007 | 400.3 | 3258.78 | 1074.022 | 1081476 | 624.2117 | 265810.3 | 20169 | 24721 | 13785.8 |
2008 | 420.28 | 3389.53 | 1137.385 | 800455 | 624.9058 | 314045.4 | 23708 | 28898 | 15781 |
2009 | 489.1 | 3903.4 | 1156.428 | 1000670 | 551.4116 | 340902.8 | 25608 | 32244 | 17175 |
2010 | 580.04 | 4396.65 | 1228.367 | 1080511 | 556.2507 | 401512.8 | 30015 | 36539 | 19109 |
2011 | 681.39 | 4956.11 | 1285.968 | 1156391 | 596.1045 | 473104 | 35181 | 41799 | 21810 |
2012 | 807.58 | 5590.50 | 1351.418 | 1270113 | 649.2294 | 519470.1 | 38459 | 46769 | 24565 |
2013 | 937.19 | 6161.31 | 1438.119 | 1282814 | 643.444 | 568845.2 | 41908 | 51483 | 26955 |
2014 | 1061.1 | 6715.89 | 1504.953 | 1286400 | 640.625 | 636463 | 46531 | 55321 | 28844 |
表51998-2014年青岛旅游总收入及影响因素关联度及排名
X0 | X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 |
关联度 | 0.8811 | 0.7602 | 0.8514 | 0.6983 | 0.9301 | 0.9207 | 0.9038 | 0.8705 |
关联排名 | 4 | 7 | 6 | 8 | 1 | 2 | 3 | 5 |
由表5可知,影响旅游收入的主要因素排名从1到5分别是国内生产总值X5,人均国内生产总值X6,职工年平均工资X7,国内旅游人数X1,以及城镇居民家庭人均可支配收入X8。在筛选出关联度排名靠前的影响因素后,还需确定各个因素之间的自相关性,以保证取得的影响因素相互独立。求得关联矩阵如下
在关联矩阵中可以发现国内生产总值X5,人均国内生产总值X6与其他各因素关联度都小于0.8,可以认为X5,X6与其他因素彼此独立;而职工年平均工资X7,城镇居民家庭人均可支配收入X8与国内旅游人数X1关联度都大于0.8,可以认为X7,X8与X1不独立。因此本方法选取国内生产总值X5,人均国内生产总值X6和国内旅游人数X1作为旅游收入的影响因素。
应用三种预测模型对青岛旅游总收入进行预测
采用灰色理论模型对青岛旅游总收入进行预测
根据前面灰色理论模型的建模步骤,以及前面筛选预测样本方法。选取预测年份前四年数据作为训练样本,预测2010-2014年的旅游收入,并计算准确度及均方根误差,数据如表6所示。
表6采用灰色理论模型预测青岛2010-2014年旅游总收入(单位:亿元)
由上表可以看出,2011年预测收入与实际收入最为接近,准确度最高,2010年预测收入与实际收入差距最大,总体上来看灰色理论模型平均准确度较高,预测均方误差根较小。但是随着预测年份的增加,准确度有降低的趋势,因此灰色理论对预测最近几年数据准确度高,但不适合预测较长时期数据预测。
采用支持向量回归模型对旅游总收入进行预测
待预测年份前四年的旅游收入,国内生产总值,国内旅游人数,人均国内生产总值作为样本特征向量。其中将国内生产总值,国内旅游人数,人均国内生产总值取四年滑动平均值。得到13组训练样本,利用LIBSVM工具对SVR模型进行训练,同时将2010-2014年作为预测样本,预测结果如表7所示。
表7采用支持向量回归模型预测青岛2010-2014年旅游总收入(单位:亿元)
由表7可以看出,SVR预测模型的均方根误差比灰色理论模型小。SVR模型预测精度要更高。但是旅游数据的预测精度越高,越具有参考意义,我们还需要寻求更好的模型,获取更高的预测精度。
采用最优权组合模型对青岛旅游总收入进行预测
灰色理论模型和支持向量回归模型在旅游数据预测方面起到了不错的效果,但是旅游决策需要更精准的数据。因此为了得到更高的预测精度,本方法提出一种最优权组合预测模型,是在残差平方和最小的前提下,求得两组预测结果的权值,然后利用权值计算最终预测值。采用该组合模型对青岛旅游收入进行预测,得出预测结果如表8所示。
表8采用最优权组合预测青岛市2010-2014年旅游总收入(单位:亿元)
表9三种预测模型平均准确度和RMSE
灰色理论预测模型 | SVR预测模型 | 基于最优权组合预测模型 | |
平均准确度 | 97.26% | 97.42% | 97.54% |
RMSE | 26.676 | 20.873 | 19.644 |
由表9可以看出,最优权组合预测模型精度比单独使用灰色理论模型预测或支持向量回归模型预测效果都好,均方根误差更小,预测精度更高。因此采用该模型来预测旅游收入,可以取得更高的精度,给旅游及相关部门提供更可靠的数据支持,帮助其做出更合理的决策。
用灰色关联度对入境旅游人数影响因素进行筛选
按照国家统计局的规定,入境旅游者一般指来到大陆境内的外国人和港澳台同胞。入境旅游人数直接反映一个地区在国际旅游市场上知名度及竞争力。
对入境旅游人数样本数据的筛选
分别选取入境旅游人数三年,四年,五年,六年,七年数据作为样本的特征数量,由灰色关联算法MATLAB程序,计算相邻几年数据的平均关联度,结果如表10所示。
表10样本特征数据空间的灰色关联度
样本特征数据 | 与预测数据的关联度值 |
前一年(x1) | 0.8946 |
前二年(x2) | 0.8691 |
前三年(x3) | 0.8181 |
前四年(x4) | 0.8246 |
前五年(x5) | 0.7774 |
前六年(x6) | 0.7670 |
前七年(x7) | 0.7451 |
通过灰色预测模型进行预测,每个特征数量取10组作为训练样本,然后计算这10组预测结果的平均方根误差,得到结果如表11所示。
表11采用灰色理论预测模型验证不同样本数据量的RMSE
样本特征数据量 | 前三年 | 前四年 | 前五年 | 前六年 | 前七年 |
灰色模型RMSE | 23.003 | 20.336 | 19.514 | 21.238 | 19.519 |
排序 | 5 | 3 | 1 | 4 | 2 |
由表11可以看出,使用样本特征数量为五年来预测模型均方根误差最小。验证关联度分析所选的样本特征数量,综合计算量考虑,因为五年样本数据波动性较六年、七年小,而预测的趋势性比三年,四年的好一些。因此,入境旅游人数预测时选择五年数据作为样本特征数量。
应用三种预测模型对入境旅游人数进行预测
采用灰色理论模型对入境旅游人数进行预测
选取预测年份前五年数据作为训练样本数据,对2010-2014年的入境旅游人数进行预测,得到预测结果如表12。
表12采用灰色理论模型预测青岛2010-2014年入境游客人数(单位:万人)
由上表可以看出,2011年预测人数与实际人数最为接近,2014年预测人数与实际人数差距最大,再次验证了灰色理论短期预测效果好,但是不适合较长期的预测。
采用支持向量回归模型对青岛入境旅游人数进行预测
根据支持向量回归模型的步骤,并由对样本数据和影响因素的筛选结果,确定预测样本及影响因素。选取预测前五年入境游客人数,青岛人均GDP和青岛消费指数CPI作为样本特征向量。其中将青岛人均GDP和客源地人均GDP取五年滑动平均值。得出训练样本12组,利用LIBSVM工具训练SVR模型,将2010-2014年作为预测样本,得出预测结果如表13所示。
表13采用支持向量回归模型预测青岛2010-2014年入境旅游人数(单位:万人)
由表13可以看出,SVR预测模型平均准确度比灰色预测模型要高,均方根误差比灰色理论模型小,总体来看SVR预测模型的预测结果要优于灰色理论模型。
采用最优权组合模型对入境旅游人数进行预测
应用基于灰色理论和支持向量回归的最优权组合模型对入境旅游人数进行预测,得出预测结果如表14所示。
表14采用最优权组合模型预测青岛2010-2014年入境旅游人数(单位:万人)
将灰色预测模型、支持向量回归预测模型、最优权组合预测模型预测得到的平均准确率及RMSE汇总如表15。
表15三种预测模型各自平均准确度和RMSE
灰色理论预测模型 | SVR预测模型 | 基于最优权组合预测模型 | |
平均准确度 | 94.41% | 99.04% | 99.12% |
RMSE | 9.025 | 1.3819 | 1.1672 |
由表14可以看出,2011~2014年预测准确度很高,2010年预测准确度低一些。由表15可以看出,最优权组合模型相比灰色理论模型和SVR预测模型有更小的均方根误差和更高的平均准确度,该模型在三种模型里更适合用来预测入境旅游人数,并可以扩展应用到旅游领域其他方面的预测。
通过对比三个模型平均准确度和均方根误差,得出最优权组合模型具有更好的预测精度。本发明提出的影响因素筛选方法和旅游数据预测模型还可以应用于国内旅游收入、入境旅游收入、国内旅游人数和旅游总人数的预测等。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (5)
1.一种旅游数据最优权组合预测模型,其特征在于按照以下步骤进行:
步骤1:首先分析旅游数据影响因素,按照旅游者,旅游目的地和外部环境对旅游数据影响因素进行分类;
步骤2:采用灰色关联度对影响旅游收入和入境旅游人数的旅游数据影响因素进行分析;
步骤3:按照权重值大小对关联度进行排序,从而得到各影响因素重要性程度分布;
步骤4:构建基于最小二乘准则的最优权组合预测模型;
使用GM(1,l)模型和支持向量回归模型构造组合模型,采用最小二乘法准则,求得残差平方和最小时各模型的权重值,然后求得最终预测值。
2.按照权利要求1所述一种旅游数据最优权组合预测模型,其特征在于:所述步骤1中旅游数据影响因素分为三个方面:游客个人因素:包括可支配收入、可自由支配时间、自身偏好、消费意识、消防行为习惯。旅游目的地因素:包括旅游特色、知名度、旅游价格、旅游配套服务、交通。外部环境因素:包括经济发展水平、CPI、时政政策、特殊事件。
3.按照权利要求1所述一种旅游数据最优权组合预测模型,其特征在于:所述步骤2的方法为:
1)设原有序列Xi=[xi(1),xi(2),…xi(n)];i=0,1,2,...,m,其中n为数列的长度,且共收集到m+1个指标序列,构成如下矩阵:
2)进行无量纲化,求各序列的均值像,令:
Xi′=Xi/Ai=[xi′(1),xi′(2),...,xi′(n)],i=0,1,2,...,m
其中Ai=(xi(1)+xi(2)+…+xi(n))/n;
得到无量纲矩阵:
3)求差序列,差序列计算公式Δi(k)=|x'0(k)-xi'(k)|,k=1,2,...,n,i=1,2,...,m,得差值矩阵:
4)求差值矩阵中最小差和最大差,记为m=Δmin,M=Δmax;
5)计算关联系数:
6)计算关联度:
其中a0i(k)表示特定的影响因素特定年份所占的权重。
4.按照权利要求1所述一种旅游数据最优权组合预测模型,其特征在于:所述步骤3的方法为:
1)原始数组用矩阵表示如下:
2)数据的无量纲化,无量纲化的数据矩阵记为:
式中元素
3)确定样本正理想值和负理想值,分别用B+和B-表示:
式中
4)计算样本点之间的距离:
计算相对接近度公式为:
对Ckl做归一化处理,得到所求权重值:
5.按照权利要求1所述一种旅游数据最优权组合预测模型,其特征在于:所述步骤4中使用GM(1,l)模型和支持向量回归模型构造组合模型,记为:y1(x)和y2(x),将两个预测模型y1(x)和y2(x)构成的组合预测模型记为该组合模型中各单模型的权重值组成向量kT=[k1,k2],且向量满足k1+k2=1,得到组合模型数学表达式:
设yT=(yi|i=1,2)为实际测量向量,为第i个模型的预测值向量,组合模型的预测值矩阵为预测残差矩阵E=[e1,e2],其中是第i个模型的预测残差向量,组合模型的预测值向量和预测残差向量可表示为:
和eT=kTET
根据最小残差平方和的准则,可构造:
式中可设mT=(1,1)的2维列向量,其元素全为1,有对上式进行求解,可得到模型存在唯一解:
得出各单个模型在组合模型中的最优权重值以及组合模型的最小残差平方和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510896045.6A CN105404942A (zh) | 2015-12-07 | 2015-12-07 | 一种旅游数据最优权组合预测模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510896045.6A CN105404942A (zh) | 2015-12-07 | 2015-12-07 | 一种旅游数据最优权组合预测模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105404942A true CN105404942A (zh) | 2016-03-16 |
Family
ID=55470415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510896045.6A Pending CN105404942A (zh) | 2015-12-07 | 2015-12-07 | 一种旅游数据最优权组合预测模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105404942A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651392A (zh) * | 2016-12-07 | 2017-05-10 | 中国联合网络通信集团有限公司 | 一种智能商业选址方法、装置及系统 |
CN106803192A (zh) * | 2017-01-17 | 2017-06-06 | 上海百林通信网络科技服务股份有限公司 | 一种房地产的环境和周围配套的影响评估方法 |
CN108376260A (zh) * | 2018-01-30 | 2018-08-07 | 陕西师范大学 | 一种基于最优子集优化的svr旅游需求预测方法 |
CN111125951A (zh) * | 2019-12-16 | 2020-05-08 | 新奥数能科技有限公司 | 一种蒸发器结垢预测模型的优化方法及装置 |
CN113807556A (zh) * | 2020-06-15 | 2021-12-17 | 青岛海信网络科技股份有限公司 | 一种旅游指标预测方法、装置、设备及介质 |
CN114358667A (zh) * | 2022-03-21 | 2022-04-15 | 创意信息技术股份有限公司 | 一种基于rbf网络学习的景区风险预测模型构建方法 |
-
2015
- 2015-12-07 CN CN201510896045.6A patent/CN105404942A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651392A (zh) * | 2016-12-07 | 2017-05-10 | 中国联合网络通信集团有限公司 | 一种智能商业选址方法、装置及系统 |
CN106803192A (zh) * | 2017-01-17 | 2017-06-06 | 上海百林通信网络科技服务股份有限公司 | 一种房地产的环境和周围配套的影响评估方法 |
CN108376260A (zh) * | 2018-01-30 | 2018-08-07 | 陕西师范大学 | 一种基于最优子集优化的svr旅游需求预测方法 |
CN111125951A (zh) * | 2019-12-16 | 2020-05-08 | 新奥数能科技有限公司 | 一种蒸发器结垢预测模型的优化方法及装置 |
CN111125951B (zh) * | 2019-12-16 | 2023-11-03 | 新奥数能科技有限公司 | 一种蒸发器结垢预测模型的优化方法及装置 |
CN113807556A (zh) * | 2020-06-15 | 2021-12-17 | 青岛海信网络科技股份有限公司 | 一种旅游指标预测方法、装置、设备及介质 |
CN114358667A (zh) * | 2022-03-21 | 2022-04-15 | 创意信息技术股份有限公司 | 一种基于rbf网络学习的景区风险预测模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105404942A (zh) | 一种旅游数据最优权组合预测模型 | |
Zhang et al. | The evaluation of tourism destination competitiveness by TOPSIS & information entropy–A case in the Yangtze River Delta of China | |
Jeong et al. | An operational method to supporting siting decisions for sustainable rural second home planning in ecotourism sites | |
Roszko-Wójtowicz et al. | Multi-dimensional analysis of regional investment attractiveness in Poland | |
Bao et al. | Spatial analysis of bikeshare ridership with smart card and POI data using geographically weighted regression method | |
Jeong et al. | Integrating buildings into a rural landscape using a multi-criteria spatial decision analysis in GIS-enabled web environment | |
CN109214952A (zh) | 一种旅游者决策模型构建方法 | |
Cerreta et al. | A landscape complex values map: Integration among soft values and hard values in a spatial decision support system | |
CN114548771A (zh) | 一种乡村文旅发展潜力评价方法 | |
Doğan et al. | Determinants of internal migration in Turkey: A panel data analysis approach | |
Dadashpour Moghaddam et al. | A GIS-based assessment of urban tourism potential with a branding approach utilizing hybrid modeling | |
Wibowo | Interval-valued intuitionistic fuzzy multicriteria group decision making approach for hotel selection | |
Zolin et al. | Multi-criteria decision approach and sustainable territorial subsystems: An Italian rural and mountain area case study | |
Petr et al. | Statistical approach to analysis of the regions | |
Yin | Forecast without historical data: objective tourist volume forecast model for newly developed rural tourism areas of China | |
CN113393076B (zh) | 基于ahp的新型智慧城市评价指标裁剪模型的构建方法 | |
Ye et al. | Research on convenience index of urban life based on POI data | |
Shpak et al. | Clusterization in Tourism Development Level's Assessment of Regions: Example of Ukraine | |
Gilandeh et al. | Ranking tourism attractions based on potential to attract tourists by using numerical taxonomy model (case: City of Khoy) | |
Yao et al. | Using an Evaluation Index System to Examine the Developmental Potential of Yachting Tourism | |
Mir et al. | Macro-environment analysis of the tourism industry of Kashmir | |
Antczak | Urban Greenery in the Greatest Polish Cities: Analysis of Spatial Concentration | |
Gawroński et al. | Spatial diversity of tourism attractiveness of the Nowy Sącz district, using the Wrocław taxonomic method | |
Palomares-Linares et al. | Understanding the effects of homeownership and regional unemployment levels on migration during the economic crisis in Spain | |
Solana-Ibáñez et al. | Destination competitiveness and sustainable tourism: A critical review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160316 |
|
WD01 | Invention patent application deemed withdrawn after publication |