CN114492162A

CN114492162A - 一种风景体验影响因子的贡献率的估算方法

Info

Publication number: CN114492162A
Application number: CN202111586619.1A
Authority: CN
Inventors: 廖秋林; 沈守云; 彭佳玉; 晁梦园
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-13

Abstract

本发明涉及景区的影响因子评价的技术领域，具体涉及一种风景体验影响因子的贡献率的估算方法。一种风景体验影响因子的贡献率的估算方法，方法包括：(1)定义风景体验的评价结果为因变量Y和影响风景体验评价的因子为分类变量X，人工标注每个样本的分类变量值X和因变量值Y，得到原始训练集；(2)在原始训练集中有放回的重复随机抽取样本，经过训练得到决策树模型，将生成的多棵决策树模型组成分类器集合，最后采用少数服从多数投票数法得出最终的分类结果。采用本发明的方法能准确对景区的影响因子的影响力进行排序。

Description

一种风景体验影响因子的贡献率的估算方法

技术领域

本发明涉及景区的影响因子评价的技术领域，具体涉及一种风景体验影响因子的贡献率的估算方法。

背景技术

对于风景体验影响因子贡献率的量化和排序方法，一般运用因子分析模型法(Kaltenborn and Bjerke 2002,Qi et al.2013,康传德2007)、结构方程模型(Song etal.2012,周芷莙2016)、模糊综合评价法(曲畅2016)、重要性-绩效表现分析法(IPA分析法)(Luo et al.2021)、生态位模型(Yu et al.2020,周彬et al.2014)、解释结构模型(ISM)(Han et al.2019,Zhang et al.2020,廖秋林et al.2012)等方法进行研究，其中结构方程模型结合了因素分析和路径分析，在分析时同时考虑因子结构和因子关系，是目前相对完善的模型，最优模型可以得到估计参数和拟合指数，且结构方程基于协方差分析法、偏最小二乘法(Rajaratnam et al.2014)和贝叶斯法，与机器学习方法有交叉(吴兵福2006)。

但由于游客自身因素和景区的独特性，各种模型在实际运用中存在不适用性，如这些方法事先确定影响因素，主观性太强；因子分析模型在计算时运用最小二乘法会失效；结构方程无法判断模型的正确性，只能通过寻找模型的错误找到最佳模型，因而需要对模型进行反复训练等。目前在影响因素排序方面的研究较少，一般运用回归分析法和结构方程模型的路径分析进行排序(史春云et al.2008)。近两年，随着人工智能的发展，影响因素研究中逐渐引入机器学习和深度学习的方法。如部分研究尝试运用最大熵模型、朴素贝叶斯等机器学习方法(Plunz et al.2019,Zhang et al.2019)，百度API(双向LSTM结构)、长短期记忆模型循环神经网络(LSTM)等深度学习方法模型算法(Wang et al.2020)。这些研究发掘了景点美感度、游客满意度等因素，但并未对因素影响程度进行排序。

发明内容

本发明为了克服上述的技术问题，本发明提供以下技术方案：

一种风景体验影响因子的贡献率的估算方法，方法包括：

(1)定义风景体验的评价结果为因变量Y和影响风景体验评价的因子为分类变量X，人工标注每个样本的分类变量值X和因变量值Y，得到原始训练集；

(2)在原始训练集中有放回的重复随机抽取样本，经过训练得到决策树模型，将生成的多棵决策树模型组成分类器集合，最后采用少数服从多数投票数法得出最终的分类结果。

优选地，在步骤(1)中所述景体验的评价结果为因变量Y分别代表积极、中性、消极三种类别；所述影响风景体验评价的因子为分类变量X为：植物、空气、地形地貌、水体、动物、天气、民俗文化、人流量、管理、服务、游览设施、卫生、内部交通、标识服务、价格。

优选地，在步骤(1)中人工标注每个样本的分类变量值X和因变量值Y的具体方法为：评论中出现变量分类变量值X标注为1、未出现标注为0；因变量Y分别标注为0、1、2。

优选地，生成的多棵决策树模型组成分类器集合为：将用Bootstrap对原始训练集中有放回的重复随机抽取k个样本，经过k轮训练，得到k个决策树模型，将生成的多棵决策树模型组成分类器集合{h(x)、h1(x)....hk(x)}。

优选地，多数投票数法为：

其中，H(x)表示组合的分类模型，hi是单个的决策树模型，Y表示因变量，I(·)为示性函数，avmax表示结果的平均值。

本发明的有益效果：

第一，一般的回归分析法和结构方程模型因需要先确定影响因素，主观性太强，会导致影响因子的错误估计；在计算时运用最小二乘法会失效；结构方程无法判断模型的正确性，只能通过寻找模型的错误找到最佳模型。而基于随机森林的方法采用机器学习方法，不用事先确定影响因子，而是通过提取文本中的关键词并进行计算，从而判别影响因子的类型及影响的贡献率。

第二，在对风景体验影响因子排序的判断方法的方面上，随机森林要优于朴素贝叶斯模型。两种方法对风景本体的影响因子重要值排序基本一致，但在风景环境的影响因子重要值排序中，两种方法的结果略有差异，随机森林的重要性排序结果更准确。

第三，在影响因子较多的情况下，基于随机森林的方法分类能力更强，同时对因素影响程度的排序更加契合实际情况。

附图说明

图1为本发明的技术方案流程图。

图2为最大熵模型、朴素贝叶斯和本发明的模型在ROC曲线评价效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

随机森林是由多个决策树分类器组成的分类器集合，是一种重要的基于套袋法(Bagging)的集成学习方法。随机森林运用Bootstrap重复抽样在原始样本中抽取多个决策树模型，并在决策树训练的过程中引入随机属性选择，然后从中选择最优属性用于划分，在对数据进行分类的同时，还可以给出每个变量的重要性评分，评估每个变量对分类的贡献。随机森林用于分类问题时，选取多个决策数模型组合成集成分类器，模型之间不存在依赖关系，彼此独立并利用相同的数据搭建多个独立的决策树分类模型，通过少数服从多数的投票方法决定分类结果。

本发明利用Bootstrap对原始训练集中有放回的重复随机抽取k个样本，经过k轮训练，得到k个决策树模型，将生成的多棵决策树模型组成分类器集合{h(x)、h1(x)....hk(x)}，最终的分类结果采用多数投票数法。最终的决策结果：

其中，H(x)表示组合的分类模型，hi是单个的决策树模型，Y表示因变量(积极、消极、中性)，I(·)为示性函数，avmax表示结果的平均值。

随机森林模型中，选用基尼不纯度平均减小值作为衡量特征重要性的指标。基尼不纯度计算每个变量对分类树每个节点上观测值的异质性的影响，从而比较变量的重要性。该值越大表示该变量的重要性越大。假设评论数据的样本集合为D，则评论测试集D的不纯度为：

其中，pk是样本集合D中第k类样本所占的比例(k＝1，2，...，|Y|)。在本发明k的取值为k＝(积极、中性、消极)。

假定离散属性a有V个可能的取值{a1，a2，...，av}，若使用a来对样本集D进行划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a上取值为av的样本，记为Dv。那么给定特征a的情况下，特征a的基尼指数为：

于是，在特征候选集合A＝{地形地貌、水体、空气，...，服务态度}中，我们选择对风景体验判断的结果影响最大的特征为最优划分特征。假设地形地貌基尼指数大于天气，则地形地貌对风景体验的结果判断影响更大，那么地形地貌的重要性则大于天气。

对选取的因子，即上文所提及的变量X，进行人工标注，评论中出现变量X标注为1、未出现标注为0，共计15个变量X＝{植物、空气、地形地貌、水体、动物、天气、民俗文化、人流量、管理、服务、游览设施、卫生、内部交通、标识服务、价格}。再通过人工对评论集进行风景体验的类别判断，即上文所提及的类别Y＝{消极、中性、积极}，分别标注为0、1、2。随机将原始数据集的一半划分为训练数据，得到1956条训练数据，剩下的为测试集数据。将标注好的训练数据输入模型，反复运行直到达到一个稳定值。对训练的结果运用ROC(receiveroperating characteristic curve)曲线来判断模型的训练的准确率，ROC曲线是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

随机森林的算法步骤如下：

(1)定义风景体验的评价结果为因变量Y，Y＝{y1、y2、...、yn}分别代表积极、中性、消极三种类别；

(2)定义影响风景体验评价的因子为分类变量X。取值为天气、地形地貌、空气、人流量等特征词；

(3)人工标注每个样本的分类变量值和因变量值，得到原始训练集；

(4)定义风景体验的评价结果为因变量Y和影响风景体验评价的因子为分类变量X，人工标注每个样本的分类变量值X和因变量值Y，得到原始训练集；

(5)在原始训练集中有放回的重复随机抽取样本，经过训练得到决策树模型，将生成的多棵决策树模型组成分类器集合，最后采用多数投票数法得出最终的分类结果。

具体实验步骤

表1随机森林和朴素贝叶斯模型风景本体影响因素排序

表2随机森林和朴素贝叶斯模型风景本体影响因素排序