CN115018255A

CN115018255A - 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法

Info

Publication number: CN115018255A
Application number: CN202210479219.9A
Authority: CN
Inventors: 宋涛; 郭佳怡; 唐矛宁; 韦艳芳
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-09-06

Abstract

本发明涉及互联网信息评价技术领域，且公开了一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，包括第一步的构建文本有效性评价指标体系，第二步的关联分析，第三步的构建基于集成学习数据挖掘技术的分类模型等。本发明利用不同维度的旅游景区评价信息质量的关联性，提出了综合信息内容质量和信息表达形式质量两个维度，包括时效性、情感性、相关性、完整性和可理解性共5项指标的旅游景区评论信息质量有效性评价指标体系。其中，信息内容质量包含时效性、情感性和相关性三个指标。信息表达形式质量包含完整性和可理解性两个指标。

Description

一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法

技术领域

本发明涉及互联网信息评价技术领域，尤其涉及一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法。

背景技术

评论质量有效性分析方法多种多样，选择不同的信息质量评价指标，评价信息质量有效性分析结果都会有较大的差异。

现有公布的信息质量有效性分析的技术方案包括以下几种：

1、信息有效性分析的方法和装置(发明专利号：200910242508.1)公开了一种涉及信息检测技术领域的信息质量有效性分析方法。该方法由获取装置获取需要分析的信息的特征向量，根据预先建立的信息质量评估模型对信息特征向量进行分析，获取质量分数，最后根据质量分数分析信息有效性。

该方法由获取装置获取需要分析的信息的特征向量，根据预先建立的信息质量评估模型对信息特征向量进行分析，获取质量分数，最后根据质量分数分析信息有效性。该方法涉及的信息质量评估模型主要用于信息检测技术领域，不能用于旅游景区评论质量有效性分析和筛选。

2、一种用于确定评论的有效性的方法与装置(发明专利号：201410499733.4)公开了一种在网络设备中用于确定评论的有效性的方法和装置。该方法获取对于被评论对象的多条评论，确定评论所对应的评论特征，基于评论特征来确定评论的有效性，有助于用户获取有效评论信息，提升用户体验。

该方法获取对于被评论对象的多条评论，确定评论所对应的评论特征，基于评论特征来确定评论的有效性，但仅分析信息相关性一个指标，没有综合多项指标全方面多维度地进行分析，分析效果不够全面，无法对景区评论进行综合有效性分析。

3、一种兼顾多样性和有效性的评论排序和筛选方法(发明专利号：201610245146.1)涉及一种兼顾多样性和有效性的评论排序和筛选方法。该方法从特排序评论集中提取评论目标的特征集，得到每条评论涉及的特征数，对待排序评论集根据特征进行聚类，按照评论涉及的评论数由高到低对聚类中的评论进行排序并展示。该方法优先输出对用户有帮助的列表排序，兼顾评论内容的全面性，使评论列表排序效果更符合人类认知。

该方法仅通过分析评论特征相关性考量信息质量有效性，没有进行多维度多指标的综合分析评价，分析结果不够全面具体。

4、基于大数据平台的在线评论有效性的推荐方法(发明专利号：202110140738.8)涉及了一种基于大数据平台的在线评论有效性的推荐方法，属于电子商务应用技术领域。该方法根据同类商品中消费者对该类商品的提问提取相应的关键词，根据关键词对商品评论制定评论集，对于评论发表时间赋值。最后根据公式计算商品推荐值并按照从大到小的顺序进行推荐。

基于大数据平台的在线评论有效性的推荐方法(发明专利号：202110140738.8)涉及了一种基于大数据平台的在线评论有效性的推荐方法，属于电子商务应用技术领域，无法解决旅游景区网评文本数据有效性分析问题。

5、评论信息有效性检测方法及转置(发明专利号：201911019040.X)提供了一种评论信息有效性检测方法及装置。该方法通过获取待检测的评论信息，以及获取评论信息所对应的主题信息，分别对评论信息和主题信息进行分词处理得到主题分词集合和评论分词集合，将集合中的评论分词转换为词向量，得到主题词向量集合和评论词向量集合。最后计算评论信息和主题信息之间相关度，根据相关度与预设相关度阈值的比较结果，实现对评论信息有效性的自动化检测。

该方法通过比较计算评论信息和主题信息之间的相关度实现对评论信息有效性的自动化检测，仅从评论内容相关性一个方面出发，确定评论的有效性，不能从多维度综合评价信息质量有效性。

综上，已公布的技术方案中，大多方案仅根据评论特征相关性这一个指标进行信息质量有效性分析，针对旅游景区用户评论信息这一场景，缺乏综合不同维度多项指标分析网评文本质量有效性的技术方案，无法利用已有技术方案结合多项指标综合分析景区评论文本信息质量有效性。

本发明提出了一种包括时效性、情感性、相关性、完整性和可理解性共5项指标的旅游景区评论信息有效性评价指标体系，可有效降低游客的信息搜索成本，解决游客难以快速从海量文本中获取有价值信息的问题，具有较强先进性和创新性。

为此，我们提出一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法。

发明内容

本发明主要是解决上述现有技术所存在的技术问题，提供一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法。

为了实现上述目的，本发明采用了如下技术方案，一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，包括以下工作步骤：

第一步：构建文本有效性评价指标体系；

S101、时效性

评论文本的阅读时间和评论发布时间的差异作为评论时效性的量化值，设置参数σ，评论及时性(X_1)的取值范围控制在[0-10]，计算公式为：X_1＝[T_max-(T_w-T_r)]/σ；

S102、情感性

评论文本中含有的“非常好、满意、差评、失望”之类情感词语，可以直接表达出游客对目的地的态度，也可以指导其他游客的旅游选择，用情感词的频率很难表达评论中表述的积极或消极情绪的强度，因此根据情感词典中对应词的相似度对采集到的文本进行评分，并考虑程度副词和否定词对情感值计算的影响，并加权计算出句子情感强度，输出评论文本的情感极性和强度；

S103、相关性

评论文本的相关性即评论中产品特征的丰富性，由评论中包含的目的属性特征词来量化，属性特征词通常为名词或形容词，是目的地本身及其相关服务的客观表达，提取文本细节内容，通过分词、词性标注处理得到目的地评论词集合C1，使用词频统计对名词和形容词进行要素量化，得到属性特征词集C2，构建空间向量模型，匹配评论词集C1和属性特征词集C2，统计评论中每个特征词的出现频率；

S104、完整性

评论文本的完整性主要是指对旅游目的地特征的详细描述，需要统计每条评论的字数，统计所得字符数分布较为不均，对字符数进行取对数，Length＝Ln(Nr)，其中Nr为评论字数；

S105、可理解性

评论文本的可理解性指文本前后的关联性，利用语义文本向量度量评论的可理解性，向量语义的概念是将一个单词表示为多维语义空间的一个点，表示单词的向量嵌入到特定的向量空间中；

第二步：关联分析

S201、DBSCAN聚类分析

对评论效用数据进行标准化处理，确定算法参数的取值，寻找核心点形成临时聚类族，合并临时聚类族得到聚类族；

S202、关联规则挖掘

通过Apriori算法进行挖掘；

第三步：构建基于集成学习数据挖掘技术的分类模型，通过随机森林算法建立文本分类模型；

S301、随机森林分类模型的三个参数选择

S3011、nodesize表示包含样本的叶节点数，节点大小为1表示分类，5表示回归，取nodesize＝1；

S3012、ntree表示森林中树的数目；

S3013、mtry表示每个节点的候选特征数；

S302、随机森林分类模型效果评价

采用统计学领域常见的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和综合评价指标(F-measure，简记为F1值)进行评估；

对预先给定的评价文本数据经过测试，结果显示准确率为82.35％，即所有被预测的样本，预测正确的概率为82.35％；精确率为80.77％，说明分类器识别样本的能力较好；召回率为98.45％，表示被预测的所有正样本，能够被正确预测的占比；F1值是一个综合的评价指标，为78.02％。

作为优选，所述文本有效性评价指标体系从信息内容质量和信息表达形式质量两方面进行文本有效性评价，信息内容质量包括情感性、时效性、相关性三个指标，信息表达形式质量包括完整性和可理解性两个指标。

作为优选，T_max是评论发布时间和评论阅读时间之间的最大差值，T_w是评论发布时间，T_r是评论阅读时间，σ取值为T_max/10。

作为优选，DBSCAN聚类分析是一种简单有效的数据挖掘技术，聚类是按照一定的标准将一些事物划分为若干类别的过程，相似的被聚为一类，不相似的被聚为不同的类。

作为优选，Apriori算法由连接和剪枝两个步骤组成，连接是找到Lk，通过L(k-1)与自己连接产生候选k项集的集合Ck。

作为优选，所述剪枝是通过计算每个k项集的支持度来得到Lk，为减少计算量，可利用到该算法的性质即如果一个k项集的(k-1)项子集不在L(k-1)中，则该候选也不是频繁的，可以直接从Ck中删除，其中支持度、置信度、提升度是用来衡量关联性强弱的三个核心指标。

作为优选，所述第三步中ntree值足够大时，可保证随机森林的总体误差率趋于稳定，实证表明ntree＝59时分类效果最好，准确率达到0.8235。

作为优选，所述mtry影响随机森林模型性能最明显的参数，在分类中mtry是整个变量个数的均方根，mtry＝7。

有益效果

本发明提供了一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法。具备以下有益效果：

(1)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明利用不同维度的旅游景区评价信息质量的关联性，提出了综合信息内容质量和信息表达形式质量两个维度，包括时效性、情感性、相关性、完整性和可理解性共5项指标的旅游景区评论信息质量有效性评价指标体系。其中时效性指游客一定时间内感受到的内容价值，表明时间能够决定信息的效用；情感性指游客积极或消极的情感态度，体现评论的情感质量；相关性考察评论内容与产品主要特征之间的相似性，通过评论的受众群体、评价对象、评论与产品之间的相似性评价信息质量；完整性指评论的完整程度和详细程度，体现信息的丰富程度；可理解性主要指用户评论文本的前后关联性，反映了评论信息的质量。该指标体系从不同的深度和广度进行了详细的旅游景区评价信息质量指标研究，对旅游景区评价信息进行多维度的信息质量有效性综合分析。在旅游景区评价文本有效性评估时，基于集成学习数据挖掘技术对旅游景区评价信息进行分类排序，过滤无效评论，有效挖掘高效评论，降低游客的信息搜索成本，解决游客难以快速从海量文本中获取有价值信息的问题，具有较强先进性和创新性。

(2)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明与信息有效性分析的方法和装置(发明专利号：200910242508.1)在信息检测技术领域的应用不同，本发明针对旅游景区评论信息，着重于建立全面的信息质量有效性分析指标体系，从不同的深度和广度进行景区评论信息质量有效性分析和高效评论筛选。

(3)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明与一种用于确定评论的有效性的方法与装置(发明专利号：201410499733.4)相比，本技术针对旅游景区评论信息，建立全面的信息质量有效性分析指标体系，不仅分析评论特征相关性，还结合时效性、情感性以及信息表达形式维度的全面性、可理解性等多方面综合评估旅游景区评价信息的有效性。

(4)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明与一种兼顾多样性和有效性的评论排序和筛选方法(发明专利号：201610245146.1)相比，本技术不仅仅只是分析评论信息的特征相关性，还能从信息内容质量、信息表达形式两个维度对评论有效性进行分析，并且通过机器学习方法对旅游景区评论信息进行分类过滤和排序，去除无用评论，使评论更加精简。

(5)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明与基于大数据平台的在线评论有效性的推荐方法(发明专利号：202110140738.8)在电子商务领域的应用不同，本方法针对旅游景区的评论信息，构建适用于旅游景区评价信息质量有效性分析的综合评价指标体系，实现景区评论的有效性分析和过滤，为游客提供参考。

(6)、该一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，本发明与评论信息有效性检测方法及装置(发明专利号：201911019040.X)相比，本方法针对旅游景区的评论信息，构建适用于旅游景区评价信息质量有效性分析的综合评价指标体系，并利用机器学习技术对高效评论进行分类和筛选能够全面地、综合地从不同维度深入分析评论的有效性，并且快速挖掘高质量评论，过滤无用评论，给游客提供有价值有意义的参考。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍。显而易见的，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其他的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明分类模型构建流程图；

图2为本发明DBSCAN聚类算法构建模型流程图；

图3为本发明关联规则模型构建流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，如图1-图2所示，包括以下工作步骤：

第一步：构建文本有效性评价指标体系，首先构建文本有效性评价指标体系。体系从信息内容质量和信息表达形式质量两方面进行文本有效性评价。其中信息内容质量包括情感性、时效性、相关性三个指标，信息表达形式质量包括完整性和可理解性两个指标；

S101、时效性

评论文本的时效性是指消费者一定时间内感受到内容价值的属性，信息内容的时效性表明时间能够决定信息的效用，或者说信息内容的效用往往具有一定的时间期限。消费者的时间偏好、最近的评论对及时的购买决策更有吸引力，而长期评论对游客的长期购买决策影响更大。

评论文本的阅读时间和评论发布时间的差异作为评论时效性的量化值，设置参数σ，评论及时性(X_1)的取值范围控制在[0-10]，计算公式为：X_1＝[T_max-(T_w-T_r)]/σ，其中T_max是评论发布时间和评论阅读时间之间的最大差值，T_w是评论发布时间，T_r是评论阅读时间，σ取值为T_max/10。

S102、情感性

S103、相关性

S104、完整性

S105、可理解性

第二步：关联分析

S201、DBSCAN聚类分析

聚类是一种简单有效的数据挖掘技术。聚类是按照一定的标准将一些事物划分为若干类别的过程。相似的被聚为一类，不相似的被聚为不同的类。此处采用DBSCAN聚类算法构建模型。

S202、关联规则挖掘

Apriori算法是一种基本的发现频繁项集的算法。Apriori算法由连接和剪枝两个步骤组成。连接是找到Lk，通过L(k-1)与自己连接产生候选k项集的集合Ck；剪枝是通过计算每个k项集的支持度来得到Lk，为减少计算量，可利用到该算法的性质即如果一个k项集的(k-1)项子集不在L(k-1)中，则该候选也不是频繁的，可以直接从Ck中删除。其中支持度、置信度、提升度是用来衡量关联性强弱的三个核心指标。

第三步：构建基于集成学习数据挖掘技术的分类模型。

使用集成学习数据挖掘技术进行文本有效性评估，可以过滤低效评论，减少阅读低效评论的时间，使游客只关注高价值评论和潜力评论。具有集成学习数据挖掘技术的算法很多，其中，随机森林算法具有泛化性强、稳健性、对噪声不敏感、能处理连续属性等特点，适合用于建立文本分类模型。因此在进行文本有效性评估时，选用随机森林算法进行分类。

S301、随机森林分类模型的三个参数选择

S3012、ntree表示森林中树的数目，ntree值足够大时，可保证随机森林的总体误差率趋于稳定。实证表明ntree＝59时分类效果最好，准确率达到0.8235。

S3013、mtry表示每个节点的候选特征数，是影响随机森林模型性能最明显的参数。在分类中mtry建议值是整个变量个数的均方根，因此取mtry＝7。

S302、随机森林分类模型效果评价

本发明利用不同维度的旅游景区评价信息质量的关联性，提出了综合信息内容质量和信息表达形式质量两个维度，包括时效性、情感性、相关性、完整性和可理解性共5项指标的旅游景区评论信息质量有效性评价指标体系。其中时效性指游客一定时间内感受到的内容价值，表明时间能够决定信息的效用；情感性指游客积极或消极的情感态度，体现评论的情感质量；相关性考察评论内容与产品主要特征之间的相似性，通过评论的受众群体、评价对象、评论与产品之间的相似性评价信息质量；完整性指评论的完整程度和详细程度，体现信息的丰富程度；可理解性主要指用户评论文本的前后关联性，反映了评论信息的质量。该指标体系从不同的深度和广度进行了详细的信息质量指标研究，对旅游景区评价信息进行多维度的信息质量有效性综合分析。在旅游景区评价文本有效性评估时，基于集成学习数据挖掘技术对旅游景区评价信息进行分类排序，过滤无效评论，有效挖掘高效评论，降低游客的信息搜索成本，解决游客难以快速从海量文本中获取有价值信息的问题，具有较强先进性和创新性。

本发明与信息有效性分析的方法和装置(发明专利号：200910242508.1)在信息检测技术领域的应用不同，本方法针对旅游景区评论信息，着重于建立全面的信息质量有效性分析指标体系，从不同的深度和广度进行景区评论信息质量有效性分析和高效评论筛选。

本发明与一种用于确定评论的有效性的方法与装置(发明专利号：201410499733.4)相比，本发明针对旅游景区评论信息，建立全面的信息质量有效性分析指标体系，不仅分析评论特征相关性，还结合时效性、情感性以及信息表达形式维度的全面性、可理解性等多方面综合评估旅游景区评价信息的有效性。

本发明与一种兼顾多样性和有效性的评论排序和筛选方法(发明专利号：201610245146.1)相比，本发明不仅仅只是分析评论信息的特征相关性，还能从信息内容质量、信息表达形式两个维度对评论有效性进行分析，并且通过机器学习方法对旅游景区评论信息进行分类过滤和排序，去除无用评论，使评论更加精简。

本发明与基于大数据平台的在线评论有效性的推荐方法(发明专利号：202110140738.8)在电子商务领域的应用不同，本方法针对旅游景区的评论信息，构建适用于旅游景区评价信息质量有效性分析的综合评价指标体系，实现景区评论的有效性分析和过滤，为游客提供参考。

本发明与评论信息有效性检测方法及装置(发明专利号：201911019040.X)相比，本发明针对旅游景区的评论信息，构建适用于旅游景区评价信息质量有效性分析的综合评价指标体系，并利用机器学习技术对高效评论进行分类和筛选能够全面地、综合地从不同维度深入分析评论的有效性，并且快速挖掘高质量评论，过滤无用评论，给游客提供有价值有意义的参考。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：包括以下工作步骤：

第一步：构建文本有效性评价指标体系；

S101、时效性

S102、情感性

S103、相关性

S104、完整性

S105、可理解性

第二步：关联分析

S201、DBSCAN聚类分析

S202、关联规则挖掘

通过Apriori算法进行挖掘；

S301、随机森林分类模型的三个参数选择

S3012、ntree表示森林中树的数目；

S3013、mtry表示每个节点的候选特征数；

S302、随机森林分类模型效果评价

2.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述文本有效性评价指标体系从信息内容质量和信息表达形式质量两方面进行文本有效性评价，信息内容质量包括情感性、时效性、相关性三个指标，信息表达形式质量包括完整性和可理解性两个指标。

3.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述T_max是评论发布时间和评论阅读时间之间的最大差值，T_w是评论发布时间，T_r是评论阅读时间，σ取值为T_max/10。

4.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述DBSCAN聚类分析是一种简单有效的数据挖掘技术，聚类是按照一定的标准将一些事物划分为若干类别的过程，相似的被聚为一类，不相似的被聚为不同的类。

5.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述Apriori算法由连接和剪枝两个步骤组成，连接是找到Lk，通过L(k-1)与自己连接产生候选k项集的集合Ck。

6.根据权利要求5所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述剪枝是通过计算每个k项集的支持度来得到Lk，为减少计算量，可利用到该算法的性质即如果一个k项集的(k-1)项子集不在L(k-1)中，则该候选也不是频繁的，可以直接从Ck中删除，其中支持度、置信度、提升度是用来衡量关联性强弱的三个核心指标。

7.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述第三步中ntree值足够大时，可保证随机森林的总体误差率趋于稳定，实证表明ntree＝59时分类效果最好，准确率达到0.8235。

8.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法，其特征在于：所述mtry影响随机森林模型性能最明显的参数，在分类中mtry是整个变量个数的均方根，mtry＝7。