CN111160756A

CN111160756A - 基于二次人工智能算法的景区评估方法及模型

Info

Publication number: CN111160756A
Application number: CN201911363789.6A
Authority: CN
Inventors: 陈勇良
Original assignee: Mashangyou Technology Co ltd
Current assignee: Mashangyou Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-15

Abstract

本发明公开了一种基于二次人工智能算法的景区评估方法及模型，涉及人工智能技术领域，解决了景区评估模型不够客观实时性较差的技术问题，其技术方案要点是通过大数据的批处理方式对数据进行标准化处理，再通过“两层”机器学习，第一层即监督机器学习，使用Bert自然语言处理模型解决常规的自然语言处理，第二层是无监督机器学习，解决剩余无法标记的部分评论的分类和标签建立；再融合知识图谱技术，大数据技术等将景区评论数据进行序列化、语义解析、向量化，构建无监督机器学习的评估特征库，从而构建基于评论数据的高效、精准的景区评估模型。

Description

基于二次人工智能算法的景区评估方法及模型

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基于二次人工智能算法的景区评估方法及模型。

背景技术

当前景区评估体系常用的方法有两种，一是采用多维数据分析手段针对不同景区类型预设评估指标体系，从区域条件、环境、交通、经济发展、客源等多个维度进行交叉分析评估；二是基于游客评价的分词技术通过词频计算游客对景区的满意度，即“情感分析”，它在一定程度上具备客观的量化分析能力，利用监督学习在自然语言识别的基础上，通过预设规则评估游客的满意度情况，但它的重心还是在游客体验，更多的是游客分析。

上述两种方法的主要缺陷在于：1)需要支撑的数据量多，且所需数据的行业跨度大(景区、酒店、交通、运营商等)，数据整合及获取难度大。2)景区相关维度较多，例如时间、气象、位置、服务、价格、交通、设施设备、规模、景区类型、安全、管理、消防等，并且数据分布极为稀疏，增加了分析难度也严重影响了计算效率。3)所谓“情感分析”实质是基于游客分析，只能从单一方面反映景区情况，另外，虽然采用了监督学习手段，仍然比较依赖人工根据行业经验去提取特征库，因此分析略显粗浅，难以做到公正、客观、全面、精准地评估；同时，景区评论数据带有很强的主观性(例如刷屏、刷单)、多意性、随意性和难以量化等特性，例如有些频次低的数据反而更能反映问题，若采用常规的“数据清洗”就很容易作为异常值给排除，还有同样的字、词、符号放在不同的语境中可能是相反的两个意思，在这些场景下，原有的评估方式难以实现对景区的正确评估。4)不能分析识别并输出景区“好”与“不好”的具体原因。

发明内容

本公开提供了一种基于二次人工智能算法的景区评估方法及模型，其技术目的是：实现自动化、系统化、全面的、客观的、可逆的、动态的基于评论数据的景区评估方法及模型，并输出景区优劣的具体原因。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种基于二次人工智能算法的景区评估方法，包括：

获取数据后进行预处理；

将预处理后的数据分为训练集数据、验证集数据和测试集数据，并将符合正态分布的训练集数据进行分组；

将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练，所述特征处理得到分类器模型和特征向量，所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果；

将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类，分别得到第二标记结果和第三标记结果，其中，所述无监督机器学习采用极大似然估计的算法；

将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练，得到预训练模型；

将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习，得到第二景区评估模型。

进一步地，所述预处理的方法为ETL，通过ETL进行数据清洗和数据标准化。

进一步地，所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。

进一步地，所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。

进一步地，所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。

一种基于二次人工智能算法的景区评估模型，包括：

数据采集模块，获取数据；

数据处理模块，包括预处理单元和抽样单元，所述预处理单元对数据进行预处理，所述抽样单元将预处理后的数据分为训练集数据、验证集数据和测试集数据，并将符合正态分布的训练集数据进行抽样分组；

第一Bert自然语言处理模型，对分组后的训练集数据分别进行特征处理和模型训练，所述特征处理得到分类器模型和特征向量，所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果；

分类模块，包括知识图谱单元和无监督机器学习单元，所述知识图谱单元和无监督机器学习单元分别对所述第一Bert自然语言处理模型无法标记的训练集数据进行分类，分别得到第二标记结果和第三标记结果，其中，所述无监督机器学习采用极大似然估计的算法；

第二Bert自然语言处理模型，对所述第一标记结果、第二标记结果和第三标记结果进行训练，得到预训练模型；

混合运算模块，对所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习，得到第二景区评估模型。

进一步地，所述预处理单元使用ETL对数据进行数据清洗和数据标准化。

进一步地，所述无监督机器学习单元包括聚类分析单元和极大似然估计单元。

本公开的有益效果在于：本公开通过大数据的批处理方式对数据进行标准化处理，再通过“两层”机器学习，第一层即监督机器学习，使用Bert自然语言处理模型解决常规的自然语言处理，第二层是无监督机器学习，解决剩余无法标记的部分评论的分类和标签建立；再融合知识图谱技术，大数据技术等将景区评论数据进行序列化、语义解析、向量化，构建无监督机器学习的评估特征库，从而构建基于评论数据的高效、精准的景区评估模型，同时通过反向分析策略，输出景区具体的“好与不好”的原因。

附图说明

图1为本公开方法流程图；

图2为数据抽样流程图；

图3为特征处理和模型训练流程图；

图4为景区评估模型训练流程图；

图5为本公开系统示意图。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。在本公开的描述中，需要理解的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量，仅用来区分不同的组成部分。

图1为本公开方法流程图，获取数据后进行预处理，将预处理后的数据分为训练集数据、验证集数据和测试集数据，并将符合正态分布的训练集数据进行分组。将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练，那么特征处理得到分类器模型和特征向量，模型训练则得到第一景区评估模型和训练集数据的第一标记结果。然后将第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类，分别得到第二标记结果和第三标记结果，无监督机器学习采用了极大似然估计的算法。将第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练，得到预训练模型，再将预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习，得到第二景区评估模型，该第二景区评估模型即最终的景区评估模型。

使用Bert自然语言处理模型进行分类或训练的模型参数是不一样的，因而本公开采用“第一”和“第二”对Bert自然语言处理模型以做区分，以下描述中将不做具体区分，本领域技术人员可以具体情况作理解区分。

数据获取和预处理的过程包括数据采集、数据清洗和数据标准化。构建统一的数据接入接口，开放接口标准，定义好数据源类型；再通过ETL数据处理技术删除重复数据，并对缺失数据进行补位，然后将文本数据格式进行统一，同时通过归一化算法对数据进行标准化处理。

将预处理后的原始数据采用百分比方式随机抽取分离出训练集数据(60％)、验证集数据(20％)、测试集数据(20％)；由于时间、位置、气象等对景区评估有重要影响，为了避免这些影响，在全年时间范围内，将训练集数据中符合正态分布的数据进行分组，然后投入第一Bert自然语言处理模型进行训练。为了防止过拟合和欠拟合的情况发生，可以根据后续Bert自然语言处理模型和景区评估模型的效果(主要观察数据的拟合程度)，逐渐增加训练集数据组，如图2所示。

将分组后的训练集数据逐步输入到Bert自然语言处理模型分别进行特征处理和模型训练，模型训练得到第一景区评估模型；特征处理则得到分类器模型和特征向量。Bert自然语言处理模型对输入的训练集数据进行特征处理，然后经过哈希向量转化得到分类器，分类器再训练成分类器模型，分类器模型则包括序列标注模型(字/分词)、双句分析模型(带符号)和单句分析模型(带符号)。分类器中权重高的输出向量，即特征向量，特征向量包括字/词/符号向量、句向量、文本向量和位置向量。特征处理主要是通过Bert自然语言处理模型完成评论数据(中英文)初步的词法分析、语法分析、语义分析，权重、标记、向量转化等工作，在现有的Bert模型上做部分适应性改造即可实现，如图3所示。

将Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习(聚类分析、降维等)进行二次分析识别，建立有价值的分类和特征，分别得到第二标记结果和第三标记结果，完善景区评估模型，如图4所示。

知识图谱技术(Knowledge Graph)包括知识融合消代消歧、本体构建、推理算法、三元组存储技术-图数据库，再融合大数据处理技术，能深层次挖掘数据间的关联关系、隐藏关系，通过现有数据标签关系进行数据分类整理形成知识库(即第二标记结果)，然后再放入Bert自然语言处理模型进行学习、训练。

无监督机器学习包括聚类分析、降维等。实际业务中与景区评估强度相关的维度较多，比如时间、气象、位置、服务、价格、交通、设施设备、规模、景区类型、安全、管理、消防等，如果将数据全维度展开，数据稀疏程度极高，根据数据科学和相关表示方法，必须实现降维处理；若直接采用PCA(Principal Component Analysis，主成分分析)等降维技术，数据量庞大、难度大、效率低下，且极易出现过拟合和欠拟合的情况，为此根据行业特点和大数据处理技术，在做PCA降维技术前将进行维度参数化建模，将所有语义表示为低维空间，原则上不超过3维。

图5为本公开系统示意图，该系统包括数据处理模块、第一Bert自然语言处理模型、分类模块、第一Bert自然语言处理模型和混合运算模块；数据处理模块包括预处理单元和抽样单元；分类模块包括知识图谱单元和无监督机器学习单元，无监督机器学习单元又包括聚类分析单元和极大似然估计单元；该系统的工作原理参照本公开方法流程，不再赘述。

以上为本公开示范性实施例，本公开的保护范围由权利要求书及其等效物限定。

Claims

1.一种基于二次人工智能算法的景区评估方法，其特征在于，包括：

获取数据后进行预处理；

2.如权利要求1所述的基于二次人工智能算法的景区评估方法，其特征在于，所述预处理的方法为ETL，通过ETL进行数据清洗和数据标准化。

3.如权利要求2所述的基于二次人工智能算法的景区评估方法，其特征在于，所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。

4.如权利要求3所述的基于二次人工智能算法的景区评估方法，其特征在于，所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。

5.如权利要求4所述的基于二次人工智能算法的景区评估方法，其特征在于，所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。

6.一种基于二次人工智能算法的景区评估模型，其特征在于，包括：

数据采集模块，获取数据；

7.如权利要求6所述的基于二次人工智能算法的景区评估模型，其特征在于，所述预处理单元使用ETL对数据进行数据清洗和数据标准化。

8.如权利要求7所述的基于二次人工智能算法的景区评估模型，其特征在于，所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。

9.如权利要求8所述的基于二次人工智能算法的景区评估模型，其特征在于，所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。

10.如权利要求9所述的基于二次人工智能算法的景区评估模型，其特征在于，所述无监督机器学习单元包括聚类分析单元和极大似然估计单元。