CN111160756A - 基于二次人工智能算法的景区评估方法及模型 - Google Patents

基于二次人工智能算法的景区评估方法及模型 Download PDF

Info

Publication number
CN111160756A
CN111160756A CN201911363789.6A CN201911363789A CN111160756A CN 111160756 A CN111160756 A CN 111160756A CN 201911363789 A CN201911363789 A CN 201911363789A CN 111160756 A CN111160756 A CN 111160756A
Authority
CN
China
Prior art keywords
model
data
scenic spot
training
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911363789.6A
Other languages
English (en)
Inventor
陈勇良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashangyou Technology Co ltd
Original Assignee
Mashangyou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashangyou Technology Co ltd filed Critical Mashangyou Technology Co ltd
Priority to CN201911363789.6A priority Critical patent/CN111160756A/zh
Publication of CN111160756A publication Critical patent/CN111160756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于二次人工智能算法的景区评估方法及模型,涉及人工智能技术领域,解决了景区评估模型不够客观实时性较差的技术问题,其技术方案要点是通过大数据的批处理方式对数据进行标准化处理,再通过“两层”机器学习,第一层即监督机器学习,使用Bert自然语言处理模型解决常规的自然语言处理,第二层是无监督机器学习,解决剩余无法标记的部分评论的分类和标签建立;再融合知识图谱技术,大数据技术等将景区评论数据进行序列化、语义解析、向量化,构建无监督机器学习的评估特征库,从而构建基于评论数据的高效、精准的景区评估模型。

Description

基于二次人工智能算法的景区评估方法及模型
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于二次人工智能算法的景区评估方法及模型。
背景技术
当前景区评估体系常用的方法有两种,一是采用多维数据分析手段针对不同景区类型预设评估指标体系,从区域条件、环境、交通、经济发展、客源等多个维度进行交叉分析评估;二是基于游客评价的分词技术通过词频计算游客对景区的满意度,即“情感分析”,它在一定程度上具备客观的量化分析能力,利用监督学习在自然语言识别的基础上,通过预设规则评估游客的满意度情况,但它的重心还是在游客体验,更多的是游客分析。
上述两种方法的主要缺陷在于:1)需要支撑的数据量多,且所需数据的行业跨度大(景区、酒店、交通、运营商等),数据整合及获取难度大。2)景区相关维度较多,例如时间、气象、位置、服务、价格、交通、设施设备、规模、景区类型、安全、管理、消防等,并且数据分布极为稀疏,增加了分析难度也严重影响了计算效率。3)所谓“情感分析”实质是基于游客分析,只能从单一方面反映景区情况,另外,虽然采用了监督学习手段,仍然比较依赖人工根据行业经验去提取特征库,因此分析略显粗浅,难以做到公正、客观、全面、精准地评估;同时,景区评论数据带有很强的主观性(例如刷屏、刷单)、多意性、随意性和难以量化等特性,例如有些频次低的数据反而更能反映问题,若采用常规的“数据清洗”就很容易作为异常值给排除,还有同样的字、词、符号放在不同的语境中可能是相反的两个意思,在这些场景下,原有的评估方式难以实现对景区的正确评估。4)不能分析识别并输出景区“好”与“不好”的具体原因。
发明内容
本公开提供了一种基于二次人工智能算法的景区评估方法及模型,其技术目的是:实现自动化、系统化、全面的、客观的、可逆的、动态的基于评论数据的景区评估方法及模型,并输出景区优劣的具体原因。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种基于二次人工智能算法的景区评估方法,包括:
获取数据后进行预处理;
将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组;
将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;
将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;
将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型;
将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。
进一步地,所述预处理的方法为ETL,通过ETL进行数据清洗和数据标准化。
进一步地,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。
进一步地,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。
进一步地,所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。
一种基于二次人工智能算法的景区评估模型,包括:
数据采集模块,获取数据;
数据处理模块,包括预处理单元和抽样单元,所述预处理单元对数据进行预处理,所述抽样单元将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行抽样分组;
第一Bert自然语言处理模型,对分组后的训练集数据分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;
分类模块,包括知识图谱单元和无监督机器学习单元,所述知识图谱单元和无监督机器学习单元分别对所述第一Bert自然语言处理模型无法标记的训练集数据进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;
第二Bert自然语言处理模型,对所述第一标记结果、第二标记结果和第三标记结果进行训练,得到预训练模型;
混合运算模块,对所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。
进一步地,所述预处理单元使用ETL对数据进行数据清洗和数据标准化。
进一步地,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。
进一步地,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。
进一步地,所述无监督机器学习单元包括聚类分析单元和极大似然估计单元。
本公开的有益效果在于:本公开通过大数据的批处理方式对数据进行标准化处理,再通过“两层”机器学习,第一层即监督机器学习,使用Bert自然语言处理模型解决常规的自然语言处理,第二层是无监督机器学习,解决剩余无法标记的部分评论的分类和标签建立;再融合知识图谱技术,大数据技术等将景区评论数据进行序列化、语义解析、向量化,构建无监督机器学习的评估特征库,从而构建基于评论数据的高效、精准的景区评估模型,同时通过反向分析策略,输出景区具体的“好与不好”的原因。
附图说明
图1为本公开方法流程图;
图2为数据抽样流程图;
图3为特征处理和模型训练流程图;
图4为景区评估模型训练流程图;
图5为本公开系统示意图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。在本公开的描述中,需要理解的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量,仅用来区分不同的组成部分。
图1为本公开方法流程图,获取数据后进行预处理,将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组。将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,那么特征处理得到分类器模型和特征向量,模型训练则得到第一景区评估模型和训练集数据的第一标记结果。然后将第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,无监督机器学习采用了极大似然估计的算法。将第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型,再将预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型,该第二景区评估模型即最终的景区评估模型。
使用Bert自然语言处理模型进行分类或训练的模型参数是不一样的,因而本公开采用“第一”和“第二”对Bert自然语言处理模型以做区分,以下描述中将不做具体区分,本领域技术人员可以具体情况作理解区分。
数据获取和预处理的过程包括数据采集、数据清洗和数据标准化。构建统一的数据接入接口,开放接口标准,定义好数据源类型;再通过ETL数据处理技术删除重复数据,并对缺失数据进行补位,然后将文本数据格式进行统一,同时通过归一化算法对数据进行标准化处理。
将预处理后的原始数据采用百分比方式随机抽取分离出训练集数据(60%)、验证集数据(20%)、测试集数据(20%);由于时间、位置、气象等对景区评估有重要影响,为了避免这些影响,在全年时间范围内,将训练集数据中符合正态分布的数据进行分组,然后投入第一Bert自然语言处理模型进行训练。为了防止过拟合和欠拟合的情况发生,可以根据后续Bert自然语言处理模型和景区评估模型的效果(主要观察数据的拟合程度),逐渐增加训练集数据组,如图2所示。
将分组后的训练集数据逐步输入到Bert自然语言处理模型分别进行特征处理和模型训练,模型训练得到第一景区评估模型;特征处理则得到分类器模型和特征向量。Bert自然语言处理模型对输入的训练集数据进行特征处理,然后经过哈希向量转化得到分类器,分类器再训练成分类器模型,分类器模型则包括序列标注模型(字/分词)、双句分析模型(带符号)和单句分析模型(带符号)。分类器中权重高的输出向量,即特征向量,特征向量包括字/词/符号向量、句向量、文本向量和位置向量。特征处理主要是通过Bert自然语言处理模型完成评论数据(中英文)初步的词法分析、语法分析、语义分析,权重、标记、向量转化等工作,在现有的Bert模型上做部分适应性改造即可实现,如图3所示。
将Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习(聚类分析、降维等)进行二次分析识别,建立有价值的分类和特征,分别得到第二标记结果和第三标记结果,完善景区评估模型,如图4所示。
知识图谱技术(Knowledge Graph)包括知识融合消代消歧、本体构建、推理算法、三元组存储技术-图数据库,再融合大数据处理技术,能深层次挖掘数据间的关联关系、隐藏关系,通过现有数据标签关系进行数据分类整理形成知识库(即第二标记结果),然后再放入Bert自然语言处理模型进行学习、训练。
无监督机器学习包括聚类分析、降维等。实际业务中与景区评估强度相关的维度较多,比如时间、气象、位置、服务、价格、交通、设施设备、规模、景区类型、安全、管理、消防等,如果将数据全维度展开,数据稀疏程度极高,根据数据科学和相关表示方法,必须实现降维处理;若直接采用PCA(Principal Component Analysis,主成分分析)等降维技术,数据量庞大、难度大、效率低下,且极易出现过拟合和欠拟合的情况,为此根据行业特点和大数据处理技术,在做PCA降维技术前将进行维度参数化建模,将所有语义表示为低维空间,原则上不超过3维。
图5为本公开系统示意图,该系统包括数据处理模块、第一Bert自然语言处理模型、分类模块、第一Bert自然语言处理模型和混合运算模块;数据处理模块包括预处理单元和抽样单元;分类模块包括知识图谱单元和无监督机器学习单元,无监督机器学习单元又包括聚类分析单元和极大似然估计单元;该系统的工作原理参照本公开方法流程,不再赘述。
以上为本公开示范性实施例,本公开的保护范围由权利要求书及其等效物限定。

Claims (10)

1.一种基于二次人工智能算法的景区评估方法,其特征在于,包括:
获取数据后进行预处理;
将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组;
将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;
将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;
将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型;
将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。
2.如权利要求1所述的基于二次人工智能算法的景区评估方法,其特征在于,所述预处理的方法为ETL,通过ETL进行数据清洗和数据标准化。
3.如权利要求2所述的基于二次人工智能算法的景区评估方法,其特征在于,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。
4.如权利要求3所述的基于二次人工智能算法的景区评估方法,其特征在于,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。
5.如权利要求4所述的基于二次人工智能算法的景区评估方法,其特征在于,所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。
6.一种基于二次人工智能算法的景区评估模型,其特征在于,包括:
数据采集模块,获取数据;
数据处理模块,包括预处理单元和抽样单元,所述预处理单元对数据进行预处理,所述抽样单元将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行抽样分组;
第一Bert自然语言处理模型,对分组后的训练集数据分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;
分类模块,包括知识图谱单元和无监督机器学习单元,所述知识图谱单元和无监督机器学习单元分别对所述第一Bert自然语言处理模型无法标记的训练集数据进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;
第二Bert自然语言处理模型,对所述第一标记结果、第二标记结果和第三标记结果进行训练,得到预训练模型;
混合运算模块,对所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。
7.如权利要求6所述的基于二次人工智能算法的景区评估模型,其特征在于,所述预处理单元使用ETL对数据进行数据清洗和数据标准化。
8.如权利要求7所述的基于二次人工智能算法的景区评估模型,其特征在于,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。
9.如权利要求8所述的基于二次人工智能算法的景区评估模型,其特征在于,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。
10.如权利要求9所述的基于二次人工智能算法的景区评估模型,其特征在于,所述无监督机器学习单元包括聚类分析单元和极大似然估计单元。
CN201911363789.6A 2019-12-26 2019-12-26 基于二次人工智能算法的景区评估方法及模型 Pending CN111160756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911363789.6A CN111160756A (zh) 2019-12-26 2019-12-26 基于二次人工智能算法的景区评估方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911363789.6A CN111160756A (zh) 2019-12-26 2019-12-26 基于二次人工智能算法的景区评估方法及模型

Publications (1)

Publication Number Publication Date
CN111160756A true CN111160756A (zh) 2020-05-15

Family

ID=70556856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911363789.6A Pending CN111160756A (zh) 2019-12-26 2019-12-26 基于二次人工智能算法的景区评估方法及模型

Country Status (1)

Country Link
CN (1) CN111160756A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253904A1 (zh) * 2020-06-18 2021-12-23 深圳前海微众银行股份有限公司 测试案例集生成方法、装置、设备及计算机可读存储介质
CN113902354A (zh) * 2021-12-03 2022-01-07 环球数科集团有限公司 旅游评价数据处理方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171002A (zh) * 2017-11-30 2018-06-15 浙江大学 一种基于半监督混合模型的聚丙烯熔融指数预测方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN110489547A (zh) * 2019-07-11 2019-11-22 桂林电子科技大学 一种基于混合式监督学习的旅游景点推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171002A (zh) * 2017-11-30 2018-06-15 浙江大学 一种基于半监督混合模型的聚丙烯熔融指数预测方法
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN110489547A (zh) * 2019-07-11 2019-11-22 桂林电子科技大学 一种基于混合式监督学习的旅游景点推荐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253904A1 (zh) * 2020-06-18 2021-12-23 深圳前海微众银行股份有限公司 测试案例集生成方法、装置、设备及计算机可读存储介质
CN113902354A (zh) * 2021-12-03 2022-01-07 环球数科集团有限公司 旅游评价数据处理方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN110612524B (zh) 信息处理装置、信息处理方法以及记录介质
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN112199496A (zh) 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN116361472B (zh) 社交网络评论热点事件舆情大数据分析方法
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN111160756A (zh) 基于二次人工智能算法的景区评估方法及模型
CN114580978A (zh) 一种环评报告质量检查系统及其方法
CN115269870A (zh) 一种基于知识图谱实现数据中台数据链路故障分类预警的方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN111694961A (zh) 一种用于敏感数据泄露检测的关键词语义分类方法与系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN112347252B (zh) 一种基于cnn文本分类模型的可解释性分析方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN112685374B (zh) 日志分类方法、装置及电子设备
CN114004218A (zh) 一种针对政府工作报告的nlp识别方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
Lin et al. Design and implementation of intelligent scoring system for handwritten short answer based on deep learning
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN114169966B (zh) 一种用张量提取货物订单元数据的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination