CN115099241A

CN115099241A - 一种基于模型融合的海量旅游网络文本语义分析方法

Info

Publication number: CN115099241A
Application number: CN202210772206.0A
Authority: CN
Inventors: 张有为; 房飞越; 陶泽坤; 李静; 陆川伟; 吴洪建; 赵清波
Original assignee: Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-23
Anticipated expiration: 2042-06-30
Also published as: CN115099241B

Abstract

本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法，获取评论数据集，并对数据集中的数据进行预处理；对数据集中的数据进行可视化分析；对评论数据集采用DBSCAN密度聚类，获得数据集D1；利用Word2Vec模型，得到数据集D2；利用Simhash算法，得到数据集D3；利用N‑Gram语言模型得到数据集D4；将数据集D1‑D4中的数据结果综合得到数据集D5；将预处理之后的数据集D5导入TF‑IDF模型和LDA模型，提取得到关键词和主题词；词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；根据特色词、酒店名称、酒店类型相互组合构建三元组，得到知识图谱。

Description

一种基于模型融合的海量旅游网络文本语义分析方法

技术领域

本发明涉及数据挖掘领域，更具体地，涉及一种基于模型融合的海量旅游网络文本语义分析方法。

背景技术

Hunt于1971年提出了旅游目的地形象的概念，从营销传播的角度看，旅游目的地形象是旅游者获得的有关旅游目的地信息在旅游者心目中形成的综合性的感知评价，是目的地选择决策的重要参考变量。作为旅游目的地形象感知的阶段，情感形象是游客对旅游目的地的感情性认识，是游客对旅游地的偏好程度。Russel基于情感测量模型，将旅游目的地情感形象划分成四个维度，以此确定游客对旅游目的地形象的情感评价。通过情感形象评价分析，了解游客对旅游地偏好的要素，有助于旅游地进行更好的形象定位，扬长避短，突出特色，从而得以持续健康地发展。因此，如何对这种复杂的旅游文本数据的处理是该研究领域的主要挑战之一。

网络文本语义分析是网络评论信息处理的重要技术。目前，网络评论文本分析在旅游学术界广泛应用，酒店网络评论分析的研究主要集中两个方面：基于评论信息的服务质量研究和评论信息的语境挖掘。无论哪个方面都需要从对文本的有效性出发，然后进行研究挖掘。因此，引入模型融合的文本语义处理方式能更好的完成文本信息的提取。

另外，文本有效性可以从人为定义、统计学习、机器学习、深度学习等方式处理，但是，每个方法都有一些缺陷，不能够筛选出具有代表性、真实性和有效性的评论文本数据集，以减少信息搜寻成本，提高评论质量，增强评论生态的活力。因此，需要提供一种模型融合方式以得到一个最好的语义数据集。

发明内容

针对现有技术的缺陷，本发明提供了一种基于模型融合的海量旅游网络文本语义分析方法：

步骤1，获取评论数据集，并对数据集中的数据进行预处理；其中，评论数据集是csv文件，包含酒店名称、酒店类别、评论时间、酒店评论内容；

步骤2，对数据集中的数据进行可视化分析；

步骤3，对评论数据集采用DBSCAN密度聚类，获得数据集D1＝{x_1,x_2,…,x_m}；

步骤4，利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度，得到数据集D2；

步骤5，利用Simhash算法在评论数据集上进行相似去重，得到数据集D3；

步骤6，利用N-Gram语言模型计算文本的成句概率，再把每个句子困惑度PPL计算出来，按照从小到大的顺序排列，取四分位数为75％以下数据即得到数据集D4；

步骤7，模型融合根据少数服从多数来定最终结果，将数据集D1-D4中的数据结果综合得到数据集D5；

步骤8，对数据集D5进行预处理；

步骤9，将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词；

步骤10，将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词；

步骤11，将步骤9和步骤10得到的结果关键词和主题词，词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；

步骤12，根据特色词、酒店名称、酒店类型相互组合构建三元组，利用py2neo库，对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中，最终得到一个简单的知识图谱。

本发明的技术方案，相对于传统的语义分析方法，具有以下技术效果：

本发明是在对旅游网络文本的基础上，通过建立有效的模型然后融合来实现对旅游目的地的印象分析。无论从统计学、机器学习、深度学习的单一方法而言都不能够全面的处理文本得出旅游目的地的特色，本发明引入模型融合的方法来解决全面处理的问题，提出了LDA加TF-IDF的相似度模型计算，最后通过知识图谱的可视化得到旅游特色。

附图说明

图1为基于模型融合的海量旅游网络文本语义分析的方法。

图2为实施例2中的H01酒店词云图。

图3为实施例2中的LDA分布情况图。

图4为实施例2中的知识图谱。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例提供一种基于模型融合的海量旅游网络文本语义分析方法，包括：

步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理，具体表现为：

步骤1-1：若数据中存在空白的属性和记录，则将该条数据删除；

步骤1-2：若数据中存在多条各个属性项完全重复的记录，则只保留一条记录并将其余删除。

步骤2，对数据集中的数据进行可视化分析，具体表示为；

步骤2-1：文本长度统计，数据集大小统计，时间序列的统计；

步骤2-2：运用matplotlib.pyplot函数对统计数据进行可视化分析。

步骤3，对评论数据集采用DBSCAN密度聚类，获得数据集D1＝{x_1，x_2，…，x_m}；

DBSCAN密度聚类的相关密度概念描述如下：

(1)ε-邻域：对于x_j∈D，其ε-邻域包含样本集D中与x_j的距离不大于ε的点构成一个子样本集，即N_ε(x_j)＝{x_j∈D|distance(x_i，x_j)≤ε}，该子样本集的样本个数记为|N_ε(x_j)|；

(2)核心对象：对于任一样本x_j∈D，如果其ε-邻域对应的N_ε(x_j)至少包min_samples个样本，即如果|N_ε(x_j)|≥minsamples，则x_j是核心对象；

(3)密度直达：如果x_i位于x_j的ε-邻域中，且x_j是核心对象，则称x_i由x_j密度直达。注意反之不一定成立，即不能说x_j由x_i密度直达，除非且x_i也是核心对象；

DBSCAN密度聚类算法将数据点分为三类：

核心点：在半径ε内含有超过min_samples数目的点；

边界点：在半径ε内点的数量小于min_samples，但是落在核心点的邻域内的点；

噪音点：既不是核心点也不是边界点的点；

计算评论数据集的所有评论构成的语料库中，每一个词，在每一条评论中出现的频次，从而将非结构化文本，转换为结构化的向量，使用min_s amples＝2，∈＝0.9对数据进行聚类，最后从聚类簇中筛选一条最常的保留，其余删除；对于游离数据，则完全保留，即可得出数据集D1。

重新对步骤1处理后的数据进行预处理操作，得到分词之后的结果基于Word2Vec模型计算文本的相似度，判断相同的句子，在原始数据集上去重，得到数据集D2。

利用jieba库中的TF-IDF权重对分词之后的结果进行处理，对获取的词(feature)，进行普通的哈希操作，计算hash值，这样就得到一个长度为n位的二进制，得到(hash：weight)的集合；在获取的hash值的基础上，根据对应的weight值进行加权，即W＝hash*weight；即hash为1则和weight正相乘，为0则和weight负相乘；将上述得到的各个向量的加权结果进行求和，变成只有一个序列串；对于得到的n-bit签名的累加结果的每个值进行判断，大于0则置为1，否则置为0，从而得到该语句的simhash值；最后根据不同语句的simhash值的汉明距离来判断相似度。在原始数据集上进行相似去重，得到数据集D3

PPL是用在自然语言处理领域(NLP)中，衡量语言模型好坏的指标；它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize，PPL越小越好，公式如下：

步骤8，对数据集D5进行包括正则去除、机械压缩、文本分词和停用词的预处理；

采用余弦相似度来计算每条评论的关键词向量与主题词向量之间的距离；夹角越小，越相似；具体公式如下：

余弦值越接近1，角度就越接近0，也就是说，两个向量越相似。

实施例2

本实施例采用来源于全国第九届“泰迪杯”数据挖掘挑战赛的数据对本发明的技术效果进行验证。实验数据共包含25000条评论数据，其中酒店的评论涉及50个酒店。

实验结果如下所示：

第一步，TF-IDF的权重关键词的词云图，图2展示A01的酒店词云图。

第二步，LDA主题模型提取，采用BosonNLP数据提供的停用词，情感评价表构建属于专属的字典语料库进行LDA模型的主题分类。

根据情感评价表可以对于词矩阵中的词语进行打分评论然后按照大于0为正，小于0为负的规则对数据集进行区分。运用gensim库中的corpora.Dictionary()函数处理得到想要的字典，doc2bow()词袋技术将字典转换成想要的语料库。最后根据语料库将分本主题分为了3类，每一类都有正面和反面，如图3所示。

第三步，将第一步和第二步得到的结果关键词和主题词(按权重顺序排列)，词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词。这里采用余弦相似度来计算，夹角越小，越相似。

第四步根据特色词、酒店名称、酒店类型相互组合构建三元组，利用py2neo库，对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中，最终得到一个简单的知识图谱，如图4所示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模型融合的海量旅游网络文本语义分析方法，其特征在于：

步骤2，对数据集中的数据进行可视化分析；

步骤6，利用N-Gram语言模型计算评论数据集中文本的成句概率，再把每个句子困惑度PPL计算出来，按照从小到大的顺序排列，取四分位数为75％以下数据即得到数据集D4；

步骤8，对数据集D5进行预处理；

2.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法，其特征在于：步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理，具体表现为：

3.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法，其特征在于：