CN115099241A - 一种基于模型融合的海量旅游网络文本语义分析方法 - Google Patents

一种基于模型融合的海量旅游网络文本语义分析方法 Download PDF

Info

Publication number
CN115099241A
CN115099241A CN202210772206.0A CN202210772206A CN115099241A CN 115099241 A CN115099241 A CN 115099241A CN 202210772206 A CN202210772206 A CN 202210772206A CN 115099241 A CN115099241 A CN 115099241A
Authority
CN
China
Prior art keywords
data set
data
comment
model
hotel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210772206.0A
Other languages
English (en)
Other versions
CN115099241B (zh
Inventor
张有为
房飞越
陶泽坤
李静
陆川伟
吴洪建
赵清波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Xinda Institute of Advanced Technology filed Critical Zhengzhou Xinda Institute of Advanced Technology
Priority to CN202210772206.0A priority Critical patent/CN115099241B/zh
Publication of CN115099241A publication Critical patent/CN115099241A/zh
Application granted granted Critical
Publication of CN115099241B publication Critical patent/CN115099241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法,获取评论数据集,并对数据集中的数据进行预处理;对数据集中的数据进行可视化分析;对评论数据集采用DBSCAN密度聚类,获得数据集D1;利用Word2Vec模型,得到数据集D2;利用Simhash算法,得到数据集D3;利用N‑Gram语言模型得到数据集D4;将数据集D1‑D4中的数据结果综合得到数据集D5;将预处理之后的数据集D5导入TF‑IDF模型和LDA模型,提取得到关键词和主题词;词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;根据特色词、酒店名称、酒店类型相互组合构建三元组,得到知识图谱。

Description

一种基于模型融合的海量旅游网络文本语义分析方法
技术领域
本发明涉及数据挖掘领域,更具体地,涉及一种基于模型融合的海量旅游网络文本语义分析方法。
背景技术
Hunt于1971年提出了旅游目的地形象的概念,从营销传播的角度看,旅游目的地形象是旅游者获得的有关旅游目的地信息在旅游者心目中形成的综合性的感知评价,是目的地选择决策的重要参考变量。作为旅游目的地形象感知的阶段,情感形象是游客对旅游目的地的感情性认识,是游客对旅游地的偏好程度。Russel基于情感测量模型,将旅游目的地情感形象划分成四个维度,以此确定游客对旅游目的地形象的情感评价。通过情感形象评价分析,了解游客对旅游地偏好的要素,有助于旅游地进行更好的形象定位,扬长避短,突出特色,从而得以持续健康地发展。因此,如何对这种复杂的旅游文本数据的处理是该研究领域的主要挑战之一。
网络文本语义分析是网络评论信息处理的重要技术。目前,网络评论文本分析在旅游学术界广泛应用,酒店网络评论分析的研究主要集中两个方面:基于评论信息的服务质量研究和评论信息的语境挖掘。无论哪个方面都需要从对文本的有效性出发,然后进行研究挖掘。因此,引入模型融合的文本语义处理方式能更好的完成文本信息的提取。
另外,文本有效性可以从人为定义、统计学习、机器学习、深度学习等方式处理,但是,每个方法都有一些缺陷,不能够筛选出具有代表性、真实性和有效性的评论文本数据集,以减少信息搜寻成本,提高评论质量,增强评论生态的活力。因此,需要提供一种模型融合方式以得到一个最好的语义数据集。
发明内容
针对现有技术的缺陷,本发明提供了一种基于模型融合的海量旅游网络文本语义分析方法:
步骤1,获取评论数据集,并对数据集中的数据进行预处理;其中,评论数据集是csv文件,包含酒店名称、酒店类别、评论时间、酒店评论内容;
步骤2,对数据集中的数据进行可视化分析;
步骤3,对评论数据集采用DBSCAN密度聚类,获得数据集D1={x_1,x_2,…,x_m};
步骤4,利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度,得到数据集D2;
步骤5,利用Simhash算法在评论数据集上进行相似去重,得到数据集D3;
步骤6,利用N-Gram语言模型计算文本的成句概率,再把每个句子困惑度PPL计算出来,按照从小到大的顺序排列,取四分位数为75%以下数据即得到数据集D4;
步骤7,模型融合根据少数服从多数来定最终结果,将数据集D1-D4中的数据结果综合得到数据集D5;
步骤8,对数据集D5进行预处理;
步骤9,将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词;
步骤10,将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词;
步骤11,将步骤9和步骤10得到的结果关键词和主题词,词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;
步骤12,根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱。
本发明的技术方案,相对于传统的语义分析方法,具有以下技术效果:
本发明是在对旅游网络文本的基础上,通过建立有效的模型然后融合来实现对旅游目的地的印象分析。无论从统计学、机器学习、深度学习的单一方法而言都不能够全面的处理文本得出旅游目的地的特色,本发明引入模型融合的方法来解决全面处理的问题,提出了LDA加TF-IDF的相似度模型计算,最后通过知识图谱的可视化得到旅游特色。
附图说明
图1为基于模型融合的海量旅游网络文本语义分析的方法。
图2为实施例2中的H01酒店词云图。
图3为实施例2中的LDA分布情况图。
图4为实施例2中的知识图谱。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例提供一种基于模型融合的海量旅游网络文本语义分析方法,包括:
步骤1,获取评论数据集,并对数据集中的数据进行预处理;其中,评论数据集是csv文件,包含酒店名称、酒店类别、评论时间、酒店评论内容;
步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理,具体表现为:
步骤1-1:若数据中存在空白的属性和记录,则将该条数据删除;
步骤1-2:若数据中存在多条各个属性项完全重复的记录,则只保留一条记录并将其余删除。
步骤2,对数据集中的数据进行可视化分析,具体表示为;
步骤2-1:文本长度统计,数据集大小统计,时间序列的统计;
步骤2-2:运用matplotlib.pyplot函数对统计数据进行可视化分析。
步骤3,对评论数据集采用DBSCAN密度聚类,获得数据集D1={x_1,x_2,…,x_m};
DBSCAN密度聚类的相关密度概念描述如下:
(1)ε-邻域:对于xj∈D,其ε-邻域包含样本集D中与xj的距离不大于ε的点构成一个子样本集,即Nε(xj)={xj∈D|distance(xi,xj)≤ε},该子样本集的样本个数记为|Nε(xj)|;
(2)核心对象:对于任一样本xj∈D,如果其ε-邻域对应的Nε(xj)至少包minsamples个样本,即如果|Nε(xj)|≥minsamples,则xj是核心对象;
(3)密度直达:如果xi位于xj的ε-邻域中,且xj是核心对象,则称xi由xj密度直达。注意反之不一定成立,即不能说xj由xi密度直达,除非且xi也是核心对象;
DBSCAN密度聚类算法将数据点分为三类:
核心点:在半径ε内含有超过min_samples数目的点;
边界点:在半径ε内点的数量小于min_samples,但是落在核心点的邻域内的点;
噪音点:既不是核心点也不是边界点的点;
计算评论数据集的所有评论构成的语料库中,每一个词,在每一条评论中出现的频次,从而将非结构化文本,转换为结构化的向量,使用mins amples=2,∈=0.9对数据进行聚类,最后从聚类簇中筛选一条最常的保留,其余删除;对于游离数据,则完全保留,即可得出数据集D1。
步骤4,利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度,得到数据集D2;
重新对步骤1处理后的数据进行预处理操作,得到分词之后的结果基于Word2Vec模型计算文本的相似度,判断相同的句子,在原始数据集上去重,得到数据集D2。
步骤5,利用Simhash算法在评论数据集上进行相似去重,得到数据集D3;
利用jieba库中的TF-IDF权重对分词之后的结果进行处理,对获取的词(feature),进行普通的哈希操作,计算hash值,这样就得到一个长度为n位的二进制,得到(hash:weight)的集合;在获取的hash值的基础上,根据对应的weight值进行加权,即W=hash*weight;即hash为1则和weight正相乘,为0则和weight负相乘;将上述得到的各个向量的加权结果进行求和,变成只有一个序列串;对于得到的n-bit签名的累加结果的每个值进行判断,大于0则置为1,否则置为0,从而得到该语句的simhash值;最后根据不同语句的simhash值的汉明距离来判断相似度。在原始数据集上进行相似去重,得到数据集D3
步骤6,利用N-Gram语言模型计算文本的成句概率,再把每个句子困惑度PPL计算出来,按照从小到大的顺序排列,取四分位数为75%以下数据即得到数据集D4;
PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标;它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,PPL越小越好,公式如下:
Figure BDA0003724634170000051
步骤7,模型融合根据少数服从多数来定最终结果,将数据集D1-D4中的数据结果综合得到数据集D5;
步骤8,对数据集D5进行包括正则去除、机械压缩、文本分词和停用词的预处理;
步骤9,将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词;
步骤10,将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词;
步骤11,将步骤9和步骤10得到的结果关键词和主题词,词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;
采用余弦相似度来计算每条评论的关键词向量与主题词向量之间的距离;夹角越小,越相似;具体公式如下:
Figure BDA0003724634170000061
余弦值越接近1,角度就越接近0,也就是说,两个向量越相似。
步骤12,根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱。
实施例2
本实施例采用来源于全国第九届“泰迪杯”数据挖掘挑战赛的数据对本发明的技术效果进行验证。实验数据共包含25000条评论数据,其中酒店的评论涉及50个酒店。
实验结果如下所示:
第一步,TF-IDF的权重关键词的词云图,图2展示A01的酒店词云图。
第二步,LDA主题模型提取,采用BosonNLP数据提供的停用词,情感评价表构建属于专属的字典语料库进行LDA模型的主题分类。
根据情感评价表可以对于词矩阵中的词语进行打分评论然后按照大于0为正,小于0为负的规则对数据集进行区分。运用gensim库中的corpora.Dictionary()函数处理得到想要的字典,doc2bow()词袋技术将字典转换成想要的语料库。最后根据语料库将分本主题分为了3类,每一类都有正面和反面,如图3所示。
第三步,将第一步和第二步得到的结果关键词和主题词(按权重顺序排列),词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词。这里采用余弦相似度来计算,夹角越小,越相似。
第四步根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱,如图4所示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于模型融合的海量旅游网络文本语义分析方法,其特征在于:
步骤1,获取评论数据集,并对数据集中的数据进行预处理;其中,评论数据集是csv文件,包含酒店名称、酒店类别、评论时间、酒店评论内容;
步骤2,对数据集中的数据进行可视化分析;
步骤3,对评论数据集采用DBSCAN密度聚类,获得数据集D1={x_1,x_2,…,x_m};
步骤4,利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度,得到数据集D2;
步骤5,利用Simhash算法在评论数据集上进行相似去重,得到数据集D3;
步骤6,利用N-Gram语言模型计算评论数据集中文本的成句概率,再把每个句子困惑度PPL计算出来,按照从小到大的顺序排列,取四分位数为75%以下数据即得到数据集D4;
步骤7,模型融合根据少数服从多数来定最终结果,将数据集D1-D4中的数据结果综合得到数据集D5;
步骤8,对数据集D5进行预处理;
步骤9,将预处理之后的数据集D5导入TF-IDF模型提取得到按权重顺序排列的关键词;
步骤10,将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词;
步骤11,将步骤9和步骤10得到的结果关键词和主题词,词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;
步骤12,根据特色词、酒店名称、酒店类型相互组合构建三元组,利用py2neo库,对neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中,最终得到一个简单的知识图谱。
2.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法,其特征在于:步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理,具体表现为:
步骤1-1:若数据中存在空白的属性和记录,则将该条数据删除;
步骤1-2:若数据中存在多条各个属性项完全重复的记录,则只保留一条记录并将其余删除。
3.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法,其特征在于:
步骤2-1:文本长度统计,数据集大小统计,时间序列的统计;
步骤2-2:运用matplotlib.pyplot函数对统计数据进行可视化分析。
CN202210772206.0A 2022-06-30 2022-06-30 一种基于模型融合的海量旅游网络文本语义分析方法 Active CN115099241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210772206.0A CN115099241B (zh) 2022-06-30 2022-06-30 一种基于模型融合的海量旅游网络文本语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210772206.0A CN115099241B (zh) 2022-06-30 2022-06-30 一种基于模型融合的海量旅游网络文本语义分析方法

Publications (2)

Publication Number Publication Date
CN115099241A true CN115099241A (zh) 2022-09-23
CN115099241B CN115099241B (zh) 2024-04-12

Family

ID=83294523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210772206.0A Active CN115099241B (zh) 2022-06-30 2022-06-30 一种基于模型融合的海量旅游网络文本语义分析方法

Country Status (1)

Country Link
CN (1) CN115099241B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN113591487A (zh) * 2021-08-03 2021-11-02 江苏省城市规划设计研究院有限公司 基于深度学习的旅游景点评论情感分析方法
CN113673239A (zh) * 2021-07-03 2021-11-19 桂林理工大学 一种基于情感词典加权的酒店评论情感极性分类方法
CN114064901A (zh) * 2021-11-26 2022-02-18 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN113673239A (zh) * 2021-07-03 2021-11-19 桂林理工大学 一种基于情感词典加权的酒店评论情感极性分类方法
CN113591487A (zh) * 2021-08-03 2021-11-02 江苏省城市规划设计研究院有限公司 基于深度学习的旅游景点评论情感分析方法
CN114064901A (zh) * 2021-11-26 2022-02-18 重庆邮电大学 一种基于知识图谱词义消歧的书评文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王欣研;张向先;张莉曼;: "学术APP用户在线评论主题语义关联研究", 情报科学, no. 06, 1 June 2020 (2020-06-01) *
陈俊宇;郑列;: "基于R语言的商品评论情感可视化分析", 湖北工业大学学报, no. 01, 15 February 2020 (2020-02-15) *

Also Published As

Publication number Publication date
CN115099241B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN109992645A (zh) 一种基于文本数据的资料管理系统及方法
CN106570191B (zh) 基于维基百科的中英文跨语言实体匹配方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN108132927A (zh) 一种融合图结构与节点关联的关键词提取方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN110532378B (zh) 一种基于主题模型的短文本方面提取方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN114707003B (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN118364053A (zh) 一种基于Langchain的文档向量化与文档分割方法
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Campbell et al. Content+ context networks for user classification in twitter
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN112948544B (zh) 一种基于深度学习与质量影响的图书检索方法
CN115905554A (zh) 一种基于多学科分类的中文学术知识图谱构建方法
CN115099241B (zh) 一种基于模型融合的海量旅游网络文本语义分析方法
Fuller et al. Structuring, recording, and analyzing historical networks in the china biographical database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant