CN111078894A - 一种基于隐喻主题挖掘的景区评价知识库构建方法 - Google Patents
一种基于隐喻主题挖掘的景区评价知识库构建方法 Download PDFInfo
- Publication number
- CN111078894A CN111078894A CN201911302244.4A CN201911302244A CN111078894A CN 111078894 A CN111078894 A CN 111078894A CN 201911302244 A CN201911302244 A CN 201911302244A CN 111078894 A CN111078894 A CN 111078894A
- Authority
- CN
- China
- Prior art keywords
- subject
- knowledge base
- word
- words
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005065 mining Methods 0.000 title claims abstract description 38
- 238000009411 base construction Methods 0.000 title claims abstract description 15
- 230000002996 emotional effect Effects 0.000 claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000008451 emotion Effects 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 241000258920 Chilopoda Species 0.000 description 12
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000037213 diet Effects 0.000 description 4
- 235000005911 diet Nutrition 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000004308 accommodation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于隐喻主题挖掘的景区评价知识库构建方法,包括:S1、采用景区隐性主题挖掘算法构建景区隐性多主题知识库;S2、采用景区隐喻主题特征挖掘算法构建景区的隐喻多主题知识库;S3、基于景区语料库的语义搭配计算模型构建景区评价知识库,并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别;本发明通过构建的顾及隐喻信息的景区评价知识库,能够较为精确的判断互联网旅游网站中每条评论的细粒度主题及对应主题的情感倾向信息,用于向游客提供数据支撑,辅助游客做出符合自己偏好性的决策,还能够辅助景区管理者提高景区服务,提升景区网络口碑。
Description
技术领域
本发明涉及大数据分析技术领域,特别是涉及一种基于隐喻主题挖掘的景区评价知识库构建方法。
背景技术
随着旅游互联网的蓬勃发展,越来越多的游客会在旅行的过程中使用社交媒体平台记录旅途行程中的游览经历,真实的记录了自己在旅游过程中的所见所闻所感,这些信息多数以文本或图片形式存在于互联网的各旅游网站或者社交平台上,这些信息能够实时的反映出景区在不同主题指标上的变化,能够为游客的旅游路线及偏好提供大数据分析支持,也能够为景区的管理者在提升景区服务方面提供帮助。
目前国内外研究者针对旅游在线评论的研究多集中关注酒店业,对其他研究对象关注较少。有些学者关注了景区评论但分析的粒度较粗,仅从浅层关注了游客的满意度而没有细粒度的针对大量的评论数据逐条分析研究,无法细粒度的反映出景区的每项主题指标随时间的变化,无法及时向旅游管理者提供知识支撑。
从互联网旅游网站的海量评论信息中抽取细粒度的主题情感信息,通常这些信息具有口语性强、语义信息破碎度高等特征且在一个文本中会出现多个主题。基于传统的监督学习的方法需要大量的人工手工标注工作,而基于传统的基于规则的方法,目前的研究中还没有针对旅游领域的语料做出通用的规则,其他领域的规则无法移植到旅游领域。
发明内容
本发明的目的是提供一种基于隐喻主题挖掘的景区评价知识库构建方法,以解决上述现有技术存在的问题,能够对细粒度主题的感情倾向进行快速准确识别。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于隐喻主题挖掘的景区评价知识库构建方法,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;
S2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。
优选地,所述步骤S1景区隐性多主题知识库的构建方法具体包括:
首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。
优选地,所述SHTMA的具体流程包括:
首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。
优选地,所述步骤S2中隐喻主题词及隐喻主题特征的挖掘方法具体包括:
首先,从语料库中筛选出针对各主题的景区评论语料,景区评论语料包括基础主题词、隐喻主题词、隐喻主题特征,将语料中的句子按照标点符号分成短句;其次,基于SMTFMA,使用处理后的语料训练分类器模型,并使用训练后的分类器模型从景区评论语料中识别并挖掘隐喻主题词及隐喻主题特征,构建隐喻多主题知识库。
优选地,所述SMTFMA的具体流程包括:
首先,基于基础多主题知识库,对基于显性主题、隐性主题及隐喻主题特征的语料进行人工标注;其次,通过人工标注的景区评论语料的隐喻特征对SMTFMA条件随机场分类器进行训练,根据训练后的条件随机场分类器计算未经标注语料在特定特征词出现的情况下,待计算特征词出现的概率,根据特征词出现的概率识别指定词的隐喻主题词及隐喻主题特征。
优选地,所述步骤S3构建景区评价知识库的具体方法包括:
首先,构建旅游情感词典知识库;其次,基于景区多主题知识库及旅游情感词典知识库,采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配,形成主题词与情感词之间一对多的搭配形式,并以SQL形式存放在数据库之中,构建景区评价知识库。
优选地,所述采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配的具体方法包括:
首先,计算主题词与情感词的共现度,如式1所示;
其中,T表示主题词,E表示情感词,f(T,E)表示主题词与情感词在语料中出现在同一语句的句子个数,f(T)表示主题词在语料中单独出现的句子个数,f(E)表示情感词在语料中单独出现的句子个数,W(T,E)表示主题词与情感词的共现度;
其次,对主题词与情感词构成的搭配进行优化:主题词与情感词共现度的阈值为H,0<H<1,当主题词与情感词在旅游领域语料库的共现度大于阈值H时,视为该主题词与该情感词能构成搭配,小于阈值H时,视为不能构成搭配并将其删除,完成主题词与情感词搭配的优化,构建与主题词对应的情感词词库。
本发明公开了以下技术效果:
本发明采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)、景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)及景区语料库的语义搭配计算模型辅助构建景区评价知识库,通过构建的顾及隐喻信息的景区评价知识库能够较为精确的判断互联网旅游网站中每条评论的细粒度主题及对应主题的情感倾向信息,通过结合时间和空间维度综合做出分析,能够详细的统计出各景区在每个主题的表现情况,用于向游客提供数据支撑,辅助游客做出符合自己偏好性的决策,还能够辅助景区管理者提高景区服务,提升景区网络口碑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明景区评价知识库构建方法流程图;
图2为本发明隐性多主题的挖掘算法流程图;
图3为本发明隐喻主题语料标注示例图;
图4为本发明隐喻主题挖掘算法流程图;
图5为本实施例中景区评价知识库结构示意图;
图6为本实施例中使用现有词典对蜈支洲岛与大东海景区的评论进行情感倾向识别的结果;其中,图6(a)为蜈支洲岛情感倾向识别结果,图6(b)为大东海情感倾向识别结果;
图7为本实施例中使用本发明景区评价知识库对蜈支洲岛与大东海景区的评论进行情感倾向识别的结果;其中图7(a)为2016年蜈支洲岛与大东海正负面情感倾向识别结果,图7(b)为2017年蜈支洲岛与大东海正负面情感倾向识别结果,图7(c)为2018年蜈支洲岛与大东海正负面情感倾向识别结果,图7(d)为2016-2018年蜈支洲岛与大东海正负面情感倾向识别结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1-7所示,本实施例以蜈支洲岛及大东海景区为例提供一种基于隐喻主题挖掘的景区评价知识库构建方法,基于互联网多平台获取多个旅游网站的景区评论数据构建景区评价知识库,并对2016-2018年携程旅游网站上蜈支洲岛及大东海景区的游客评论进行情感倾向识别,为景区质量的评价提供数据支持,并且能够向游客推荐符合个人偏好的旅游景点,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库。具体流程如如图2所示,包括如下步骤:
S11、构建景区显性多主题知识库;
S12、采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库,将显性主题词与隐性主题词共同构建为基础多主题知识库;具体包括如下步骤:
S121、首先对游客评论语料进行预处理,包括:分词、去停用词、词性标注、词频统计,预处理后,将词频大于20且词性标注为名词的词语列入隐性主题词候选词库之中;
S122、SHTMA集成了词向量模型,词向量模型通过训练把对文本内容的处理简化为K维向量运算,能够把向量空间上的相似度采用文本语义的形式表达。SHTMA以景区游客评论语料作为模型训练的基础,通过计算显性主题词与步骤S121中得到的隐性主题词候选词库的词语相似度挖掘隐性主题词,挖掘出的隐性主题词构成了隐性多主题知识库,该过程使用词向量模型,旨在通过计算输入词的上下文特征来获取与该词具有相似语境信息的特征词作为候选的隐性主题词。
S2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA),构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库,具体如图4所示。
隐喻主题词及隐喻主题特征的挖掘,包括如下步骤:
S21、从语料库中筛选出针对各主题的景区评论语料,景区评论语料包括基础主题词、隐喻主题词、隐喻主题特征,将语料中的句子按照标点符号分成短句。
S22、基于SMTFMA,使用步骤S21处理后的语料训练分类器模型,并使用训练后的分类器模型从景区评论语料中识别并挖掘隐喻主题词及隐喻主题特征,构建隐喻多主题知识库。具体包括如下步骤:
S221、基于基础多主题知识库作为抽取依据,利用统计手段对基于显性主题、隐性主题及隐喻主题特征的语料进行人工标注,如例句“沙滩踩上去像踩上了松软、舒适的地毯。”例句中标注“沙滩”属于基础多主题知识库(Basic multi-theme knowledge base,B)中的词语,而“地毯”属于隐喻主题词(Metaphorical theme,Mt),“松软”、“舒适”属于隐喻特征(Metaphorical feature,Mf),如图3所示。
S222、SMTFMA集成了条件随机场分类器,根据步骤S221中人工标注的景区评论语料的隐喻特征,计算不同特征之间出现的条件概率,得到分类器模型中的优化参数,并根据训练后的条件随机场分类器模型计算未经标注语料在特定特征词出现的情况下,待计算特征词出现的概率,根据特征词出现的概率识别指定词的隐喻主题词及隐喻主题特征。
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库,并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。
具体包括如下步骤:
S31、构建旅游情感词典知识库;
S32、基于步骤S2中得到的景区多主题知识库及S31中得到的旅游情感词典知识库,基于景区语料库的语义搭配计算模型进行情感词与主题词的搭配,形成主题词与情感词之间一对多的搭配形式,以SQL形式存放在数据库之中。
所述步骤S32利用基于景区语料库的语义搭配计算模型,基于景区多主题知识库及旅游情感词典知识库,从现有的情感词典知识库中挖掘与主题词能够构成搭配的情感词作为补充词,具体包括:
首先,计算主题词与情感词的共现度,如公式(1)所示;
其中,T表示主题词,E表示情感词,f(T,E)表示主题词与情感词在语料中出现在同一语句的句子个数,f(T)表示主题词在语料中单独出现的句子个数,f(E)表示情感词在语料中单独出现的句子个数,W(T,E)表示主题词与情感词的共现度。
其次,对主题词与情感词构成的搭配进行优化:主题词与情感词共现度的阈值为H,本实施例中H取0.75,当主题词与情感词在旅游领域语料库的共现度大于阈值H时,视为该主题词与该情感词能构成搭配,小于阈值H时,视为不能构成搭配并将其删除,完成主题词与情感词搭配的优化,构建与主题词对应的情感词词库。多主题知识库作为树状结构第三层,情感词词库作为树状结构第四层,共同构建了旅游多主题情感知识库。
本实施例中景区评价知识库结构示意图如图5所示,其结构表示为一颗高度为4的树,第二层包括对景区进行细粒度分析的多主题类别,第三层包括显性多主题知识库、隐性多主题知识库、隐喻多主题知识库,第四层包括景区情感词知识库,景区情感词知识库包括正面情感词库、中性情感词库、负面情感词库,第三层多主题知识库与第四层景区情感词知识库为一对多的对应关系。
本实施例多主题类别共分为9个大类,每个大类包括2-3个子类,如表1所示。
表1
本实施例情感类别分为3类,每一类对应多个含有感情情绪的情感词,如表2所示,设置景区评价知识库中公众情感倾向对应的各情感词的分值为:各正面情感倾向词的分值为Score(Positive)=1,中性情感倾向词的分值为Score(neutral)=0,负面情感词对应的各情感词对应的分值为Score(Negative)=-1。
表2
S33、基于步骤S32构建的景区评价知识库,对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别,包括如下步骤:
S331、数据预处理:将游客评论的语料按照标点断句形成短句集合{C1,C2,C3,….Ci,i>=1},其中Ci表示待处理文本断句后形成的短句,并对各短句分别进行分词、去停用词处理;
S332、将Ci短句中预处理后的词分别与景区多主题知识库中各主题节点下的主题词相匹配,当Ci短句满足某一主题类别的主题特征词时,将Ci标记为该主题该下的候选句;
S333、将步骤S332中得到的候选句与景区情感词知识库中的各类情感特征词相匹配,当该候选句满足某情感满意度倾向时,得到该候选句在该主题下的情感类别;
S334、判断该候选句中的其他词是否能够与步骤S333中得到的情感类别的否定词进行搭配,若能够搭配,则将该主题情感倾向改为相反的情感倾向。
使用目前市面上通用的情感词典对2016-2018年携程旅游网站上关于蜈支洲岛与大东海的游客评论数据进行情感识别,识别结果如图6所示,可见,目前市面上通用的情感词典不涉及主题,只分正面情感、中性情感、负面情感。根据图6(a)显示,蜈支洲岛从2016-2018年正面、中性、负面评论的评论数量都趋于稳定,表现良好,而根据图6(b)显示,大东海正面评论数量随着时间的增加急速减少,中性评论与负面评论数量也在逐渐减少,但负面评论占总体评论占比越来越高,说明大东海景区的网络口碑下滑比较严重。但使用目前现有的研究方法无法得到随时间变化的细粒度主题情感变化,也就无法分析大东海游客数量急速下降的原因。
而使用本发明景区评价知识库对2016-2018年携程旅游网站上关于蜈支洲岛与大东海的游客评论数据进行情感识别,识别结果如图7所示。根据图7能够明显看出,蜈支洲岛在饮食口味、饮食价格、特色、景色、住宿、娱乐趣味性、项目价格、服务质量、商业氛围及物价主题得到了游客的广泛关注,随着年份增加蜈支洲岛特色、购票、景色主题的正面评论数量在稳步地增加,饮食价格主题的负面评论在逐步减少,说明景区发展状况良好,景区的吸引力在逐步的增加,但需要注意的是蜈支洲岛在娱乐趣味性主题的正面评论随着年份的增加在缓慢减少,但项目价格、商业氛围主题的负面评论逐步增加,说明景区在娱乐方面有待改善。大东海在饮食口味、交通、景色、住宿、娱乐趣味、商业氛围受到了游客的广泛关注,但随着年份的增加在各主题的评论数量迅速减少,对比蜈支洲岛可以看出大东海缺乏特色及娱乐主题的关注度,缺少景区独特的吸引力,使得大东海很难吸引游客前往,故大东海景区的游客关注度迅速降低。可见,根据本发明所构建的景区评价知识库,游客能够结合自己的兴趣爱好选择相对应的景区,有效提升了游客游览的旅行效率,也能够为景区管理者有针对性的提升网络口碑提供数据支持。
基于本发明所构建的景区评价知识库,本发明还提供一种基于JAVA语言的智能化识别游客评论主题及情感满意度的程序,集成了包括词向量模型、语义相似度计算、条件随机场分类器、条件概率计算分类器、基于景区语料库的语义搭配计算模型,能够智能化的挖掘潜藏在语料中隐性主题词、隐喻主题词、隐喻主题特征、针对各主题的情感词,以知识树的形式构建了景区评价知识库,克服了短文本上下文特征稀疏,细粒度景区主题识别分类困难等缺点,能够精确的识别旅游评论中每条评论对应的主题及情感倾向性,通过对游客的评论语句逐条分析,能够根据分析结果快速准确地推理出该景区在哪些主题具有突出的优势或劣势,从而为景区管理者及游客提供数据支持。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (7)
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;
S2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。
2.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S1景区隐性多主题知识库的构建方法具体包括:
首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。
3.根据权利要求2所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SHTMA的具体流程包括:
首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。
4.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S2中隐喻主题词及隐喻主题特征的挖掘方法具体包括:
首先,从语料库中筛选出针对各主题的景区评论语料,景区评论语料包括基础主题词、隐喻主题词、隐喻主题特征,将语料中的句子按照标点符号分成短句;其次,基于SMTFMA,使用处理后的语料训练分类器模型,并使用训练后的分类器模型从景区评论语料中识别并挖掘隐喻主题词及隐喻主题特征,构建隐喻多主题知识库。
5.根据权利要求4所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SMTFMA的具体流程包括:
首先,基于基础多主题知识库,对基于显性主题、隐性主题及隐喻主题特征的语料进行人工标注;其次,通过人工标注的景区评论语料的隐喻特征对SMTFMA条件随机场分类器进行训练,根据训练后的条件随机场分类器计算未经标注语料在特定特征词出现的情况下,待计算特征词出现的概率,根据特征词出现的概率识别指定词的隐喻主题词及隐喻主题特征。
6.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S3构建景区评价知识库的具体方法包括:
首先,构建旅游情感词典知识库;其次,基于景区多主题知识库及旅游情感词典知识库,采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配,形成主题词与情感词之间一对多的搭配形式,并以SQL形式存放在数据库之中,构建景区评价知识库。
7.根据权利要求6所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配的具体方法包括:
首先,计算主题词与情感词的共现度,如式1所示;
其中,T表示主题词,E表示情感词,f(T,E)表示主题词与情感词在语料中出现在同一语句的句子个数,f(T)表示主题词在语料中单独出现的句子个数,f(E)表示情感词在语料中单独出现的句子个数,W(T,E)表示主题词与情感词的共现度;
其次,对主题词与情感词构成的搭配进行优化:主题词与情感词共现度的阈值为H,0<H<1,当主题词与情感词在旅游领域语料库的共现度大于阈值H时,视为该主题词与该情感词能构成搭配,小于阈值H时,视为不能构成搭配并将其删除,完成主题词与情感词搭配的优化,构建与主题词对应的情感词词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911302244.4A CN111078894B (zh) | 2019-12-17 | 2019-12-17 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911302244.4A CN111078894B (zh) | 2019-12-17 | 2019-12-17 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078894A true CN111078894A (zh) | 2020-04-28 |
CN111078894B CN111078894B (zh) | 2023-09-12 |
Family
ID=70315079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911302244.4A Active CN111078894B (zh) | 2019-12-17 | 2019-12-17 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078894B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256946A (zh) * | 2020-11-09 | 2021-01-22 | 广州瀚信通信科技股份有限公司 | 基于互联网大数据的全域旅游與情监测分析方法及系统 |
CN112256852A (zh) * | 2020-10-28 | 2021-01-22 | 北京软通智慧城市科技有限公司 | 一种景区评论数据处理方法、装置、电子设备及存储介质 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
CN114066117A (zh) * | 2020-08-05 | 2022-02-18 | 四川大学 | 一种基于点评文本的公园多尺度评价方法 |
CN116226332A (zh) * | 2023-02-24 | 2023-06-06 | 华院计算技术(上海)股份有限公司 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和系统 |
WO2023168805A1 (zh) * | 2022-03-10 | 2023-09-14 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
CN116776105A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学人民医院 | 创伤数据安全治理系统构建方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207819A1 (en) * | 2013-01-23 | 2014-07-24 | International Business Machines Corporation | Using metaphors to present concepts across different intellectual domains |
CN108269024A (zh) * | 2018-01-31 | 2018-07-10 | 钟栎娜 | 一种基于大数据的旅游目的地评价方法 |
CN108763223A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 汉英蒙藏维多语平行语料库构建的方法 |
-
2019
- 2019-12-17 CN CN201911302244.4A patent/CN111078894B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207819A1 (en) * | 2013-01-23 | 2014-07-24 | International Business Machines Corporation | Using metaphors to present concepts across different intellectual domains |
CN108763223A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 汉英蒙藏维多语平行语料库构建的方法 |
CN108269024A (zh) * | 2018-01-31 | 2018-07-10 | 钟栎娜 | 一种基于大数据的旅游目的地评价方法 |
Non-Patent Citations (2)
Title |
---|
林鸿飞;许侃;任惠;: "基于词汇范畴和语义相似的显性情感隐喻识别机制" * |
白振凯;黄孝喜;王荣波;谌志群;王小华;: "基于主题模型的汉语动词隐喻识别" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114066117A (zh) * | 2020-08-05 | 2022-02-18 | 四川大学 | 一种基于点评文本的公园多尺度评价方法 |
CN114066117B (zh) * | 2020-08-05 | 2023-04-07 | 四川大学 | 一种基于点评文本的公园多尺度评价方法 |
CN112256852A (zh) * | 2020-10-28 | 2021-01-22 | 北京软通智慧城市科技有限公司 | 一种景区评论数据处理方法、装置、电子设备及存储介质 |
CN112256946A (zh) * | 2020-11-09 | 2021-01-22 | 广州瀚信通信科技股份有限公司 | 基于互联网大数据的全域旅游與情监测分析方法及系统 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
WO2023168805A1 (zh) * | 2022-03-10 | 2023-09-14 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
CN116226332A (zh) * | 2023-02-24 | 2023-06-06 | 华院计算技术(上海)股份有限公司 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
CN116226332B (zh) * | 2023-02-24 | 2024-02-06 | 华院计算技术(上海)股份有限公司 | 一种基于概念隐喻理论的隐喻生成方法及系统 |
CN116737922A (zh) * | 2023-03-10 | 2023-09-12 | 云南大学 | 一种游客在线评论细粒度情感分析方法和系统 |
CN116776105A (zh) * | 2023-08-22 | 2023-09-19 | 北京大学人民医院 | 创伤数据安全治理系统构建方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111078894B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078894A (zh) | 一种基于隐喻主题挖掘的景区评价知识库构建方法 | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN111914096A (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN112861541B (zh) | 一种基于多特征融合的商品评论情感分析方法 | |
CN107944911B (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN111339284A (zh) | 产品智能匹配方法、装置、设备及可读存储介质 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及系统 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
JP2006293767A (ja) | 文章分類装置、文章分類方法および分類辞書作成装置 | |
CN112287197B (zh) | 动态记忆案件描述的涉案微博评论讽刺句检测方法 | |
CN115526590B (zh) | 一种结合专家知识和算法的高效人岗匹配与复推方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN111914157A (zh) | 一种基于用户偏好的旅游方案生成方法和系统 | |
CN113591487A (zh) | 基于深度学习的旅游景点评论情感分析方法 | |
CN110569495A (zh) | 一种基于用户评论的情感倾向分类方法、装置及存储介质 | |
CN113792118A (zh) | 基于景区评价的满意度提升系统和方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |