CN110750745B - 基于旅游ugc的目的地形象可视化方法 - Google Patents
基于旅游ugc的目的地形象可视化方法 Download PDFInfo
- Publication number
- CN110750745B CN110750745B CN201910981307.7A CN201910981307A CN110750745B CN 110750745 B CN110750745 B CN 110750745B CN 201910981307 A CN201910981307 A CN 201910981307A CN 110750745 B CN110750745 B CN 110750745B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- cognitive
- sequence
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 15
- 230000001149 cognitive effect Effects 0.000 claims abstract description 88
- 230000002996 emotional effect Effects 0.000 claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000012800 visualization Methods 0.000 claims abstract description 19
- 238000013461 design Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000002452 interceptive effect Effects 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 10
- 238000009877 rendering Methods 0.000 claims description 9
- 239000003086 colorant Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000019771 cognition Effects 0.000 claims description 4
- 230000008846 dynamic interplay Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000012098 association analyses Methods 0.000 abstract description 3
- 238000010224 classification analysis Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于旅游UGC的目的地形象可视化方法,包括以下步骤:步骤1:采集游记数据、评论数据和目的地数据;步骤2:数据处理,包括构建自定义词库、提取关键词、获取情感词汇;步骤3:进行可视化编码,首先将数据分为两种类别:分组性质和定量性质,即是形象词汇和词汇分布量;再采用不同的编码方式对两种类别的数据进行编码设计;步骤4:进行交互设计;步骤5:进行可视化布局,包括:基础可视化布局、时序演变可视化布局和分类对比可视化布局。本发明实现对认知形象与情感形象的关联分析、时序演变分析与分类分析,交互式地从不同角度分析数据,从中构建一个完整全面的目的地形象。
Description
技术领域
本发明涉及信息可视化与可视分析领域,特别是一种基于旅游UGC的目的地形象可视化方法。
背景技术
旅游目的地形象是人们对一个目的地的信念、想法和印象的总和,一般包括认知形象与情感形象,认知形象指旅游者对目的地属性的认识,情感形象是旅游者对目的地的情感态度。由于自身认知、经验背景以及获取信息渠道的差异性,旅游者通常会对同一目的地存在不同的目的地形象评价。大量理论研究与实践证明,一个目的地的旅游形象越好,旅游者对于此目的地的形象评价越高,进而可以刺激产生更多的旅游消费行为。因此树立良好的目的地形象是吸引旅游者的重要手段,同时也是旅游营销的重要方式,并且可以帮助目的地管理组织反映现有营销策略的优势和劣势,影响目的地的可持续发展。
传统目的地形象研究大多采用问卷调查法,研究人员根据研究目的设计调查问卷,并将结果进行量化与统计分析,从而得出旅游目的地形象。此种方式研究成本较高,固定的问卷题目存在局限性,所反映的目的地形象也依赖于问卷设计,并且被调查者是以问卷设计人员的思路进行填写,容易受干扰与影响。
伴随移动互联网新时代的到来,传统目的地形象的组成内容与传递方式已然发生变化。旅游者借助移动网络平台将自己对目的地的所有感受进行展示,积极地参与信息的创造与分享,不同旅游者之间也可以进行信息共享与交流,这些信息即为旅游用户生成内容(user generated content,UGC)数据。由这类数据所反映出来的目的地形象克服了传统调查问卷法的局限性、依赖性、干扰性等不足之处,拓宽了目的地形象的研究深度,并且降低了研究成本。因此旅游UGC数据已经成为研究目的地形象的重要数据源,已有许多人员利用它们进行目的地形象的构建与分析工作。
现阶段利用旅游UGC数据进行目的地形象研究的相关工作中,大多通过文本挖掘与文字描述相结合的方式构建目的地形象,未充分利用旅游UGC数据所包含的旅游者出发时间、目的地认知形象类别等维度,无法从时序演变、分类对比等角度全面而客观地构建与分析目的地形象。部分工作虽然利用可视化帮助其进行形象构建,但是仅采用诸如折线图、文字云等简单的可视化方法作为对文本处理结果的一种辅助说明,无法对目的地认知与情感形象进行关联分析。
发明内容
本发明所要解决的技术问题是提供一种基于旅游UGC的目的地形象可视化方法,将目的地形象中包含的认知形象与情感形象相关联,并加入旅游者出发时间与目的地类别维度,实现对认知形象与情感形象的关联分析、时序演变分析与分类分析;该方法交互式地从不同角度分析数据,从中构建一个完整全面的目的地形象,有助于准确理解新媒体背景下的目的地形象。
为解决上述技术问题,本发明采用的技术方案是:
一种基于旅游UGC的目的地形象可视化方法,包括以下步骤:
步骤1:采集游记数据、评论数据和目的地数据;
步骤2:数据处理,包括构建自定义词库、提取关键词、获取情感词汇;
步骤3:进行可视化编码,首先将数据分为两种类别:分组性质和定量性质,即是形象词汇和词汇分布量;再采用不同的编码方式对两种类别的数据进行编码设计;
分组性质数据使用文字表示三组形象词汇,包括认知形象、正面情感形象和负面情感形象,在认知形象两侧,分别使用嵌套矩形序列表示定量性质的数据,即不同的情感词汇在当前认知词汇中的分布数量情况;
步骤4:进行交互设计,具体包括:
1)通过过滤,过滤出用户所需数据;
2)通过关联在整体形象的基础上进一步探索不同形象之间的关联关系;
3)通过加层详细地查看认知词汇所对应的情感词汇及数量;
步骤5:进行可视化布局,具体包括:
1)基础可视化布局
根据用户选择的排序条件竖直放置形象词汇,并用连线表示形象词汇之间的关联关系;
2)时序演变可视化布局
时序演变布局是在基础可视化布局上加入时间维度,以水平排列方式展示形象词汇在时间维度下的演变情况;
3)分类对比可视化布局
分类对比布局是在基础可视化布局上加入目的地认知形象类别维度,视图左边区域展示整体认知形象词汇,右边区域以水平或竖直排列方式依次展示不同类别的目的地形象。
进一步地,所述步骤1具体为:获取游记及评论URL集合,分析游记及评论URL所对应的HTML网页,获取所需数据的DOM结构,利用Scrapy获取并存储结构化的城市游记及评论数据;利用Scrapy获取并存储结构化的子目的地游记及评论数据。
进一步地,在步骤2中提取关键词具体为:
1)获取文本特征列表;
2)根据文本特征列表,利用Gensim的corpora.Dictionary直接统计词频,并调用doc2bow得到文档-单词矩阵;再利用models模块的LdaModel,向其传入文档-单词矩阵和需要训练的主题数量,得到LDA主题模型;
3)调用得到的LDA主题模型,根据主题数量输出旅游文本的主题,最后根据主题及比例提取关键词。
进一步地,在步骤3中,采用不同的编码方式对两种类别的数据进行编码设计具体为:
1)形象词汇编码
颜色:通过三种颜色编码形象词汇对应的组别;
位置:根据词汇组别计算其对应的平面位置区域;同组别词汇按照其所选的排序方式以竖直位置进行编码;
2)词汇分布编码
形状:嵌套矩形序列包括外侧大矩形序列与内侧小矩形序列;
颜色:通过两种颜色编码其对应的情感组别;
位置:外侧大矩形与其所属的认知词汇位置编码方式一致,以竖直位置进行编码,内侧小矩形以水平位置进行编码;
长度:外侧大矩形长度编码当前认知词汇关联的情感词汇属性值,内侧小矩形长度分别编码单个情感词汇属性值。
进一步地,在步骤5中,所述基础可视化布局具体如下:
1)数据描述
A、认知词汇序列
认知词汇序列C由n个认知词汇构成,ci表示第i个认知词汇,具体定义如下:
C={ci|i∈[1,n]}
B、情感词汇序列
情感词汇序列分为正面词汇序列SP与负面词汇序列SN,其长度分别为m与k,spi表示第i个正面词汇,sni表示第i个负面词汇,具体定义如下:
SP={spi|i∈[1,m]}
SN={sni|i∈[1,k]}
C、嵌套矩形序列
嵌套矩形序列分为正面子序列与负面子序列,每个子序列由一系列“认知-情感词汇对”所构成,每个词汇对包括一个认知词汇ci、一个正面词汇spj或负面词汇snj以及包含此词汇对的正面文本数量numPosq与负面文本数量numNegq;将认知词汇相同的词汇对进行汇总,得到此认知词汇对应长度为子序列的正面文本总数量numPosSum与负面文本总数量numNegSum;
其中,j与q分别表示正面与负面内侧矩形所在子序列的序号,j∈[1,r],q∈[1,s],r和s分别表示正面与负面内侧矩形所在子序列的长度;
2)文字序列坐标计算
认知词汇ci的Y轴坐标cy(i)计算公式如下:
其中,iniYc表示第一个认知词汇距离X轴的距离,transc表示认知词汇之间的间隔,cH表示每个认知词汇的高度;
认知词汇ci采用居中方式对齐,其X轴坐标cx(i)计算公式如下:
其中,iniXc表示认知词汇的起始X轴坐标,cWi表示认知词汇的宽度,i∈[1,n];
3)情感词汇序列坐标计算
正面/负面情感词汇si的Y轴坐标sy(i)计算公式如下:
其中,iniYs表示第一个情感词汇距离X轴的距离,transs表示情感词汇之间的间隔,sH表示每个情感词汇的高度;
情感词汇si采用居中方式对齐,其X轴坐标sx(i)计算公式如下:
其中,iniXs表示情感词汇的起始X轴坐标,sWi表示情感词汇的宽度,m与k分别为正面、负面情感词汇序列长度;在正面情感词汇序列坐标计算中,i∈[1,m];在负面情感词汇序列坐标计算中,i∈[1,k];
4)嵌套矩形序列坐标计算
外侧矩形;正面与负面外侧矩形宽度的具体计算公式如下:
其中,numPosSummax与numNegSummax分别为子序列中正面与负面文本数量最大值,recPosWmax与recNegWmax分别为正面与负面外侧矩形宽度最大值,i∈[1,n];
内侧矩形;内侧矩形的宽度计算公式如下:
其中,numPosSumi与numNegSumi分别为正面与负面内侧矩形所在子序列的文本总数量,recPosWi与recNegWi分别为正面与负面内侧矩形所在外侧矩形的宽度,i∈[1,n],j∈[1,r],q∈[1,s];
采用渐变线性颜色映射模型,使用以外侧矩形颜色为基础的渐变色,其颜色映射计算方式如下所示:
其中,posColmax与posColmin分别表示正面内侧矩形颜色映射最大值与最小值,负面内侧矩形同理。
进一步地,在步骤5中,所述时序演变可视化布局具体为:
1)根据所选时间粒度,获取对应的认知与情感形象数据;
2)按照基本布局计算每个时间节点下画布容器的大小,并依次计算认知词汇与嵌套矩形的位置;
3)获取不同时间节点中相同的认知词汇位置信息,并按照B样条曲线的计算公式计算每条“流”的位置,其中两个控制点计算公式如下:
其中,P1与P2分别为两个具有相同名称但属于不同时间节点的词汇坐标点;
4)可视化绘制与渲染。
进一步地,在步骤5中,所述分类对比布局具体为:
1)获取用户所定义的类别名称、颜色,并定义为如下结构;
其中,Category定义为类别集合,每一个类别由认知词汇集合cogListi,类别名称namei,类别颜色colori构成;
2)根据类别个数计算每个类别画布容器的大小,并依次计算认知词汇与嵌套矩形的位置;
3)可视化渲染与绘制;
4)根据用户的动态交互选择更新数据,调整视图布局,重新渲染视图。
进一步地,在步骤1中,所述目的地数据包括省份、城市以及城市中的子目的地信息。
进一步地,在步骤5的分类对比可视化布局中,还包括提供添加类别标签及选择颜色的方式,动态实时地更新结果。
与现有技术相比,本发明的有益效果是:1)弥补了现状中存在的无法对目的地认知与情感形象进行关联分析的不足之处,使用直观的可视化元素与灵活的交互,对旅游UGC数据进行可视化编码,有助于旅游研究人员更好地进行形象构建与评价工作,并且可以帮助目的地管理组织在新媒体时代中更加准确地理解目的地形象;2)弥补了现状中未充分利用旅游UGC数据所包含的旅游者出发时间、目的地认知形象类别等维度的不足,从时序演变、分类对比等角度全面而客观地构建与分析目的地形象。
附图说明
图1是本发明整体流程示意图。
图2是本发明中基础可视化布局示意图。
图3是本发明中时序演变可视化布局示意图。
图4是本发明中分类对比可视化布局示意图。
图5是本发明中可视化方法布局计算示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。本发明方法包括数据采集与处理、可视化编码、交互设计与可视化布局实现,具体如下:
一、数据采集流程如下:
1、获取省份及其对应的城市列表;
2、根据城市列表中城市名称获取对应的游记及评论URL集合,分析游记及评论URL所对应的HTML网页,获取所需数据的DOM结构,利用Scrapy获取并存储结构化的城市游记及评论数据;
3、根据城市子目的地列表中子目的地名称获取对应的游记及评论URL集合,如同步骤2,利用Scrapy获取并存储结构化的子目的地游记及评论数据。
二、数据处理,包括自定义词库的构建、关键词提取与情感分析三个部分,详述如下:
1、构建自定义词库,包括用户停用词词典的构建和自定义词典的构建两部分。例如,在停用词词典的构建中,综合考虑“哈工大停用词表”、“四川大学机器智能实验室停用词词库”、“百度停用词列表”、“英文停用词词表”,并对以上四个停用词词表进行组合、去重、英文字母转换为小写等操作,构建停用词词典。另外,旅游文本中通常包括目的地、食物等旅游领域专有词汇,为了确保后续中文分词阶段的准确性,因此通过百度旅游网站采集目的地与食物词汇,从而构建旅游自定义词典,其中目的地自定义词典共计词汇32124个,食物自定义词典共计词汇2077个。
2、在关键词提取中,主要采用Gensim提供的LdaModel模块进行处理。Gensim是一款开源第三方Python工具包,支持多种主题模型算法。LDA是一种文档主题生成模型,用于识别大规模文档集中潜在的主题信息,即LDA将每篇文档表示为若干个词汇及其对应的比例。提取步骤如下所示:
1)、获取文本特征列表。主要通过中文分词与去除停用词等步骤建立文本特征列表;中文分词是指将一段中文文字序列切割为可识别的语言单元,即单独的词汇;根据数据特点及适用性,采用中文分词工具jieba进行处理,其提供多种不同模式进行分词,并且支持自定义词典。通过自定义目的地及食物词典的导入进行中文分词,并利用停用词词典去除分词结果中存在的停用词,得到文本特征列表。
2)、训练LDA主题模型。根据文本特征列表,利用Gensim的corpora.Dictionary直接统计词频,并调用doc2bow得到文档-单词矩阵;然后利用models模块的LdaModel,向其传入文档-单词矩阵和需要训练的主题数量,得到LDA主题模型。
3)、关键词提取。调用得到的主题模型,根据主题数量输出旅游文本的主题,结果的输出是按照“主题*比例”的格式,然后根据主题及比例提取关键词。
3、在情感分析中不仅需要分析旅游文本的情感值,而且需要分析正面或者负面评价具体针对于何种方面,因此需要提取文本中关于相应关键词的具体评论观点,即描述关键词的情感词。可选用百度AI开放平台下自然语言处理模块的评论观点抽取功能,其主要用来提取评论关注点和观点,并输出评论观点标签及评论观点极性,同时百度AI提供行业类型选择功能,可专门针对于旅游行业,因此利用百度AI可以得到每个关键词相关的评论观点情感词集合。
三、经过数据采集和处理后,进行可视化编码设计,分别对应于形象词汇和词汇分布量,如图2所示,详述如下:
1、形象词汇编码设计
位置:根据词汇组别计算其对应的平面位置区域,其中认知组别放置于中间区域,正面情感组别词汇放置于左边区域,负面情感组别词汇放置于右边区域。同组别词汇按照其所选的排序方式以竖直位置进行编码。认知组别默认按照降序排序。
2、词汇分布编码设计
形状:嵌套矩形序列包括外侧大矩形序列与内侧小矩形序列,其中外侧大矩形编码当前认知词汇关联的情感词汇,内侧小矩形分别编码当前视图所呈现的单个情感词汇。
颜色:通过两种颜色编码其对应的情感组别,编码方式与形象词汇保持一致,绿色表示正面情感组别词汇,红色表示负面情感组别词汇。内侧小矩形的颜色亮度编码同一认知词汇中不同的情感词汇(在附图中,对红色采用填充表示,对绿色采用填充表示,颜色亮度采用图案填充的密集程度进行区分)。
位置:外侧大矩形与其所属的认知词汇位置编码方式一致,主要以竖直位置进行编码,内侧小矩形以水平位置进行编码。
长度:外侧大矩形长度编码当前认知词汇关联的情感词汇属性值(例如所有与此认知词汇关联的情感词汇的总文本数量或者情感词汇个数),内侧小矩形长度分别编码单个情感词汇属性值。
四、接下来是交互设计,具体为:
1、过滤
旅游文本中涉及大量形象词汇,如果将全部结果呈现在视图上,用户无法从较多信息中提取重点。因此通过设置一定的约束条件对形象数据进行过滤,例如,按照频次对词汇进行排序操作,并展示TOP20的形象词汇,可以帮助用户根据需求过滤数据,高效分析所研究的旅游目的地整体形象。在排序中提供四种方式:按照认知词汇被提及总频次排序(总和)、按照认知词汇对应正面词汇频次排序(正面)、按照认知词汇对应负面词汇频次排序(负面)、按照负面词汇在情感频次总数的占比排序(负占比)。
2、关联
为了便于进一步探索不同形象之间的关联关系,用户可以选择某一形象词汇,从而高亮与此词汇相关的所有词汇,并采用基于B样条曲线的连线绘制方式关联认知词汇与情感词汇。此交互操作适用于认知形象词汇与情感形象词汇。
3、加层
加层操作指在视图的局部添加另一层视图以呈现细节信息,是一种常用的焦点+上下文设计方法。因嵌套矩形序列映射方法仅表示词汇的定量性质,所以通过加层的交互方式使用户可以更为详细地查看每个内侧小矩形所映射的情感词汇名称及频次信息。
五、最后进行可视化布局实现,主要包括三个布局:基础布局、时序演变布局与分类对比布局,具体为:
1、基础可视化布局实现(如图5所示)
1)、数据描述
A、认知词汇序列
认知词汇序列C主要由n个认知词汇构成,具体定义如下:
C={ci|i∈[1,n]}
B、情感词汇序列
情感词汇序列主要分为正面词汇序列SP与负面词汇序列SN,其长度分别为m与k,具体定义如下:
SP={spi|i∈[1,m]}
SN={sni|i∈[1,k]}
C、嵌套矩形序列
嵌套矩形序列主要分为正面子序列与负面子序列,每个子序列主要由一系列“认知-情感词汇对”所构成,每个词汇对包括一个认知词汇ci、一个正面词汇spj或负面词汇snj以及包含此词汇对的文本数量numPosq与numNegq。将认知词汇相同的词汇对进行汇总,得到此认知词汇对应子序列的文本总数量numPosSum与numNegSum。
2)、文字序列坐标计算
根据布局示意图,认知词汇ci的Y轴坐标cy(i)计算公式如下:
其中,iniYc表示第一个认知词汇距离X轴的距离,transc表示认知词汇之间的间隔,cH表示每个认知词汇的高度。
认知词汇ci主要采用居中方式对齐,其X轴坐标cx(i)计算公式如下:
其中,iniXc表示认知词汇的起始X轴坐标,即视图区域的中线位置,cWi表示认知词汇的宽度,i∈[1,n]。情感词汇序列的坐标计算方式相似。
3)、嵌套矩形序列坐标计算
A、外侧矩形
外侧矩形Y轴坐标计算方式与认知词汇相同。因需要将子序列的文本总数量numPosSum与numNegSum映射为矩形宽度,所以正面与负面外侧矩形宽度的具体计算公式如下:
其中,numPosSummax与numNegSummax分别为子序列中正面与负面文本数量最大值,recPosWmax与recNegWmax分别为外侧矩形宽度最大值,i∈[1,n]。
B、内侧矩形
内侧矩形的宽度计算公式如下:
其中,numPosSumi与numNegSumi分别为正面与负面内侧矩形所在子序列的文本总数量,recPosWi与recNegWi分别为正面与负面内侧矩形所在外侧矩形的宽度,i∈[1,n],j∈[1,r],q∈[1,s]。
本发明方法设计方案中将认知词汇相关的情感词汇个数映射为内侧矩形的颜色,因情感词汇个数一般不多于10个,并且考虑设计美观性,采用渐变线性颜色映射模型,使用以外侧矩形颜色为基础的渐变色,其颜色映射计算方式如下所示:
其中,posColmax与posColmin分别表示正面内侧矩形颜色映射最大值与最小值,负面内侧矩形同理。j与q分别表示正面与负面内侧矩形所在子序列的序号,j∈[1,r],q∈[1,s]。
2、时序演变可视化布局实现
1)、根据所选时间粒度,获取对应的认知与情感形象数据;
2)、按照基本布局计算每个时间节点下画布容器的大小,并依次计算认知词汇与嵌套矩形的位置;
3)、获取不同时间节点中相同的认知词汇位置信息,并按照B样条曲线的计算公式计算每条“流”的位置,其中两个控制点计算公式如下:
其中,P1与P2分别为两个具有相同名称但属于不同时间节点的词汇坐标点;
4)、可视化绘制与渲染。
3、分类对比布局实现
1)、获取用户所定义的类别名称、颜色,并定义为如下结构;
其中,Category定义为类别集合,每一个类别由认知词汇集合cogListi,类别名称namei,类别颜色colori构成。
2)、根据类别个数计算每个类别画布容器的大小,并依次计算认知词汇与嵌套矩形的位置;
3)、可视化渲染与绘制;
4)、根据用户的动态交互选择更新数据,调整视图布局,重新渲染视图。
Claims (8)
1.一种基于旅游UGC的目的地形象可视化方法,其特征在于,包括以下步骤:
步骤1:采集游记数据、评论数据和目的地数据;
步骤2:数据处理,包括构建自定义词库、提取关键词、获取情感词汇;
步骤3:进行可视化编码,首先将数据分为两种类别:分组性质和定量性质,即是形象词汇和词汇分布量;再采用不同的编码方式对两种类别的数据进行编码设计;
分组性质数据使用文字表示三组形象词汇,包括认知形象、正面情感形象和负面情感形象,在认知形象两侧,分别使用嵌套矩形序列表示定量性质的数据,即不同的情感词汇在当前认知词汇中的分布数量情况;
在步骤3中,采用不同的编码方式对两种类别的数据进行编码设计具体为:
1)形象词汇编码
颜色:通过三种颜色编码形象词汇对应的组别;
位置:根据词汇组别计算其对应的平面位置区域;同组别词汇按照其所选的排序方式以竖直位置进行编码;
2)词汇分布编码
形状:嵌套矩形序列包括外侧大矩形序列与内侧小矩形序列;
颜色:通过两种颜色编码其对应的情感组别;
位置:外侧大矩形与其所属的认知词汇位置编码方式一致,以竖直位置进行编码,内侧小矩形以水平位置进行编码;
长度:外侧大矩形长度编码当前认知词汇关联的情感词汇属性值,内侧小矩形长度分别编码单个情感词汇属性值;
步骤4:进行交互设计,具体包括:
1)通过过滤,过滤出用户所需数据;
2)通过关联在整体形象的基础上进一步探索不同形象之间的关联关系;用户选择某一形象词汇,从而高亮与此词汇相关的所有词汇,并采用基于B样条曲线的连线绘制方式关联认知词汇与情感词汇;此交互操作适用于认知形象词汇与情感形象词汇;
3)通过加层详细地查看认知词汇所对应的情感词汇及数量;加层操作指在视图的局部添加另一层视图以呈现细节信息;通过加层的交互方式使用户更为详细地查看每个内侧小矩形所映射的情感词汇名称及频次信息;
步骤5:进行可视化布局,具体包括:
1)基础可视化布局
根据用户选择的排序条件竖直放置形象词汇,并用连线表示形象词汇之间的关联关系;
2)时序演变可视化布局
时序演变布局是在基础可视化布局上加入时间维度,以水平排列方式展示形象词汇在时间维度下的演变情况;
3)分类对比可视化布局
分类对比布局是在基础可视化布局上加入目的地认知形象类别维度,视图左边区域展示整体认知形象词汇,右边区域以水平或竖直排列方式依次展示不同类别的目的地形象。
2.根据权利要求1所述的基于旅游UGC的目的地形象可视化方法,其特征在于,所述步骤1具体为:获取游记及评论URL集合,分析游记及评论URL所对应的HTML网页,获取所需数据的DOM结构,利用Scrapy获取并存储结构化的城市游记及评论数据;利用Scrapy获取并存储结构化的子目的地游记及评论数据。
3.根据权利要求1所述的基于旅游UGC的目的地形象可视化方法,其特征在于,在步骤2中提取关键词具体为:
1)获取文本特征列表;
2)根据文本特征列表,利用Gensim的corpora.Dictionary直接统计词频,并调用doc2bow得到文档-单词矩阵;再利用models模块的LdaModel,向其传入文档-单词矩阵和需要训练的主题数量,得到LDA主题模型;
3)调用得到的LDA主题模型,根据主题数量输出旅游文本的主题,最后根据主题及比例提取关键词。
4.根据权利要求1所述的基于旅游UGC的目的地形象可视化方法,其特征在于,在步骤5中,所述基础可视化布局具体如下:
1)数据描述
A、认知词汇序列
认知词汇序列C由n个认知词汇构成,ci表示第i个认知词汇,具体定义如下:
C={ci|i∈[1,n]}
B、情感词汇序列
情感词汇序列分为正面词汇序列SP与负面词汇序列SN,其长度分别为m与k,spi表示第i个正面词汇,sni表示第i个负面词汇,具体定义如下:
SP={spi|i∈[1,m]}
SN={Sni|i∈[1,k]}
C、嵌套矩形序列
嵌套矩形序列分为正面子序列与负面子序列,每个子序列由一系列“认知-情感词汇对”所构成,每个词汇对包括一个认知词汇ci、一个正面词汇spj或负面词汇snj以及包含此词汇对的正面文本数量numPosq与负面文本数量numNegq;将认知词汇相同的词汇对进行汇总,得到此认知词汇对应长度为子序列的正面文本总数量numPosSum与负面文本总数量numNegSum;
其中,j与q分别表示正面与负面内侧矩形所在子序列的序号,j∈[1,r],q∈[1,s],r和s分别表示正面与负面内侧矩形所在子序列的长度;
2)文字序列坐标计算
认知词汇ci的Y轴坐标cy(i)计算公式如下:
其中,iniYc表示第一个认知词汇距离X轴的距离,transc表示认知词汇之间的间隔,cH表示每个认知词汇的高度;
认知词汇ci采用居中方式对齐,其X轴坐标cx(i)计算公式如下:
其中,iniXc表示认知词汇的起始X轴坐标,cWi表示认知词汇的宽度,i∈[1,n];
3)情感词汇序列坐标计算
正面/负面情感词汇si的Y轴坐标sy(i)计算公式如下:
其中,iniYs表示第一个情感词汇距离X轴的距离,transs表示情感词汇之间的间隔,sH表示每个情感词汇的高度;
情感词汇si采用居中方式对齐,其X轴坐标sx(i)计算公式如下:
其中,iniXs表示情感词汇的起始X轴坐标,sWi表示情感词汇的宽度,m与k分别为正面、负面情感词汇序列长度;在正面情感词汇序列坐标计算中,i∈[1,m];在负面情感词汇序列坐标计算中,i∈[1,k];
4)嵌套矩形序列坐标计算
外侧矩形;正面与负面外侧矩形宽度的具体计算公式如下:
其中,numPosSummax与numNegSummax分别为子序列中正面与负面文本数量最大值,recPosWmax与recNegWmax分别为正面与负面外侧矩形宽度最大值,i∈[1,n];
内侧矩形;内侧矩形的宽度计算公式如下:
其中,numPosSumi与numNegSumi分别为正面与负面内侧矩形所在子序列的文本总数量,recPosWi与recNegWi分别为正面与负面内侧矩形所在外侧矩形的宽度,i∈[1,n],j∈[1,r],q∈[1,s];
采用渐变线性颜色映射模型,使用以外侧矩形颜色为基础的渐变色,其颜色映射计算方式如下所示:
其中,posColmax与posColmin分别表示正面内侧矩形颜色映射最大值与最小值,负面内侧矩形同理。
7.根据权利要求1所述的基于旅游UGC的目的地形象可视化方法,其特征在于,在步骤1中,所述目的地数据包括省份、城市以及城市中的子目的地信息。
8.根据权利要求1所述的基于旅游UGC的目的地形象可视化方法,其特征在于,在步骤5的分类对比可视化布局中,还包括提供添加类别标签及选择颜色的方式,动态实时地更新结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981307.7A CN110750745B (zh) | 2019-10-16 | 2019-10-16 | 基于旅游ugc的目的地形象可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981307.7A CN110750745B (zh) | 2019-10-16 | 2019-10-16 | 基于旅游ugc的目的地形象可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750745A CN110750745A (zh) | 2020-02-04 |
CN110750745B true CN110750745B (zh) | 2022-06-14 |
Family
ID=69278478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910981307.7A Active CN110750745B (zh) | 2019-10-16 | 2019-10-16 | 基于旅游ugc的目的地形象可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750745B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326472B (zh) * | 2021-05-28 | 2022-07-15 | 东北师范大学 | 一种基于时序多变量数据的模式提取与演化可视分析方法 |
CN113536155B (zh) * | 2021-07-23 | 2023-03-28 | 四川大学 | 一种基于多源数据的旅游路线可视分析与规划方法 |
CN113591487B (zh) * | 2021-08-03 | 2024-04-26 | 江苏省城市规划设计研究院有限公司 | 基于深度学习的旅游景点评论情感分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100205176A1 (en) * | 2009-02-12 | 2010-08-12 | Microsoft Corporation | Discovering City Landmarks from Online Journals |
CN109544394A (zh) * | 2018-11-06 | 2019-03-29 | 北京腾云天下科技有限公司 | 一种旅游地评估方法和计算设备 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
-
2019
- 2019-10-16 CN CN201910981307.7A patent/CN110750745B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100205176A1 (en) * | 2009-02-12 | 2010-08-12 | Microsoft Corporation | Discovering City Landmarks from Online Journals |
CN109544394A (zh) * | 2018-11-06 | 2019-03-29 | 北京腾云天下科技有限公司 | 一种旅游地评估方法和计算设备 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
Non-Patent Citations (2)
Title |
---|
《基于LBS与GIS的旅游资源普查评价与可视化系统研究》;马楠;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20170315;全文 * |
旅游数据的查询与可视分析技术研究;李秋生;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110750745A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750745B (zh) | 基于旅游ugc的目的地形象可视化方法 | |
CN111581376B (zh) | 一种知识图谱自动构建系统及方法 | |
Qian et al. | Retrieve-then-adapt: Example-based automatic generation for proportion-related infographics | |
CN109299253A (zh) | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 | |
CN106777986B (zh) | 药物筛选中基于深度哈希的配体分子指纹生成方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN116402063B (zh) | 多模态讽刺识别方法、装置、设备以及存储介质 | |
Sinar | Data visualization | |
CN109657204A (zh) | 使用非对称度量学习的自动配对字体 | |
CN107622132B (zh) | 一种面向在线问答社区的关联分析可视化方法 | |
CN115905553A (zh) | 面向施工图审查规范知识抽取与知识图谱构建方法及系统 | |
CN103886016B (zh) | 一种用于确定页面中的垃圾文本信息的方法与设备 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN109033282A (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
CN115659987B (zh) | 基于双通道的多模态命名实体识别方法、装置以及设备 | |
CN114036993A (zh) | 基于多尺度跨模态神经网络的多模态讽刺对象检测方法 | |
CN110990536A (zh) | 一种基于bert和知识图谱感知的cql生成方法 | |
CN115757827A (zh) | 专利文本的知识图谱创建方法、装置、存储介质及设备 | |
CN116340541A (zh) | 一种文博知识图谱系统构建方法 | |
CN115238670A (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
Li et al. | MDIVis: Visual analytics of multiple destination images on tourism user generated content | |
CN114782965A (zh) | 基于布局关联性的视觉富文档信息抽取方法、系统及介质 | |
Burns et al. | Towards qualitative geovisual analytics: a case study involving places, people, and mediated experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |