CN109947873B

CN109947873B - 景点知识地图构建方法、装置、设备及可读存储介质

Info

Publication number: CN109947873B
Application number: CN201710692594.0A
Authority: CN
Inventors: 范玉顺; 白冰; 徐洁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2021-11-23
Anticipated expiration: 2037-08-14
Also published as: CN109947873A

Abstract

本发明涉及一种基于文本的景点知识地图的构建方法，包括：获取与所述文本对应的景点集合，所述景点集合包括景点名称；获取所述景点集合中任意两个景点之间的景点相似度；根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图。上述景点知识地图构建方法，实现快速、有效地在海量的文本中进行数据挖掘，从而获取与各个景点有关的有用信息，并将有用信息以可视化的方式展示出来。本发明还涉及一种景点知识地图的构建装置、设备及可读存储介质。

Description

景点知识地图构建方法、装置、设备及可读存储介质

技术领域

本发明涉及软件领域，特别是涉及景点知识地图构建方法、装置、设备及可读存储介质。

背景技术

随着Web2.0技术以及OTA(Online Travel Agent，在线旅游代理)的飞速发展，旅游数据特别是与景点相关的文本数据(如游记)爆炸性增长。如何从海量的与景点相关的文本数据中快速、有效地获取与各个景点有关的有用信息，并以可视化的方式展现出来，成为迫切要解决的问题。

发明内容

基于此，有必要提供一种景点知识地图构建方法、装置、设备以及可读存储介质，从而有效的从文本数据中快速有效的获取有用信息，并以可视化的方式展现出来。

所述方法包括：

获取与所述文本对应的景点集合，所述景点集合包括景点名称；

获取所述景点集合中任意两个景点之间的景点相似度；

根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图。

上述景点知识地图构建方法，通过在海量的文本中进行数据挖掘，首先构建各个文本对应的景点集合，然后计算景点相似度，并利用力导向布局算法将景点以及景点相似度构建景点知识地图，从而实现快速、有效地获取与各个景点有关的有用信息，并将有用信息以可视化的方式展示出来。

作为一种实施例，其中，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤包括：

将所述景点集合中的各个景点名称作为对应的节点，将所述两个景点相似度为对应两个节点之间的权重，利用力导向布局算法构建所述景点知识地图。

作为一种实施例，其中，所述获取所述文本对应的景点集合的步骤包括：

依次获取景点列表中的景点名称，并将所述景点名称在所述文本中逐一进行匹配；

若匹配成功，则将与所述文本匹配的景点名称添加至与所述文本对应的景点集合，直至所述景点列表中所有的景点名称均完成匹配。

作为一种实施例，其中，在所述获取与所述文本对应的景点集合之后，所述方法还包括：

根据预先设置的全局景点以及所述景点集合，构建扩展景点集合，并将所述扩展景点集合赋值给所述景点集合。

作为一种实施例，其中，所述获取所述两个景点之间的景点相似度的步骤包括：

对所述文本进行分词，获得所述文本对应的词袋；

根据作者主题模型，将所述景点集合作为作者集合，将所述词袋作为文档，获得所述景点集合中各个景点的景点主题向量；

根据所述景点集合中任意两个景点的景点主题向量，获取所述两个景点之间的景点相似度。

作为一种实施例，其中，所述根据作者主题模型，将所述扩展景点集合作为作者集合，将所述词袋作作为文档，获得所述景点集合中各个景点的景点主题向量的步骤包括：

对词袋中各个词语进行概率采样，获得采样结果；

根据所述采样结果，计算获得各个景点对应的景点主题向量。

作为一种实施例，其中，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤之后，所述方法还包括：

遍历所有所述景点相似度，并用预先配置的相似度阈值更新所有小于所述相似度阈值的景点相似度；

根据更新后的景点相似度更新所述景点知识地图。

作为一种实施例，其中，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图步骤之后，所述方法还包括：

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

统计与所述各个景点的对应的文本的个数，并根据所述文本个数获得所述景点对应的景点热度；

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

一种基于文本的景点知识地图的构建装置，其中，所述装置包括：

景点集合获取模块，用于获取与所述文本对应的景点集合，所述景点集合包括景点名称；

相似度获取模块，用于获取所述景点集合中任意两个景点之间的景点相似度；

地图构建模块，用于根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图。

上述景点知识地图构建装置，通过在海量的文本中进行数据挖掘，首先构建各个文本对应的景点集合，然后计算景点相似度，并利用力导向布局算法将景点以及景点相似度构建景点知识地图，从而实现快速、有效地获取与各个景点有关的有用信息，并将有用信息以可视化的方式展示出来。

作为一个具体实施例，其中，所述景点获取模块包括：

景点匹配单元，用于依次获取景点列表中的景点名称，并将所述景点名称在所述文本中逐一进行匹配；

景点集合生成单元，用于若匹配成功，则将与所述文本匹配的景点名称添加至与所述文本对应的景点集合，直至所述景点列表中所有的景点名称均完成匹配。

作为一个实施例，其中，所述装置还包括：

扩展集合获取单元，用于根据预先设置的全局景点以及所述景点集合，构建扩展景点集合，并将所述扩展景点集合赋值给所述景点集合。

作为一个实施例，其中，所述获取所述相似度获取模块包括：

词袋获取单元，用于对所述文本进行分词，获得所述文本对应的词袋；

景点主题向量获取单元，用于根据作者主题模型，将所述景点集合作为作者集合，将所述词袋作为文档，获得所述景点集合中各个景点的景点主题向量；

景点相似度获取单元，用于根据所述景点集合中任意两个景点的景点主题向量，获取所述两个景点之间的景点相似度。

作为一个实施例，其中，景点主题向量获取单元包括：

采用结果获取单元，用于对词袋中各个词语进行概率采样，获得采样结果；

景点主题向量计算单元，用于根据所述采样结果，计算获得各个景点对应的景点主题向量。

作为一种实施例，其中，所述装置还包括：

类别获取模块，用于根据所述景点主题向量获取所述景点对应的景点类别；

颜色获取模块，用于根据景点类别获取所述景点对应的节点的颜色；

第一地图更新模块，用于根据所述节点的颜色更新景点知识地图。

作为一种实施例，其中，所述装置还包括：

热度获取模块，用于统计与所述各个景点的对应的文本的个数，并根据所述文本个数获得所述景点对应的景点热度；

直径获取模块，用于根据景点热度获取所述景点对应的节点直径；

第二地图更新模块，用于根据所述节点直径更新景点知识地图。

一种基于文本的构建景点知识地图的计算机设备，所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令，所述计算机指令在被所述处理器执行时实现方法包括：

获取所述景点集合中任意两个景点之间的景点相似度；

上述计算机设备，通过在海量的文本中进行数据挖掘，首先构建各个文本对应的景点集合，然后计算景点相似度，并利用力导向布局算法将景点以及景点相似度构建景点知识地图，从而实现快速、有效地获取与各个景点有关的有用信息，并将有用信息以可视化的方式展示出来。

作为一种实施例，其中，处理器执行的所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤包括：

作为一种实施例，其中，处理器执行的所述获取所述文本对应的景点集合的步骤包括：

作为一种实施例，其中，处理器执行的在所述获取与所述文本对应的景点集合之后，所述方法还包括：

作为一种实施例，其中，处理器执行的所述获取所述两个景点之间的景点相似度的步骤包括：

对所述文本进行分词，获得所述文本对应的词袋；

作为一种实施例，其中，处理器执行的所述根据作者主题模型，将所述扩展景点集合作为作者集合，将所述词袋作作为文档，获得所述景点集合中各个景点的景点主题向量的步骤包括：

对词袋中各个词语进行概率采样，获得采样结果；

作为一种实施例，其中，处理器执行的所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤之后，所述方法还包括：

根据更新后的景点相似度更新所述景点知识地图。

作为一种实施例，其中，处理器执行的所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图步骤之后，所述方法还包括：

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

一种基于文本的构建景点知识地图的可读存储介质，所述可读存储介质中存储有计算机指令，所述计算机指令在被处理器执行时实现的方法包括：

获取与所述文本对应的景点集合；所述景点集合包括景点名称；

获取所述景点集合中任意两个景点之间的景点相似度；

上述可读存储介质，通过在海量的文本中进行数据挖掘，首先构建各个文本对应的景点集合，然后计算景点相似度，并利用力导向布局算法将景点以及景点相似度构建景点知识地图，从而实现快速、有效地获取与各个景点有关的有用信息，并将有用信息以可视化的方式展示出来。

作为一种实施例，其中，处理器所执行的所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤包括：

对所述文本进行分词，获得所述文本对应的词袋；

对词袋中各个词语进行概率采样，获得采样结果；

根据更新后的景点相似度更新所述景点知识地图。

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

附图说明

图1为其中一个实施例提供的基于文本的景点知识地图的构建方法的流程图；

图2为其中一个实施例提供的图1中步骤S120的流程图；

图3为其中一个实施例提供的图1中步骤S140的流程图；

图4为其中一个实施例提供的基于作者主体模型的概率图模型示意图；

图5为其中一个实施例提供的景点知识地图构建方法的部分流程图；

图6为其中一个实施例提供的景点知识地图构建方法的部分流程图；

图7为其中一个实施例提供的景点知识地图的构建方法的部分流程图；

图8为其中一个实施例提供的景点知识地图的构建装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为一种基于文本的景点知识地图的构建方法的流程图，其中，所述方法包括：

S120，获取与所述文本对应的景点集合，所述景点集合包括景点名称。

具体地，所述文本是指多个记载景点信息的文字信息，包括并不限于游客各种在线旅游平台中发布的游记，以及在微信、微博等信息平台中的文字信息。在上述文字信息中，选择某一文本，获取其中涉及到的所有景点的名称，组成景点集合。可以理解，所述景点集合是由文本中所涉及的所有的景点的名称所组成的集合。

S140，获取所述景点集合中任意两个景点之间的景点相似度。

具体地，在步骤S104获得的景点集合中任选两个景点，均可计算景点的相似度。所述景点的相似度是用来度量两个景点之间的相似程度。在本实施例中，景点之间的相似程度可以由两个景点的主题特征的相似程度进行度量。所述主题特征是指景点被文本所提及的特征，例如在首都博物馆这一主题中，可能具有宏伟、陈列物丰富等主题特征。

S160，根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图。

具体地，力导向布局算法是绘图的一种算法，在二维或三维空间里配置节点，节点之间用连线(边)进行连接，各连线(边)可以包括权重。

在一个具体实施例中，图1中的步骤S160，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤包括：

具体地，以景点集合中的景点作为对应的节点，以所述两个景点相似度为对应两个节点之间的权重，并使用力导向布局算法进行布局，生成包括节点以及节点之间连线(边)的景点知识地图，所述两个节点之间的权重即节点之间连线(边)的权重。

在一个具体实施例中，图1中的步骤S120，所述获取所述文本对应的景点集合包括：

依次获取景点列表中的景点名称，并将所述景点名称在所述文本中逐一进行匹配。

具体地，基于百度百科词条、景点介绍、微博平台等先验知识，确定景点的名称，假设共有J个不同的景点名称，则构建一个由1到J的整数集合，并建立起由J个不同的景点名称到所述整数集合的映射，使一个整数对应一个景点名称，从而获得景点列表SL。

进一步地，所述景点的名称可以包括别名、简化名等，即相同景点无论使用别名、简化名还是正式名均为一个景点名称，映射一个整数。例如，将景点“首都博物馆”、“首博”均映射为1。

具体地，对于每个文本，均从文本中提取其中涉及到的景点名称。为了描述更加清楚，将景点列表中的名称记为第一景点名称，将文本中涉及到的景点名称记为第二景点名称。遍历所述文本，将列表中的第一景点名称与文本中的第二景点名称进行匹配，假设景点列表中有3个景点，分别为首都博物馆、颐和园、故宫，则首先将首都博物馆作为第一景点名称，将首都博物馆与在所述文本中进行匹配。所述匹配，是指采用关键词匹配的方法，如果在文本中出现了某个景点的名称，则认为此文本涉及到了该景点。

具体地，所述匹配成功，可以是指文本中包括与所述第一景点名称完全一致，也可以视具体需求，采用相似度算法计算第一景点名称与文本中相关词语的相似度，并设置不同的相似度阈值，并将计算的相似度与相似度阈值进行比较，进而判断是否匹配成功。

进一步地，如果所述第一景点名称中包括别名、简化名、正式名等，则分别将别名、简化名、正式名在所述文本中进行匹配，如果匹配成功，则只将第一景点名称添加至所述文本对应的景点集合。

请参阅图2，图2为其中一个实施例提供的图1中步骤S120的流程图，步骤S120所述获取所述文本对应的景点集合包括：S122，获取景点列表中的第一景点名称，并将所述第一景点名称在所述文本中进行匹配。

S124,若匹配成功，则将所述第一景点名称添加至与所述文本对应的景点集合，并将景点列表中的下一个景点名称作为第一景点名称，继续执行所述获取景点列表中的第一景点名称，并将所述第一景点名称在所述文本中进行匹配的步骤；

具体地，如果匹配成功，则文本中涉及到所述第一景点名称，则将第一景点名称添加至该文本对应的景点集合。

S126，若未匹配成功，则将景点列表中的下一个景点名称作为第一景点名称，继续执行所述获取景点列表中的第一景点名称，并将所述第一景点名称在所述文本中进行匹配的步骤，直至所述景点列表中所有的景点名称均完成匹配。

具体地，将景点列表中的下一个景点作为第一景点名称，继续进行匹配，直到景点列表中所有的景点名称均完成匹配。例如，如果景点列表SL中包括首都博物馆、颐和园、故宫，则首先将首都博物馆作为第一景点名称，在所述文本中进行匹配，如果匹配成功，则将首都博物馆添加至景点集合。然后将颐和园作为第一景点名称，在所述文本中进行匹配，如果未匹配成功，则最后将故宫作为第一景点名称，在文本中进行匹配，如果匹配成功，则将故宫添加至景点集合。假设初始化的景点集合为空集，则最后获得的景点集合为{首都博物馆，故宫}。

进一步地，所述文本可以包括多篇，即有i个文本，则对每个文本D_i，比对景点列表SL,可以获得所述文本对应的景点集合S_i。

作为一个具体实施方式，步骤S120，获取所述文本对应的景点集合的步骤之后包括：

根据预先设置的全局景点添加到景点集合中，获得扩展景点集合，并将所述扩展景点集合赋值给所述景点集合。

具体地，在一个文本中，特别是在游记中，会包括大量的背景词汇，所述背景词汇是指游记中常包含的时间、门票、电话等与景点的主题特征相关性不大的信息，背景词汇比较均匀地分布在大量的文本，特别是游记中，背景词汇不与特定的景点相关联，为了排除这些背景词汇的干扰，预先设置一个全局景点，将所述背景词汇添加至全局景点中。

具体地，在获得的景点集合后，将预先设置的全局景点添加到景点集合中，即可得到扩展景点集合，并将所述扩展景点集合赋值给所述景点集合，例如，获得的景点集合可以是{首都博物馆，故宫}，在添加全局景点后，得到的扩展景点集合为{全局景点，首都博物馆，故宫}或者是{首都博物馆，全局景点，故宫}或者是{首都博物馆，故宫，全局景点}。在获得扩展景点集合之后，再将所述扩展景点集合的值赋值给景点集合，即在后面的步骤中，均以该扩展景点集合的值进行下一步处理。

通过添加全局景点，可以有效的过滤背景词汇，提高文本建模的准确性。

请参阅图3，图3为一个实施例提供的图1中步骤S140的流程图，步骤S140，获取所述两个景点之间的景点相似度包括：

S142，对所述文本进行分词，获得所述文本对应的词袋。

具体地，对于每一个文本，都应用分词工具进行分词，将游记转化为相应的词袋(Bag of Words)。所述词袋，即一系列词语的集合，例如对于文本D_i，经过分词工具分词，可以得到词袋{w_i1,w_i2,...,w_in}，其中下角标i标识第i篇文本，尤其可以是游记文本，下角标n标识第i篇文章对应的词袋中的第n个词语。

进一步地，可以对词袋中的词语进行加权处理，即对高频词或背景词的至少一种的词语降低权重，从而提高建模质量。更进一步地，可以基于TF-IDF(Term Frequency–Inverse Document Frequency)算法进行加权处理，所述TF-IDF算法是一种用于信息检索与数据挖掘的加权技术，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。其中TF(Term Frequency)用来度量一个词语在某个文本中出现的频率，而IDF(Inverse DocumentFrequency)用来度量一个词语重要性，可以由总文本数目除以包含该词语的文件的数目，再将得到的商取对数而得到。通过上述方法分别计算TF以及IDF的值，然后取二者的乘积。TF-IDF算法倾向于过滤掉常见的词语，保留重要的词语。

S144，根据作者主题模型，将所述景点集合作为作者集合，将所述词袋作作为文档，获得所述景点集合中各个景点的景点主题向量。

具体地，基于作者主题模型(Author-Topic Model，ATM)，将景点集合作为作者(Author)集合，将步骤S142得到的词袋作为文档，获得景点集合中各个景点的景点主题向量。所述作者主题模型是对LDA模型的扩展，认为每个作者有一个主题概率分布，而文本的生成过程是首先随机选择一个作者，根据这个作者的主题概率分布，生成一个词，重复该过程直到生成整个文本，其中一个文本可以由多个作者完成，而每个词在属于一个主题的同时，也属于一个作者。在数据挖掘中，把一个文本看作多个主题的混合，并由多个作者完成。

请一并参阅图4，图4是一个具体实施例提供的基于作者主体模型的概率图模型示意图。其中，α是预先设置的超参数，用来描述景点-主题分布；β是预先设置的超参数，用来描述主题-词语分布；T代表主题个数；J用来代表景点个数，由于加入了全局景点gs，因此景点集合中元素的个数为J+1，可以理解，如果不加入全局景点gs，景点集合中元素的个数就是J；θ、

均为可以通过计算获得的估计参数；S_i代表第i篇文章对应的景点集合；s是所有文本涉及的词语的集合，z是所有文本涉及主题的集合；w是词语；I代表文本的个数。

具体地，基于作者主题模型，可以得到各个景点的景点-主题向量Θ＝θ_1：j。

S146，根据所述景点集合中任意两个景点的景点主题向量，获取所述两个景点之间的景点相似度。

具体地，根据任意两个景点之间的景点主题向量，度量景点之间的相似度。进一步地，可以通过余弦相似度度量景点之间的相似度,例如，对于景点j与景点j’的相似度，可以采用如下公式进行度量：

其中θ_j代表景点j的景点主题向量，θ_j‘代表景点j’的景点主题向量。

在一个具体实施例提供的景点知识地图构建方法中，步骤S144，所述根据作者主题模型，将所述扩展景点集合作为作者集合，将所述词袋作作为文档，获得所述景点集合中各个景点的景点主题向量，具体还可以包括：

对词袋中各个词语进行概率采样，获得采样结果；根据所述采样结果，计算获得各个景点对应的景点主题向量。

具体地，对词袋中各个词语进行概率采样，获得采样结果。进一步地，采用吉布斯采样(Gibbs sampling)进行概率采样直至收敛，例如，设有I个文本I＝{1,2……I},任取其中一个文本i，经过分词获得包括N个词语的词袋{w_i1,w_i2,...,w_iN}。任取其中一个词语w_in，将其所隶属的景点记为S_in，将其所隶属的主题记为Z_in,使用下述公式进行吉布斯采用直至收敛，

其中，α是预先设置的超参数，用来描述景点-主题分布；β是预先设置的超参数，用来描述主题-词语分布；T代表主题个数；g_jt是同时隶属于主题t和景点j的词数，c_tw是词语w隶属于某个主题t的次数，上标

表示从集合中去除某个样本。s是所有s_in构成的集合，z是所有z_in构成的集合。更进一步地，在上述采样公式中，将超参数α设置为50/T，其中T代表主题个数，将超参数β设置为0.01。

具体地，根据采用结果，获得景点主题向量。例如，第j个景点的景点主题向量可以根据以下公式计算获得。

其中θ_jt为景点j隶属于主题t的程度，即景点主题向量θ_j的第t个元素，也就是说，如果有T个主题，T＝{1,2……T},对于任一t，均可由上述公式获得其对应的θ_jt，而最终，景点j的景点主题向量为：

θ_j＝{θ₁，θ₂……θ_jT}。

请参阅图5，图5为一个具体实施例提供的景点知识地图构建方法的部分流程图，其中，在步骤S160，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤之后，所述方法还包括：

S520,遍历所有所述景点相似度，并用预先配置的相似度阈值更新所有小于所述相似度阈值的景点相似度。

具体地，可以理解，对于具有N个景点的景点知识地图，计算每两个景点之间的景点相似度，则会获得

个景点相似度，对于所有的景点相似度，根据具体需求，设置一个相似度阈值，仅保留比所述相似度阈值大的景点相似度值。

S540，根据更新后的景点相似度更新所述景点知识地图。

具体地，根据更新后的景点相似度更新所述景点知识地图，这样，景点知识地图中将仅显示比相似度阈值大的景点相似度，即景点地图中连接(边)的权重的仅显示比相似度阈值大的权重，通过上述方法得到的景点知识地图更加简洁、清晰。

请参阅图6，图6为一个具体实施例提供的景点知识地图构建方法的部分流程图。其中，步骤S160，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图之后，所述方法还包括：

S620,根据所述景点主题向量获取所述景点对应的景点类别。

具体地，可以根据景点隶属主题的不同，将景点主题分为不同类别，每个类别用不同的颜色进行标识。进一步地，将景点主题向量中隶属度最高的主题作为景点的类别。例如，对于景点j，其类别可由以下公式确定：

其中θ_jt为景点j隶属于主题t的程度，即景点主题向量θ_j的第t个元素。

S640，根据景点类别获取所述景点对应的节点的颜色。

具体地，根据景点类别获取与所述景点对应的节点的颜色。对景点类别的对与节点颜色的对应关系可以预先进行配置，也可以在使用过程中进行动态调整。所述对应关系可以根据具体需求灵活配置，即可以一个景点类别对应一个节点颜色，也可以多个景点类别对应一个节点颜色。

S660,根据所述节点的颜色更新景点知识地图。

具体地，使用力导向布局算法，根据所述节点的颜色，更新景点知识地图。采用上述方法获得的景点知识地图，使用色彩将不同类别的景点进行区分，使得景点知识可视化后传达的信息更加清晰，同时，也使景点知识地图更加美观。

请参阅图7，图7为其中一个具体实施例提供的景点知识地图的构建方法的部分流程图，其中，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤之后，所述还包括：

S720，统计与所述各个景点的对应的文本的个数，并根据所述文本个数获得所述景点对应的景点热度。

具体地，统计涉及到所述各个景点的文本个数，例如，假设有10个文本，其中有3个文本涉及到景点j，则与景点j对应的文本的个数为3。

具体地，根据所述文本个数获得所述景点对应的景点热度，可以理解，可以根据需求灵活选择根据文本个数获得景点热度的方法，只需要体现出景点热度的值随文本个数增加而增大即可。进一步地，可以使用涉及到某个景点的文本个数的对数加1作为景点热度的度量，例如，对于景点j，其景点热度可以由下述公式获得：

pop_j＝log(card({i|j∈S_i}))+1

其中，card({i|j∈S_i})代表涉及到景点j的文本的个数。

S740，根据景点热度获取所述景点对应的节点直径。

具体地，根据景点类别获取与所述景点对应的节点直径。对景点类别的对与节点直径的对应关系可以预先进行配置，也可以在使用过程中进行动态调整。所述对应关系可以根据具体需求灵活配置，即可以一个景点类别对应一个节点直径，也可以多个景点类别对应一个节点直径。

S760，根据所述节点直径更新景点知识地图。

具体地，使用力导向布局算法，根据所述节点直径，更新景点知识地图。采用上述方法获得的景点知识地图，使用大小将不同热度的景点进行区分，使得景点知识可视化后传达的信息更加丰富、清晰，同时，也使景点知识地图更加美观。

请参阅图8，图8为一种基于文本的景点知识地图的构建装置的结构示意图，其中，所述装置包括：

景点集合获取模块801，用于获取与所述文本对应的景点集合；所述景点集合包括景点名称；

相似度获取模块803，用于获取所述景点集合中任意两个景点之间的景点相似度；

地图构建模块805，用于根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图。

作为一个具体实施例，其中，所述景点获取模块包括：

景点集合获取单元，用于若匹配成功，则将与所述文本匹配的景点名称添加至与所述文本对应的景点集合，直至所述景点列表中所有的景点名称均完成匹配。

作为一个实施例，其中，所述装置还包括：

作为一个实施例，其中，景点主题向量获取单元包括：

作为一种实施例，其中，所装置还包括：

作为一种实施例，其中，装置还包括：

获取所述景点集合中任意两个景点之间的景点相似度；

对所述文本进行分词，获得所述文本对应的词袋；

对词袋中各个词语进行概率采样，获得采样结果；

根据更新后的景点相似度更新所述景点知识地图。

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

获取所述景点集合中任意两个景点之间的景点相似度；

对所述文本进行分词，获得所述文本对应的词袋；

对词袋中各个词语进行概率采样，获得采样结果；

根据更新后的景点相似度更新所述景点知识地图。

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于文本的景点知识地图的构建方法，其特征在于，所述方法包括：

获取与所述文本对应的景点集合，所述景点集合包括景点名称，所述景点集合是根据景点列表中的第一景点名称与所述文本中涉及到的第二景点名称进行匹配得到的；

对所述文本进行分词，获得所述文本对应的词袋；

根据所述景点集合中任意两个景点的景点主题向量，获取任意两个景点之间的景点相似度；

2.根据权利要求1所述的构建方法，其特征在于，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤包括：

3.根据权利要求1所述的构建方法，其特征在于，所述获取所述文本对应的景点集合的步骤包括：

4.根据权利要求1所述的构建方法，其特征在于，在所述获取与所述文本对应的景点集合之后，所述方法还包括：

5.根据权利要求1所述的构建方法，其特征在于，所述根据作者主题模型，将所述景点集合作为作者集合，将所述词袋作作为文档，获得所述景点集合中各个景点的景点主题向量的步骤包括：

对词袋中各个词语进行概率采样，获得采样结果；

6.根据权利要求1所述的构建方法，其特征在于，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图的步骤之后，所述方法还包括：

根据更新后的景点相似度更新所述景点知识地图。

7.根据权利要求1所述的构建方法，其特征在于，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图步骤之后，所述方法还包括：

根据所述景点主题向量获取所述景点对应的景点类别；

根据景点类别获取所述景点对应的节点的颜色；

根据所述节点的颜色更新景点知识地图。

8.根据权利要求1所述的构建方法，其特征在于，所述根据所述景点集合中的各个景点名称以及任意两个景点之间的景点相似度，利用力导向布局算法构建所述景点知识地图步骤之后，所述方法还包括：

根据景点热度获取所述景点对应的节点直径；

根据所述节点直径更新景点知识地图。

9.一种基于文本的景点知识地图的构建装置，其特征在于，所述装置包括：

景点集合获取模块，用于获取与所述文本对应的景点集合，所述景点集合包括景点名称，所述景点集合是根据景点列表中的第一景点名称与所述文本中涉及到的第二景点名称进行匹配得到的；

相似度获取模块，用于对所述文本进行分词，获得所述文本对应的词袋；根据作者主题模型，将所述景点集合作为作者集合，将所述词袋作为文档，获得所述景点集合中各个景点的景点主题向量；根据所述景点集合中任意两个景点的景点主题向量，获取任意两个景点之间的景点相似度；

10.一种基于文本的构建景点知识地图的计算机设备，所述计算机设备包括处理器、存储器以及存储在存储器上的计算机指令，所述计算机指令在被所述处理器执行时实现权利要求1-8任一项所述的方法。

11.一种基于文本的构建景点知识地图的可读存储介质，所述可读存储介质中存储有计算机指令，所述计算机指令在被处理器执行时实现权利要求1-8任一项所述的方法。