CN108932322A - 一种基于文本大数据的地理语义挖掘方法 - Google Patents
一种基于文本大数据的地理语义挖掘方法 Download PDFInfo
- Publication number
- CN108932322A CN108932322A CN201810693973.6A CN201810693973A CN108932322A CN 108932322 A CN108932322 A CN 108932322A CN 201810693973 A CN201810693973 A CN 201810693973A CN 108932322 A CN108932322 A CN 108932322A
- Authority
- CN
- China
- Prior art keywords
- text
- geographical
- geographical semantics
- semantics
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本大数据的地理语义挖掘方法。本发明采用数据爬取得到带有地理位置标签的文本数据,然后对选取的部分文本数据分配地理语义主题,再将文本数据进行预处理生成词向量,然后再通过机器学习的方式得到所有文本的地理语义主题,最终将所有的地理语义主题以向量的形式输出;本发明根据一个地区的文本数据对该地区的地理语义进行推测,为进一步的城市规划、商业选址、出行规划等提供理论支持和假设;同时本发明的结果还有助于加强人们对某一地区的了解,为人们的出行或游玩规划提供帮助。
Description
技术领域
本发明涉及数据的分析挖掘技术,具体涉及一种基于文本大数据的地理语义挖掘方法。
背景技术
地理语义是一种对于地理信息的语义化描述,反映了一个地区的特点,以及人们对该地区的认知。每一个地理位置都会有它独特的语义信息,例如“北京”作为一个地理位置,它就包含了“政治”、“旅游”、“文化”等语义信息;“中关村”作为一个地理位置,它就包含了“美食”、“商业”、“科技”等语义信息,对于地理语义的挖掘有助于加强人们对某一地理位置的了解。
挖掘地理语义的方法有很多,直接的方式是通过本地生活信息平台(比如大众点评网)或者地图的POI(Point Of Interest)信息,不过这不足以反映人们对一个地区的认知。相对来说,通过挖掘与一个地区相关联的文本中的地理语义,可以更加贴切地反映出人们对于该地区的认知。
对于文本数据来说,主要还是通过一些深度学习的方法来进行处理,比如循环神经网络和其变种长短时记忆网络LSTM[S.Hochreiter and J.Schmidhuber.Long short-term memory.Neural Computation,9(8):1735–1780,1997.],近两年也有使用卷积神经网络CNN的方法来进行文本分类的,还有研究表明,使用一些较为简单的网络模型并不会降低准确率,并且还可以提升训练速度,比如快速文本分类(FastText)[Joulin A,Grave E,Bojanowski P,et al.Bag of tricks for efficient text classification[J].arXivpreprint arXiv:1607.01759,2016.]。Guy Lansley和Paul A.Longley使用推特数据对伦敦地区的话题分布进行了研究,他们对伦敦地区一年产生的约300万条标记地理信息的推特数据进行了分析,基于LDA方法对清洗过后的数据进行了挖掘,从中提取出30个不同的主题,总结了话题内容,分析了部分主题的推特在伦敦的时间以及空间分布,将得到的结果用于分析一个地点发生的典型活动[Lansley G,Longley P A.The geography of Twittertopics in London[J].Computers,Environment and Urban Systems,2016,58:85-96.]。McKenzie,Janowicz,Gao,&Gong使用推特的数据来预测地点的用途[McKenzie G,JanowiczK,Gao S,et al.POI pulse:A multi-granular,semantic signature–based informationobservatory for the interactive visualization of big geosocial data[J].Cartographica:The International Journal for Geographic Information andGeovisualization,2015,50(2):71-85.]。虽然已有一些方法将文本数据与地理位置关联起来,但是目前还没有研究利用文本大数据来全面描述一个位置的地理语义。
通过对地理语义的研究,可以发现位置的深层知识,对位置建立多重维度的描述,在此基础上发掘位置的活动、情感等特征;还可以根据语义化的描述,根据文本推断和预测位置;根据地理语义,还可以对人群在一定空间的行为倾向进行推测和预测。在此基础上,可以建立基于地理语义的推荐系统。面向城市空间分析应用与服务,和用户画像结合,为用户感兴趣的地理位置进行个性化推荐。
综上所述,挖掘人们对于一个地区的地理语义的认知有着重要的意义,而庞大的带有地理位置标签的文本数据则是为信息挖掘提供了数据基础,但是基于此的研究却较少。
发明内容
针对以上现有技术中存在的问题,本发明提出了一种基于文本大数据的地理语义挖掘方法。
本发明的基于文本大数据的地理语义挖掘方法,包括以下步骤:
1)数据爬取:
利用爬虫从网络中进行数据爬取,从而获取带有地理位置标签的文本数据;
2)文本数据标注:
选取部分文本数据,对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题,对于不包含地理语义信息的文本,其地理语义主题为无,从而形成训练文本;
3)文本数据预处理:
将文本数据转换成向量的形式;
4)地理语义有关或无关二分类:
按照是否包含地理语义信息,利用步骤2)中得到的训练文本,将训练文本中所有包含地理语义信息的文本作为正例,不包含地理语义信息的文本作为反例,训练文本二分类模型,并采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类,从而得到地理语义有关文本,即包含地理语义信息的文本;
5)地理语义有关文本多分类:
如果训练文本中各个地理语义主题的文本数量不均衡,则先采用上采样下采样的方法,或者从文本数据中手动选择的方法,将相应地理语义主题的文本加入到训练文本中,从而使得训练文本中各个地理语义主题的文本数量均衡;然后利用步骤2)中得到的训练文本,通过机器学习的方式,得到文本多分类模型,并采用文本多分类模型对步骤4)中的地理语义有关文本进行多分类,从而得到所有文本的地理语义主题;
6)结果输出:
经过地理语义有关文本多分类,所有与地理信息有关的文本会被分到某一个特定的地理语义主题中,由此得到一个地区的各种地理语义主题所包含的文本数量,最终以向量的形式输出。
其中,在步骤3)中,对于文本数据,无法直接进行处理,通常需要将其转换成向量的形式。而对于网络中的文本数据,由于其特殊性,还需要做额外的工作,主要包括以下步骤:
a)中文分词:将文本中的汉字序列切分成一个一个单独的词;
b)数据清洗:清除掉文本数据中包含的无用的信息,并去掉非中文词汇,采用正则表达式或字典精确匹配,无用的信息为对于文本本身表达的语义没有关系的内容,包括超链接、话题、各种表情符号、超文本标记语言HTML的标签;
c)训练词向量模型:将文本中的词生成词向量的形式;词向量的生成方式采用独热码(One-Hot Representation)、词频-逆文本频率(TF-IDF)、共生矩阵(Co-occurrencematrix)和神经网络中的一种或多种。
在步骤4)中,文本二分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。
在步骤5)中,机器学习的方式采用的文本多分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。
在步骤6)中,如果该地区某个地理语义主题所包含的文本数量占比明显高于其它地区,那么该地区的该主地理语义主题的语义强度就较强,反之则较弱,每一个地理语义主题所包含的文本数量采用一个0到1之间的小数进行表达这种“强弱”关系,对于给定的地区,最终的输出是以向量的形式,包含了该区域各个地理语义主题的多个小数。
本发明的优点:
本发明采用数据爬取得到带有地理位置标签的文本数据,然后对选取的部分文本数据分配地理语义主题,再将文本数据进行预处理生成词向量,然后再通过机器学习的方式得到所有文本的地理语义主题,最终将所有的地理语义主题以向量的形式输出;本发明根据一个地区的文本数据对该地区的地理语义进行推测,为进一步的城市规划、商业选址、出行规划等提供理论支持和假设;同时本发明的结果还有助于加强人们对某一地区的了解,为人们的出行或游玩规划提供帮助。
附图说明
图1为本发明的基于文本大数据的地理语义挖掘方法的流程图;
图2为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的某地区的结果雷达图;
图3为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的微博主题数量分布柱状图;
图4为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的某地区的地理语义主题分布柱状图;
具体实施方式
下面结合附图,通过具体实施例,进一步阐述本发明。
在本实施例中,所使用的数据为2016年全年北京市带有地理信息的微博数据,总共有4975416条微博,并且将北京市五环内划分为234个地区。
如图1所示,本实施例的基于文本大数据的地理语义挖掘方法,包括以下步骤:
1)数据爬取:
由于没有公开的数据源,本实施例中利用爬虫从网络中微博数据进行数据爬取,从而获取带有地理位置标签的文本数据。
2)文本数据标注:
文本数据本身是不带有地理语义主题的,所以为了更加准确地得知文本中所包含地理语义信息,需要对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题,作为训练文本;本实施例在进行数据挖掘的时候选取了13个主题,分别为餐饮、运动、旅游、购物、酒店、医院、学校、住宅、办公、娱乐、交通、培训、生活辅助。选取这13个主题是因为这个是生活中在人们描述一个地点的时候,最常见的几个语义,在选取主题的时候,参考了大众点评、美团的分类方式以及高德地图的POI类别,并且合并了一些在微博文本中出现较少的主题,比如宠物相关、私家车相关等的主题统一合并为生活辅助,因为人们几乎不会在洗车或者对宠物进行保养的时候发一条微博,所以相当于在选取主题的时候也要考虑主题在大数据中是否存在可挖掘的内容。除了这13个主题之外,对于不包含地理语义信息的文本,分配的地理语义主题为无。本实施例中共标注5000条微博,其中不包含地理语义信息的文本共3743条。完整的类别统计信息如下表1所示:
餐饮 | 运动 | 旅游 | 购物 | 酒店 | 医院 | 学校 |
269 | 94 | 110 | 28 | 13 | 19 | 179 |
住宅 | 办公 | 娱乐 | 交通 | 培训 | 生活辅助 | 无 |
178 | 118 | 114 | 99 | 21 | 35 | 3743 |
表1
3)文本数据预处理:
a)中文分词:在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,而自然语言处理中通常是以词为单位来进行分析的,因为词可以说是带有语义的最小单位。在本实施例中,采用结巴(jieba:https://github.com/fxsjy/jieba)分词对文本数据进行分词,并去掉停用词和标点符号,将文本中的汉字序列切分成一个一个单独的词;
b)数据清洗:在微博中,包含了话题、标签符号和超链接,这些信息对于地理语义信息的获取不能提供帮助,并且会对结果造成干扰,所以在预处理阶段采用正则表达式来清洗掉这些无用的信息;以一条微博为例:
“#2016新年快乐#新年都是新景象![抢到啦][发红包啦]http://t.cn/z8AauOj”
在选取的这条典型微博中,我们可以看到噪音信息大致有如下几种:
i.话题信息:“#2016新年快乐”,话题信息通常与地理信息无关,不过也有人愿意将一部分微博内容用话题包裹起来,所以比较好的处理方式是将热门话题去除
ii.表情信息:“[抢到啦][发红包啦]”,表情信息通常用于表述情感,对于微博的地理语义信息的分析没有帮助
iii.超链接:http://t.cn/z8AauOj,超链接使用场景很多,对于文本分析没有任何意义。
c)训练词向量模型:选取最常见的神经网络词向量模型——Word to Vector作为实际使用的词向量模型,通常训练中文词向量模型都是利用搜狗全网新闻数据[http://www.sogou.com/labs/resource/ca.php]或者中文维基百科,但是微博文本与这些较为正规的文本数据略有不同,存在着简短化、口语化等特点,所以本实验同时使用了搜狗全网新闻数据和微博数据进行词向量模型的训练。
4)地理语义有关或无关二分类:
按照是否包含地理语义信息,采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类,从而得到地理语义有关文本;选取LSTM作为文本二分类模型,并和其它几种分类模型的效果进行了对比。LSTM能够使用已训练好的词向量模型,也可以使用Word Embedding层而直接将分词后的文本作为输入。实验中发现使用预训练的词向量模型可以显著提升分类效果。下表2为各分类模型效果对比:
表2
从表2中可以看到LSTM在该数据集上表现优于别的模型。
5)地理语义有关文本多分类:
如果训练文本中各个地理语义主题的文本数量不均衡,则先采用上采样下采样的方法,或者从文本数据中手动选择的方法,将相应地理语义主题的文本加入到训练文本中,从而使得训练文本中各个地理语义主题的文本数量均衡;然后利用步骤2)中得到的分配了地理语义主题的训练文本,通过机器学习的方式得到所有文本的地理语义主题;本实施例中选取LSTM作为分类模型,使用预训练的Word embedding层作为输入。
网络的主要参数设置如下:
●单元数量:128
●Dropout:0.5
●学习率:0.001
●优化器:Adam
●损失函数:交叉熵
得到最终的多分类正确率为52.2%。
6)结果输出:
最终的结果分地区输出,每个地区包含多个地理语义主题的数值,以五道口为例,其微博主题数量分布如图3所示,地理语义主题如图4所示。
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (6)
1.一种基于文本大数据的地理语义挖掘方法,其特征在于,所述地理语义挖掘方法包括以下步骤:
1)数据爬取:
利用爬虫从网络中进行数据爬取,从而获取带有地理位置标签的文本数据;
2)文本数据标注:
选取部分文本数据,对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题,对于不包含地理语义信息的文本,其地理语义主题为无,从而形成训练文本;
3)文本数据预处理:
将文本数据转换成向量的形式;
4)地理语义有关或无关二分类:
按照是否包含地理语义信息,利用步骤2)中得到的训练文本,将训练文本中所有包含地理语义信息的文本作为正例,不包含地理语义信息的文本作为反例,训练文本二分类模型,并采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类,从而得到地理语义有关文本,即包含地理语义信息的文本;
5)地理语义有关文本多分类:
如果训练文本中各个地理语义主题的文本数量不均衡,则先采用上采样下采样的方法,或者从文本数据中手动选择的方法,将相应地理语义主题的文本加入到训练文本中,从而使得训练文本中各个地理语义主题的文本数量均衡;然后利用步骤2)中得到的训练文本,通过机器学习的方式,得到文本多分类模型,并采用文本多分类模型对步骤4)中的地理语义有关文本进行多分类,从而得到所有文本的地理语义主题;
6)结果输出:
经过地理语义有关文本多分类,所有与地理信息有关的文本会被分到某一个特定的地理语义主题中,由此得到一个地区的各种地理语义主题所包含的文本数量,最终以向量的形式输出。
2.如权利要求1所述的地理语义挖掘方法,其特征在于,在步骤3)中,将文本数据转换成向量的形式,包括以下步骤:
a)中文分词:将文本中的汉字序列切分成一个一个单独的词;
b)数据清洗:清除掉文本数据中包含的无用的信息,并去掉非中文词汇;
c)训练词向量模型:将文本中的词生成词向量的形式;词向量的生成方式采用独热码、词频-逆文本频率、共生矩阵和神经网络中的一种或多种。
3.如权利要求2所述的地理语义挖掘方法,其特征在于,在步骤b)中,无用的信息为对于文本本身表达的语义没有关系的内容,包括超链接、话题、各种表情符号、超文本标记语言HTML的标签,采用正则表达式或字典精确匹配。
4.如权利要求1所述的地理语义挖掘方法,其特征在于,在步骤4)中,文本二分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。
5.如权利要求1所述的地理语义挖掘方法,其特征在于,在步骤5)中,机器学习的方式采用的文本多分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。
6.如权利要求1所述的地理语义挖掘方法,其特征在于,在步骤6)中,如果该地区某个地理语义主题所包含的文本数量占比明显高于其它地区,那么该地区的该主地理语义主题的语义强度就较强,反之则较弱,每一个地理语义主题所包含的文本数量采用一个0到1之间的小数进行表达这种“强弱”关系,对于给定的地区,最终的输出是以向量的形式,包含了该区域各个地理语义主题的多个小数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810693973.6A CN108932322A (zh) | 2018-06-29 | 2018-06-29 | 一种基于文本大数据的地理语义挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810693973.6A CN108932322A (zh) | 2018-06-29 | 2018-06-29 | 一种基于文本大数据的地理语义挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108932322A true CN108932322A (zh) | 2018-12-04 |
Family
ID=64446641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810693973.6A Pending CN108932322A (zh) | 2018-06-29 | 2018-06-29 | 一种基于文本大数据的地理语义挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932322A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110055A (zh) * | 2019-03-25 | 2019-08-09 | 杭州恩牛网络技术有限公司 | 一种从文本中提取地理位置信息的方法及装置 |
CN110348877A (zh) * | 2019-05-27 | 2019-10-18 | 上海大学 | 基于大数据的智能业务推荐算法、计算机可读存储介质 |
CN110442715A (zh) * | 2019-07-31 | 2019-11-12 | 北京大学 | 一种基于多元大数据的综合城市地理语义挖掘方法 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN111881670A (zh) * | 2020-06-12 | 2020-11-03 | 广州忘平信息科技有限公司 | 一种铁路安监数据处理方法、系统、装置和存储介质 |
CN111898043A (zh) * | 2020-07-02 | 2020-11-06 | 北京大学 | 一种城市旅行路线规划的方法 |
CN113111170A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本轨迹地信息提取方法和装置 |
CN113961699A (zh) * | 2021-09-26 | 2022-01-21 | 北京清华同衡规划设计研究院有限公司 | 一种旅游资源调查方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262214A1 (en) * | 2004-04-27 | 2005-11-24 | Amit Bagga | Method and apparatus for summarizing one or more text messages using indicative summaries |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105183870A (zh) * | 2015-09-17 | 2015-12-23 | 武汉大学 | 一种利用微博位置信息的城市功能区探测方法及系统 |
CN106777335A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 |
-
2018
- 2018-06-29 CN CN201810693973.6A patent/CN108932322A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262214A1 (en) * | 2004-04-27 | 2005-11-24 | Amit Bagga | Method and apparatus for summarizing one or more text messages using indicative summaries |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105183870A (zh) * | 2015-09-17 | 2015-12-23 | 武汉大学 | 一种利用微博位置信息的城市功能区探测方法及系统 |
CN106777335A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
李传扬: "微博分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄旭: "基于机器学习的汉语短文本分类方法研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110055A (zh) * | 2019-03-25 | 2019-08-09 | 杭州恩牛网络技术有限公司 | 一种从文本中提取地理位置信息的方法及装置 |
CN110110055B (zh) * | 2019-03-25 | 2021-10-12 | 杭州恩牛网络技术有限公司 | 一种从文本中提取地理位置信息的方法及装置 |
CN110348877A (zh) * | 2019-05-27 | 2019-10-18 | 上海大学 | 基于大数据的智能业务推荐算法、计算机可读存储介质 |
CN110348877B (zh) * | 2019-05-27 | 2023-11-14 | 上海大学 | 基于大数据的智能业务推荐算法、计算机可读存储介质 |
CN110442715A (zh) * | 2019-07-31 | 2019-11-12 | 北京大学 | 一种基于多元大数据的综合城市地理语义挖掘方法 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN110472066B (zh) * | 2019-08-07 | 2022-03-25 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN113111170A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警文本轨迹地信息提取方法和装置 |
CN111881670A (zh) * | 2020-06-12 | 2020-11-03 | 广州忘平信息科技有限公司 | 一种铁路安监数据处理方法、系统、装置和存储介质 |
CN111898043A (zh) * | 2020-07-02 | 2020-11-06 | 北京大学 | 一种城市旅行路线规划的方法 |
CN111898043B (zh) * | 2020-07-02 | 2023-11-24 | 北京大学 | 一种城市旅行路线规划的方法 |
CN113961699A (zh) * | 2021-09-26 | 2022-01-21 | 北京清华同衡规划设计研究院有限公司 | 一种旅游资源调查方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932322A (zh) | 一种基于文本大数据的地理语义挖掘方法 | |
Balakrishnan et al. | Constrained decoding for neural NLG from compositional representations in task-oriented dialogue | |
Gozhyj et al. | Uniform Method of Operative Content Management in Web Systems. | |
Hahmann et al. | Twitter location (sometimes) matters: Exploring the relationship between georeferenced tweet content and nearby feature classes | |
Wang et al. | Fine-grained assessment of greenspace satisfaction at regional scale using content analysis of social media and machine learning | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
Hertling et al. | Webisalod: providing hypernymy relations extracted from the web as linked open data | |
CN103853824A (zh) | 一种基于深度语义挖掘的内文广告发布方法与系统 | |
CN106716399A (zh) | 排序在线社交网络上的外部内容 | |
CN103440314A (zh) | 一种基于Ontology的语义检索方法 | |
Paul et al. | Focused domain contextual AI chatbot framework for resource poor languages | |
Berragan et al. | Transformer based named entity recognition for place name extraction from unstructured text | |
Liu et al. | Semantic social media analysis of Chinese tourists in Switzerland | |
Peterlin et al. | Automated content analysis: The review of the big data systemic discourse in tourism and hospitality | |
Agarwal et al. | Can twitter help to predict outcome of 2019 indian general election: A deep learning based study | |
Li et al. | Words analysis of online Chinese news headlines about trending events: a complex network perspective | |
Atreja et al. | Citicafe: An interactive interface for citizen engagement | |
Guzmán de Núñez et al. | A proposal for sentiment analysis on twitter for tourism-based applications | |
Haris et al. | Mining graphs from travel blogs: a review in the context of tour planning | |
Nguyen et al. | Analyzing Customer Experience in Hotel Services Using Topic Modeling. | |
Fernandes et al. | Automated disaster news collection classification and geoparsing | |
CN103970865A (zh) | 基于种子词的微博文本层次主题发现方法及系统 | |
Wu et al. | Typical opinions mining based on Douban film comments in animated movies | |
Kirsch et al. | Noise reduction in distant supervision for relation extraction using probabilistic soft logic | |
Fudholi et al. | BERT-based tourism named entity recognition: making use of social media for travel recommendations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181204 |
|
RJ01 | Rejection of invention patent application after publication |