CN117236316B - 一种社交媒体中定位地点信息与文本地点信息融合方法 - Google Patents
一种社交媒体中定位地点信息与文本地点信息融合方法 Download PDFInfo
- Publication number
- CN117236316B CN117236316B CN202311511956.3A CN202311511956A CN117236316B CN 117236316 B CN117236316 B CN 117236316B CN 202311511956 A CN202311511956 A CN 202311511956A CN 117236316 B CN117236316 B CN 117236316B
- Authority
- CN
- China
- Prior art keywords
- location information
- social media
- text
- media data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000009193 crawling Effects 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种社交媒体中定位地点信息与文本地点信息融合方法,包括以下步骤:步骤S1采集并筛选与主题相关的社交媒体数据SMD;步骤S2利用命名实体匹配算法NEM从主题相关的社交媒体数据SMD的文本中提取出有效的文本地点信息,并利用定位标记Geotag提取出定位地点信息;步骤S3利用相应的融合策略将文本地点信息与定位地点信息进行融合,以确定每条社交媒体数据SMD使用哪种地点信息来为后续的交通行为分析服务。本发明使用融合策略将定位地点信息与文本地点信息进行融合,其能采集到的含有地点信息的数据更加丰富全面,并能将融合后的、更加丰富全面的地点信息用于交通行为分析,增强了后续交通行为分析服务的准确性。
Description
技术领域
本发明涉及社交媒体监督数据处理分析技术领域,具体涉及一种社交媒体中定位地点信息与文本地点信息融合方法。
背景技术
社交媒体数据(social media data, SMD),例如从微博、推特(Twitter)、Facebook等平台抓取的数据,已经成为交通行为分析领域的一个重要数据来源。社交媒体中内嵌的地点信息,例如人们分享的定位信息,为分析行人的出行方式提供宝贵依据。之前研究仅利用人们分享的定位地点信息(geotag-based location)来做交通行为分析,但文献研究证明,日常生活中在社交媒体分享定位信息的人的比例极低,以推特为例,分享geotag人比例仅为1%,从而致使大量社交媒体数据无法被充分利用。
发明内容
本发明的目的在于克服现有技术存在的问题,提供一种社交媒体中定位地点信息与文本地点信息融合方法,利用命名实体匹配算法(Named Entity Matching, NEM)从社交媒体数据SMD的文本中提取文本地点信息(content-based location),并使用一种融合策略,将定位地点信息与文本地点信息进行融合,并将融合后的、更加丰富全面的地点信息用于交通行为分析。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种社交媒体中定位地点信息与文本地点信息融合方法,该方法包括以下步骤:
步骤S1:采集并筛选与主题相关的社交媒体数据SMD;
步骤S2:利用命名实体匹配算法NEM从主题相关的社交媒体数据SMD的文本中提取出有效的文本地点信息,并利用定位标记Geotag提取出定位地点信息;
步骤S3:利用相应的融合策略将文本地点信息与定位地点信息进行融合,以确定每条社交媒体数据SMD使用哪种地点信息来为后续的交通行为分析服务。
进一步的,在所述步骤S1中,社交媒体数据SMD采集与筛选过程如下:
步骤S1.1:数据爬取,根据关键字、时间窗、地理边界从社交媒体数据SMD中爬取与分析主题相关的数据;
步骤S1.2:噪声滤除,将非当地官方语言数据、短数据、重复数据滤除,剩下的数据组成原始社交媒体数据SMD;
步骤S1.3:数据筛选,使用文本滤波器筛选出与主题相关的数据,构成主题相关社交媒体数据SMD。
进一步的,所述步骤S2中,命名实体匹配算法NEM实现分为如下几个步骤:
步骤S2.1:分词,将一段或一句文字分成不同的片段;
步骤S2.2:建立地点名词典,通过爬取地点名数据库GeoNames和地点名数据库OpenStreetMap,建立分析区域的所有地点名的数据子库,即地点名词典;
步骤S2.3:片段和地点名的标准化,将每个片段和每个地点名格式统一化,以及将缩写的文字恢复全称形式,以便于后续两者的匹配;
步骤S2.4:匹配,将主题相关社交媒体数据SMD的文本分割出的每一个片段与地点名词典中的各个地点名进行匹配,如果该片段出现在地点名词典中,侧该片段即为一个文本地点信息,加上定位标记Geotag直接提取出的定位地点信息,即可得到所有包含地点信息的社交媒体数据SMD。
进一步的,所述步骤S3中,融合策略的具体流程如下:
步骤S3.1:将含有地点信息的社交媒体数据SMD转变为一个行程信息表,使得行程信息表中的每一个行程都包含唯一一个地点信息;
步骤S3.2:对于行程信息表中每一条行程进行如下逻辑判断来确定使用哪种类型地点信息为后续交通行为分析服务:
步骤S3.21:若一条社交媒体数据SMD中存在文本地点信息,且文本地点信息的分辨率符合具体交通行为分析场景的需求,那么使用文本地点信息;
步骤S3.22:若该社交媒体数据SMD不包含文本地点信息,只包含定位地点信息,那么使用定位地点信息;
步骤S3.23:若该社交媒体数据SMD包含文本地点信息,但其分辨率不符合要求,且此时存在定位地点信息,那需要判断定位地点信息是否超出文本地点信息的范围,如果超出,则放弃该条社交媒体数据SMD,什么地点也不使用,如果未超出,则使用定位地点信息。
进一步的,所述步骤S1.3中,首先从原始社交媒体数据SMD中人工标注若干条与主题相关的数据和若干条与主题无关的数据,之后用这些标注好的数据训练BERT模型文本分类器,最后用训练好的BERT模型文本分类器把原始社交媒体数据SMD中的所有数据进行分类,从而找出所有主题相关社交媒体数据SMD。
本发明的有益效果是:
本发明使用融合策略将定位地点信息与文本地点信息进行融合,其能采集到的含有地点信息的数据更加丰富全面,并能将融合后的、更加丰富全面的地点信息用于交通行为分析,增强了后续交通行为分析服务的准确性。
附图说明
图1为本发明方法的步骤流程示意图;
图2为本发明方法的融合策略流程图;
图3为本发明的行程信息图表。
实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,一种社交媒体中定位地点信息与文本地点信息融合方法,该方法包括以下步骤:
步骤S1:采集并筛选与主题相关的社交媒体数据SMD;
步骤S2:利用命名实体匹配算法NEM(Named Entity Matching)从主题相关的社交媒体数据SMD的文本中提取出有效的文本地点信息,并利用定位标记Geotag提取出定位地点信息;
步骤S3:利用相应的融合策略将文本地点信息与定位地点信息进行融合,以确定每条社交媒体数据SMD使用哪种地点信息来为后续的交通行为分析服务。
在所述步骤S1中,社交媒体数据SMD采集与筛选过程如下:
步骤S1.1:数据爬取,根据关键字、时间窗、地理边界从社交媒体数据SMD中爬取与分析主题相关的数据,例如:某微博的博文、某推的推文;
步骤S1.2:噪声滤除,因为爬取的数据中存在一些噪声,因此需要将非当地官方语言数据、短数据(少于一定数量单词或字符的数据,可自由设定)、重复数据滤除,剩下的数据组成原始社交媒体数据SMD;
步骤S1.3:数据筛选,在原始社交媒体数据SMD中,由于存在与分析主题无关的内容,因此需要使用文本滤波器筛选出与主题相关的数据,构成主题相关社交媒体数据SMD。
所述步骤S2中,命名实体匹配算法NEM实现分为如下几个步骤:
步骤S2.1:分词,将一段或一句文字分成不同的片段(token),每个片段可以是一个单词、一个表情包、一个标点符号等;
步骤S2.2:建立地点名词典,通过爬取地点名数据库GeoNames和地点名数据库OpenStreetMap,建立分析区域的所有地点名的数据子库,即地点名词典;
步骤S2.3:片段和地点名的标准化,将每个片段和每个地点名格式统一化,以及将缩写的文字恢复全称形式,以便于后续两者的匹配;例如,根据上下文将缩写文字St恢复到STREET,缩写文字Mel恢复到MELBOURNE,从而便于后续两者的匹配;
步骤S2.4:匹配,将主题相关社交媒体数据SMD的文本分割出的每一个片段与地点名词典中的各个地点名进行匹配,如果该片段出现在地点名词典中,侧该片段即为一个文本地点信息,加上定位标记Geotag直接提取出的定位地点信息,即可得到所有包含地点信息的社交媒体数据SMD。
如图2所示,所述步骤S3中,融合策略的具体流程如下:
步骤S3.1:将含有地点信息的社交媒体数据SMD转变为一个行程信息表,使得行程信息表中的每一个行程都包含唯一一个地点信息,过程如图三所示,即:若一条社交媒体数据SMD中有N个文本地点信息,则将该数据赋予给N份行程,每份行程仅保留一个文本地点信息,这N份行程的定位信息与原始社交媒体数据SMD中的保持一致,该转变源于有的社交媒体数据SMD包含多条文本地点信息,例如“我今天去了A和B地点”,应该将每个去过地点作为一条单独行程进行处理;
步骤S3.2:对于行程信息表中每一条行程进行如下逻辑判断来确定使用哪种类型地点信息为后续交通行为分析服务:
步骤S3.21:若一条社交媒体数据SMD中存在文本地点信息,且文本地点信息的分辨率(省级地点名,市级地点名、县级地点名、区级地点名、Point of Interests/POI级地点名)符合具体交通行为分析场景的需求(例如一个研究需要“区级地点”做后续分析),那么使用文本地点信息;
步骤S3.22:若该社交媒体数据SMD不包含文本地点信息,只包含定位地点信息,那么使用定位地点信息;
步骤S3.23:若该社交媒体数据SMD包含文本地点信息,但其分辨率不符合要求,且此时存在定位地点信息,那需要判断定位地点信息是否超出文本地点信息的范围,如果超出,则放弃该条社交媒体数据SMD,什么地点也不使用,如果未超出,则使用定位地点信息。例如:一条社交媒体数据SMD中小明分享了“我今天在AA市BB区跑了1千米”(文本地点指向AA市BB区),但是该社交媒体数据SMD的定位标记Geotag定位不在BB区范围内(定位地点信息指向非BB区),则由于两类型的地点信息有冲突,定位地点信息也不予使用。
所述步骤S1.3中,首先从原始社交媒体数据SMD中人工标注若干条与主题相关的数据和若干条与主题无关的数据,之后用这些标注好的数据训练BERT(BidirectionalEncoder Representations from Transformers)模型文本分类器,例如:可以从原始社交媒体数据SMD中人工标注1000条数据,其中,500条与主题相关的数据,500条与主题无关的数据,之后用这些标注好的数据训练BERT模型文本分类器,最后用训练好的BERT模型文本分类器把原始社交媒体数据SMD中的所有数据进行分类,从而找出所有主题相关社交媒体数据SMD。
实例验证
为验证本发明方法的可行性与优越性,本实施例以墨尔本为例,对人们分享在推特Twitter平台的与主动交通(例如步行、骑行)相关的推文中的地点信息进行了提取与融合,从而进行了实例验证,该实施例的具体步骤和结果如下:
1) 数据采集:采集了发布于2018至2021年墨尔本地区的包含主动交通相关关键字的(例如“walking”,”cycling”)的英文(当地官方语言)Twitter数据(推文, tweets),并得到78595条相关推文;
2)训练并使用BERT模型文本分类器:于78595条相关推文中,人工标记出500条与主动交通主题相关、500条与主动交通无关的推文,从而训练BERT模型文本分类器;训练好的BERT模型文本分类器有较高性能,其准确率(Accuracy)达到0.85,精准率(Precision)达到0.84,召回率(Recall)达到0.87,以及F值(F-Score)达到0.85;将训练好的BERT模型文本分类器对78595条推文进行分类,从而得到17950条真正与主动交通相关的推文,以及60645条与主动交通无关的推文;
3)手动验证命名实体匹配算法NEM性能:选取200条被命名实体匹配算法NEM标记为有文本地点信息推文以及200条被命名实体匹配算法NEM检测出无文本地点信息的推文,人工检查这400条推文的实际文本地点信息,得到命名实体匹配算法NEM准确率高达95.74%的结果,验证了命名实体匹配算法NEM在提取文本地点信息的高性能;
4)地点信息提取与融合:利用命名实体匹配算法NEM对17950条主动交通相关的推文进行文本地点信息提取,并检查这17950条推文中有无定位标记Geotag以确定其是否包含定位地点信息,结果显示这17950条推文中,有1776条推文既包含文本地点信息又包含定位地点信息,有1796条推文仅包含文本地点信息,以及有1768条推文仅包含定位地点信息。
综上内容,相比仅提取定位地点信息,利用本发明的地点融合方法使得采集到的含有地点信息的推文数量增加了33.70%,从而为交通行为分析提供更丰富的数据。此外,由于本方法采用了“当文本地点分辨率不足、且定位地点与文本地点冲突时,弃用所有地点信息”的方式,增强了地点信息提取以及为后续交通行为分析服务的准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,该方法包括以下步骤:
步骤S1:采集并筛选与主题相关的社交媒体数据SMD;
步骤S2:利用命名实体匹配算法NEM从主题相关的社交媒体数据SMD的文本中提取出有效的文本地点信息,并利用定位标记Geotag提取出定位地点信息;
步骤S3:利用相应的融合策略将文本地点信息与定位地点信息进行融合,以确定每条社交媒体数据SMD使用哪种地点信息来为后续的交通行为分析服务;
所述步骤S3中,融合策略的具体流程如下:
步骤S3.1:将含有地点信息的社交媒体数据SMD转变为一个行程信息表,使得行程信息表中的每一个行程都包含唯一一个地点信息;
步骤S3.2:对于行程信息表中每一条行程进行如下逻辑判断来确定使用哪种类型地点信息为后续交通行为分析服务:
步骤S3.21:若一条社交媒体数据SMD中存在文本地点信息,且文本地点信息的分辨率符合具体交通行为分析场景的需求,那么使用文本地点信息;
步骤S3.22:若该社交媒体数据SMD不包含文本地点信息,只包含定位地点信息,那么使用定位地点信息;
步骤S3.23:若该社交媒体数据SMD包含文本地点信息,但其分辨率不符合要求,且此时存在定位地点信息,那需要判断定位地点信息是否超出文本地点信息的范围,如果超出,则放弃该条社交媒体数据SMD,什么地点也不使用,如果未超出,则使用定位地点信息。
2.根据权利要求1所述的社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,在所述步骤S1中,社交媒体数据SMD采集与筛选过程如下:
步骤S1.1:数据爬取,根据关键字、时间窗、地理边界从社交媒体数据SMD中爬取与分析主题相关的数据;
步骤S1.2:噪声滤除,将非当地官方语言数据、短数据、重复数据滤除,剩下的数据组成原始社交媒体数据SMD;
步骤S1.3:数据筛选,使用文本滤波器筛选出与主题相关的数据,构成主题相关社交媒体数据SMD。
3.根据权利要求2所述的社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,所述步骤S2中,命名实体匹配算法NEM实现分为如下几个步骤:
步骤S2.1:分词,将一段或一句文字分成不同的片段;
步骤S2.2:建立地点名词典,通过爬取地点名数据库GeoNames和地点名数据库OpenStreetMap,建立分析区域的所有地点名的数据子库,即地点名词典;
步骤S2.3:片段和地点名的标准化,将每个片段和每个地点名格式统一化,以及将缩写的文字恢复全称形式,以便于后续两者的匹配;
步骤S2.4:匹配,将主题相关社交媒体数据SMD的文本分割出的每一个片段与地点名词典中的各个地点名进行匹配,如果该片段出现在地点名词典中,侧该片段即为一个文本地点信息,加上定位标记Geotag直接提取出的定位地点信息,即可得到所有包含地点信息的社交媒体数据SMD。
4.根据权利要求1或2所述的社交媒体中定位地点信息与文本地点信息融合方法,其特征在于,所述步骤S1.3中,首先从原始社交媒体数据SMD中人工标注若干条与主题相关的数据和若干条与主题无关的数据,之后用这些标注好的数据训练BERT模型文本分类器,最后用训练好的BERT模型文本分类器把原始社交媒体数据SMD中的所有数据进行分类,从而找出所有主题相关社交媒体数据SMD。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311511956.3A CN117236316B (zh) | 2023-11-14 | 2023-11-14 | 一种社交媒体中定位地点信息与文本地点信息融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311511956.3A CN117236316B (zh) | 2023-11-14 | 2023-11-14 | 一种社交媒体中定位地点信息与文本地点信息融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236316A CN117236316A (zh) | 2023-12-15 |
CN117236316B true CN117236316B (zh) | 2024-01-26 |
Family
ID=89093314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311511956.3A Active CN117236316B (zh) | 2023-11-14 | 2023-11-14 | 一种社交媒体中定位地点信息与文本地点信息融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236316B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN115357631A (zh) * | 2022-06-14 | 2022-11-18 | 国家计算机网络与信息安全管理中心 | 社交账号区域位置信息的识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10652190B2 (en) * | 2016-11-09 | 2020-05-12 | Thomson Reuters Enterprise Centre Gmbh | System and method for detecting geo-locations in social media |
-
2023
- 2023-11-14 CN CN202311511956.3A patent/CN117236316B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN115357631A (zh) * | 2022-06-14 | 2022-11-18 | 国家计算机网络与信息安全管理中心 | 社交账号区域位置信息的识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117236316A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110472066B (zh) | 一种城市地理语义知识图谱的构建方法 | |
CN103514234B (zh) | 一种页面信息提取方法和装置 | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
CN102841920B (zh) | 一种页面信息提取方法及装置 | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
Zhou et al. | Real world city event extraction from Twitter data streams | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN108268440A (zh) | 一种未登录词识别方法 | |
Klaithin et al. | Traffic information extraction and classification from Thai Twitter | |
CN103886080A (zh) | 一种从互联网非结构化文本提取道路交通信息方法 | |
CN110209781B (zh) | 一种文本处理方法、装置以及相关设备 | |
Chakraborty et al. | Public opinion analysis of the transportation policy using social media data: a case study on the Delhi odd–even policy | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN113886512A (zh) | 地址要素解析方法、装置和电子设备 | |
CN117236316B (zh) | 一种社交媒体中定位地点信息与文本地点信息融合方法 | |
CN110232160B (zh) | 兴趣点变迁事件检测方法、装置及存储介质 | |
CN110866172B (zh) | 一种面向区块链系统的数据分析方法 | |
CN103942188B (zh) | 一种识别语料语言的方法和装置 | |
JP5798086B2 (ja) | 文書からの地名と語の対の抽出装置及び方法及びプログラム | |
CN105868271B (zh) | 一种姓名统计方法及装置 | |
JP6497657B2 (ja) | 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |