CN107463624A - 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 - Google Patents
一种基于社交媒体数据进行城市兴趣域识别的方法及系统 Download PDFInfo
- Publication number
- CN107463624A CN107463624A CN201710547800.9A CN201710547800A CN107463624A CN 107463624 A CN107463624 A CN 107463624A CN 201710547800 A CN201710547800 A CN 201710547800A CN 107463624 A CN107463624 A CN 107463624A
- Authority
- CN
- China
- Prior art keywords
- grid cell
- social media
- media data
- city
- interest domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000032823 cell division Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- VMXUWOKSQNHOCA-UKTHLTGXSA-N ranitidine Chemical compound [O-][N+](=O)\C=C(/NC)NCCSCC1=CC=C(CN(C)C)O1 VMXUWOKSQNHOCA-UKTHLTGXSA-N 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于社交媒体数据进行城市兴趣域识别的方法,其包括以下步骤:对社交媒体数据进行预处理;对城市区域进行栅格单元划分,并提取各栅格单元内产生社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;计算每个栅格单元与其相邻四个栅格单元之间的相似度,将相似的栅格单元合并;提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息。以及一种基于社交媒体数据进行城市兴趣域识别的系统。采用该方案,可有效利用社交媒体数据进行城市兴趣域识别,十分方便且识别度较高,结果与实际吻合度极高。广泛应用于大数据处理领域。
Description
技术领域
本发明涉及大数据分析领域,具体为基于社交媒体数据进行城市兴趣域识别的方法及系统。
背景技术
TF-IDF:term frequency–inverse document frequency,是一种用于资讯检索与资讯探勘的常用加权技术。
城市兴趣域(Areas of Interest)是指城市范围内居民活动较为活跃的区域,通常位于旅游景点、商业中心和居民地等人口流动较大的地方,包含了大量的居民活动信息。城市兴趣域的识别对于城市规划布局的优化、城市交通状况的改善、以及土地利用的完善等具有重要的现实意义。然而,由于城市兴趣域没有特定的区域边界与活动类型,区域的划分具有动态性,导致其识别具有一定的难度。
目前,城市兴趣域的识别主要采用遥感影像地物识别的手段,从遥感影像中提取反映城市用地类型的信息。例如,利用夜间灯光遥感数据,对城市中的建筑物分布进行识别分析;利用遥感影像中的移动激光扫描点云数据,识别了城市中的道路分布。然而,遥感影像识别方法存在生产周期长、耗时耗力等问题,同时,遥感影像仅能提取城市的地物分布等静态信息,无法识别城市居民活动的信息。
近年来,随着大数据技术的发展及应用,出现了大量诸如新浪微博、Twitter、Facebook等社交媒体数据。这些数据更新实时,也包含位置信息,能够反映城市兴趣域的空间分布;同时,社交媒体数据的文本内容在一定程度上也能够反映居民的活动。因此,有必要将带有地理位置信息的社交媒体数据应用于城市兴趣域识别,来实现更新实时且能够反映居民活动信息的新数据以进行城市兴趣域的识别。
发明内容
为了解决上述技术问题,本发明的目的是提供一种有效利用社交媒体数据进行城市兴趣域识别的方法及系统。
本发明所采用的技术方案是:
本发明提供一种基于社交媒体数据进行城市兴趣域识别的方法,其包括以下步骤:
对社交媒体数据进行预处理;
对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单元均属于城市兴趣域的空间位置;
提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
作为该技术方案的改进,所述步骤对社交媒体数据进行预处理,其包括将字母大小写归一化、去除特殊符号及停顿词。
作为该技术方案的改进,所述社交媒体数据包括微博数据和/或Twitter数据和/或Facebook数据。
作为该技术方案的改进,所述步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,其包括利用Jaccard系数,计算相邻栅格单元内文本信息的相似度。
进一步地,所述相似度的计算公式包括:
其中,为文本信息之间的相似度;TA,TB分别为栅格单元A与栅格单元B中的文本信息。
进一步地,通过所述计算所得栅格单元内文本信息的相似度对栅格单元进行合并,若所得相似度大于等于设定阈值,则将相邻的栅格单元进行合并;反之,则相邻的栅格单元不合并。
进一步地,利用tf-idf算法,计算文本信息中各词语的重要性得分,并提取得分较高的词语为城市兴趣域语义信息。
进一步地,所述计算文本信息中各词语的重要性得分的公式为:tfidfm,R=tfm,R×idfm,其中tfidfm,R为合并的栅格单元R中的第m个词语t的重要性,tfm,R为第m个词语t的词频,idfm为第m个词语t的逆向文件频率。
另一方面,本发明还提供一种基于社交媒体数据进行城市兴趣域识别的系统,其包括:
预处理模块,用于执行步骤对社交媒体数据进行预处理;
栅格单元划分模块,用于执行步骤对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
兴趣域空间位置识别模块,用于执行步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单元均属于城市兴趣域的空间位置;
语义信息识别模块,用于执行步骤提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
本发明的有益效果是:本发明提供的利用社交媒体数据进行城市兴趣域识别的方法及系统,通过对社交媒体数据进行预处理,并将城市区域进行栅格单元的划分;继而,提取各栅格单元内社交媒体数据的文本信息,通过计算Jaccard系数,得到城市兴趣域的空间位置分布;最后,通过tf-idf算法分析社交媒体数据中文本信息,得到城市兴趣域的语义信息分布。采用该方案,可有效利用社交媒体数据进行城市兴趣域识别,十分方便且识别度较高,结果与实际吻合度极高。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明一实施例的城市兴趣域识别方法示意图;
图2(a)-图2(c)为栅格单元划分对比图;
图3为栅格单元划分结果示意图;
图4(a)-图4(e)为栅格单元合并过程示意图;
图5为本发明一实施例的多伦多地区栅格单元合并示意图;
图6为本发明一实施例的多伦多地区的城市兴趣域空间位置分布示意图;
图7为本发明一实施例的多伦多地区的城市兴趣域语义信息分布示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参照图1,是本发明一实施例的城市兴趣域识别方法示意图。本发明提供一种基于社交媒体数据进行城市兴趣域识别的方法,所述方法包括如下步骤:
对社交媒体数据进行预处理;
所述预处理过程其包括将字母大小写归一化、去除特殊符号及停顿词,如将所有字母改为统一格式,大写字母全部改为小写字母等;去除特殊符号、去除停顿词等。
所述社交媒体数据包括:微博如新浪微博等数据,Twitter数据,Facebook数据等;
作为本方案的一实施例,其使用Twitter数据集的TEXT文本标签字段。由于初步获取的数据集TEXT字段内容十分冗杂,除英文字符外包含大量的特殊符号及非英文字符,其中英文字符也存在大小写格式不一、停顿词较多等影响实验结果的问题。因此在实验之前要对Twitter数据集的TEXT字段进行英文字符大小写归一、去除非英文字符与空行、去除停顿词等处理。
a.将大写字母全部改为小写字母。例如“library”与“Library”表示同一个单词,但是在模型计算中将被视为两个不同的单词进行独立运算,降低了实验结果精度。英文字符的大小写归一步骤可使用EXCEL的lower()函数;
b.Twitter数据产生时往往由于用户书写或者系统自动生成的原因而包含大量的特殊符号,这些符号在模型运算中会被视为独立的单词进行运算,影响最终实验结果。去除非英文字符与空行步骤可采用python的正则表达式模块re;
c.Twitter数据集TEXT字段中包含很多功能词,与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”),这些词在文本中描述名词和表达概念,如地点或数量;介词如:“over”,“under”,“above”等表示两个词的相对位置,这类单词在Twitter数据集中出现频率很高,却对兴趣域的潜在语义识别作用甚微,因此需要去除这类停用词。停用词的去除需要建立兴趣域识别的停顿词词库,本方案应用python的分词模块jieba,对Twitter数据集进行停用词去除,得到了本方案需要的城市兴趣域Twitter数据集。
接着,对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
城市区域栅格单元划分,其将城市区域划分n个栅格单元Ri,j,其中,R为划分的栅格单元,i、j为栅格单元R的行数和列数。提取每个栅格单元中内社交媒体数据的位置信息,将步骤A中经过预处理的社交媒体数据与划分后的栅格单元进行空间位置叠加;
其中,将城市区域均匀划分为n个栅格单元Ri,j后,Ri,j相邻的四个栅格单元定义为:
其中,
栅格单元的分辨率应满足城市兴趣域识别的需求,过大或过小的分辨率都会降低城市兴趣域识别的精度。参照图2(a)-图2(c)所示,将Twitter数据集空间展示在实验区域多伦多城区的遥感影像中,分别构建55m×55m、110m×110m、220m×220m三种不同尺寸的格网。通过观察对比可知图2(a)中栅格单元过小,生成的栅格单元数量较多;图2(c)中栅格单元过大,栅格单元内包含Twitter数据过多会降低实验结果精度;相反,图2(b)中栅格单元的分辨率满足本方案实验要求。
根据划分结果提取各栅格单元内所有Twitter数据的TEXT字段作为文本信息。考虑到文本代表性以及Twitter数据在实验区域内的空间分布情况,将包含少于30条Twitter数据的栅格单元去除,得到结果如图3所示。
计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单均属于城市兴趣域的空间位置;
城市兴趣域的空间位置识别。其是提取步骤B中每个栅格单元Ri,j与其相邻的栅格单元Ni,j中社交媒体数据的文本信息Ti,j,其中T为每个栅格单元R中社交媒体数据的文本信息,i、j为栅格单元R的行数和列数。利用Jaccard系数(Jaccard similarity coefficient)算法,计算相邻栅格单元之间的相似度,将相似的栅格单元合并,合并的栅格单元即为城市兴趣域的空间位置。
首先提取步骤B中每个栅格单元Ri,j与其相邻的栅格单元Ni,j中社交媒体数据的文本信息Ti,j,其中T为每个栅格单元R中社交媒体数据的文本信息,i、j为栅格单元R的行数和列数。
然后利用Jaccard系数,计算相邻栅格单元内文本信息Ti,j的相似度。所述相似度的计算公式为:
其中,为文本信息之间的相似度;TA,TB分别为栅格单元A与栅格单元B中的文本信息。
根据Jaccard系数计算所得栅格单元内文本信息Ti,j的相似度,对栅格单元进行合并,其计算公式如下:
其中,S为衡量相似度的阈值,S∈[0,1],本方案取其经验值0.9,即当时,相邻的栅格单元合并,当J(TA,TB)<0.9时,相邻栅格单元不合并。
所述栅格单元合并过程如图4(a)-图4(e)所示,给定一个栅格单元如图4(a),其某个相邻栅格单元如图4(b),通过步骤C2计算出这两个栅格单元的Jaccard系数,当此值大于给定的阈值S时,合并这两个栅格,如图4(c);若Jaccard系数值小于阈值时,则表示两个栅格单元属于不同的城市兴趣域,不予以合并。在新的合并过程中新生成的栅格单元如图(d),如果满足条件则根依据上述步骤完成新的合并过程,如图4(e)所示。
所得多伦多地区的栅格单元的合并结果如图5所示。图中黑色栅格单元与其相邻栅格单元的Jaccard关系均小于阈值S,故不将其作为城市兴趣域。最终得到多伦多地区城市兴趣域的空间分布如图6所示。
提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
城市兴趣域的语义信息识别。提取步骤C所得合并栅格单元中的文本信息Tm,其中m为合并后栅格单元的个数。利用tf-idf(termfrequency-inverse document frequency)算法,计算文本信息Tm中各词语的重要性得分,其中,作为一优选实施例,重要性得分最高的前5个词语即为城市兴趣域语义信息,体现了该城市兴趣域中城市居民活动规律。挖掘城市兴趣域潜在语义的算法即为计算出各个文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的词即是该城市兴趣域的潜在语义。
其中文本信息Tm中各词语的重要性得分的计算公式为tfidfm,R=tfm,R×idfm,其中tfidfm,R为合并的栅格单元R中的第m个词语t的重要性,tfm,R为第m个词语t的词频,idfm为第m个词语t的逆向文件频率。
其计算公式如下:
式中,nm,R是词语t在合并后的栅格单元R中出现的次数,∑mnm,R为合并后的栅格单元R中所有词语出现的次数之和。|D|为合并后的栅格单元R的总数,|{R:tm∈dm}|是指包含词语t的栅格单元数目。
所得多伦多地区的城市兴趣域的语义信息如图7所示,采用该方案识别多伦多该城市的兴趣域,其中1、2、3、4各个区域分别代表不同的兴趣域。
另一方面,本发明还提供一种基于社交媒体数据进行城市兴趣域识别的系统,其包括:
预处理模块,用于执行步骤对社交媒体数据进行预处理;
栅格单元划分模块,用于执行步骤对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
兴趣域空间位置识别模块,用于执行步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单元均属于城市兴趣域的空间位置;
语义信息识别模块,用于执行步骤提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
本发明提供的利用社交媒体数据进行城市兴趣域识别的方法及系统,通过对社交媒体数据进行预处理,并将城市区域进行栅格单元的划分;继而,提取各栅格单元内社交媒体数据的文本信息,通过计算Jaccard系数,得到城市兴趣域的空间位置分布;最后,通过tf-idf算法分析社交媒体数据中文本信息,得到城市兴趣域的语义信息分布。采用该方案,可有效利用社交媒体数据进行城市兴趣域识别,十分方便且识别度较高,结果与实际吻合度极高。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,其包括以下步骤:
对社交媒体数据进行预处理;
对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单元均属于城市兴趣域的空间位置;
提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
2.根据权利要求1所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,所述步骤对社交媒体数据进行预处理,其包括将字母大小写归一化、去除特殊符号及停顿词。
3.根据权利要求1所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,所述社交媒体数据包括微博数据和/或Twitter数据和/或Facebook数据。
4.根据权利要求1至3任一项所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,所述步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,其包括利用Jaccard系数,计算相邻栅格单元内文本信息的相似度。
5.根据权利要求4所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,所述相似度的计算公式包括:
其中,为文本信息之间的相似度;TA,TB分别为栅格单元A与栅格单元B中的文本信息。
6.根据权利要求5所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,通过所述计算所得栅格单元内文本信息的相似度对栅格单元进行合并,若所得相似度大于等于设定阈值,则将相邻的栅格单元进行合并;反之,则相邻的栅格单元不合并。
7.根据权利要求6所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,利用tf-idf算法,计算文本信息中各词语的重要性得分,并提取得分较高的词语为城市兴趣域语义信息。
8.根据权利要求7所述的基于社交媒体数据进行城市兴趣域识别的方法,其特征在于,所述计算文本信息中各词语的重要性得分的公式为:tfidfm,R=tfm,R×idfm,其中tfidfm,R为合并的栅格单元R中的第m个词语t的重要性,tfm,R为第m个词语t的词频,idfm为第m个词语t的逆向文件频率。
9.一种基于社交媒体数据进行城市兴趣域识别的系统,其特征在于,其包括:
预处理模块,用于执行步骤对社交媒体数据进行预处理;
栅格单元划分模块,用于执行步骤对城市区域进行栅格单元划分,并提取各栅格单元内产生的社交媒体数据,将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加;
兴趣域空间位置识别模块,用于执行步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度,将相似的栅格单元合并,所述合并的栅格单元均属于城市兴趣域的空间位置;
语义信息识别模块,用于执行步骤提取所得合并栅格单元中的文本信息,根据文本信息包含的词语识别城市兴趣域的语义信息,进而体现所述城市兴趣域中城市居民活动情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710547800.9A CN107463624B (zh) | 2017-07-06 | 2017-07-06 | 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710547800.9A CN107463624B (zh) | 2017-07-06 | 2017-07-06 | 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107463624A true CN107463624A (zh) | 2017-12-12 |
CN107463624B CN107463624B (zh) | 2018-06-12 |
Family
ID=60543836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710547800.9A Active CN107463624B (zh) | 2017-07-06 | 2017-07-06 | 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463624B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489506A (zh) * | 2019-08-08 | 2019-11-22 | 武汉东湖大数据交易中心股份有限公司 | 一种基于社交媒体数据进行城市兴趣域识别的方法 |
CN110866156A (zh) * | 2019-11-26 | 2020-03-06 | 北京明略软件系统有限公司 | 基于社交数据的功能园区识别方法、装置、设备及介质 |
CN111476325A (zh) * | 2020-06-29 | 2020-07-31 | 北京隆普智能科技有限公司 | 基于大数据的城市建设用地分类识别方法及系统 |
CN112583900A (zh) * | 2020-12-02 | 2021-03-30 | 深圳市互盟科技股份有限公司 | 云计算的数据处理方法及相关产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130328933A1 (en) * | 2001-04-30 | 2013-12-12 | Activemap Llc | Interactive electronically presented map |
CN104572915A (zh) * | 2014-12-29 | 2015-04-29 | 浙江大学 | 一种基于内容环境增强的用户事件相关度计算方法 |
CN105354244A (zh) * | 2015-10-13 | 2016-02-24 | 广西师范学院 | 一种用于社交网络社区挖掘的时空lda模型 |
CN106649331A (zh) * | 2015-10-29 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 商圈识别方法及设备 |
-
2017
- 2017-07-06 CN CN201710547800.9A patent/CN107463624B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130328933A1 (en) * | 2001-04-30 | 2013-12-12 | Activemap Llc | Interactive electronically presented map |
CN104572915A (zh) * | 2014-12-29 | 2015-04-29 | 浙江大学 | 一种基于内容环境增强的用户事件相关度计算方法 |
CN105354244A (zh) * | 2015-10-13 | 2016-02-24 | 广西师范学院 | 一种用于社交网络社区挖掘的时空lda模型 |
CN106649331A (zh) * | 2015-10-29 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 商圈识别方法及设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489506A (zh) * | 2019-08-08 | 2019-11-22 | 武汉东湖大数据交易中心股份有限公司 | 一种基于社交媒体数据进行城市兴趣域识别的方法 |
CN110866156A (zh) * | 2019-11-26 | 2020-03-06 | 北京明略软件系统有限公司 | 基于社交数据的功能园区识别方法、装置、设备及介质 |
CN110866156B (zh) * | 2019-11-26 | 2022-05-17 | 北京明略软件系统有限公司 | 基于社交数据的功能园区识别方法、装置、设备及介质 |
CN111476325A (zh) * | 2020-06-29 | 2020-07-31 | 北京隆普智能科技有限公司 | 基于大数据的城市建设用地分类识别方法及系统 |
CN112583900A (zh) * | 2020-12-02 | 2021-03-30 | 深圳市互盟科技股份有限公司 | 云计算的数据处理方法及相关产品 |
Also Published As
Publication number | Publication date |
---|---|
CN107463624B (zh) | 2018-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liao et al. | Real-time scene text detection with differentiable binarization and adaptive scale fusion | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
US20190340240A1 (en) | Automated extraction of unstructured tables and semantic information from arbitrary documents | |
CN111680089B (zh) | 文本结构化方法、装置、系统和非易失性存储介质 | |
CN107463624B (zh) | 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 | |
Li et al. | Improving convolutional neural network for text classification by recursive data pruning | |
CN113254599A (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN107463553A (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 | |
Unnisa et al. | Opinion mining on Twitter data using unsupervised learning technique | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
Lepage | Analogies between binary images: Application to chinese characters | |
Odeh et al. | Arabic text categorization algorithm using vector evaluation method | |
CN106601235A (zh) | 一种半监督多任务特征选择的语音识别方法 | |
Xiong et al. | Oracle bone inscriptions information processing based on multi-modal knowledge graph | |
CN105159917A (zh) | 一种电子病历的非结构化信息转化为结构化的泛化方法 | |
Lyu et al. | The early Japanese books reorganization by combining image processing and deep learning | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
Zhang et al. | Dynamic graph convolutional networks by semi-supervised contrastive learning | |
CN106599305B (zh) | 一种基于众包的异构媒体语义融合方法 | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia | |
CN111104508A (zh) | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Urban Planning and Design Institute Co.,Ltd. Address before: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518000 Patentee before: URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS) |
|
CP01 | Change in the name or title of a patent holder |