CN103455545A - 社交网络用户的位置估计的方法和系统 - Google Patents
社交网络用户的位置估计的方法和系统 Download PDFInfo
- Publication number
- CN103455545A CN103455545A CN2013102169467A CN201310216946A CN103455545A CN 103455545 A CN103455545 A CN 103455545A CN 2013102169467 A CN2013102169467 A CN 2013102169467A CN 201310216946 A CN201310216946 A CN 201310216946A CN 103455545 A CN103455545 A CN 103455545A
- Authority
- CN
- China
- Prior art keywords
- sorter
- integrated
- layer
- given user
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 24
- 238000012549 training Methods 0.000 description 24
- 230000006399 behavior Effects 0.000 description 20
- 238000004590 computer program Methods 0.000 description 11
- 235000019580 granularity Nutrition 0.000 description 11
- 230000006855 networking Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的各个实施例涉及估计社交网络用户的位置。在一个实施例中,接收给定用户产生的多个社交媒体消息。从所述社交媒体消息中提取多个位置特征。每个所述位置特征通过分类器集成中的至少一个分类器进行处理。通过每个所述分类器产生每个所述社交媒体消息的位置分类。每个分类包括位置以及与该位置关联的权值。根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置。
Description
技术领域
本发明一般地涉及位置估计,更具体地说,本发明涉及根据社交网络消息估计用户位置。
背景技术
社交网络服务和社交网络消息传送近几年得到迅速发展。这促使大量研究的重点放在通过社交网络消息挖掘各种应用(例如,事件检测,传染病传播和新闻推荐)的数据。上述以及其它许多应用都可从有关用户位置的信息中获益。但是,与社交网络消息关联的位置数据目前非常稀少,甚至不存在。
发明内容
在一个实施例中,公开了一种方法。所述方法包括接收给定用户产生的多个社交媒体消息。从所述社交媒体消息中提取多个位置特征。通过分类器集成中的至少一个分类器处理每个所述位置特征。通过每个所述分类器产生每个所述社交媒体消息的位置分类。每个分类包括位置以及与该位置关联的权值。根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置。
在另一实施例中,公开了一种系统。所述系统包括存储器和在通信上与所述存储器相连的处理器。位置估计器在通信上与所述存储器和所述处理器相连。所述位置估计器被配置为接收给定用户产生的多个社交媒体消息。从所述社交媒体消息中提取多个位置特征。通过分类器集成中的至少一个分类器处理每个所述位置特征。通过每个所述分类器产生每个所述社交媒体消息的位置分类。每个分类包括位置以及与该位置关联的权值。根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置。
在又一实施例中,公开了一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质上面包含计算机可读程序代码。所述计算机可读程序代码包括被配置为接收给定用户产生的多个社交媒体消息的计算机可读程序代码。从所述社交媒体消息中提取多个位置特征。通过分类器集成中的至少一个分类器处理每个所述位置特征。通过每个所述分类器产生每个所述社交媒体消息的位置分类。每个分类包括位置以及与该位置关联的权值。根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置。
附图说明
附图与下面的具体实施方式一起在此纳入并构成本说明书的一部分,用于进一步阐述各种实施例以及解释完全根据本发明的各种原理和优点,在所述附图中,相同的参考标号指示各个单独的图之间相同或功能相似的部件,其中:
图1是示出根据本发明的一个实施例的操作环境的框图;
图2是示出根据本发明的一个实施例的统计分类器的框图;
图3示出根据本发明的一个实施例的社交网络消息的实例;
图4示出根据本发明的一个实施例通过社交网络消息识别的位置特征;
图5是示出根据本发明的一个实施例的启发式分类器的框图;
图6是示出在本发明的一个实施例中使用的美国四个时区中每人每天天每小时的平均消息发送量的实例的图形;
图7是示出在本发明的一个实施例中使用的跨时区消息发送量标准差的变形的图形;
图8是示出根据本发明的一个实施例的分类器集成的框图;
图9是示出根据本发明的一个实施例的分层式分类器集成的框图;
图10是示出根据本发明的一个实施例判定社交网络用户位置的过程的操作流程图;以及
图11是示出可在本发明的实施例中使用的信息处理系统的框图。
具体实施方式
图1示出适用于本发明的实施例的操作环境100。如图所示,一个或多个用户系统102在通信上与一个或多个网络104相连。用户设备102的实例包括膝上型计算机、笔记本计算机、个人计算机、平板计算设备、无线通信设备、个人数字助理、游戏装置等。在该实施例中,网络104为广域网、局域网、有线网络、无线网络和/或类似的网络。
一个或多个社交网络服务器106和至少一个位置服务器108也在通信上与网络104相连。社交网络服务器106为用户设备102的用户提供一个或多个社交网络服务(和/或环境)110。社交网络服务/环境110的实例包括微博服务和社交网站。用户通过诸如Web浏览器或应用编程接口(API)之类的接口112访问社交网络服务110。例如,用户能够通过接口112将诸如微博和涂鸦墙之类的社交网络消息提交到社交网络服务器106。
位置服务器108包括位置估计器114,用于根据用户的社交网络消息116估计他们的位置。在该实施例中,位置估计器114使用用户的社交网络消息及其社交网络消息发送行为,以不同的粒度(例如,国家、城市、州、时区和/或地理区域)估计或判定这些用户的家庭住址。用户的“家庭”住址是指以一个或多个粒度(通过术语“家庭住址”、“主位置”和“位置”表示,这些术语可以互换地使用)表示的用户居住/驻留的位置。位置估计器114从社交网络服务110检索/接收社交网络消息116。在该实施例中,位置估计器114使用各种机制(例如,社交网络服务110提供的允许位置估计器114从服务110接收社交网络消息流的API)获取社交网络消息116。
位置估计器114包括消息预处理器118、一个或多个统计分类器120、启发式分类器122、基于行为的分类器124,以及一个或多个可预测性分类器126。分类器的各种实例包括 Bayes、Bayes Multimonial、序列最小优化(SMO)(支持向量机(SVM)实现)、J48、PART和RandomForest。消息预处理器118从一个或多个给定用户产生的社交网络消息116提取各种位置特征(也称为“特征”或“术语”)并将这些特征(术语)传递到对应的分类器120、122、124和126。统计分类器、启发式分类器和基于行为的分类器120、122和124分析这些特征并输出用户的位置。在该实施例中,一个或多个统计分类器120在执行位置判定过程时利用地理数据128。地理数据的一个实例是国家、州/地区、城市、郡等的名称。地理数据128由人类用户手动输入和/或从诸如美国地质勘探局(USGS)地名录之类的源获取。可预测性分类器126分析针对给定统计分类器以及给定分类器120、122和124的统计模型提取的特征来判定是否可以判定用户的位置。
在该实施例中,统计分类器120、启发式分类器122和基于行为的分类器124中的一个或多个通过提取自训练数据集(包括社交网络消息测试样本)的不同特征(术语)进行预训练。可预测性分类器126根据正确或不正确的统计分类器、启发式分类器和基于行为的分类器的输出进行预训练。
针对统计分析器120提取自社交网络消息的特征实例包括单词、标签(或其它任何元数据标签)、地名(例如,国家、州、郡和城市位置名称),以及位于地名本地的术语。因此,在该实施例中,统计分类器120包括根据单词特征预训练的分类器202、根据标签特征预训练的分类器204,以及根据地名特征预训练的分类器206,如图2所示。这些预训练的分类器还称为预训练统计模型,它们各自包括与给定数量的分类关联的预训练特征集,这些分类的数量等于训练数据集粒度内的总位置数。例如,如果训练数据集的粒度位于城市级别,则统计分类器202、204和206的总分类数对应于训练数据集中的总城市数。位置估计器114的位置分类过程利用统计分类器的统计模型(以及启发式分类器和/或基于行为的分类器的预训练模型),根据消息116中的特征识别用户的家庭住址。
训练数据集中的每个消息都使用与产生消息的用户关联的位置进行注释。该注释可根据实际用户给定的位置产生。例如,参与训练过程的用户可以提供他们的家庭住址作为训练过程的一部分。在另一实例中,注释可根据发出社交网络消息的位置产生。在该实例中,使用地理编码API,根据每个城市的经纬度获取边界框。然手使用社交网络服务的流式API的地理标签过滤选项针对每个边界框记录社交网络消息,直到从每个位置的给定数量的唯一用户处接收到给定数量的消息。假设与发现用户的边界框对应的城市就是该用户的家庭住址。
在训练过程中,训练数据集中的每个消息的特征被输入适当的分类器202、204和206。消息的家庭住址也被输入分类器202、204和206。然后根据这些输入,对每个分类器执行统计式机器学习过程。作为此训练过程的结果,产生在位置分类过程期间使用的已训练统计模型。在训练期间,统计模型可以针对位于每个粒度级别上的每个分类器202、204和206产生。另外,分类器202、204和206可根据在位置分类过程期间执行的分类继续训练。尽管该训练分类器的实例应用于分类器120,但是该实例可以类似地应用于训练启发式分类器和基于行为的分类器。
训练完分类器之后,可以执行位置分类。在位置分类过程期间,位置估计器114获取一个或多个与一个或多个给定用户关联的社交网络消息116。图3示出位置估计器114获取的示例性社交网络消息300。消息预处理器118处理社交网络消息116以提取各种特征(术语),这些特征被传递到分类器120、122和124。为了针对统计分类器202、204和206提取这些特征,消息预处理器118执行标记化过程以通过消息116产生标记,同时删除标点和其它空格。然后删除所有包括统一资源定位器(URL)或特殊字符(例如“”、“?”、“!”)的标记。但是不删除来自位置服务的包括URL的标记以及表示以#(例如,图3中的标签#Porland)开头的标签(或其它感兴趣的元数据标签)的标记。
提取完标记之后,使用各种过程提取特定于每个统计分类器202、204和206的特征。对于单词分类器202,消息预处理器118从标记中提取所有单词,包括该实施例中的名词和非停止词。消息预处理器118利用词性标记过程识别名词标记中的所有单词。形容词、动词、介词以及类似的词性不用作该实施例中的单词分类器202的特征,因为这些词经常是通用的,不能区分位置。消息预处理器118还将标记中的单词与预定义的停止词列表进行比较,列表中的单词是在处理自然语言数据(文本)之前或之后筛选出的单词。然后从标记中删除所有包括匹配此列表的单词的标记。通过这种方式,该实施例的消息预处理器118仅提取作为名词和非停止词的单词。
对于标签分类器204,消息预处理器118识别/提取所有以#号(或其它任何感兴趣的符号)开头的标记。对于地名分类器206,消息预处理器118提取在社交网络消息116中出现的一组特征以及从地理数据128中提取匹配的美国城市名和州名。由于并非所有城市名或州名都是单个单词,因此消息预处理器118首先通过标记(可以是序列表)产生二元词组和三元词组。消息预处理器118然后将所有一元词组、二元词组和三元词组与地理数据128中的城市名和州名进行比较。将所有匹配的名称用作地名分类器206的特征。
消息预处理器118针对特定统计分类器识别/提取一组特征之后,在该实施例中,消息预处理器118识别这些特征中的哪些特征对于感兴趣的粒度级别上的位置特别具有区分性(或位于“本地”)。例如,从图3中的第四社交网络消息提取的特征“BaseballTeam_A”位于城市“Boston”本地。消息预处理器118利用一种或多种启发法从提取自消息116的特征集中选择本地特征。在该实施例中,消息预处理器118计算针对每个位置选定的特征的频率以及在其社交网络消息中使用该位置的人数。消息预处理器118保留位于该位置上至少阈值百分比人数的消息中的特征,其中该阈值为根据经验选择的参数(例如5%)。此过程还消除了可能的嘈杂特征。
消息预处理器118然后针对每个特征(术语)计算位置的平均和最大条件概率,并且测试这些概率之差是否高于阈值Tdiff。如果该测试成功,则消息预处理器118进一步测试最大条件概率是否高于阈值Tmax。这样确保特征具有朝向特定位置的高偏置。应用这些启发法允许消息预处理器118识别本地特征并消除大量与跨所有位置的统一分布关联的特征。高于阈值的非限制性实例包括Tdiff=0.1并且Tmax=0.5。图4示出示例性特征及其条件分布。这些本地特征变为被输入各个统计分类器202、204和206的特征。因此,统计分类器202、204和206能够接收本地术语,以及上述各种特征(术语)。
每个已提取的特征208、210和212然后被传递到对应的统计分类器202、204和206,如图2所示。每个统计分类器202、204和206接收从消息预处理器118接收对应的特征208、210和212之后,每个分类器202、204和206将统计模型应用于这些特征并根据它们判定用户位置的概率。每个分类器然后输出位置分类214、216和218,这些分类包括作为用户位置最高概率的位置。例如,单词分类器202根据消息内的单词输出位置。标签分类器204根据消息内的标签输出位置。地名分类器206根据消息内的地名输出位置。如果使用本地特征作为输入,则这些分类器202、204和206也可以根据本地术语输出位置。这些分类器202、204和206的输出214、216和218可进行组合以创建分类器集成,该集成根据各个分类器202、204和206的输出214、216和218的组合输出用户位置。
除了统计分类器202、204和206之外,位置估计器114还利用以不同的粒度判定/预测用户位置的启发式分类器122。例如,图5示出第一启发式分类器502。该分类器502是本地启发式分类器,专门对城市或州级别的位置进行分类。该分类器502利用的启发法是:用户在诸如Tweet之类的社交消息中提及其所在城市和州的频率要大于其它城市和州。因此,本地启发式分类器502从消息116中接收城市和州术语作为输入并计算与给定用户关联的给定数量消息中提及的城市和州的频率/计数。本地启发式分类器502利用该计数作为给定用户和与给定城市或州的匹配分数。本地启发式分类器502输出位置分类508,其中包括具有最高匹配分数的城市或州作为给定用户的位置。
第二启发式分类器504是访问历史启发式分类器,该分类器适用于所有粒度上的位置分类。该分类器504的启发法是:用于访问自家周围地点的频率要大于访问其它位置周围地点的频率。为了检索用户访问历史,消息预处理器搜索给定用户消息中由位置服务产生的URL(例如,图3中的第二社交网络消息包含一个这样的URL)。消息预处理器118访问URL所指的内容,并使用与位置服务关联的一个或多个API检索与内容关联的场所位置信息(城市、州等)。该场所位置信息510被输入访问历史启发式分类器504,该分类器针对所需粒度级别上的已访问位置创建基于频率的统计。访问历史启发式分类器504输出用户的位置分类512,其中包括具有最高频率的位置。一个或多个这些启发式分类器的输出可组合在一起,另外与一个或多个统计分类器的输出共同创建分类器集成,下面将进行介绍。
统计分类器和启发式分类器根据用户的社交网络消息116的内容判定用户位置。在某些实施例中,用户位置备选地或补充地根据用户的消息发送行为来判定。基于行为的分类器124根据用户发送/产生其社交网络消息116的时间判定用户位置。图6示出美国四个时区(通过GMT示出)中每人每天天每小时的平均消息发送量。根据该图形600,全天的消息发送行为在各个时区的形状均相同,但是其中存在显著的时间偏移,分类器124可利用此偏移预测用户所在时区。
基于行为的分类器124通过将一天分为具有指定持续时间的大小相等的时隙来配置。每个时隙都表示分类器124的特征维度。分类器124的时隙可设置为任意持续时间,在该实例中,根据1分钟持续时间来设置。对于每个时隙,分类器124针对一组消息116中的每个用户,计算在该时隙期间发送的消息数量。由于一天内的总消息发送频率在不同的用户之间有所变化,因此某个用户在某个时隙中的消息数量通过该用户的总消息数量进行归一化。图6示出不同时区中消息发送量之差在一天内不统一。图7中的图形700示出跨时区消息发送量标准差的变形。这些变形表示一天内的不同时期更容易区分,该变形通过使用每个时隙的标准差对该时隙的特征值进行加权来捕获。
如果从用户消息中提取的特征与基于统计内容的位置分类器120经过训练的模型所使用的区分特征没有足够的重叠,则可能无法通过该分类器正确地预测用户位置。这对于启发式分类器122也是适用的;如果所提及的本地地名或位置访问不存在或不具有可区分性,则可能无法正确地预测用户。因此,判定用户位置是否可通过这些类型的分类器判定/预测是有利的。另外,集成分类器可通过去除无法针对其特征区分性较弱(适用于统计分类器和启发式分类器)并且与经过训练的模型重叠较少(适用于统计分类器)的用户提供准确预测的分类器来提高精确性。
因此,在一个实施例中,位置估计器114结合使用可预测性分类器126与每个位置分类器120、122和124。每个可预测性分类器126具有二进制输出:可预测或不可预测。如果用户不可预测,则该用户的位置不能使用对应的位置分类器预测。使用T表示用户消息中的一组在使用特定分类器进行分类时考虑的术语。对于统计分类器120,术语t的匹配位置分布是包含该术语的训练模型中的一组位置。如果该分布不为空,则将该术语称为匹配术语。当针对T中的所有术语计算匹配位置分布时,可找到该用户的累积匹配位置分布。对于本地分类器502,此分布包含地理数据128中与用户消息内容匹配的位置以及匹配频率。对于访问历史分类器504,此分布包含在地理数据128中出现的用户访问历史中的位置及其访问频率。例如,对适用于城市粒度上用户的基于单词的统计分类器202,考虑以下匹配位置分布:{New York:20,Los Angeles:10,Chicago:5,Dallas:3,Boston:6}。根据此分布,计算多个度量值以用作对应的可预测性分类的特征。
用户的平均分类强度或分类强度是匹配位置分布中匹配位置数量的倒数。因此,对于上述实例,(平均)分类强度为1/5=0.2。最大分类强度是匹配位置分布中最大位置频率与总频率的比率。对于最小分类强度,分子是同一分布中的最小位置频率。在此,最大分类强度为20/44=5/11=0.4545,最小分类强度为3/44=0.068。这三个分类强度度量值用作所有可预测性分类器的特征。
用户的重叠强度是匹配特征(术语)数量与总特征数量的比率。例如,如果用户通过社交网络消息(例如,tweet)识别出100个单词,并且其中50个具有非空匹配位置分布,则基于单词的可预测性分类的重叠强度为1/2。在一个实施例中,该特征仅用于针对基于内容的统计分类器120训练可能性分类器126。为了构建可能性分类器126的标签数据,使用对应的位置分类器。对于每个用户,使用该位置分类器产生位置分类并且根据该分类是否正确设置可预测性分类标签。
在一个实施例中,单个分类器120、122和124被组合在一起形成位置分类器集成800,如图8所示。在该实施例中,分类器集成是加权的线性位置分类器集成。使用{C1,C2,....,Cn}作为一组分类器,使用Y1(xi)、Y2(xi)、....Yn(xi)作为每个分类器产生的分类,其中输入数据为xi,Yj(xi)对应于第j个分类器预测的位置。在最简单的打包集成方法中,每个分类器接收相等的权值。也可使用诸如Boosting之类的更复杂的方法。在boosting中,自动根据效能学习权值。在该实施例中,分类器根据它们的区分能力(通过分类该实例的分类强度判定)以启发的方式被赋予权值。通过加权线性组合,具有最高排序的位置被返回作为结果,如图8所示。
图8示出每个统计分类器120、启发式分类器122和行为分类器124输出多个位置分类。如果可预测性分类器126判定用户位置无法通过分类器120、122和124之一预测,则可预测性分类器126会阻止该分类器针对与用户关联的一个或多个消息产生位置分类。分类器120、122和124产生的位置分类包括与权值关联的位置。在图8的实例中,统计分类器120产生权值为W1的位置分类L1,权值为W2的另一位置分类L1,以及权值为W3的位置分类L2。这些位置分类可通过单个统计分类器或多个统计分类器产生。启发式分类器122产生权值为W4的位置分类L3,权值为W5的另一位置分类L1,以及权值为W6的另一位置分类L2。这些位置分类可通过单个启发式分类器或多个启发式分类器产生。行为分类器产生权值为W7的位置分类L4,权值为W8的另一位置分类L1,以及权值为W9的另一位置分类L1。这些位置分类可通过单个行为分类器或多个行为分类器产生。
组合802与同一位置对应的位置分类的权值。例如,组合位置分类L1的权值;组合位置分类L2的权值;组合位置分类L3的权值;以及组合位置分类L4的权值。然后输出包括最高权值(或最低权值,具体取决于加权和/或排序机制)的位置分类804作为用户的位置分类。
在某些实施例中,不针对基于行为的分类器124使用利用分类强度的加权启发法。在这些实施例中,可使用下面的集成方法。使用TC1作为基于内容的时区分类,使用W1作为其关联权值的归一化值,其中W1被计算为分类TC1的关联权值(TC1的分类强度总和)与基于内容的分类的关联总分类强度值的比率。使用TC2作为tweet行为分类器产生的分类,使用W2作为分类TC2的关联权值,其中W2为分类TC2的关联概率值或置信度。返回具有较高权值的分类作为最终分类。
对于较小粒度(例如,城市级别)上的位置分类,分类器区分大量位置以产生位置分类。在一个实施例中,该任务通过摘取大型分类问题并将其分为多个较小分类问题(其中分类器120、122、124和126分层组织)来简化。此类系统中的初始分类器产生高级分类(诸如针对时区),用于特定实例的较低级别分类器通过初始分类器的分类进行判定。
在该实施例中,利用两级层次结构判定位置,其中时区为层次结构的第一级别。位置估计器114仅在特定的时区之间进行分类(诸如东部、中部、山地和太平洋)。时区分类器集成使用所有基于内容的分类器和基于行为的分类器进行训练。在该实施例中,针对每个时区训练城市分类器,其中每个分类器仅判定/预测自己时区中的城市,并且仅通过该时区中的实例进行训练。
图9示出示例性分层式集成分类器900。在该实例中,第一层(或顶层)包括时区分类器902,例如基于行为的分类器124。在某些实施例中还利用可预测性分类器。第二层(或较低层)包括城市分类器904,例如统计分类器122和/或启发式分类器124(分层式分类器集成并不仅限于两层,可以包括用于其它粒度的其它层)。时区分类器902从消息预处理器118接收作为输入的消息发送行为特征906。在进一步的实施例中,使用允许判定时区位置的其它特征作为输入。时区分类器902处理这些特征并产生时区位置分类908。如果通过时区分类器902判定多个时区位置分类,则选择具有最高概率/权值的分类。城市分类器904处理时区位置分类908并产生城市位置分类910。如果通过时区分类器902判定多个城市位置分类,则选择具有最高概率/权值的分类作为用户位置。
在州层次结构配置中,使用州/地区作为层次结构的第一层。州分类器集成包括基于内容的分类器,并且针对所有州构建城市分类器。在区域层次结构配置中,使用地理区域作为层次结构的第一层(例如,东北部、中西部、南部和西部),区域层次结构分类器使用与州层次结构分类器相同的基本方法来构建。
因此,本发明的实施例使用用户的社交网络消息内容和/或消息发送行为以不同的粒度(例如,城市、州、时区或地理区域)推断社交网络用户的家庭住址。某些实施例利用统计分类器和启发式分类器的集成判定/预测位置。某些实施例利用用于提高预测准确性(例如,通过首先预测时区、州或地理区域,然后预测城市)的分层式分类方法。在某些实施例中利用“可预测性”分类器判定针对给定用户是否具有足够的信息来预测家庭住址。
图10是示出根据本发明的一个实施例判定社交网络用户位置的过程的操作流程图。在步骤1002,位置估计器114获取给定用户产生的社交网络消息116。在步骤1004,位置估计器114从每个消息116中提取位置特征。在步骤1006,位置估计器114将已提取的特征传递到分类器集成800/900内对应的分类器120、122和124。
在步骤1008,与分类器集成800/900中的每个关联的可预测性分类器126判定是否可通过给定分类器预测给定用户的位置。如果此判定的结果为否,则在步骤1010,位置估计器114阻止该分类器针对给定用户产生位置分类。该位置估计器114可以阻止针对与给定用户关联的所有消息或消息的子集产生位置分类。如果此判定的结果为是,则在步骤1012,每个分类器处理对应的特征并针对给定用户产生加权的位置分类。在步骤1014,位置估计器114组合包括同一位置的每个位置分类的权值。位置估计器114根据与位置分类关联的组合权值选择位置分类作为给定用户的位置。控制流程然后结束。针对分层式分类器集成或针对单个分类器执行类似的过程。
图11是示出可在本发明的实施例中使用的信息处理系统的框图。信息处理系统1100基于适当配置的处理系统,该系统适合于实现本发明的一个或多个实施例(例如,图1中的用户系统102和/或服务器系统106)。可使用任何适当配置的处理系统作为本发明的实施例中的信息处理系统1100。
信息处理系统1100包括计算机1102。计算机1102具有处理器1104,该处理器与主存储器1106、海量存储接口1108以及网络适配器硬件1110相连。系统总线将这些系统组件进行互连。尽管针对计算机1102示出仅一个CPU1104,但是可以同样有效地使用具有多个CPU的计算机系统。尽管图11未示出,但是主存储器1106包括位置估计器114及其组件,以及社交网络消息和地理数据128。在另一实施例中,位置估计器114可以驻留在处理器1104内,也可以是单独的硬件组件。
海量存储接口1108用于将诸如海量存储器件1114之类的海量存储器件与信息处理系统1100进行连接。数据存储器件的一个特定类型是诸如CD/DVD驱动器之类的光驱,它可用于将数据存储到计算机可读介质或存储产品或从中读取数据,所述光驱包括但不限于CD/DVD1116。另一数据存储器件类型是被配置为例如支持NTFS型文件系统操作的数据存储器件。
包括在主存储器中的操作系统是适当的多任务处理操作系统,例如Linux、UNIX、Windows和基于Windows Server的操作系统中的任一系统。本发明的实施例还能够使用其它任何适当的操作系统。本发明的某些实施例利用架构,例如面向对象的框架机制,此机制允许操作系统组件的指令在位于信息处理系统1100内的任一处理器上执行。网络适配器硬件1110用于提供到网络104的接口。本发明的实施例能够改编为与任何数据通信连接协作,这些连接包括现今的模拟和/或数字技术或通过未来的联网机制。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此处使用的术语只是为了描述具体实施例,并非旨在限制本发明。如在此使用的那样,单数形式“一”、“一个”和“所述”旨在同样包括复数形式,除非上下文明确地另有所指。还将理解,当在此说明书中使用时,根术语“包括”和/或“包含”指定存在声明的特征、整数、步骤、操作、元素和/或组件,但是并不排除存在或增加其它特征、整数、步骤、操作、元素、组件和/或它们构成的组。
本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
所给出的对本发明的描述在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所公开的形式。在不偏离本发明的范围和精神的情况下,对于本领域的技术人员而言,许多修改和变化都将是显而易见的。实施例的选择和描述,旨在最好地解释本发明的原理、实际应用,当适合于所构想的特定应用时,可使本技术领域的普通人员理解本发明带有各种修改的各种实施例。
Claims (22)
1.一种位置估计的方法,包括:
接收给定用户产生的多个社交媒体消息;
从所述社交媒体消息中提取多个位置特征;
通过分类器集成中的至少一个分类器处理每个所述位置特征;
通过每个所述分类器产生每个所述社交媒体消息的位置分类,每个位置分类包括位置以及与该位置关联的权值;以及
根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置。
2.根据权利要求1的方法,
其中所述分类器集成是分层式分类器集成,以及
所述分层式分类器集成的给定层中的每个分类器以低于所述分层式分类器集成的较高层中的每个分类器的粒度识别位置。
3.根据权利要求2的方法,其中所述产生包括:
通过所述分层式分类器集成的第一层中的每个分类器,识别所述给定用户的时区位置;以及
通过所述分层式分类器集成的第二层中的每个分类器,至少部分地根据在所述第一层中识别的所述时区位置识别所述给定用户的城市位置,其中所述第二层在所述第一层以下。
4.根据权利要求2的方法,其中所述产生包括:
通过所述分层式分类器集成的第一层中的每个分类器,识别所述给定用户的州位置;以及
通过所述分层式分类器集成的第二层中的每个分类器,至少部分地根据在所述第一层中识别的所述州位置识别所述给定用户的城市位置,其中所述第二层在所述第一层以下。
5.根据权利要求2的方法,其中所述产生包括:
通过所述分层式分类器集成的第一层中的每个分类器,识别与所述给定用户关联的地理区域位置;以及
通过所述分层式分类器集成的第二层中的每个分类器,至少部分地根据在所述第一层中识别的所述地理区域位置识别所述给定用户的城市位置,其中所述第二层在所述第一层以下。
6.根据权利要求1的方法,其中所述处理包括通过至少一个统计分类器处理所述位置特征的子集,所述位置特征的子集包括位于给定城市本地的术语、元数据标签、以及地名。
7.根据权利要求1的方法,其中所述处理包括通过至少一个启发式分类器处理所述位置特征的子集,所述位置特征的子集包括所述社交媒体消息中的城市名频率和州名频率中的至少一项。
8.根据权利要求1的方法,其中所述处理包括通过至少一个启发式分类器处理所述位置特征的子集,所述位置特征的子集包括根据所述社交媒体消息中的统一资源定位器通过所述社交媒体消息识别的已访问位置的频率。
9.根据权利要求1的方法,其中所述处理包括通过至少一个基于行为的分类器处理所述位置特征的子集,所述位置特征的子集包括所述给定用户在多个时段中产生的社交媒体消息的频率。
10.根据权利要求1的方法,其中所述处理包括:
通过与所述分类器集成中的一个所述分类器关联的二进制分类器,判定与给定用户关联的位置是否可通过所述一个分类器预测;以及
如果所述二进制分类器判定所述位置不可通过所述一个分类器预测,则阻止所述一个分类器产生所述位置分类。
11.根据权利要求1的方法,其中所述处理包括:
通过至少一个统计分类器处理所述位置特征的至少一个子集;
通过至少一个启发式分类器处理所述位置特征的至少一个子集;以及
通过至少一个基于行为的分类器处理所述位置特征的至少一个子集。
12.根据权利要求11的方法,其中所述处理进一步包括通过与所述分类器集成中的一个所述分类器关联的二进制分类器,判定与给定用户关联的位置是否可通过所述一个分类器预测。
13.一种位置估计的系统,包括:
被配置为接收给定用户产生的多个社交媒体消息的模块;
被配置为从所述社交媒体消息中提取多个位置特征的模块;
被配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块;
被配置为产生每个所述社交媒体消息的位置分类的分类器,每个位置分类包括位置以及与该位置关联的权值;以及
被配置为根据所述位置分类的所述权值的组合从所述位置分类中选择一个位置作为所述给定用户的位置的模块。
14.根据权利要求13的系统,
其中所述分类器集成是分层式分类器集成,以及
所述分层式分类器集成的给定层中的每个分类器以低于所述分层式分类器集成的较高层中的每个分类器的粒度识别位置。
15.根据权利要求14的系统,其中所述分类器包括:
被配置为识别所述给定用户的时区位置的所述分层式分类器集成的第一层中的分类器;以及
被配置为至少部分地根据在所述第一层中识别的所述时区位置识别所述给定用户的城市位置的所述分层式分类器集成的第二层中的分类器,其中所述第二层在所述第一层以下。
16.根据权利要求14的系统,其中所述分类器包括:
被配置为识别所述给定用户的州位置的所述分层式分类器集成的第一层中的分类器;以及
被配置为至少部分地根据在所述第一层中识别的所述州位置识别所述给定用户的城市位置的所述分层式分类器集成的第二层中的分类器,其中所述第二层在所述第一层以下。
17.根据权利要求14的系统,其中所述分类器包括:
被配置为识别与所述给定用户关联的地理区域位置的所述分层式分类器集成的第一层中的分类器;以及
被配置为至少部分地根据在所述第一层中识别的所述地理区域位置识别所述给定用户的城市位置的所述分层式分类器集成的第二层中的分类器,其中所述第二层在所述第一层以下。
18.根据权利要求13的系统,其中所述被配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块包括:
被配置为判定与给定用户关联的位置是否可通过所述一个分类器预测的与所述分类器集成中的一个所述分类器关联的二进制分类器;以及
被配置为在所述二进制分类器判定所述位置不可通过所述一个分类器预测的情况下,阻止所述一个分类器产生所述位置分类的子模块。
19.根据权利要求13的系统,其中所述配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块被进一步配置为通过至少一个统计分类器处理所述位置特征的子集,所述位置特征的子集包括位于给定城市本地的术语、元数据标签、以及地名。
20.根据权利要求13的系统,其中所述配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块被进一步配置为通过至少一个启发式分类器处理所述位置特征的子集,所述位置特征的子集包括所述社交媒体消息中的城市名频率和州名频率中的至少一项。
21.根据权利要求13的系统,其中所述配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块被进一步配置为通过至少一个启发式分类器处理所述位置特征的子集,所述位置特征的子集包括根据所述社交媒体消息中的统一资源定位器通过所述社交媒体消息识别的已访问位置的频率。
22.根据权利要求13的系统,其中所述配置为通过分类器集成中的至少一个分类器处理每个所述位置特征的模块被进一步配置为通过至少一个基于行为的分类器处理所述位置特征的子集,所述位置特征的子集包括所述给定用户在多个时段中产生的社交媒体消息的频率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/487,855 | 2012-06-04 | ||
US13/487,855 US8990327B2 (en) | 2012-06-04 | 2012-06-04 | Location estimation of social network users |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103455545A true CN103455545A (zh) | 2013-12-18 |
CN103455545B CN103455545B (zh) | 2017-09-19 |
Family
ID=49671650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310216946.7A Active CN103455545B (zh) | 2012-06-04 | 2013-06-03 | 社交网络用户的位置估计的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (2) | US8990327B2 (zh) |
CN (1) | CN103455545B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618417A (zh) * | 2014-04-30 | 2015-05-13 | 腾讯科技(深圳)有限公司 | 社交通信群的定位方法和系统 |
CN106850410A (zh) * | 2017-02-13 | 2017-06-13 | 焦慧 | 一种通过社交平台快速定位人员位置的方法及装置 |
CN107194412A (zh) * | 2017-04-20 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 一种处理数据的方法、装置、设备和计算机存储介质 |
CN112733000A (zh) * | 2021-03-01 | 2021-04-30 | 电子科技大学 | 一种基于用户微博文本数据推测用户常驻位置的方法 |
JP2023015774A (ja) * | 2021-07-20 | 2023-02-01 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130096978A (ko) * | 2012-02-23 | 2013-09-02 | 삼성전자주식회사 | 사용자 단말, 서버, 상황기반 정보 제공 시스템 및 그 방법 |
JP5968535B2 (ja) * | 2012-06-27 | 2016-08-10 | エンパイア テクノロジー ディベロップメント エルエルシー | オンライン投稿の信頼性の判定 |
US9412136B2 (en) | 2012-07-09 | 2016-08-09 | Facebook, Inc. | Creation of real-time conversations based on social location information |
US10726090B1 (en) * | 2013-04-05 | 2020-07-28 | Hrl Laboratories, Llc | Per-user accuracy measure for social network based geocoding algorithms |
US20150012550A1 (en) * | 2013-07-08 | 2015-01-08 | Xerox Corporation | Systems and methods of messaging data analysis |
US9262438B2 (en) * | 2013-08-06 | 2016-02-16 | International Business Machines Corporation | Geotagging unstructured text |
US9471944B2 (en) * | 2013-10-25 | 2016-10-18 | The Mitre Corporation | Decoders for predicting author age, gender, location from short texts |
US20150149539A1 (en) * | 2013-11-22 | 2015-05-28 | Adobe Systems Incorporated | Trending Data Demographics |
US20150220643A1 (en) * | 2014-01-31 | 2015-08-06 | International Business Machines Corporation | Scoring properties of social media postings |
GB2522708A (en) * | 2014-02-04 | 2015-08-05 | Jaguar Land Rover Ltd | User content analysis |
US9602574B1 (en) * | 2014-02-26 | 2017-03-21 | Google Inc. | Prerendering time zone aware layouts for rich web apps |
US20150309962A1 (en) * | 2014-04-25 | 2015-10-29 | Xerox Corporation | Method and apparatus for modeling a population to predict individual behavior using location data from social network messages |
US9532165B2 (en) * | 2014-05-15 | 2016-12-27 | Xerox Corporation | Method and apparatus for location prediction using short text |
CN105338480B (zh) | 2014-06-24 | 2020-01-24 | 创新先进技术有限公司 | 基于lbs的用户匹配方法、消息客户端、服务器及系统 |
US9225897B1 (en) | 2014-07-07 | 2015-12-29 | Snapchat, Inc. | Apparatus and method for supplying content aware photo filters |
JP6458537B2 (ja) * | 2015-02-19 | 2019-01-30 | 富士通株式会社 | 位置推定方法、位置推定プログラム、及び位置推定装置 |
US10395179B2 (en) | 2015-03-20 | 2019-08-27 | Fuji Xerox Co., Ltd. | Methods and systems of venue inference for social messages |
KR101720972B1 (ko) * | 2015-04-16 | 2017-03-30 | 주식회사 플런티코리아 | 답변 추천 장치 및 방법 |
WO2016167424A1 (ko) * | 2015-04-16 | 2016-10-20 | 주식회사 플런티코리아 | 답변 추천 장치, 자동 문장 완성 시스템 및 방법 |
US10318884B2 (en) * | 2015-08-25 | 2019-06-11 | Fuji Xerox Co., Ltd. | Venue link detection for social media messages |
US11416680B2 (en) * | 2016-08-18 | 2022-08-16 | Sap Se | Classifying social media inputs via parts-of-speech filtering |
US10719770B2 (en) | 2016-09-28 | 2020-07-21 | International Business Machines Corporation | System and method for enhanced chatflow application |
US11095590B2 (en) | 2016-09-28 | 2021-08-17 | International Business Machines Corporation | System and method for enhanced chatflow application |
CA3043010A1 (en) | 2016-11-09 | 2018-05-17 | Thomson Reuters Global Resources Unlimited Company | System and method for detecting geo-locations in social media |
US10158897B2 (en) * | 2017-03-28 | 2018-12-18 | International Business Machines Corporation | Location-based event affinity detangling for rolling broadcasts |
US20180315414A1 (en) | 2017-04-26 | 2018-11-01 | International Business Machines Corporation | Adaptive digital assistant and spoken genome |
US10592236B2 (en) * | 2017-11-14 | 2020-03-17 | International Business Machines Corporation | Documentation for version history |
US20190155946A1 (en) * | 2017-11-20 | 2019-05-23 | Colossio, Inc. | N-gram classification in social media messages |
US20190228321A1 (en) * | 2018-01-19 | 2019-07-25 | Runtime Collective Limited | Inferring Home Location of Document Author |
US11138477B2 (en) * | 2019-08-15 | 2021-10-05 | Collibra Nv | Classification of data using aggregated information from multiple classification modules |
US11275788B2 (en) | 2019-10-21 | 2022-03-15 | International Business Machines Corporation | Controlling information stored in multiple service computing systems |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078367A1 (en) * | 2000-04-03 | 2004-04-22 | Mark Anderson | Method and system to modify geolocation activities based on logged query information |
US20070136086A1 (en) * | 2005-10-17 | 2007-06-14 | Luerssen Brian T | System and method for providing location-based information to a mobile device |
CN101073274A (zh) * | 2004-05-12 | 2007-11-14 | 谷歌公司 | 用于移动设备的基于位置的社会软件 |
US20070281690A1 (en) * | 2006-06-01 | 2007-12-06 | Flipt, Inc | Displaying and tagging places of interest on location-aware mobile communication devices in a local area network |
US20110072020A1 (en) * | 2009-09-18 | 2011-03-24 | Research In Motion Limited | Expediting Reverse Geocoding With A Bounding Region |
US20120052880A1 (en) * | 2010-08-27 | 2012-03-01 | Research In Motion Limited | System and method for determining action spot locations relative to the location of a mobile device |
CN102439621A (zh) * | 2009-08-03 | 2012-05-02 | 优诺莫比公司 | 用于将广告添加到基于位置的广告系统的系统和方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060252438A1 (en) * | 2005-05-04 | 2006-11-09 | Ansamaa Jarkko H | Determining user equipment time zones for time-based service fulfillment |
US8275397B2 (en) | 2005-07-14 | 2012-09-25 | Huston Charles D | GPS based friend location and identification system and method |
US8571580B2 (en) * | 2006-06-01 | 2013-10-29 | Loopt Llc. | Displaying the location of individuals on an interactive map display on a mobile communication device |
US7917154B2 (en) | 2006-11-01 | 2011-03-29 | Yahoo! Inc. | Determining mobile content for a social network based on location and time |
US20080168033A1 (en) | 2007-01-05 | 2008-07-10 | Yahoo! Inc. | Employing mobile location to refine searches |
US20110010205A1 (en) | 2009-07-08 | 2011-01-13 | American Express Travel Related Services Company, Inc. | Travel fare determination and display in social networks |
US10282481B2 (en) | 2009-07-31 | 2019-05-07 | Oath Inc. | Providing link to portion of media object in real time in social networking update |
US9119027B2 (en) | 2009-10-06 | 2015-08-25 | Facebook, Inc. | Sharing of location-based content item in social networking service |
US8396888B2 (en) | 2009-12-04 | 2013-03-12 | Google Inc. | Location-based searching using a search area that corresponds to a geographical location of a computing device |
US20110238763A1 (en) | 2010-02-26 | 2011-09-29 | Momo Networks, Inc. | Social Help Network |
US8310394B2 (en) | 2010-03-08 | 2012-11-13 | Deutsche Telekom Ag | Apparatus, method, manufacture, and system for sensing substitution for location-based applications |
US20120124458A1 (en) * | 2010-11-17 | 2012-05-17 | Nazareno Brier Cruzada | Social networking website & web-based system for collecting & presenting real-time user generated information on parties & events. |
US8965974B2 (en) * | 2011-08-19 | 2015-02-24 | Board Of Regents, The University Of Texas System | Systems and methods for determining user attribute values by mining user network data and information |
US20130086072A1 (en) * | 2011-10-03 | 2013-04-04 | Xerox Corporation | Method and system for extracting and classifying geolocation information utilizing electronic social media |
US20130191198A1 (en) * | 2012-01-20 | 2013-07-25 | Visa International Service Association | Systems and methods to redeem offers based on a predetermined geographic region |
-
2012
- 2012-06-04 US US13/487,855 patent/US8990327B2/en active Active
- 2012-08-24 US US13/593,604 patent/US9002960B2/en active Active
-
2013
- 2013-06-03 CN CN201310216946.7A patent/CN103455545B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078367A1 (en) * | 2000-04-03 | 2004-04-22 | Mark Anderson | Method and system to modify geolocation activities based on logged query information |
CN101073274A (zh) * | 2004-05-12 | 2007-11-14 | 谷歌公司 | 用于移动设备的基于位置的社会软件 |
US20070136086A1 (en) * | 2005-10-17 | 2007-06-14 | Luerssen Brian T | System and method for providing location-based information to a mobile device |
US20070281690A1 (en) * | 2006-06-01 | 2007-12-06 | Flipt, Inc | Displaying and tagging places of interest on location-aware mobile communication devices in a local area network |
CN102439621A (zh) * | 2009-08-03 | 2012-05-02 | 优诺莫比公司 | 用于将广告添加到基于位置的广告系统的系统和方法 |
US20110072020A1 (en) * | 2009-09-18 | 2011-03-24 | Research In Motion Limited | Expediting Reverse Geocoding With A Bounding Region |
US20120052880A1 (en) * | 2010-08-27 | 2012-03-01 | Research In Motion Limited | System and method for determining action spot locations relative to the location of a mobile device |
Non-Patent Citations (4)
Title |
---|
EINAT AMITAY等: "Web-a-where: geotagging web content", 《PROCEEDINGS OF THE 27TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 * |
NAPONG WANICHAYAPONG 等: "Social-based traffic information extraction and classification", 《2011 11TH INTERNATIONAL CONFERENCE ON ITS TELECOMUNICATIONS(ITST)》 * |
ZHIYUAN CHENG 等: "You are where you tweet: a content-based approach to geo-locating twitter users", 《PROCEEDINGS OF THE 19TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
袁书寒 等: "位置服务社交网络用户行为相似性分析", 《计算机应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618417A (zh) * | 2014-04-30 | 2015-05-13 | 腾讯科技(深圳)有限公司 | 社交通信群的定位方法和系统 |
CN106850410A (zh) * | 2017-02-13 | 2017-06-13 | 焦慧 | 一种通过社交平台快速定位人员位置的方法及装置 |
CN107194412A (zh) * | 2017-04-20 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 一种处理数据的方法、装置、设备和计算机存储介质 |
CN112733000A (zh) * | 2021-03-01 | 2021-04-30 | 电子科技大学 | 一种基于用户微博文本数据推测用户常驻位置的方法 |
JP2023015774A (ja) * | 2021-07-20 | 2023-02-01 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7258960B2 (ja) | 2021-07-20 | 2023-04-17 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US8990327B2 (en) | 2015-03-24 |
US9002960B2 (en) | 2015-04-07 |
US20130325977A1 (en) | 2013-12-05 |
US20130325975A1 (en) | 2013-12-05 |
CN103455545B (zh) | 2017-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103455545A (zh) | 社交网络用户的位置估计的方法和系统 | |
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
US11347782B2 (en) | Internet text mining-based method and apparatus for judging validity of point of interest | |
Schouten et al. | Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
US9262438B2 (en) | Geotagging unstructured text | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN107958014B (zh) | 搜索引擎 | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN114706882A (zh) | 结构化信息卡的搜索和检索 | |
WO2015061046A2 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN108304373A (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN104731958A (zh) | 一种面向用户需求倾向的云制造服务推荐方法 | |
CN106354867A (zh) | 多媒体资源的推荐方法及装置 | |
US20230074771A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Atreja et al. | Citicafe: An interactive interface for citizen engagement | |
Subramani et al. | Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160513 Address after: American California Applicant after: Snapchat Inc. Address before: American New York Applicant before: International Business Machines Corp. |
|
CB02 | Change of applicant information |
Address after: American California Applicant after: Snapple company Address before: American California Applicant before: Snapchat Inc. |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |