CN105339927B - 使用社交网络分析在在线社交媒体平台中推断用户的位置的系统和方法 - Google Patents

使用社交网络分析在在线社交媒体平台中推断用户的位置的系统和方法 Download PDF

Info

Publication number
CN105339927B
CN105339927B CN201480020049.1A CN201480020049A CN105339927B CN 105339927 B CN105339927 B CN 105339927B CN 201480020049 A CN201480020049 A CN 201480020049A CN 105339927 B CN105339927 B CN 105339927B
Authority
CN
China
Prior art keywords
user
mapping
social networks
location
est
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480020049.1A
Other languages
English (en)
Other versions
CN105339927A (zh
Inventor
D·A·尤尔根斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HRL Laboratories LLC
Original Assignee
HRL Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HRL Laboratories LLC filed Critical HRL Laboratories LLC
Publication of CN105339927A publication Critical patent/CN105339927A/zh
Application granted granted Critical
Publication of CN105339927B publication Critical patent/CN105339927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
    • H04W4/21Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel for social networking applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/024Guidance services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

所描述的是一种用于使用社交网络分析在线社交媒体平台中推断用户的位置的系统,首先从来自至少一个社交媒体平台的数据提取社交网络。在社交网络中,生成从每个用户到该用户的估计地理位置的映射,产生估计位置映射。如果用户的地理位置已知,则生成从每个用户到该用户的已知地理位置的映射,产生已知位置映射。将估计位置映射更新为匹配已知位置映射。在当前的估计位置映射中更新在已知位置映射中针对每个用户j的位置。使用几何中值度量来估计与j连接的用户的最终地理位置。最后,将与j连接的用户的最终估计地理位置映射到社交网络中。

Description

使用社交网络分析在在线社交媒体平台中推断用户的位置的 系统和方法
政府许可权
本发明在美国政府法案号BFL1OSI,IARPA开放源指示器下获得政府支持而做出。政府对本发明具有特定权利。
相关申请的交叉引用
这是于2013年4月5日在美国提交的题为“Inferring the Location of Users inOnline Social Media Platforms Using Social Network Analysis”的美国临时专利申请第61/809,160号的非临时专利申请。
技术领域
本发明涉及一种用于在在线社交媒体平台中推断用户的位置的系统,且更具体地,涉及一种用于使用社交网络分析在在线社交媒体平台中推断用户的位置的系统。
背景技术
社交媒体提供了一种用于观察快速变化的公众兴趣焦点的新的数据源。检测消息发出的位置提供了一种在空间上聚集内容的强大的方法。该空间集中能实现检测区域差异、检测区域特定的新兴趋势、或者甚至测量信息流。然而,几乎没有内容与地面真实位置数据相关联。
一些工作已在TwitterTM社交媒体平台上研究位置推断。Cheng等(参见合并引用的文献参考列表、文献参考号1)、Mahmud等(参见文献参考号6)和Ikawa等(参见文献参考号5)已研究使用由用户产生的文本内容来推断其位置。尽管这已经产生良好的结果,但是该方法仅受限于生成包括地理参考的文本的那些用户。另外,他们的方法仅对英文进行测试。
Sadilek等(参见文献参考号9)执行社交网络推断以估计用户的真实位置。然而,他们的方法需要知晓两个用户的位置以便估计社交关系,这将该方法限制于仅那些具有已知位置的个人。
Davis Jr.等(参照文献参考号2)在TwitterTM中使用用户的跟随者的网络来执行位置推断。他们仅使用一圈标准标签传播来推断位置,这可能导致有限的覆盖范围。另外,他们的工作仅对小用户组进行测试,因此他们的工作是否能推广至大用户组还仍然未被测试。
Hetch等(参见文献参考号4)和Pontes等(参照文献参考号8)分别从TwitterTM和FourSquareTM中自身提供的位置信息推断用户位置。尽管Pontes等(参照文献参考号8)报道了采用该方法的超过90%的用户覆盖范围,但是尚未进行尝试来推断其余用户的位置。Hetch等(参见文献参考号4)在TwitterTM中发现具有高误差率的显著少的信息。
上述每个现有方法均表现出使其不完善的限制。因此,对于用于使用被设计为最大化位置推断准确度的推断社交网络从用户的社交网络和少量地面真实数据来推断用户位置的方法而言,存在持续的需求。
发明内容
本发明涉及用于在在线社交媒体平台中推断用户的位置的系统,且更具体地,涉及一种用于使用社交网络分析在在线社交媒体平台中推断用户的位置的系统。
该系统包括一个或更多个处理器和具有指令的存储器,使得当所述指令被执行时,所述一个或更多个处理器执行多个操作。该系统从来自至少一个社交媒体平台的数据提取社交网络,其中,所述社交网络包括通过社交关系连接的多个用户,且其中,所述多个用户中的每个用户均在每个社交媒体平台上具有身份。在所述社交网络中生成从所述多个用户中的每个用户到所述用户的估计的地理位置的映射,产生估计位置映射Est。随后,在所述社交网络中生成从所述多个用户中具有已知地理位置数据的每个用户到所述用户的已知地理位置的映射,产生已知位置映射SL。将所述估计位置映射Est更新为具有与所述已知位置映射SL相同的映射,直至满足预定收敛标准。针对所述多个用户中的在所述已知位置映射SL中具有映射的每个用户j,将j在当前的估计位置映射Est’中的位置更新为在所述已知位置映射SL中的位置。针对所述多个用户中的在具有与j的社交关系且在所述估计位置映射Est中具有映射的用户组N中的每个用户,将N中的所述用户的所估计的地理位置添加到位置集合NL。使用几何中值度量来估计N中的所述用户的最终地理位置的集合。在所述社交网络中将N中的所述用户映射至所述用户的最终估计地理位置。
在另一方面中,该系统为N和所述位置集合NL提供所述社交网络的子图。利用N中的所述用户的所述最终估计地理位置更新所述当前的估计位置映射Est’,以及利用在所述当前的估计位置映射Est’中的映射替换在所述估计位置映射Est中的映射。
在另一方面中,该系统结合来自所有社交媒体平台的用户身份,使得每个用户被表示为在所述社交网络中的单个个人。
在另一方面中,为用户合并估计地理位置数据与来自所有社交媒体平台的已知地理位置数据。
在另一方面中,为使用所述几何中值度量的地理位置估计仅选择N中彼此之间也具有社交关系的那些用户。
在另一方面中,本发明还包括用于使处理器执行本文所述的操作的方法。
在又一方面中,本发明还包括计算机程序产品,其包括存储在非临时性计算机可读介质上的能够由具有处理器的计算机执行的用于使所述处理器执行本文中所述的操作的计算机可读指令。
附图说明
结合参照附图根据对本发明的各个方面的以下详细描述,本发明的目的、特征和优势将是显而易见的,其中:
图1是根据本发明的原理的用于使用社交网络分析在在线社交媒体平台中推断用户的位置的流程图;
图2是根据本发明的原理的用于用户位置推断的性能度量的列表;
图3是根据本发明的原理的数据处理系统的示图;以及
图4根据本发明的原理的计算机程序产品的示图。
具体实施方式
本发明涉及一种用于在在线社交媒体平台中推断用户的位置的系统,且更具体地,涉及一种用于使用社交网络分析在在线社交媒体平台中推断用户位置的系统。
提出以下描述以便能使本领域普通技术人员制造和使用本发明,并且将其结合到具体应用的背景下。在不同应用中的各种修改以及各种使用对于本领域技术人员而言将显然是显而易见的,且本文中限定的一般性原理可以被应用于宽范围的实施方式。因此,本发明并不旨在受限于所提出的实施方式,而是符合与本文中所公开的原理和新特征相一致的最宽范围。
在以下详细描述中,陈述了许多具体细节以提供对本发明的更加全面的理解。然而,对于本领域技术人员而言,显而易见的将是可以不必受限于这些具体细节来实践本发明。在其它情况下,以框图形式(而不是详细地)示出了已知结构和装置,以避免模糊本发明。
将读者的注意力引导至与本说明书同时提交的且被开放给公众审阅本说明书的所有论文和文献,且将所有这些论文和文献的内容结合于此供参考。本说明书(包括任何所附权利要求、摘要和附图)中公开的所有特征均可以被用于相同、等同或类似目的的替代特征替代,除非另外明确规定。因此,除非另外明确规定,否则所公开的每个特征均仅是一般性的一系列等同或类似特征的一个实例。
另外,权利要求中并未明确说明“用于”执行专用功能的“装置”或者“用于”执行专用功能的“步骤”的任何元素并不能被解释为如在35U.S.C.第112节第6段中所规定的“装置”或“步骤”条款。具体地,在本文的权利要求中的“…的步骤”或“…的动作”的使用并不旨在援引35U.S.C.112第6段的规定。
请注意,如果使用,那么仅为方便的目的而使用术语“左”、“右”、“前”、“后”、“上”、“下”、“正”、“反”、“顺时针”和“逆时针”,且并不旨在暗示任何具体的固定方向。相反,它们被用于反映各种对象部分之间的相对位置和/或方向。因此,当本发明被改变时,上述术语可能会改变其取向。
在详细描述本发明之前,首先提供在本说明书中使用的引用文献参考的列表。接下来,提供对本发明的各种原理方面的描述。最后,提供本发明的具体细节以给出对具体方面的理解。
(1)结合的引用文献参考的列表
遍及整个本申请引用以下参考。为清晰和方便起见,本文中列出这些参考以作为读者的中心资源。以下参考被结合于此供参考,正如被全部包括在本文中。参照相应的文献参考号在本申请中引用该参考如下:
1.Cheng,Z.;Caverlee,J.;and Lee,K.2010.You are where you tweet:acontent-based approach to geo-locating twitter users.In Proceedings of the19th ACM international conference on Information and knowledge management,759–768.ACM.
2.Davis Jr,C.;Pappa,G.;de Oliveira,D.;and de L Arcanjo,F.2011.Inferring the location of twitter messages based on userrelationships.Transactions in GIS15(6):735–751.
3.Goldenberg,J.,and Levy,M.2009.Distance is not dead:Socialinteraction and geographical distance in the internet era.arXiv preprintarXiv:0906.3202.
4.Hecht,B.;Hong,L.;Suh,B.;and Chi,E.2011.Tweets from Justin Bieber’sheart:the dynamics of the location field in user profiles.In Proceedings ofthe 2011 annual conference on Human factors in computing systems,237–246.ACM.
5.Ikawa,Y.;Enoki,M.;and Tatsubori,M.2012.Location inference usingmicroblog messages.In Proceedings of the 21st international conferencecompanion on World Wide Web,687–690.ACM.
6.Mahmud,J.;Nichols,J.;and Drews,C.2012.Where is this tweet from?inferring home locations of twitter users.Proc AAAI ICWSM 12.
7.Mok,D.;Wellman,B.;and Carrasco,J.2010.Does distance matter in theage of the internet?Urban Studies 47(13):2747–2783.
8.Pontes,T.;Vasconcelos,M.;Almeida,J.;Kumaraguru,P.;and Almeida,V.2012.We know where you live:Privacy characterization of foursquarebehavior.In UbiComp’12.
9.Sadilek,A.;Kautz,H.;and Bigham,J.2012.Finding your friends andfollowing them to where you are.In Proceedings of the fifth ACM internationalconference on Web search and data mining,723–732.ACM.
10.Zhu,Xiaojin,and Zoubin Ghahramani.Learning from labeled andunlabeled data with label propagation.Technical Report CMU-CALD-02-107,Carnegie Mellon University,2002.
11.Vincenty,Thaddeus.Direct and inverse solutions of geodesics on theellipsoid with application of nested equations.Survey review 23.176(1975):88-93.
12.Ronkainen,Oja,and Orponen.2003.Computation of the multivariate Ojamedian.Developments in Robust Statistics,344-359.
13.Vardi and Zhang.2000.The multivariate L1-median and associateddata depth.Proceedings of the National Academy of Sciences.97(4):1423-6.
(2)原理方面
本发明具有三个“原理”方面。第一个是用于在在线社交媒体平台中推断用户位置的系统。该系统通常是以计算机系统、计算机组件或计算机网络操作软件的形式,或者以“硬编码”指令集的形式。该系统可以采用具有各种硬件装置的各种形式,并且可以包括计算机网络、手持计算装置、蜂窝网络、卫星网络和其它通信装置。如本领域技术人员可以理解,该系统可以被结合到提供不同功能的宽泛的各种装置中。第二原理方面是用于在在线社交媒体平台中推断用户的位置的方法。第三原理方面是计算机程序产品。该计算机程序产品通常表示存储在非易失性计算机可读介质(诸如光学存储装置,例如,致密盘(CD)或数字多功能盘(DVD)或磁存储装置(诸如软盘或磁带))上的计算机可读指令方法(指令)。其它,计算机可读介质的非限制性实例包括硬盘、只读存储器(ROM)和闪型存储器。
如参照本发明使用的术语“指令”通常是指要在计算机上被执行的操作集,并且可以表示整个程序的片段或单个可分离的软件模块。“指令”的非限制性实例包括计算机程序代码(源或目标代码),以及“硬编码”电子装置(即,被编码为计算机芯片的计算机操作)。该“指令”可以被存储在诸如软盘、CD-ROM、闪盘驱动器的任何非临时性计算机可读介质上,以及被存储在计算机的存储器中。
(3)具体细节
所描述的是在在线社交媒体平台中利用社交关系的系统。最近的工作已说明社交关系的位置仍将朝着与附近的个人具有在线社交关系的强偏爱遍布在线空间(参见文献参考号3和7)。因此,当聚集用户关系的位置时,它们表现出可以推断出用户位置的有噪声的、但有用的数据源。
图1示出了根据本发明的原理的信息流。该方法开始于一个或更多个社交网络平台。图1示出了多个社交媒体平台100,尽管该方法可从单个平台到任何数目的平台概括。所有需要的是社交媒体平台100具有一些明确声明或暗示性可见的社交关系。
一旦已选择了社交媒体平台100,则两个阶段并行出现。社交网络推断阶段102负责从来自社交媒体平台100的可用数据提取社交网络。作为非限制性实例和在使用根据本发明的原理的系统的实验研究中,使用TwitterTM和FourSquareTM社交媒体平台。
TwitterTM网络提供隐式和显式的网络。发现通过观察已彼此通信至少一次的用户来产生隐式的网络。该隐式的网络被称为提及网络(mention network)。相反,FourSquareTM允许用户明确声明他们彼此的关系。可以使用FourSquareTM应用程序接口(API)访问这些关系。如本领域技术人员可以理解,本发明也可概括为具有不同社交网络限制的其它类型的社交媒体平台。例如,本发明也使用生成良好性能但不高于提及网络的性能的TwitterTM跟随网络来测试。
与社交网络推断阶段102同时,社交媒体平台100的数据被挖掘以便为用户获得地面真实位置的列表。这些位置形成可以在确切位置提取阶段104中推断其他用户的位置的种子位置。对于TwitterTM平台,全球定位系统(GPS)标记的消息被用作地面真实信息的源。这些消息罕见地出现,占所有消息的约0.7%。对于具有GPS标记的推客(tweet)的每个用户,选择具有全部在彼此30千米(km)距离内发生的至少五条消息的那些用户。这有效地去除了具有太少推客的个人和频繁旅行并从许多位置发推客的那些用户。根据其余用户,每个用户的位置被估计为作为在他们的推客的位置中的L1多元中值(即,几何多元均值)的位置,如将在下文详细描述。
在FourSquareTM平台中,用户可以在他们的简介中指定他们的位置。文献参考号8报道了该位置是可靠的,且该信息源覆盖超过90%的用户。通过测试,确认该自报告的位置匹配为该用户从非FourSquareTM数据计算的位置。因此,该位置数据被选择为用于根据本发明的原理的系统中。该数据本身是以随后必须被转换为具体坐标位置的文本名称的形式。由GoogleTM开发的GoogleTM Geocoding API以及GeoNames地理数据库被用于将每个名称映射至标准维度和经度。
参照图1,单个个人可以在不同社交媒体平台100上具有多个身份。社交网络合并阶段106将那些身份结合在一起,使得个人仅被表示为在推断的社交网络中的单个节点。在一个方面,根据本发明的原理的系统使用由用户提供的元数据来链接他们的FourSquareTM和TwitterTM账户。该方法可概括为在诸如LinkedInTM和TumblrTM的其它社交媒体平台上工作。然而,另外的方法可以被使用,以根据用户的简介或讨论的内容来推断公共的身份。
多个社交媒体平台100可以为相同用户报告不同的位置数据。确切位置合并阶段108使用来自不同的社交媒体平台100的所有可用位置数据以及在那些社交媒体平台100上发现的个人的多个身份将所结合的信息合并在一起。使用基于优先权的排序,报告从来自TwitterTM的GPS数据提取的位置,且如果不可用,则使用在FourSquareTM上报告的位置。进一步的工作可以将此概括为基于可用的GPS数据的量将这二者融合,或者当从GPS数据计算位置时使用FourSquareTM位置以作为优选。
一旦已构建网络且已计算种子位置,则可以在位置推断阶段110中推断出在社交网络中的其余个人的位置。可以在位置推断阶段110中估计在社交网络中的其余个人的位置以产生位置估计。随后在最终的位置估计阶段112中使用位置估计。本发明包括从标准标签传播框架获得的处理,但是当选择新标签时考虑地理位置。文献参考号10提供对标准标签传播框架的描述。根据本发明的原理的处理如下进行:
1.假设SN为社交网络
2.假设Est为从个人到他们的估计位置的映射
3.假设SL为从个人到他们的已知位置(种子位置)的映射
4.将Est更新为具有与SL相同的映射
5.重复,直至满足一些收敛标准
a)假设Est’为针对该迭代(iteration),更新的个人->位置映射
b)针对每个个人j
i.如果j在SL中具有映射
1.将Est’中的j的位置更新为SL中的位置
2.在步骤(b)中继续到下一个个人
ii.假设N为具有与j的社交关系的个人集
iii.假设NL为位置集
iv.针对N中的每个个人k
1.如果k具有Est中的映射
a.将Est中的k的位置增加至NL
v.使用几何中值估计j的位置,为N和位置NL提供社交网络的子图
vi.采用j的新位置更新Est’
c)采用Est’中的映射替换Est中的映射
对个人j的位置的估计是j的邻居位置的几何中值,其中,k被用于表示邻居,以及j表示在以上步骤b)中估计的用户。
以上列出的处理的关键是在(5.b.v)中的估计步骤。传统的标签传播将为个人k选择新位置以作为在其邻居中最频繁出现的位置。然而,这忽略了标签相关的事实。由于该标签实际上是位置,所以它们可以在空间上被比较以揭示关于个人可能位于哪里的更多信息。因此,根据本发明的原理的系统使用几何中值来估计新位置。另外,采用两种策略:(1)仅使用几何多元中值;以及(2)首先应用新的启发法,这被称为“社交三角形中值”。给定空间中的点集,该几何多元中值被限定为:
其中,wi是点i的权重(或乘数),d是距离函数,以及x和xi是空间M中的两个点。由于是测量球面上的距离,所以不能应用欧式距离。相反,根据地球曲率使用Vincenty公式(参见文献参考号11)来计算大地测量距离。
对于第二启发法,建议个人社交组的最接近部分的社交理论上的工作应当表现出权衡三元闭包(即,如果A与B和C是朋友,则B和C也将是朋友)。因此,给定根据本发明的原理的在推断网络中个人与其他人的关系,在估计该距离之前,对该网络过滤,使得仅彼此也是朋友(即,表现三元闭包)的那些连接的个人将使他们的位置被用于推断。该“社交三角形中值”类似于其它处使用的几何中值。本发明的区别在于去除并非是封闭三角形的一部分的来自社交网络的边。
(由上述几何多元中值限定的)位置推断处理并不被期望收敛,且因此,需要一些停止标准。作为非限制性实例,一种标准可以是固定数目的迭代、已被定位的用户数量或者具有新位置的用户的百分比变化。在实验性研究中,发现在一些迭代(通常四次)之后该网络被充分覆盖,在此之后性能并不提高。
参照图1,在最终位置估计阶段112中,发出如由几何多元中值确定的个人位置,且个人被映射到最终的估计位置。这些位置可以用作用户消息来自的位置的强优选。
本文所述的方法使用从2012年4月到2012年11月的10%样本的TwitterTM消息来测试。该样本产生具有47,760,573个用户和具有在这些用户之间的254,263,081个推断社交关系的双向用户提及的网络。使用FourSquareTM API,获取用户简介和用户的朋友,产生具有3,976,819个用户和在这些用户之间的17,619,191个关系的网络。使用与具有两个社交媒体平台的链接的账户相关的信息,这些网络被结合为具有50,741,905个唯一用户的单个社交网络,且约1.6百万(M)个用户在两个平台中均具有身份。网络的结合也用来确认在TwitterTM上的社交关系推断,具有约7.5M个用户,所述约7.5M个用户在TwitterTM提及网络中具有边,还在FourSquareTM社交网络中已明确表示为朋友关系。为大约为网络的5%的TwitterTM中的2,554,064个用户提取位置。
对于评估,使用五倍交叉验证。给定种子位置的集合,使用这些位置的80%,且执行图1中所示的全推断处理,在四次迭代之后停止。随后将维持的20%的位置与它们的真实位置相比较。使用用于每一倍的有区别的20%的维持集来重复该处理,使得所有用户被评估一次。
五个度量被用于评估。首先,考虑所估计的距离的中值误差。误差的分布遵循幂律分布,且因此,与均值相比,该中值是优选的性能估计。第二,考虑在四次迭代之后发现的网络的百分比。这宽松地对应于查全率度量(recall metrics),但是由于停止标准而表示关于可以被定位的用户数量的软上界限。其余的三个度量全部基于名称匹配。每个维度和经度使用逆地理编码处理被映射至城市、州和国家名称。逆地理编码是点位置(维度,经度)到可读地址或场所名称的逆编码处理。关于名称是否被映射至匹配那些真实位置的推断位置进行比较。该评估由于命名位置的性质而变得困难;命名界限的不规则可能导致距离上非常接近的位置具有不同的名称。另外,逆地理编码并不是确切的处理并且可能引入噪声。
图2中的表200报道了实验性研究的性能。具体地,表200强调性能上的三种趋势。社交三角形202启发法产生了关于诸如城市名称匹配、州名称匹配和国家名称匹配这样的匹配度量204和中值误差度量206的最高性能。通过将推断仅限制为被估计为在更紧密的社交圈中的那些个人,噪声被降低且精确度提高。然而,由于用户必须具有与三元靠近者的关系的限制,该方法经受最低查全率(即,百分比定位208),仅估计54%网络的用户。另外的实验揭示了增加迭代数量基本上并不增加该百分比。
在第二趋势下,仅使用几何中值210(也被称为几何多元中值)在定位更多用户(即,百分比定位208)上比在应用社交三角形202时产生显著更好的性能。这说明尽管有噪声,但是具有单人朋友关系的另外的用户位置仍可以提供足够的数据来估计个人的真实位置。采用其它中值(诸如Oja的单一中值(Simplex Median)(参见针对Oja的单一中值的描述的文献参考号12))的另外的实验和标准标签传播示出了几何中值提供关于匹配度量和中值误差度量的最好性能。
最后,虽然性能上仅引起小的下降,但FourSquareTM关系的增加(几何中值+FourSquareTM 212)将查全率增大了0.7%。虽然百分比小幅增加,但这表示超过335,000的新个人的覆盖范围的增加。另外的实验包括增加来自FourSquareTM简介的位置信息。然而,846,000的另外的个人的位置并不会显著改变该性能。
对于比较,将根据本发明的原理的系统与总是将个人的位置估计为他们最接近的邻居的位置的基于oracle的方法(上边界栏214)比较。由于邻居中存在噪声,所以这不应被认为是关于性能的真实上边界;然而,它表示如果在算法初始化时间最接近的位置总是从近邻位置中选择,则将期望什么性能。
总之,根据本发明的原理的系统在用户通过推断或明确声明的社交关系被连接且至少少量用户共享他们真实或估计的位置的任意的在线社交媒体平台中推断用户的位置。本发明通过(1)提供比使用当前方法可用的更好的数据覆盖范围以及(2)能能够从如下用户的推断位置,即,在社交媒体平台中的关联内容不提供所述用户的地理位置附近的指示,显著领先于现有技术。
根据一个方面的计算机系统300的实例被示出在图3中。该计算机系统300被配置为执行计算、处理、操作和/或与程序或算法相关联的功能。在一个方面,本文中讨论的特定的处理和步骤被实现为在计算机可读存储单元内驻留的且被计算机系统300的一个或更多个处理器执行的一系列指令(例如,软件程序)。在被执行时,该指令使计算机系统300执行特定动作并且表现出特定行为,诸如本文中所述。
计算机系统300可以包括被配置为传输信息的地址/数据总线302。另外,诸如处理器304的一个或更多个数据处理单元与地址/数据总线302连接。该处理器304被配置为处理信息和指令。在一个方面,处理器304是微处理器。可替代地,处理器304可以是诸如并行处理器的不同类型的处理器,或者是现场可编程门阵列。
该计算机系统300被配置为利用一个或更多个数据存储单元。计算机系统300可以包括与地址/数据总线302连接的易失性存储单元306(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储单元306被配置为为处理器304存储信息和指令。计算机系统300还可以包括与地址/数据总线302连接的非易失性存储单元308(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等),其中,非易失性存储单元308被配置为为处理器304存储静态信息和指令。可替代地,计算机系统300诸如在“云”计算中可以执行从在线数据存储单元中检索的指令。在一种实施方式中,计算机系统300还可以包括与地址/数据总线302连接的一个或更多个接口,诸如接口310。该一个或更多个接口被配置为能使计算机系统300与其它电子装置和计算机系统接口连接。由一个或更多个接口实施的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
在一个方面,计算机系统300可以包括与地址/数据总线302连接的输入装置312,其中,该输入装置312被配置为向处理器300传输信息和命令选择。根据一个方面,输入装置312是可以包括字母数字和/或功能键的字母数字输入装置,诸如键盘。可替代地,输入装置312可以是除了字母数字输入装置之外的输入装置。在一个方面,计算机系统300可以包括与地址/数据总线302连接的光标控制装置314,其中,该光标控制装置314被配置为向处理器300传输用户输入信息和/或命令选择。在一个方面,光标控制装置314使用诸如鼠标、轨迹球、跟踪板、光学跟踪装置或触摸屏的装置来实施。前述尽管如此,但在一个方面,该光标控制装置314经由来自输入装置312的输入诸如响应于用户的特定按键和与输入装置312相关联的按键序列命令而被引导和/或激活。在替代方面,该光标控制装置314被配置为由语音命令引导或指导。
在一个方面,计算机系统300还可以包括与地址/数据总线302连接的一个或更多个可选的计算机可用数据存储装置,诸如存储装置316。该存储装置316被配置为存储信息和/或计算机可执行指令。在一个方面,该存储装置316是诸如磁性或光学盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、致密盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”))的存储装置。根据一个方面,显示装置318与地址/数据总线302连接,其中,该显示装置318被配置为显示视频和/或图片。在一个方面,该显示装置318可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示视频和/或图片图像以及用户可识别的字母数字字符的任何其它显示装置。
本文中提出的计算机系统300是根据一个方面的示例性计算环境。然而,该计算机系统300的非限制性实例并不严格限于是计算机系统。例如,一个方面提供了该计算机系统300表示可以根据本文所述的各个方面来使用的数据处理分析的类型。此外,其它计算系统也可以被实施。事实上,本技术的精神和范围并不限于任何单一的数据处理环境。因此,在一个方面,使用被计算机执行的计算机可执行指令(诸如程序模块)来控制或实施本技术的各个方面的一个或更多个操作。在一种实施中,该程序模块包括被配置为执行具体任务或实施具体抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一个方面提供了通过利用诸如由通过通信网络链接的远程处理装置执行任务或诸如各种程序模块位于包括存储器存储装置的本地和远程计算机存储介质中的一个或更多个分布式计算环境来实施本发明技术的一个或更多个方面。
实现本发明的计算机程序产品的示例性示图被示出在图4中。作为非限制性实例,计算机程序产品被示出为软盘400或光盘402。然而,如之前所提及的,该计算机程序产品通常表示存储在任何兼容的非临时性计算机可读介质上的计算机可读代码(即,指令方式或指令)。

Claims (15)

1.一种用于推断在线社交媒体平台的用户的位置的系统,所述系统包括:
一个或更多个处理器和非临时性计算机可读介质,所述非临时性计算机可读介质在其上具有编码的指令,使得当所述指令被执行时,所述一个或更多个处理器执行以下操作:
从来自至少一个社交媒体平台的数据提取社交网络,其中,所述社交网络包括通过社交关系连接的多个用户,且其中,所述多个用户中的每个用户均在每个社交媒体平台上具有身份;
在所述社交网络中生成从所述多个用户中的每个用户到所述用户的估计的地理位置的映射,产生估计位置映射Est;
在所述社交网络中生成从所述多个用户中具有已知地理位置数据的每个用户到所述用户的已知地理位置的映射,产生已知位置映射SL;
将所述估计位置映射Est更新为具有与所述已知位置映射SL相同的映射,直至满足预定收敛标准;
针对所述多个用户中的在所述已知位置映射SL中具有映射的每个用户j,将j在当前的估计位置映射Est’中的位置更新为在所述已知位置映射SL中的位置;
针对所述多个用户中的在具有与j的社交关系且在所述估计位置映射Est中具有映射的用户组N中的每个用户,将N中的所述用户的所估计的地理位置添加到位置集合NL;
使用几何中值度量来估计N中的所述用户的最终地理位置的集合;以及
在所述社交网络中将N中的所述用户映射至所述用户的最终估计地理位置。
2.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:
为N和所述位置集合NL提供所述社交网络的子图;
利用N中的所述用户的所述最终估计地理位置更新所述当前的估计位置映射Est’;以及
利用在所述当前的估计位置映射Est’中的映射替换在所述估计位置映射Est中的映射。
3.根据权利要求2所述的系统,其中,所述一个或更多个处理器还执行结合来自所有社交媒体平台的用户身份的操作,使得每个用户被表示为在所述社交网络中的单个个人。
4.根据权利要求3所述的系统,其中,所述一个或更多个处理器还执行为用户合并估计地理位置数据与来自所有社交媒体平台的已知地理位置数据的操作。
5.根据权利要求4所述的系统,其中,所述一个或更多个处理器还执行为使用所述几何中值度量的地理位置估计仅选择N中彼此之间也具有社交关系的那些用户的操作。
6.一种用于推断在线社交媒体平台的用户的位置的计算机实施的方法,该方法包括以下动作:
使一个或更多个处理器执行存储在非临时性存储器上的指令,使得在执行时,所述一个或更多个处理器执行以下操作:
从来自至少一个社交媒体平台的数据提取社交网络,其中,所述社交网络包括通过社交关系连接的多个用户,且其中,所述多个用户中的每个用户均在每个社交媒体平台上具有身份;
在所述社交网络中生成从所述多个用户中的每个用户到所述用户的估计的地理位置的映射,产生估计位置映射Est;
在所述社交网络中生成从所述多个用户中具有已知地理位置数据的每个用户到所述用户的已知地理位置的映射,产生已知位置映射SL;
将所述估计位置映射Est更新为具有与所述已知位置映射SL相同的映射,直至满足预定收敛标准;
针对所述多个用户中的在所述已知位置映射SL中具有映射的每个用户j,将j在当前的估计位置映射Est’中的位置更新为在所述已知位置映射SL中的位置;
针对所述多个用户中的在具有与j的社交关系且在所述估计位置映射Est中具有映射的用户组N中的每个用户,将N中的所述用户的所估计的地理位置添加到位置集合NL;
使用几何中值度量来估计N中的所述用户的最终地理位置的集合;以及
在所述社交网络中将N中的所述用户映射至所述用户的最终估计地理位置。
7.根据权利要求6所述的方法,其中,所述一个或更多个处理器还执行以下操作:
为N和所述位置集合NL提供所述社交网络的子图;
利用N中的所述用户的所述最终估计地理位置更新所述当前的估计位置映射Est’;以及
利用在所述当前的估计位置映射Est’中的映射替换在所述估计位置映射Est中的映射。
8.根据权利要求7所述的方法,其中,所述一个或更多个处理器还执行结合来自所有社交媒体平台的用户身份的操作,使得每个用户被表示为在所述社交网络中的单个个人。
9.根据权利要求8所述的方法,其中,所述一个或更多个处理器还执行为用户合并估计地理位置数据与来自所有社交媒体平台的已知地理位置数据的操作。
10.根据权利要求9所述的方法,其中,所述一个或更多个处理器还执行为使用所述几何中值度量的地理位置估计仅选择N中彼此之间也具有社交关系的那些用户的操作。
11.一种用于推断在线社交媒体平台的用户的位置的计算机程序产品,所述计算机程序产品包括存储在非临时性计算机可读介质上的能够由具有处理器的计算机执行的计算机可读指令,所述计算机可读指令用于使所述处理器执行以下操作:
从来自至少一个社交媒体平台的数据提取社交网络,其中,所述社交网络包括通过社交关系连接的多个用户,且其中,所述多个用户中的每个用户均在每个社交媒体平台上具有身份;
在所述社交网络中生成从所述多个用户中的每个用户到所述用户的估计的地理位置的映射,产生估计位置映射Est;
在所述社交网络中生成从所述多个用户中具有已知地理位置数据的每个用户到所述用户的已知地理位置的映射,产生已知位置映射SL;
将所述估计位置映射Est更新为具有与所述已知位置映射SL相同的映射,直至满足预定收敛标准;
针对所述多个用户中的在所述已知位置映射SL中具有映射的每个用户j,将j在当前的估计位置映射Est’中的位置更新为在所述已知位置映射SL中的位置;
针对所述多个用户中的在具有与j的社交关系且在所述估计位置映射Est中具有映射的用户组N中的每个用户,将N中的所述用户的所估计的地理位置添加到位置集合NL;
使用几何中值度量来估计N中的所述用户的最终地理位置的集合;以及
在所述社交网络中将N中的所述用户映射至所述用户的最终估计地理位置。
12.根据权利要求11所述的计算机程序产品,所述计算机程序产品还包括用于使所述处理器执行以下操作的指令:
为N和所述位置集合NL提供所述社交网络的子图;
利用N中的所述用户的所述最终估计地理位置更新所述当前的估计位置映射Est’;以及
利用在所述当前的估计位置映射Est’中的映射替换在所述估计位置映射Est中的映射。
13.根据权利要求12所述的计算机程序产品,所述计算机程序产品还包括用于使所述处理器执行结合来自所有社交媒体平台的用户身份的操作的指令,使得每个用户被表示为在所述社交网络中的单个个人。
14.根据权利要求13所述的计算机程序产品,所述计算机程序产品还包括用于使所述处理器执行为用户合并估计地理位置数据与来自所有社交媒体平台的已知地理位置数据的操作的指令。
15.根据权利要求14所述的计算机程序产品,所述计算机程序产品还包括用于使所述处理器执行为使用所述几何中值度量的地理位置估计仅选择N中彼此之间也具有社交关系的那些用户的操作的指令。
CN201480020049.1A 2013-04-05 2014-03-13 使用社交网络分析在在线社交媒体平台中推断用户的位置的系统和方法 Active CN105339927B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361809160P 2013-04-05 2013-04-05
US61/809,160 2013-04-05
PCT/US2014/026846 WO2014165306A1 (en) 2013-04-05 2014-03-13 Inferring the location of users in online social media platforms using social network analysis

Publications (2)

Publication Number Publication Date
CN105339927A CN105339927A (zh) 2016-02-17
CN105339927B true CN105339927B (zh) 2017-12-08

Family

ID=51659126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480020049.1A Active CN105339927B (zh) 2013-04-05 2014-03-13 使用社交网络分析在在线社交媒体平台中推断用户的位置的系统和方法

Country Status (4)

Country Link
US (1) US9794358B1 (zh)
EP (1) EP2981903B1 (zh)
CN (1) CN105339927B (zh)
WO (1) WO2014165306A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10834042B2 (en) 2015-08-31 2020-11-10 International Business Machines Corporation Inference of location where each textual message was posted
US20170195434A1 (en) * 2015-12-31 2017-07-06 Palantir Technologies Inc. Computer-implemented systems and methods for analyzing electronic communications
CN106850410A (zh) * 2017-02-13 2017-06-13 焦慧 一种通过社交平台快速定位人员位置的方法及装置
US20190228321A1 (en) * 2018-01-19 2019-07-25 Runtime Collective Limited Inferring Home Location of Document Author
US20190252078A1 (en) * 2018-02-15 2019-08-15 X Development Llc Predicting the spread of contagions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102577494A (zh) * 2009-09-28 2012-07-11 瑞典爱立信有限公司 支持通信网络中的社交网络分析的方法和装置
CN102883259A (zh) * 2011-07-11 2013-01-16 多玩娱乐信息技术(北京)有限公司 一种提供好友位置的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352183B2 (en) * 2006-02-04 2013-01-08 Microsoft Corporation Maps for social networking and geo blogs
US20110125826A1 (en) * 2009-11-20 2011-05-26 Avaya Inc. Stalking social media users to maximize the likelihood of immediate engagement
CA2840395A1 (en) * 2011-06-27 2013-01-03 Cadio, Inc. Triggering collection of information based on location data
US8965974B2 (en) * 2011-08-19 2015-02-24 Board Of Regents, The University Of Texas System Systems and methods for determining user attribute values by mining user network data and information
US8909771B2 (en) * 2011-09-15 2014-12-09 Stephan HEATH System and method for using global location information, 2D and 3D mapping, social media, and user behavior and information for a consumer feedback social media analytics platform for providing analytic measurements data of online consumer feedback for global brand products or services of past, present or future customers, users, and/or target markets
US8726142B2 (en) * 2011-09-21 2014-05-13 Facebook, Inc. Selecting social networking system user information for display via a timeline interface

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102577494A (zh) * 2009-09-28 2012-07-11 瑞典爱立信有限公司 支持通信网络中的社交网络分析的方法和装置
CN102088419A (zh) * 2009-12-07 2011-06-08 倪加元 一种在社交网络中查找好友信息的方法和系统
CN102883259A (zh) * 2011-07-11 2013-01-16 多玩娱乐信息技术(北京)有限公司 一种提供好友位置的方法和系统

Also Published As

Publication number Publication date
EP2981903B1 (en) 2020-08-05
US20170310772A1 (en) 2017-10-26
US9794358B1 (en) 2017-10-17
CN105339927A (zh) 2016-02-17
EP2981903A1 (en) 2016-02-10
EP2981903A4 (en) 2016-11-16
WO2014165306A1 (en) 2014-10-09

Similar Documents

Publication Publication Date Title
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
CN105339927B (zh) 使用社交网络分析在在线社交媒体平台中推断用户的位置的系统和方法
Sun et al. Functional boxplots
Miller Virtual species distribution models: using simulated data to evaluate aspects of model performance
Silva Uncertainty and correlation in seismic vulnerability functions of building classes
Hajiagha et al. Multi-period data envelopment analysis based on Chebyshev inequality bounds
Leyk et al. Maximum entropy dasymetric modeling for demographic small area estimation
Li et al. Foundation pit displacement monitoring and prediction using least squares support vector machines based on multi-point measurement
Xu et al. Optimisation of a stochastic rock fracture model using Markov Chain Monte Carlo simulation
Nam et al. City size distribution as a function of socioeconomic conditions: an eclectic approach to downscaling global population
Wu et al. Calibration and validation of a seismic damage propagation model for interdependent infrastructure systems
Meng et al. Is-count: Large-scale object counting from satellite images with covariate-based importance sampling
Zhao et al. Using swarm intelligence optimization algorithms to predict the height of fractured water-conducting zone
Liu et al. Ensemble learning for spatial interpolation of soil potassium content based on environmental information
Fang et al. The evaluation of potential for the exploration and development of coalbed methane resources based on an improved uncertainty measure optimization model
Song et al. Improved sequence-based localization applied in coal mine
US10726090B1 (en) Per-user accuracy measure for social network based geocoding algorithms
Zhao et al. Statistical landslide susceptibility assessment using Bayesian logistic regression and Markov Chain Monte Carlo (MCMC) simulation with consideration of model class selection
Kavvada et al. Probabilistic seismic hazard analysis for spatially distributed infrastructure considering the correlation of spectral acceleration across spectral periods
Yang et al. Improved mining subsidence prediction model for high water level area using machine learning and chaos theory
Chen et al. Evaluation of coalbed methane resources in Xinjing Baoan block based on PCA, TOPSIS, & MLFM
Long et al. Probability prediction method for rockburst intensity based on rough set and multidimensional cloud model uncertainty reasoning
Liao et al. Alternative Predictive Models for Medicare Patient Cost
Seo et al. A bayesian nonparametric model for upper record data
US20230318920A1 (en) Monetary vulnerability assessment (mva) of a reparable infrastructure system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant