CN105069145A - 用于确定社交网络用户关系强度的方法及系统 - Google Patents
用于确定社交网络用户关系强度的方法及系统 Download PDFInfo
- Publication number
- CN105069145A CN105069145A CN201510514950.0A CN201510514950A CN105069145A CN 105069145 A CN105069145 A CN 105069145A CN 201510514950 A CN201510514950 A CN 201510514950A CN 105069145 A CN105069145 A CN 105069145A
- Authority
- CN
- China
- Prior art keywords
- user
- similarity
- feature
- variable
- intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000003993 interaction Effects 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 5
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 4
- 230000006855 networking Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/487—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于确定社交网络中用户关系强度的方法。该方法从移动社交网络中获取与用户地理信息和用户交互相关的数据,从中提取表征用户地理偏好相似性、用户移动相似性、用户交互强度的特征,将各个特征作为可观测变量,以用户地理偏好相似性、用户移动相似性、用户交互强度作为不可观测变量,使用结构方程模型来确定用户关系强度。该方法充分考虑了实际社交网络中影响用户关系强度的各个因素之间的关系,可以更细致有效地衡量用户关系强度。
Description
技术领域
本发明涉及社交网络与数据挖掘,尤其涉及用于测量社交网络用户关系强度的方法。
背景技术
诸如维基百科,Facebook和Twitter之类的社交网络应用,在最近几年取得了巨大成功,并已经逐渐改变了人们的工作和生活方式。与此同时,诸如智能手机,平板电脑等智能终端日趋普遍。越来越多的人开始使用基于位置的服务(LBS,Location-BasedService),例如定位、位置共享等等,大量GPS信息被上传和共享。这些位置信息在记录用户移动历史的同时,也能够在一定程度上反应用户的兴趣、偏好以及相互关系。为此,基于位置的用户关系强度计算作为计算机应用的一大研究热点,在普适计算、数据挖掘和社会网络等领域受到了广泛关注。
用户关系强度实际上是用于表示社交网络中用户之间关系的密切程度。目前,通常采用二元指标来评价在社交网络中的用户关系强度,例如,用0表示关系强度较弱的陌生人,1表示关系强度较强的好友。这类指标的二元性使得它们只能提供粗粒度的信息,而无法对用户之间关系的强弱进行更好的区分。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种用于确定社交网络用户关系强度的方法,用连续值来更细致有效地刻画用户关系强度。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种用于确定社交网络用户关系强度的方法,包括:
(a)从社交网络中获取与第一用户和第二用户的地理信息相关的数据以及与第一用户和第二用户之间的交互相关的数据;
(b)基于所获取的数据,确定用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的多个特征;
(c)将所确定的多个特征作为可观测变量,将用户地理偏好相似性、用户移动相似性和用户交互强度作为不可观测变量,建立结构方程模型的路径分析图,其中各个变量作为该路径分析图的节点,节点之间以带箭头的线连接,箭头的指向表示变量之间的影响关系;
(d)基于所述路径分析图,构建结构方程模型并求解出用户交互强度,以所得到的用户交互强度作为第一用户和第二用户之间的用户关系强度。
在上述方法中,所述路径分析图中所述变量之间的影响关系可包括:
与反映用户地理偏好相似性的特征对应的可观测变量受用户地理偏好相似性的影响;
与反映用户移动相似性的特征对应的可观测变量受用户移动相似性的影响;
与反映用户交互强度的特征对应的可观测变量受用户交互强度的影响;
用户交互强度受用户地理偏好相似性和用户移动相似性的影响;以及
用户移动相似性受用户地理偏好相似性的影响。
上述方法中,所述表征用户地理偏好相似性的特征可包括下列中的一个或多个:
第一用户与第二用户共同感兴趣的区域的个数;
第一用户与第二用户访问二者共同感兴趣的区域的频率比;
第一用户与第二用户访问二者共同感兴趣的区域的停留时间比。
上述方法中,所述表征用户移动相似性的特征可包括下列中的一个或多个:
第一用户与第二用户共同的起-终点对的个数,所述起-终点对指由用户的移动轨迹的起始点和终止点构成的点对;
第一用户与第二用户访问二者共同的起-终点对的频率比;
第一用户与第二用户的活跃程度比;其中对于一个用户而言,其活跃程度定义如下:
对给定社交网络中的某个用户,记为u,其感兴趣的区域的集合为{r1,r2…ri…rN},N为该集合中元素的个数,N和i为整数,N≥1,1≤i≤N,ri表示用户u的第i个感兴趣区域,假设ri被用户u访问的次数为ci,则用户u的活跃程度ALu为:
上述方法中,所述表征用户交互强度的特征可包括下列中的一个或多个:第一用户与第二用户之间的历史通话次数、历史平均通话时间、月通话频率、历史短信次数。
上述方法中,还可包括对所构建的结构化模型进行评估,以及根据评估的结果对该结构化模型进行调整直到满足需求为止,其中所述对结构化模型的调整包括下列中的一个或多个或其组合:
删除某些可观测变量;
改变部分变量之间的影响关系;
调整或改变用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的部分特征;以及
增加用于表征第一用户和第二用户之间的关系密切程度的新特征,并将该增加的特征作为新的可观测变量。
又一方面,本发明提供了一种用于确定社交网络用户关系强度的系统,包括:
用于从社交网络中获取与第一用户和第二用户的地理信息相关的数据以及与第一用户和第二用户之间的交互相关的数据的装置;
用于基于所获取的数据,确定用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的多个特征的装置;
用于将所确定的多个特征作为可观测变量,将用户地理偏好相似性、用户移动相似性和用户交互强度作为不可观测变量,建立结构方程模型的路径分析图的装置,其中各个变量作为该路径分析图的节点,节点之间以带箭头的线连接,箭头的指向表示变量之间的影响关系;
用于基于所述路径分析图,构建结构方程模型并求解出用户交互强度,以所得到的用户交互强度作为第一用户和第二用户之间的用户关系强度的装置。
在上述系统中,所述路径分析图中所述变量之间的影响关系可包括:
与反映用户地理偏好相似性的特征对应的可观测变量受用户地理偏好相似性的影响;
与反映用户移动相似性的特征对应的可观测变量受用户移动相似性的影响;
与反映用户交互强度的特征对应的可观测变量受用户交互强度的影响;
用户交互强度受用户地理偏好相似性和用户移动相似性的影响;以及
用户移动相似性受用户地理偏好相似性的影响。
在上述系统中,还包括模型评估和调整装置,用于对所构建的结构化模型进行评估,以及根据评估的结果对该结构化模型进行调整直到满足需求为止,其中所述对结构化模型的调整包括下列中的一个或多个或其组合:
删除某些可观测变量;
改变部分变量之间的影响关系;
调整或改变用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的部分特征;以及
增加用于表征第一用户和第二用户之间的关系密切程度的新特征,并将该增加的特征作为新的可观测变量。
与现有技术相比,本发明的优点在于:
结合用户交互记录、用户地理偏好、用户移动轨迹等信息,采用结构方程模型来更好地拟合影响用户关系强度的各个因素之间的关系,得到以连续的值衡量的关系强度,关系强度由强到弱都可以由具体数据表示,从而便于更精细的比较和筛选。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明一个实施例的用于确定社交网络用户关系强度的方法的流程示意图;
图2为根据本发明一个实施例的结构方程模型的路径分析图;
图3为根据本发明实施例的方法与现有的计算用户关系强度方法的ROC曲线对比示意图;
图4为根据本发明实施例的方法与现有的计算用户关系强度方法的性能对比示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在传统社交网络中,用户好友关系,用户交互记录等特征可用于衡量用户之间关系的密切程度,而在移动社交网络又加入了地理信息的维度。比如,用户可以根据地理位置去添加好友、可以在分享文字时添加地理标签,可以分享自己的旅游轨迹、可以分享带经纬度信息的图片视频等。因此,通过移动社交网络不仅可以获取用户好友关系,用户分享的文字等传统社交网络中可以获取的信息,还可以获取用户分享文字时的地理位置,用户社交活动的移动轨迹等信息。用户的地理信息在一定程度上反映了用户的生活个性及兴趣偏好,比如通过判断用户频繁活动的地点可以大致推测用户家庭,工作单位所在地点,推测用户对什么样的旅游地点更感兴趣等。因此,除了用户好友关系,用户交互记录等特征之外,用户的地理信息对于判断用户之间的关系强度也具有重要作用。
可见,在社交网络中用户关系强度实际上会受到多个因素的影响,而这几个因素之间又有相互的影响。例如,拥有相似地理偏好的用户交互关系强度显然会比较强,拥有相似移动偏好的用户交互关系强度也会比较强,而拥有较高地理偏好相似性的用户,其更可能从一个相似的地方移动到另外一个相似的地方,即用户移动规律比较相似。这种复杂关系给衡量用户关系强度带来很多挑战。在本发明的实施例中采用了结构方程模型来刻画这种复杂关系,从而较好地拟合实际社交网络中的数据,以便更细致有效地确定用户关系强度。
图1给出了根据本发明一个实施例的用于确定社交网络用户关系强度的方法的流程示意图。如图1所示,该方法首先从移动社交网络中获取与用户地理信息和用户交互相关的数据;接着,从这些数据中确定表征用户地理偏好相似性、用户移动相似性、用户交互强度的特征;然后,将所确定的各个特征作为可观测变量,以用户地理偏好相似性、用户移动相似性、用户交互强度作为不可观测变量(也可称为潜变量或隐变量),使用结构方程模型来确定用户关系强度。
更具体地,在步骤S1,对于待评估的两个用户,从移动社交网络中获取与这两个用户的地理信息相关的数据和与这两个用户之间的交互相关的数据。其中,与用户地理信息相关的数据可包括反映用户地理偏好和用户移动偏好的数据。用户在移动社交网络中频繁访问的区域可以反映用户地理偏好。用户在移动社交网络中频繁访问的区域也可称为用户的感兴趣的区域(RegionofInterest,ROI),用户的ROI一般是用经纬度表示的二维坐标。例如,可通过文献1(Zheng,Y.,ZhangL.,etal.MininginterestinglocationsandtravelsequencesfromGPStrajectories[J].ACM,2009,ACM978-1-60558-487-4/09/04:791-800.)中提供的方法提取用户在移动社交网络中社交活动的地理坐标。此外,相对于以二维经纬度坐标表示的ROI,还可以提取该ROI对应的语义标签作为用户的语义ROI来反映用户地理偏好。例如,通过日常生活中常用的地图工具,如Google地图、百度地图等,通常可以根据经纬度坐标获取该经纬度坐标对应的语义标签,如医院,餐馆,学校等。
通常对一个用户而言,会有多个ROI,但是其访问每个ROI的频率是不一样的,有的用户各个ROI访问的频率基本相当,而有的用户可能大部分访问某一个ROI,偶尔访问另外的ROI,这种情况下,不同的ROI对用户的重要程度是不同的,这在一定程度上反映了用户的移动偏好。在本发明的实施例中,将这种现象以用户的活跃程度AL(ActiveLevel)来表示。用户活跃程度的具体定义如下:
对给定社交网络中的某个用户u,其ROI的集合为{r1,r2…ri…rN},N为ROI的个数,N和i为整数,N≥1,1≤i≤N,ri表示用户u的第i个ROI,假设ri被用户u访问的次数为ci,则用户u的活跃程度ALu为:
此外,移动社交网络中经常会存在用户分享的轨迹,提取每个轨迹的起始点、终止点就构成一个点对。这样的点对(称为origin-goal点对或起-终点对)也可以用来反映用户的移动偏好。与上文提取用户的ROI的对应语义标签相类似,可通过地图得到起始点、终止点的语义标签,从而得到了语义上的起始点、终止点对,其可被称之为语义origin-goal点对。用户的origin-goal点对和语义origin-goal点对都可以在一定程度上反映用户的移动偏好。
与用户交互相关的数据可包括两个用户之间的历史通话次数、历史通话平均时间、月通话频率、历史短信次数等数据。
应理解,上述从移动社交网络中提取的数据仅是举例说明的目的而非进行限制。在其他实施例中,也可以对上述数据进行适当变化或者根据实际需求提取与用户相关的其他数据。
在步骤S2,在获取与用户地理信息和用户交互相关的数据之后,可以从这些数据中确定表征这两个待评估的用户之间的用户地理偏好相似性、用户移动相似性、用户交互强度的特征。
表1给出了本发明一个实施例中采用的特征列表,其中包括三类特征,第一类为反映用户地理偏好相似性的特征;第二类为反映用户移动相似性的特征;第三类为反映用户交互强度的特征。下文将对各个特征进行介绍。
表1
1,反映用户地理偏好相似性的特征
11)公共ROI的个数(CoROI)
假设集合U表示用户u的ROI集合,集合V表示用户v的ROI集合,符号Card(A)表示集合A中元素的个数,则
CoROI=Card(U∩V),表示用户u和用户v共同的ROI的个数。CoROI值越大,说明这两个用户共同感兴趣的区域越多。
由于ROI为用经纬度表示的二元组,地理上位置很近的两个点其经纬度二元组也不会完全一样,因此约定当两个ROI的地理距离小于常数ζ(ζ≥0)时,视这两个ROI为同一个ROI,常数ζ的大小视应用的实际情况而定。
12)访问公共ROI的频率比(FreCoROI)
设集合U表示用户u的ROI集合,集合V表示用户v的ROI集合,集合O=U∩V,符号Frew(r)表示用户W访问某个ROI(记为r)的频数或次数,则
其中,∑i∈OFreu(i)表示用户u访问集合O中每个ROI的频数的总和;∑i∈OFrev(i)表示用户v访问集合O中每个ROI的频数的总和;∑j∈UFreu(j)表示用户u访问集合U中每个ROI的频数的总和;∑k∈VFrev(k)表示用户v访问集合V中每个ROI的频数的总和;i取值为集合O中各个元素;j取值为集合U中的各个元素;k取值为集合V中的各个元素。
13)公共ROI的停留时间比(TmCoROI)
设集合U表示用户u的ROI集合,集合V表示用户v的ROI集合,集合O=U∩V,符号TW(r)表示用户W访问访问某个ROI(记为r)的停留时间,则
其中,∑i∈OTu(i)表示用户u访问集合O中每个ROI的停留时间的总和;∑i∈OTv(i)表示用户v访问集合O中每个ROI的停留时间的总和;i取值为集合O中各个元素。
14)语义公共ROI的停留时间比(TmSeCoROI)
设集合SU表示用户u的语义ROI集合,集合SV表示用户v的语义ROI集合,集合SO=SU∩SV,符号TW(sr)表示用户W访问某个语义ROI(记为sr)的停留时间,则
其中∑t∈SOTu(t)表示用户u访问集合SO中每个语义ROI的停留时间的总和;∑t∈SOTv(t)表示用户v访问集合SO中每个语义ROI的停留时间的总和;t取值为集合SO中各个元素。
上述的反映用户地理偏好相似性的特征仅是出于举例说明的目的,而非进行任何限制。在其他的实施例中,也可以实际情况或需求采用其他的可以表征用户之间地理偏好的相似性的特征或者调整上述特征的具体取值或计算方法。
2,反映用户移动相似性的特征
21)相似origin-goal点对的个数(SimOG)
设集合U表示用户u的origin-goal点对的集合,集合V表示用户v的origin-goal点对的集合,Card(A)表示集合A元素的个数,则
SimOG=Card(U∩V);表示用户u和用户v共同的origin-goal点对的个数。轨迹的起始点和终止点也是用经纬度表示的二元组,地理上位置很近的两个点其经纬度二元组也不会完全一样,因此约定当两个起始点的地理距离小于常数ζ(ζ≥0)时,视这两个起始点或者终止点为同一个点,常数ζ的大小视应用的实际情况而定。
22)访问相似origin-goal点对的频率比(FreSimOG)
设集合U表示用户u的origin-goal点对的集合,集合V表示用户v的origin-goal点对的集合,集合OG=U∩V,符号FreW(og)表示用户W对origin-goal点对某个origin-goal点对(记为og)的访问频数或次数,则
其中,∑ogi∈OGFreu(ogi)表示用户u访问集合OG中每个origin-goal点对的频数的总和;∑ogi∈OGFrev(ogi)表示用户v访问集合OG中每个origin-goal点对的频数的总和;∑ogj∈UFreu(ogj)表示用户u访问集合U中每个origin-goal点对的频数的总和;∑ogk∈vFrev(ogk)表示用户v访问集合V中每个origin-goal点对的频数的总和;ogi取值为集合OG中各个元素;ogj取值为集合U中的各个元素;ogk取值为集合V中的各个元素。
23)活跃程度比(RoAL)
设ALu表示用户u的活跃程度,ALv表示用户v的活跃程度,则
24)访问相似语义origin-goal点对的频率比(FreSimSOG)
设集合SU表示用户u的语义origin-goal点对集合,SV表示用户v的语义origin-goal点对集合,集合SOG=SU∩SV,符号FreW(sog)表示用户W对某个语义origin-goal点对(记为sog)的访问频数或次数,则
其中,∑sogi∈SOGFreu(sogi)表示用户u访问集合SOG中每个语义origin-goal点对的频数的总和;∑sogi∈SOGFrev(sogi)表示用户v访问集合OG中每个语义origin-goal点对的频数的总和;∑sogj∈SuFreu(sogj)表示用户u访问集合U中每个语义origin-goal点对的频数的总和;∑sogk∈SVFrev(sogk)表示用户v访问集合V中每个语义origin-goal点对的频数的总和;sogi取值为集合SOG中各个元素;sogj取值为集合U中的各个元素;sogk取值为集合V中的各个元素。
上述的反映用户移动相似性的特征仅是出于举例说明的目的,而非进行任何限制。在其他的实施例中,也可以实际情况或需求采用其他的可以表征用户之间移动规律的相似性的特征。
3,反映用户交互强度的特征
31)历史通话次数(TiPh),即过去一段时间内,用户u和v之间的通话次数。
32)历史平均通话时间(AvePh),即过去一段时间内,用户u和v之间的平均通话时间。
33)月通话频率(FrePh)即一个月内用户u和v之间的通话次数。
34)历史短信次数(TiMS),即过去一段时间内,用户u和v之间的短信个数。
35)短信平和因子(FacMS)
对移动社交网络的用户u、v,用户u的总短信个数为cu,用户v的总短信个数为cv,用户u,v之间的短信个数为c,则用户u、v的短信平和因子FacMSuv为
上述的反映用户交互强度的特征仅是出于举例说明的目的,而非进行任何限制。在其他的实施例中,也可以实际情况或需求采用其他的可以表征用户之间交互强度的特征。
继续参考图1,在提取了上述的各个特征之后,在步骤S3,确定用于构建结构方程模型的路径分析图。这里首先需要确定待构建的结构方程模型的可观测变量与不可观测变量,并分析可观测变量与不可观测变量之间以及不可观测变量之间的关系,从而得到用于构建结构方程模型的路径分析图。
在该实施例中,以表1中列出的所有特征作为结构方程模型的可观测变量。对于第一类特征,即反映用户地理偏好相似性的特征,设定为它们受用户地理偏好相似性这个不可观测变量(记为ζ1)的影响。而对于第二类特征,即反映用户移动相似性的特征,设定为它们受用户移动相似性这个不可观测变量(记为ζ2)的影响。对于反映用户交互关系的特征,设定为它们受用户交互强度这个不可观测变量(记为η)的影响。同时,拥有相似地理偏好的用户交互强度显然会比较强,因此用户交互强度η受用户地理偏好相似性ζ1的影响。同理,拥有相似移动偏好的用户交互强度也会比较强,因此用户交互强度η也受用户移动相似性ζ2的相应。而拥有较高地理偏好相似性的用户,它们更可能从一个相似的地方移动到另外一个相似的地方,因此用户移动相似性ζ2受用户地理偏好相似性ζ1的影响。通过以上对可观测变量与不可观测变量之间以及不可观测变量之间的影响关系的分析,可以得出如图2所示的结构方程模型的路径分析图。在图2中,圆形表示不可观测变量,矩形表示可观测变量,箭头的指向表示变量之间的影响,如从ζ1指向ζ2的箭头表示ζ2受ζ1的影响。而根据结构方程的理论,所有结构方程中的变量(包括可观测变量及不可观测变量)都会存在一定的误差,即都受误差变量(记为εi)的影响,其中,i为整数,1≤i≤M,这里M表示可观测变量和不可观测变量的总数。误差变量一般是均值为0方差为1的高斯白噪声,其具体取值具有一定随机性。
应理解,在该实施例中采用表1中所列举的全部特征作为可观测变量,以及采用用户地理偏好性、用户移动相似性和用户交互强度作为不可观测变量仅是出于举例说明的目的,而非进行任何限制。在其他的实施例中,可以采用表1中列举的特征的一部分,或者可以对表1中的各个特征值进行适当的修改,或者也可以增加能反映或影响社交网络中用户关系的密切程度的新的其他特征,或以新的特征替换表1中的部分特征等。随着特征的改变,可以相应地对可观测变量和不可观测变量及其之间的关系进行调整。
在步骤S4)基于上述路径分析图,构建结构方程模型来求解用户关系强度。在结构方程模型里,路径分析图中变量之间的影响关系均可表示为线性关系,因此,可以用下面的公式表示上文所得到的结构方程模型的路径分析图中各个变量之间的影响关系,即:
对于可观测变量与不可观测变量之间的关系,有:
对于不可观测变量之间的关系,有:
ζ2=a14×ζ1+ε15
η=a15×ζ1+a16×ζ2+ε16
其中,a1,a2…a16及ε1,ε2…ε16均为实数类型的模型参数,它们的值可以通过计算可观测变量的协方差来获得,具体可参考文献2(《结构方程模型的原理与应用》邱皓政,林碧芳著),或者可以直接借助已有的数学工具软件(如SPSSAMOS等)求出。在求出上述参数后,按以下公式分别求出ζ1,ζ2以及用户交互强度η的值:
求得ζ1,ζ2后,即可得到用户交互强度η:
η=a15×ζ1+a16×ζ2+ε16;
其中,上述公式中对各个符号的定义类似于数学工具Matlab中的定义,即avg(A)代表对矩阵A的每一列求算术平均值,A./B代表用矩阵A的每个元素除以矩阵B的对应行对应列元素所得到的矩阵。最后,以经该结构方程模型求解得到的用户交互强度η的值衡量社交网络中用户之间的关系强度。
在本发明的又一个实施例中,该方法还可以包括步骤S5,对所建立的结构方程模型进行评价以及根据评价的结果对该结构方程模型进行调整或修正。实际应用中,初始建立的模型并不一定很好的描述社交网络中的现实情况,这个时候需要使用评价指标对模型进行评价以及修正。常用的评价指标有比较拟合指数CFI,规范拟合指数NFI,增量拟合指数IF,近似误差均方根RMSEA,修正指数MI等(各指数具体含义请参考书籍《结构方程模型的原理与应用》邱皓政,林碧芳著)。在本发明的应用中,工程人员可以借助各评价指标结合应用的实际情况对模型进行评估。当得到的模型不够理想时,可采用如下策略改进模型:
(1)在步骤S2,调整或改变用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的部分特征;
(2)在步骤S2,增加新的对用户之间关系的密切程度有影响的特征。
(3)在步骤S3,响应于步骤S2增加的特征,为模型添加新的变量;或者结合实际情况,分析是否存在对结果意义不大的可观测变量或不可观测变量,尝试删除这些变量;或者分析变量间的影响关系,在变量间建立新的影响关系或者取消部分影响关系。
可以不断对所建立的结构方程模型进行调整,直到得到符合需求的结构方程模型为止。然后就可以利用该结构方程模型计算社交网络中用户关系强度。
此外,发明人还对根据本发明实施例的用于确定社交网络用户关系强度的方法与现有的用户关系强度计算方法进行了对比,这些现有方法包括基于用户交互数据的方法Online,基于协同过滤的方法GeoSim,以及基于链接分析的方法SameEdge。为方便说明,将本发明的方法简记为RSM/SEM。在实验中,发明人使用ROC曲线(ReceiverOperatingCharacteristiccurve,受试者工作特征曲线)来考察本发明的方法计算用户关系强度的准确性。ROC曲线是机器学习领域中一种常用的验证方法。考虑到关系强度是不可观测的,因此通过预测两个陌生人是否成为朋友作为判断指标来建立ROC曲线。图3示出了上述四个方法的ROC曲线。ROC曲线以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标。ROC曲线与横坐标所围成的面积代表计算用户关系强度的准确率。图4示出了这四个方法的ROC曲线下的面积。可以看出本发明的方法准确率达到0.713,相比于其他方法,取得了最高的准确率。
可见,与现有的方法相比,本发明以连续值来表征用户关系强度的强弱,相比于二值变量的关系强度提供更细腻的参考值和更灵活的评估。其次,在现实的社交网络中,用户关系强度是不可测量的,并且受多个因素的影响,同时这几个因素之间又有相互的影响;而现有的关系强度计算方法并没有考虑这种复杂关系,因此准确性相对较差。本发明的方法采用结构方程模型来充分地考虑这种复杂关系,因而可以较好地拟合来自现实社交网络的数据。
尽管本发明的上述实施例是以移动社交网络进行的说明,但应理解,本发明的方法也适用于传统的社交网络。虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。
Claims (9)
1.一种用于确定社交网络中用户关系强度的方法,所述方法包括:
(a)从社交网络中获取与第一用户和第二用户的地理信息相关的数据以及与第一用户和第二用户之间的交互相关的数据;
(b)基于所获取的数据,确定用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的多个特征;
(c)将所确定的多个特征作为可观测变量,将用户地理偏好相似性、用户移动相似性和用户交互强度作为不可观测变量,建立结构方程模型的路径分析图,其中各个变量作为该路径分析图的节点,节点之间以带箭头的线连接,箭头的指向表示变量之间的影响关系;
(d)基于所述路径分析图,构建结构方程模型并求解出用户交互强度,以所得到的用户交互强度作为第一用户和第二用户之间的用户关系强度。
2.根据权利要求1所述的方法,其中,在所述路径分析图中所述变量之间的影响关系包括:
与反映用户地理偏好相似性的特征对应的可观测变量受用户地理偏好相似性的影响;
与反映用户移动相似性的特征对应的可观测变量受用户移动相似性的影响;
与反映用户交互强度的特征对应的可观测变量受用户交互强度的影响;
用户交互强度受用户地理偏好相似性和用户移动相似性的影响;以及
用户移动相似性受用户地理偏好相似性的影响。
3.根据权利要求1或2所述的方法,其中表征用户地理偏好相似性的特征包括下列中的一个或多个:
第一用户与第二用户共同感兴趣的区域的个数;
第一用户与第二用户访问二者共同感兴趣的区域的频率比;
第一用户与第二用户访问二者共同感兴趣的区域的停留时间比。
4.根据权利要求1或2所述的方法,其中表征用户移动相似性的特征包括下列中的一个或多个:
第一用户与第二用户共同的起-终点对的个数,所述起-终点对指由用户的移动轨迹的起始点和终止点构成的点对;
第一用户与第二用户访问二者共同的起-终点对的频率比;
第一用户与第二用户的活跃程度比;其中对于一个用户而言,其活跃程度定义如下:
对给定社交网络中的某个用户,记为u,其感兴趣的区域的集合为{r1,r2…ri…rN},N为该集合中元素的个数,N和i为整数,N≥1,1≤i≤N,ri表示用户u的第i个感兴趣区域,假设ri被用户u访问的次数为ci,则用户u的活跃程度ALu为:
5.根据权利要求1或2所述的方法,其中表征用户交互强度的特征包括下列中的一个或多个:第一用户与第二用户之间的历史通话次数、历史平均通话时间、月通话频率、历史短信次数。
6.根据权利要求1所述的方法,还包括对所构建的结构化模型进行评估,以及根据评估的结果对该结构化模型进行调整直到满足需求为止,其中所述对结构化模型的调整包括下列中的一个或多个或其组合:
删除某些可观测变量;
改变部分变量之间的影响关系;
调整或改变用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的部分特征;以及
增加用于表征第一用户和第二用户之间的关系密切程度的新特征,并将该增加的特征作为新的可观测变量。
7.一种用于确定社交网络中用户关系强度的系统,所述系统包括:
用于从社交网络中获取与第一用户和第二用户的地理信息相关的数据以及与第一用户和第二用户之间的交互相关的数据的装置;
用于基于所获取的数据,确定用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的多个特征的装置;
用于将所确定的多个特征作为可观测变量,将用户地理偏好相似性、用户移动相似性和用户交互强度作为不可观测变量,建立结构方程模型的路径分析图的装置,其中各个变量作为该路径分析图的节点,节点之间以带箭头的线连接,箭头的指向表示变量之间的影响关系;
用于基于所述路径分析图,构建结构方程模型并求解出用户交互强度,以所得到的用户交互强度作为第一用户和第二用户之间的用户关系强度的装置。
8.根据权利要求7所述的系统,其中,在所述路径分析图中所述变量之间的影响关系包括:
与反映用户地理偏好相似性的特征对应的可观测变量受用户地理偏好相似性的影响;
与反映用户移动相似性的特征对应的可观测变量受用户移动相似性的影响;
与反映用户交互强度的特征对应的可观测变量受用户交互强度的影响;
用户交互强度受用户地理偏好相似性和用户移动相似性的影响;以及
用户移动相似性受用户地理偏好相似性的影响。
9.根据权利要求7所述的系统,还包括模型评估和调整装置,用于对所构建的结构化模型进行评估,以及根据评估的结果对该结构化模型进行调整直到满足需求为止,其中所述对结构化模型的调整包括下列中的一个或多个或其组合:
删除某些可观测变量;
改变部分变量之间的影响关系;
调整或改变用于表征第一用户和第二用户的用户地理偏好相似性、用户移动相似性、用户交互强度的部分特征;以及
增加用于表征第一用户和第二用户之间的关系密切程度的新特征,并将该增加的特征作为新的可观测变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510514950.0A CN105069145A (zh) | 2015-08-20 | 2015-08-20 | 用于确定社交网络用户关系强度的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510514950.0A CN105069145A (zh) | 2015-08-20 | 2015-08-20 | 用于确定社交网络用户关系强度的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105069145A true CN105069145A (zh) | 2015-11-18 |
Family
ID=54498514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510514950.0A Pending CN105069145A (zh) | 2015-08-20 | 2015-08-20 | 用于确定社交网络用户关系强度的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105069145A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145504A (zh) * | 2017-03-21 | 2017-09-08 | 南京邮电大学 | 一种用户移动轨迹相似度比较的隐私保护方法 |
CN107808223A (zh) * | 2016-09-08 | 2018-03-16 | 杭州海康威视数字技术股份有限公司 | 数据处理方法及装置 |
CN108022171A (zh) * | 2016-10-31 | 2018-05-11 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及设备 |
CN108256590A (zh) * | 2018-02-23 | 2018-07-06 | 长安大学 | 一种基于复合元路径的相似出行者识别方法 |
CN108600961A (zh) * | 2018-03-23 | 2018-09-28 | 广州杰赛科技股份有限公司 | 用户相似度的获得方法和装置、设备、存储介质 |
CN108616447A (zh) * | 2018-04-17 | 2018-10-02 | 北京达佳互联信息技术有限公司 | 社交网络的用户关系引导方法、装置及电子设备 |
CN109992724A (zh) * | 2019-04-03 | 2019-07-09 | 西咸新区心灯软件科技有限公司 | 一种基于个人特征信息的用户契合度的计算方法和装置 |
CN110020146A (zh) * | 2017-11-27 | 2019-07-16 | 香港城市大学深圳研究院 | 信息投放方法和装置 |
CN110971770A (zh) * | 2019-11-27 | 2020-04-07 | 武汉虹旭信息技术有限责任公司 | 基于话单数据分析的社会关系疏密度推定方法及系统 |
CN111324741A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团山西有限公司 | 用户关系识别方法、装置、设备及介质 |
CN115470379A (zh) * | 2022-11-03 | 2022-12-13 | 北京天融信网络安全技术有限公司 | 用户关系确定方法、装置、设备及介质 |
CN109992724B (zh) * | 2019-04-03 | 2024-05-31 | 西咸新区心灯软件科技有限公司 | 一种基于个人特征信息的用户契合度的计算方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101447043A (zh) * | 2007-11-27 | 2009-06-03 | 索尼株式会社 | 人际关系评估设备、方法和系统以及终端设备 |
CN102547556A (zh) * | 2010-12-27 | 2012-07-04 | 腾讯科技(深圳)有限公司 | 一种用户关联关系添加方法、移动终端和服务器 |
WO2012129771A1 (en) * | 2011-03-29 | 2012-10-04 | Nokia Corporation | Method and apparatus for creating an ephemeral social network |
CN103079164A (zh) * | 2011-10-26 | 2013-05-01 | 腾讯科技(深圳)有限公司 | 一种关系链建立方法及系统 |
US20130132519A1 (en) * | 2006-08-23 | 2013-05-23 | Qurio Holdings, Inc. | Controlling quality of service and content quality based on user relationships |
US20140025670A1 (en) * | 2012-07-19 | 2014-01-23 | Berrin, Llc | Location based recommendations |
CN103631840A (zh) * | 2012-08-23 | 2014-03-12 | 邻客音公司 | 利用社会分类规则的电子消息接发系统 |
CN103995909A (zh) * | 2014-06-17 | 2014-08-20 | 东南大学成贤学院 | 一种基于三维关系强度模型的在线用户关系测量及分类方法 |
CN104636382A (zh) * | 2013-11-13 | 2015-05-20 | 华为技术有限公司 | 推理社会关系的方法及装置 |
-
2015
- 2015-08-20 CN CN201510514950.0A patent/CN105069145A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132519A1 (en) * | 2006-08-23 | 2013-05-23 | Qurio Holdings, Inc. | Controlling quality of service and content quality based on user relationships |
CN101447043A (zh) * | 2007-11-27 | 2009-06-03 | 索尼株式会社 | 人际关系评估设备、方法和系统以及终端设备 |
CN102547556A (zh) * | 2010-12-27 | 2012-07-04 | 腾讯科技(深圳)有限公司 | 一种用户关联关系添加方法、移动终端和服务器 |
WO2012129771A1 (en) * | 2011-03-29 | 2012-10-04 | Nokia Corporation | Method and apparatus for creating an ephemeral social network |
CN103079164A (zh) * | 2011-10-26 | 2013-05-01 | 腾讯科技(深圳)有限公司 | 一种关系链建立方法及系统 |
US20140025670A1 (en) * | 2012-07-19 | 2014-01-23 | Berrin, Llc | Location based recommendations |
CN103631840A (zh) * | 2012-08-23 | 2014-03-12 | 邻客音公司 | 利用社会分类规则的电子消息接发系统 |
CN104636382A (zh) * | 2013-11-13 | 2015-05-20 | 华为技术有限公司 | 推理社会关系的方法及装置 |
CN103995909A (zh) * | 2014-06-17 | 2014-08-20 | 东南大学成贤学院 | 一种基于三维关系强度模型的在线用户关系测量及分类方法 |
Non-Patent Citations (1)
Title |
---|
邱皓政: "《结构方程模型的原理与应用》", 28 February 2009, 中国轻工业出版社 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808223A (zh) * | 2016-09-08 | 2018-03-16 | 杭州海康威视数字技术股份有限公司 | 数据处理方法及装置 |
CN107808223B (zh) * | 2016-09-08 | 2021-04-20 | 杭州海康威视数字技术股份有限公司 | 数据处理方法及装置 |
CN108022171A (zh) * | 2016-10-31 | 2018-05-11 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及设备 |
CN108022171B (zh) * | 2016-10-31 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及设备 |
CN107145504B (zh) * | 2017-03-21 | 2020-02-21 | 南京邮电大学 | 一种用户移动轨迹相似度比较的隐私保护方法 |
CN107145504A (zh) * | 2017-03-21 | 2017-09-08 | 南京邮电大学 | 一种用户移动轨迹相似度比较的隐私保护方法 |
CN110020146B (zh) * | 2017-11-27 | 2021-03-02 | 香港城市大学深圳研究院 | 信息投放方法和装置 |
CN110020146A (zh) * | 2017-11-27 | 2019-07-16 | 香港城市大学深圳研究院 | 信息投放方法和装置 |
CN108256590B (zh) * | 2018-02-23 | 2019-04-02 | 长安大学 | 一种基于复合元路径的相似出行者识别方法 |
CN108256590A (zh) * | 2018-02-23 | 2018-07-06 | 长安大学 | 一种基于复合元路径的相似出行者识别方法 |
CN108600961A (zh) * | 2018-03-23 | 2018-09-28 | 广州杰赛科技股份有限公司 | 用户相似度的获得方法和装置、设备、存储介质 |
CN108616447A (zh) * | 2018-04-17 | 2018-10-02 | 北京达佳互联信息技术有限公司 | 社交网络的用户关系引导方法、装置及电子设备 |
CN111324741A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团山西有限公司 | 用户关系识别方法、装置、设备及介质 |
CN111324741B (zh) * | 2018-12-17 | 2023-08-18 | 中国移动通信集团山西有限公司 | 用户关系识别方法、装置、设备及介质 |
CN109992724A (zh) * | 2019-04-03 | 2019-07-09 | 西咸新区心灯软件科技有限公司 | 一种基于个人特征信息的用户契合度的计算方法和装置 |
CN109992724B (zh) * | 2019-04-03 | 2024-05-31 | 西咸新区心灯软件科技有限公司 | 一种基于个人特征信息的用户契合度的计算方法和装置 |
CN110971770A (zh) * | 2019-11-27 | 2020-04-07 | 武汉虹旭信息技术有限责任公司 | 基于话单数据分析的社会关系疏密度推定方法及系统 |
CN115470379A (zh) * | 2022-11-03 | 2022-12-13 | 北京天融信网络安全技术有限公司 | 用户关系确定方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105069145A (zh) | 用于确定社交网络用户关系强度的方法及系统 | |
Xu et al. | Human mobility and socioeconomic status: Analysis of Singapore and Boston | |
Wu et al. | Spatial and social media data analytics of housing prices in Shenzhen, China | |
Guo et al. | TaskMe: Toward a dynamic and quality-enhanced incentive mechanism for mobile crowd sensing | |
Gao | Spatio-temporal analytics for exploring human mobility patterns and urban dynamics in the mobile age | |
CN102591911B (zh) | 位置相关实体的实时个性化推荐 | |
Graham et al. | Geography and the future of big data, big data and the future of geography | |
KR102067278B1 (ko) | 친구 추천 방법 및 이를 위한 서버 및 단말 | |
McKenzie et al. | Where is also about time: A location-distortion model to improve reverse geocoding using behavior-driven temporal semantic signatures | |
Berlingerio et al. | The GRAAL of carpooling: GReen And sociAL optimization from crowd-sourced data | |
Hubbard | Pulse: The new science of harnessing internet buzz to track threats and opportunities | |
Robertson et al. | Inference and analysis across spatial supports in the big data era: Uncertain point observations and geographic contexts | |
Li et al. | Assessing spatiotemporal predictability of lbsn: a case study of three foursquare datasets | |
Keusch et al. | Combining active and passive mobile data collection: A survey of concerns | |
US20150148058A1 (en) | Mobile device analytics | |
Becken et al. | A hybrid is born: Integrating collective sensing, citizen science and professional monitoring of the environment | |
Jin et al. | Similarity measurement on human mobility data with spatially weighted structural similarity index (SpSSIM) | |
Malik | Bias and beyond in digital trace data. | |
Mashhadi et al. | No walk in the park: The viability and fairness of social media analysis for parks and recreational policy making | |
Pei et al. | FCN-Attention: A deep learning UWB NLOS/LOS classification algorithm using fully convolution neural network with self-attention mechanism | |
He et al. | Geographically weighted regression based on a network weight matrix: a case study using urbanization driving force data in China | |
Ackland et al. | Development impact of social media | |
Li et al. | A contextualized and personalized model to predict user interest using location-based social networks | |
Huang et al. | An approach for understanding human activity patterns with the motivations behind | |
Alliance | Opportunities and requirements for leveraging big data for official statistics and the sustainable development goals in Latin America |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151118 |