CN106682212B - 一种基于用户移动行为的社会关系分类方法与装置 - Google Patents
一种基于用户移动行为的社会关系分类方法与装置 Download PDFInfo
- Publication number
- CN106682212B CN106682212B CN201611264316.7A CN201611264316A CN106682212B CN 106682212 B CN106682212 B CN 106682212B CN 201611264316 A CN201611264316 A CN 201611264316A CN 106682212 B CN106682212 B CN 106682212B
- Authority
- CN
- China
- Prior art keywords
- user
- time
- space
- matrix
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于移动行为与社会关系分析技术领域,具体为一种基于用户移动行为的线下社会关系分类方法及装置。本发明包括:从用户移动行为日志数据库中,获取用户的个体行为记录,建立用户行为矩阵与两两用户间时空交互矩阵,并提取衡量用户社会相似性和交互规律性的两个交互特性:时空熵和规律度;通过零假设对用户个体移动行为进行随机处理,建立用户个体行为矩阵和用户间时空交互矩阵的零模型,根据零模型及预置概率确定时空熵随机阈值和规律度随机阈值;通过比较用户交互矩阵在时空熵和规律度上与其随机阈值之间的大小关系,确定两用户间的线下社会关系。本发明可用于区分线下熟人关系和陌生人关系,并挖掘介于二者之间的“熟悉的陌生人”关系,提高线下社会关系的分类的准确性和实用性。
Description
技术领域
本发明属于移动行为与社会关系分析技术领域,具体涉及一种基于用户移动行为的线下社会关系分类方法与装置。
背景技术
在社会网络(social network)的研究理论中,研究者们将社会网络视为连接人类个体的一系列社会关系,将人类人作为节点,并将社会关系作为节点间的连边。然而随着研究的发展,网络中的连边不仅仅局限于狭义的社会关系(用亲疏程度定义连边的权重),而被看作人类交往行为的总和,不论是面对面的交流,地理上的相遇,还是在网络上,电话中的交流,都成为连接人类个体与个体的纽带。因此广义的社会关系不再局限于静态地对感情亲疏进行描述,而是更多地体现人与人之间的交往模式,组织结构,以及整个社会网络的动态演化过程。对社会关系乃至整个社会网络的研究在构建智慧城市,设计移动应用,促进信息传播,预防传染病扩散等领域发挥了重要作用。近年来,人类社会关系挖掘成为了学术界和工业界的研究热点,尤其是在移动互联网和智能设备快速发展的今天,大规模人类行为数据的产生与收集为研究社会关系与社会网络带来了新的契机。
然而,在现有的社会关系分析相关的研究中存在如下问题:
(1)、大部分现有的对社会关系进行分析或分类的工作往往基于人类的行为的线上数据,例如通过手机通话、短信、社交网站、社交应用等媒介进行交互而产生的数据。通过线上数据分析所得的线上关系往往与人类实际生活中的真实社会关系存在较大差距,而真实世界中的许多动力学过程必须依赖与现在的真实社交网络,例如机会网络中的信息传播,疾病传播,人类日常通勤,购物等等。另一方面,通过线上行为分析得到的社会关系往往只能体现更为熟人关系,而实际生活(线下)中,人们每日所能接触到的人则是各种各样的,从家人,朋友,办公室同事这样的熟人到公交车上完全不相识的陌生人。因此通过现在人类行为数据来分析线下社会关系与社会网络显得十分重要。
(2)、同时大部分对于线下社会关系的仍然采用二分类的分析方法,即个体间只存在熟人和非熟人两种关系。然而,在真实的场景中,介于上述提到的熟人和陌生人外,还存着第三种特殊的社会关系——“熟悉的陌生人”,熟悉的陌生人是这样的一群人,他们会重复地相遇,但他们却彼此不相识也从未注意到对方,例如在每天上班的公交车上,在每周去的健身馆里,都有可能遇到很多这样熟悉的陌生人,这种现象是线下交互独有的,也是不可避免,它占据了人们日常所能接触到的人的很大一部分,因而不能忽略。
(3)、在现有的分析社会关系的工作中,两个个体间的共同邻居数量往往被作为重要的指标之一来衡量两个个体之间的社会相似性,共同邻居数量越多,社会相似性越大,则两个个体越有可能是熟人关系,即亲密的社会关系。然而,这个指标的计算一方面需要依赖于社会网络结构本身,因此当数据规模过大时难以得到,另一方面,对于人类的线下行为来说,大量陌生人之间偶然相遇的情况在这个指标的计算中引入了大量的噪声,因此共同邻居数量并不能很好地作为衡量用户线下社会相似性的有效指标。
发明内容
本发明的目的在于提供一种基于用户移动行为的线下社会关系分类方法与装置,以提高线下社会关系的分类的准确性和实用性,为大规模人类线下行为研究提供了新的社会关系分析框架。
本发明提供的基于用户移动行为的线下社会关系分类方法,具体步骤为:
(1)获取用户个体行为记录,即从用户移动行为日志数据库中,获取用户的个体行为记录,每条记录包括:用户ID、时间、地点、停留时间;
(2)建立用户间时空交互矩阵,即利用所述用户个体行为记录,建立用户行为矩阵,并根据时间空间共现建立两两用户间时空交互矩阵;并对用户时空交互矩阵,提取衡量用户社会相似性和交互规律性的两个交互特性:时空熵和规律度;
(3)建立零模型及选取零阈值,首先构建零假设:用户个体行为不受他人的影响,用户个体行为不具有周期偏向性;根据零假设,建立用户个体行为和用户间时空交互矩阵的零模型,即每个周期内的随机用户行为矩阵和随机时空交互矩阵;统计零模型中的时空熵与规律度的概率分布,通过预置概率p0确定时空熵和规律度的零阈值;
(4)用户间社会关系分类,即通过比较真实用户交互矩阵的在时空熵和规律度两个维度上与其零阈值之间的大小关系,确定两用户间的线下社会关系(熟悉的陌生人,陌生人,熟人)。
本发明步骤(1)中,所述从用户移动行为日志数据库中,获取用户的个体行为记录,每条记录包括:用户ID、时间、地点、停留时间;
本发明步骤(2)中,所述利用所述用户个体行为记录,建立用户行为矩阵,包括:
根据用户行为记录,得到用户集U,地点集L。每条用户行为记录包括用户ID,开始时间,持续时间,地点;
根据用户行为记录中的时间数据,确定用户行为周期T,离散化时间步长度ΔT,其中,所述用户行为周期T将日志数据中的整个时间轴划分为N个周期;
本发明步骤(2)中,所述根据时空共现建立两两用户间时空交互矩阵,包括:
所述时间空间共现表示用户u与用户v在同一个地点l拥有时间重合的行为记录。时空共现代表用户u与用户v在实际生活中的一次“交互事件”。定义En为第n个周期内的所有交互事件的集合,如果用户u与用户v在第n个周期,地点l,时间步t有一次时间空间共现,则交互事件en=(u,v,t,l)∈En。
对于每一对拥有至少一次交互事件的用户对(u,v),构建交互矩阵其中,u为用户集U中的第u个用户,v为用户集U中的第v个用户,l表示地点集L中的第l个地点。交互矩阵Mu,v的元素为一个二元组 表示交互权重,表示交互支持度,其中,和可通过如下方式计算:
本发明步骤(2)中,所述对用户时空交互矩阵提取衡量用户社会相似性和交互规律性的两个交互特性:时空熵和规律度,包括:
通过如下方式计算用户时空交互矩阵的规律度dr(u,v):
通过如下方式计算用户时空交互矩阵的时空熵de(u,v):
本发明步骤(3)中,所述构建零假设:用户个体行为不受他人的影响,用户个体行为不具有周期偏向性。根据零假设,建立用户个体行为和用户间时空交互矩阵的零模型,即每个周期内的随机用户行为矩阵和随机时空交互矩阵。
根据所述用户行为矩阵计算个体活跃度。用户活跃度表示用户在一个周期内访问一个时空栅格的概率。根据用户行为矩阵建立用户-时空栅格二部图;所述用户-时空栅格二部分图包括:所述用户集中表示每个用户的节点,表示每个时空栅格(t,l)的节点以及存在行为记录的用户和时空栅格之间的连边。用户行为矩阵中的元素时,用户u与时空栅格(t,l)存在连边。
利用保留度的连边交换法随机化用户-时空栅格二部图,得到随机用户-时空栅格二部图。该方法保留每个节点的度不变,节点和连边的数量不变。
本发明步骤(3)中,所述统计零模型中时空熵与规律度的概率分布,并通过预置概率p0确定时空熵和规律度的零阈值,包括:
预置概率p0。其中p0远小于1。
本发明步骤(4)中,所述通过比较真实用户交互矩阵的在时空熵和规律度两个维度上与其零阈值之间的大小关系,确定两用户间的线下社会关系(熟悉的陌生人,陌生人,熟人),包括:
若用户交互矩阵的时空熵小于时空熵随机阈值,规律度大于规律度随机阈值,则确定用户间线下社会关系为熟悉的陌生人。若用户交互矩阵的时空熵小于时空熵随机阈值,规律度大于规律度随机阈值,则确定用户间线下社会关系为熟悉的陌生人。若用户交互矩阵的时空熵大于时空熵随机阈值,则确定用户间线下社会关系为熟人关系,其中,若规律度大于规律度随机阈值,则确定用户间线下社会关系为熟人关系中的同事/同学等职业关系,若规律度小于规律度随机阈值,则确定用户间线下社会关系为熟人关系中的朋友关系。
另一方面,本发明还提供基于用户移动行为的线下社会关系分类装置,包括:
用户个体行为记录获取模块,用于从用户移动行为日志数据库中,获取用户个体行为记录,得到用户集U,地点集L。每条用户行为记录包括用户ID,开始时间,持续时间,地点。利用所述用户个体行为记录,提取用户行为周期,离散时间步长度,并建立用户行为矩阵。
用户间时空交互矩阵建立模块,用于根据时间空间共现建立两两用户间时空交互矩阵,并从所述时空交互矩阵中提取用户交互特性,包括:时空熵和规律度。
零模型建立及零阈值选取模块,用于对用户个体移动行为进行随机化处理,建立用户个体行为和用户间时空交互矩阵的零模型:每个周期内的随机用户行为矩阵和随机时空交互矩阵。提取零模型下的提取时空熵和规律度并统计其概率分布,通过预置概率p确定时空熵零阈值和规律度零阈值。
用户间社会关系分类模块,用于通过比较用户真实交互矩阵的时空熵和规律度与其零阈值之间的大小关系,确定两用户间的线下社会关系(熟悉的陌生人,陌生人,熟人)。
上述四个模块,具体执行本发明分类方法的四个步骤的操作。
本发明提供的技术方案将有如下优点:
本发明所区分的社会关系为线下的社会关系,在传统的通过社会关系亲密程度进行社会关系分类的基础上,融合了真实人类行为的线下交互特性,不仅能区分陌生人和熟人关系,还能识别介于两者之间的“熟悉的陌生人”关系,提高了线下社会关系的分类的准确性和实用性,为大规模人类线下行为研究提供了新的社会关系分析框架。本发明充分考虑了用户线下行为的特性,结合时间空间信息,合理的表示了用户的移动行为与用户间的交互行为,并设计了时空熵指标来衡量用户间的线下社会相似性,该指标不依赖与社会网络结构,仅取决于两个用户各自的行为数据,因此易于计算和实现,满足大规模数据分析的需求。
附图说明
图1为本发明实施例提供一种基于用户移动行为的线下社会关系分类方法的流程方框示意图。
图2为本发明实施例提供一种用户移动行为日志数据样例图。
图3为本发明实施例提供一种用户社会关系分类判定示意图。
图4为本发明实施例提供的一种用户社会关系分类装置的组成结构示意图。
图5为本发明实施例提供的用户交互事件及时空交互矩阵建立模块的组成结构示意图。
图6为本发明实施例提供的零模型建立及零阈值选取模块的组成结构示意图。
图7为本发明实施例提供的用户个体移动行为随机化模块的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图,以国内某高校无线网络登录行为日志数据为例,对本申请的发明实施例进行详细说明。
首先,需要对本发明区分的线下社会关系类别进行说明;具体如下:
熟悉的陌生人关系:重复相遇却互不相识的两个用户间的线下社会关系,例如每天早晨在同一个教室早自习的两个学生,每天同时乘坐一班公交车的两个乘客。
陌生人关系:互不相识的,几乎无交互事件的两个用户间的线下社会关系。
熟人关系:真实世界互相认识的两个用户间的社会关系,分为同事/同学等职业关系和朋友关系两种。其中,同事/同学等职业关系为周期性地长时间同时同地出现的两个用户间的线下社会关系,例如同班同学。朋友关系为不定期约会的用户间的亲密线下社会关系,互为朋友关系的两个用的间以亲密感情为联系基础。
基于以上概念的说明,图1为本发明基于用户移动行为的线下社会关系分类方法的流程图,如图1所示,包括:
步骤100、从用户移动行为日志数据库中,获取用户的个体行为记录,包括(用户ID,时间,地点,停留时间)。利用所述用户个体行为记录,建立用户行为矩阵,并建立两两用户间时空交互矩阵。
以国内某大学,无线网络登录行为日志数据为例,校园内的无线网络登录行为日志由学校信息办采集并存储,记录了校园内所有使用校园无线网络的用户的无线网络登录行为。从信息办管理系统中采集来的原始数据如图2所示,每条记录包括用户ID,用户登录起始时间,用户在线持续时间,用户接入的无线热点(AP)的地点标识。所有不同的AP构成了地点集合。需要说明的是,由于无线热点覆盖范围较小,用户往往自动连接与其距离最近的无线热点,因此,当用户从一个地点移至另一个地点时,其接入的无线热点也会自动切换。每条无线网络登录记录刻画了用户接入无线网络的时间和地点,而一个用户的一系列无线网络登录记录则刻画了该用户的移动行为。
由于无线热点(AP)覆盖范围有限,例如一个教室,一个办公室,当两个用户同时接入同一个无线热点时,可以认为两个用户在地理位置上足够接近,这种接近往往是产生实质性社会交互(例如交谈,信息共享,信息传递,肢体接触)的必要条件。在大学校园中,互为同班同学的两个用户常常规律地出现在同一个教室,因此会表现出更多的同时接入同一AP的情况;而互为陌生人的两个用户间往往很难产生这种时间空间上的重叠。根据用户间时间,地理位置接近的情况和模式,可以推断出两个用户间的社会关系。
本实施例中,步骤100从用户移动行为日志数据库中,获取用户的个体行为记录,包括(用户ID,时间,地点,停留时间)。利用所述用户个体行为记录,建立用户行为矩阵,并建立两两用户间时空交互矩阵,具体可以包括如下步骤:
(1)、根据用户行为记录,得到用户集U,地点集L。每条用户行为记录包括用户ID,开始时间,持续时间,地点。信息办管理系统中采集来的原始数据如图2所示,每条记录可以以四元组(u,ta,δt,l)的形式表示,其中u表示用户集U中的第u个用户,ta为记录起始时间,δt为记录持续时间,l为地点集L中的第l个地点,l代表了无线热点的地点标识。
(2)、根据用户行为记录中的时间数据,确定用户行为周期T,离散化时间步长度ΔT,其中,所述用户行为周期T将日志数据中的整个时间轴划分为N个周期。周期性是人类日常行为中最重要的特性之一,而在大学校园内,这一特性也十分明显,例如学生们会以7天为周期重复课程表上的时间安排,到各个教室去上课。行为周期T可以通过统计用户返回相同地点的时间间隔来确定。这里需要说明的是,检测周期性的方法很多,典型的例如信号处理中的傅里叶变换和自相关方法,但是这种方法通常只能处理一条序列。在该实施例中,每个用户的行为都相当于一条时间序列,当需要找到用户群体的行为周期时,采用傅里叶变换方法显然不合适。因此,我们通过统计用户返回相同地点的时间间隔的概率分布(该概率分布是在整个用户集上的概率分布),找到在概率上显著突出的时间间隔,即可视为用户行为周期T。通常,人类的行为周期为1天或7天。在该实施例中,T=7天。T将观测记录的整个时间轴划分为N个周期。
另一方面,为了充分挖掘用户移动移动行为的时间,空间模式以便后续分析,需要将连续的时间轴离散化,确定离散化时间步长度ΔT可以简化用户移动行为的表示,将连续的时间离散为长度为ΔT的时间段。ΔT的选取需依照具体数据而定,通常需要ΔT即能够去除数据中的一些噪声,又能够充分表现出用户行为的变化。在该实施例用,取ΔT=3小时。
(3)、对于每一个周期n,构建用户u的行为矩阵其中,n为(2)所述N个周期中的第n个周期;t属于表示第n个周期中的第t个时间步,其中ΔT为(2)中所述时间步长度,它将一个周期分为个时间步;l表示地点集L中的第l个地点。所述用户行为矩阵Sn(u)的行数为(一个周期内的时间步数量),列数为地点集L中的地点总数量|L|。Sn(u)中的元素为1或0,当用户u存在一条行为记录发生在地点l,第n个周期的时间步t时,否则,需要说明的是,一个周期内的用户行为矩阵相当于将一个周期内的时间和空间划分为个时空栅格,每个时空栅格可由二元组(t,l)表示,表示用户在该周期内访问了时空栅格(t,l)。
(4)、根据时间空间共现建立两两用户间时空交互矩阵。所述时间空间共现表示用户u与用户v在同一个地点l拥有时间重合的行为记录。时间空间共现代表用户u与用户v在实际生活中的一次“交互事件”。定义En为第n个周期内的所有交互事件的集合,如果用户u与用户v在第n个周期,地点l,时间步t有一次时间空间共现,则交互事件en=(u,v,t,l)∈En。
对于每一对拥有至少一次交互事件的用户对(u,v),构建交互矩阵其中u为所述用户集U中的第u个用户,v为所述用户集U中的第v个用户,t属于表示第n个周期中的第t个时间步,l表示地点集L中的第l个地点。所述交互矩阵Mu,v的行数为(一个周期内的时间步数量),列数为地点集L中的地点总数量|L|。交互矩阵Mu,v相当于将一个周期内的时间和空间划分为个时空栅格,每个时空栅格可由(t,l)表示。Mu,v的元素为一个二元组 为交互权重,表示用户u和v在时空栅格(t,l)发生交互事件的周期数目,为交互支持度,表示用户u和v在时间-地点栅格(t,l)发生交互事件的概率。其中和可通过如下方式计算:
为交互权重体现了两个用户(u,v)发生交互事件时,对时空栅格(t,l)的偏爱程度,交互支持度表示当u,v相互独立时,在时空栅格(t,l)产生一次交互事件的概率。当用户时空栅格(t,l)的行为周期性越强时,交互支持度则越大。
步骤101、对于每对用户的时空交互矩阵,提取两个交互特性:时空熵和规律度。其中时空熵用于衡量两个用户间的社会相似性,规律度用于衡量两个用户间交互事件产生的周期化程度。
时空熵用于衡量两个用户的相似性。在社会网络分析理论认为,两个拥有亲密社会关系的个体间,拥有很强的行为相似性,因此我们定义时空熵为两个用户发生交互事件的所有时空栅格的数量,该数量越大,说明两个用户行为越相似,也就具有更加亲密的社会关系,例如朋友关系。这在现实场景中是十分常见的,例如在学校校园内,互为好友的两个学生可能一起出现在图书馆,球场,教室,餐厅,且时间也很丰富多样;互为同事的两个人则只在工作时间同事出现在办公室中;互不认识的两个人则可能只是偶然一次在同事出现在餐厅中。
规律度用于衡量两个用户间交互事件产生的周期化程度,它取决于两用户各自的行为规律。我们定义规律度为每个时空栅格交互支持度的加权平均值,其中权重由交互权重确定。因此,即便是完全陌生的两个用户,如果他们正好拥有相同的某种行为规律,例如都喜欢周二下午3点去教室102自习,那么即便这两个用户互不相识,他们的交互规律度也很大,这种情况对应了一种常见而又往往被忽略的社会关系----熟悉的陌生人。
通过如下方式计算用户时空交互矩阵的规律度dr(u,v):
通过如下方式计算用户时空交互矩阵的时空熵de(u,v):
步骤102、构建零假设:用户个体行为不受他人的影响,用户个体行为不具有周期偏向性。根据零假设,建立用户个体行为和用户间时空交互矩阵的零模型,即每个周期内的随机用户行为矩阵和随机时空交互矩阵。统计零模型中的时空熵与规律度的概率分布,通过预置概率p0确定时空熵和规律度的零阈值。
为了通过时空熵和规律度两个交互特性区分不同的社会关系,需要建立零假设用户间时空交互矩阵的零模型,得到零模型下的时空熵和规律度分布。本实施例中,步骤102通过对用户个体行为的随机化处理,建立用户个体行为和用户间时空交互矩阵的零模型:每个周期内的随机用户行为矩阵和随机时空交互矩阵,根据零模型及预置概率确定时空熵随机阈值和规律度随机阈值,具体可以包括如下步骤:
(1)、根据所述用户行为矩阵计算个体活跃度,所述用户活跃度表示用户在一个周期内访问一个时空栅格的概率。根据所述用户行为矩阵建立用户-时空栅格二部图GUS,所述用户-时空栅格二部分图包括:所述用户集中表示每个用户的节点,表示每个时空栅格(t,l)的节点以及存在行为记录的用户和时空栅格之间的连边。所述用户行为矩阵中的元素时,用户u与时空栅格(t,l)存在连边。
在计算个体活跃度时,定义L(u)为用户u访问过的所有地点集合,结合步骤100中的用户行为矩阵,用户活跃度act(u)可由下式计算:
在随机化用户-时空栅格二部图时,使用保留度的连边交换法。该方法随机选取二部图中的两条连边(u,(t1,l1)),(v,(t2,l2))进行交互,得到新的连边(u,(t2,l2)),(v,(t1,l1)),将新连边添加到二部图中,并删除原来的两条连边。当进行足够过次的连边交换后,随机化过程完成。经随机化后的用户-时空栅格二部图拥有与原图相同的节点数量,连边数量和节点度,也就是说,每个用户节点连接与原图相同数量的时空栅格节点,每个时空栅格节点连接与原图数量相同的用户节点。这样的方法保证了原本活跃的节点依然活跃,原本被访问数量多的时空栅格依然被访问数量多。随机用户-时空栅格二部图用表示。
在该步骤中,每个用户的用户-时空栅格二部图随机化过程是独立的,保证了随机化后用户连接的时空栅格不受其社会关系的影响,满足了零假设中的第一个假设。
(3)、根据所述(1)中个体活跃度与(2)中所述随机用户-时空栅格二部图与重建每个周期内的所述用户个体行为矩阵和用户间时空交互矩阵的随机化模型,包括:随机用户行为矩阵随机时空交互矩阵随机规律度和随机时空熵
在建立随机用户行为矩阵时,对于每一个周期n,如果随机用户-时空栅格二部图中存在连边(u,(t,l)),则中元素以概率act(u)置为1,否则为0。该步骤使每个周期下,用户对每个可连接的时空栅格的连接概率相同,不存在周期性时空偏向的情况,满足零假设中的第二个假设。
(4)、预置概率p0,其中p0远小于1。根据所述零模型下规律度和随机时空熵概率分布,确定时空熵零阈值e0和规律度零阈值r0。其中e0满足r0满足通常p0的取值小于0.001以保证足够的置信度,当p0足够小时,意味着在在完全随机的情况下,用户交互矩阵的规律度或时空熵几乎不可能大于他们所对应的零阈值,在现实场景中,如果用户间的交互特性出现大于零阈值的情况,是由于他们之间的某种非随机的社会关系所导致的。
步骤103、通过比较用户交互矩阵在时空熵和规律度两个维度上与其随机阈值之间的大小关系(熟悉的陌生人,陌生人,熟人)。
在本实施例中,两用户社会关系分类判定示意图如图3所示。
若用户交互矩阵的时空熵de(u,v)小于时空熵零阈值e0,规律度dr(u,v)小于规律度零阈值r0,则确定用户间社会关系为陌生人关系;若用户交互矩阵的时空熵小于时空熵零阈值,规律度大于规律度零阈值,则确定用户间社会关系为熟悉的陌生人关系;若用户交互矩阵的时空熵大于时空熵零阈值,规律度小于规律度零阈值,则确定用户间社会关系为朋友关系;若用户交互矩阵的时空熵大于时空熵零阈值,规律度大于规律度零阈值,则确定用户间社会关系为同事/同学等职业关系。
由于用户交互矩阵的时空熵描述了用户间的相似性,规律度描述了用户间交互事件发生的周期性程度,时空熵小于时空熵零阈值的陌生人与熟悉的陌生人关系均代表一种不亲密的社会关系,用户之间并非以感情为纽带联系在一起,相反,职业关系和朋友关系某种程度上体现了更为亲密的感情联系。规律度小于规律度零阈值的陌生人与朋友关系均代表了一种非周期性的交互行为,陌生人间交互事件是偶然发生的,朋友之间的交互事件是不定期的,由特别地约会所导致,并不需要遵循特别地时间规律;相反,职业关系或熟悉的陌生人之间的交互事件则与用户本身的行为规律或时间安排密切相关。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图4所示,本发明实施例提供的一种基于用户移动行为的线下社会关系分类装置400,可以包括:用户个体行为记录获取模块401、用户间时空交互矩阵建立模块402、随机化模型建立及交互特性随机阈值选取模块403和用户间社会关系分类模块404。
用户个体行为记录获取模块401,用于从用户移动行为日志数据库中,获取用户个体行为记录,得到用户集U,地点集L。每条用户行为记录包括用户ID,开始时间,持续时间,地点。利用所述用户个体行为记录,提取用户行为周期,离散时间步长度,并建立用户行为矩阵;
用户间时空交互矩阵建立模块402,用于根据时间空间共现建立两两用户间时空交互矩阵,并从所述时空交互矩阵中提取用户交互特性,包括:时空熵和规律度;
零模型建立及交互特性零阈值选取模块403,用于对用户个体移动行为进行随机化处理,建立用户个体行为和用户间时空交互矩阵的零模型:每个周期内的随机用户行为矩阵和随机时空交互矩阵。提取零模型下的提取时空熵和规律度并统计其概率分布,通过预置概率p确定时空熵零阈值和规律度零阈值;
用户间社会关系分类模块404,用于通过比较用户真实交互矩阵时空熵和规律度与其零阈值之间的大小关系,确定两用户间的线下社会关系;
在本发明的实施例中,请参阅如图5所示,所述用户时空交互矩阵建立模块402,包括:
用户交互事件建立子模4021,用于根据时空共现确定用户间的所有交互事件,建立交互事件集合;
时空交互矩阵建立子模4022,用于对拥有至少一次交互事件的两个用户建立用户间的时空交互矩阵,其中每个矩阵元素为一个二元组,共同描述交互的权重与概率;
交互特性提取子模块4023,用于根据用户间的时空交互矩阵提取交互特性,包括时空熵与规律度。
在本发明的实施例中,请参阅如图6所示,所述零模型建立及零阈值选取模块303,包括:
用户个体行为随机化子模块4031,用于对用户行为进行随机化处理,得到随机用户行为矩阵;
随机时空交互矩阵建立子模块4032,用于根据随机用户行为矩阵简历用户间随机时空交互矩阵;
交互特性零阈值提取子模块4033,用于提取零模型下的时空熵与规律度,统计其概率分布,并通过预置概率p0确定时空熵零阈值和规律度零阈值。
在本发明的实施例中,请参阅如图7所示,所述用户个体行为随机化模块4031,包括:
用户-时空栅格二部图建立子模块40311,用于建立用户-时空栅格二部图,所述用户-时空栅格二部分图包括:所述用户集中表示每个用户的节点,表示每个时空栅格的节点以及存在行为记录的用户和时空栅格之间的连边;
用户-时空栅格随机化子模块40312,用于采用保留度的连边交换法,将用户-时空栅格二部图随机化,得到随机用户-时空栅格二部图。该方法保留每个节点的度不变,节点和连边的数量不变;
随机用户行为矩阵重建子模块40313,用于根据所述用户行为矩阵,计算各用户的用户活跃度,所述用户活跃度表示用户在一个周期内访问一个时空栅格的概率,并根据随机用户-时空栅格二部图重建每个周期内的随机用户行为矩阵。
通过前述实施例对本发明的描述可知,首先从用户移动行为日志数据库中,获取用户的个体行为记录,每条记录包括:用户ID、时间、地点、停留时间。利用所述用户个体行为记录,建立用户行为矩阵,并根据时间空间共现建立两两用户间时空交互矩阵。然后对于每对用户的时空交互矩阵,提取两个交互特性,包括:时空熵和规律度。其中时空熵用于衡量两个用户间的社会相似性,规律度用于衡量两个用户间交互事件产生的周期化程度。接着通过对用户个体行为的随机化处理,建立用户个体行为矩阵和用户间时空交互矩阵的零模型:每个周期内的随机用户行为矩阵和随机时空交互矩阵。统计零模型下时空熵与规律的概率分布,并通过预置概率p0确定时空熵和规律度的零阈值。最后通过比较用户真实交互矩阵在时空熵和规律度两个维度与其零阈值之间的大小关系,确定两用户间的社会关系。本发明所区分的社会关系为线下的社会关系,在传统的通过社会关系亲密程度进行社会关系分类的基础上,融合了真实人类行为的线下交互特性,不仅能区分陌生人和熟人关系,还能识别介于两者之间的“熟悉的陌生人”关系,提高了线下社会关系的分类的准确性和实用性,为大规模人类线下行为研究提供了新的社会关系分析框架。本发明充分考虑了用户线下行为的特性,结合时间空间信息,合理的表示了用户的移动行为与用户间的交互行为,并设计了时空熵指标来衡量用户间的线下社会相似性,该指标不依赖与社会网络结构,仅取决于两个用户各自的行为数据,因此易于计算和实现,满足大规模数据分析的需求。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种基于用户移动行为的线下社会关系分类方法,其特征在于,具体步骤为:
(1)获取用户个体行为记录,即从用户移动行为日志数据库中,获取用户的个体行为记录,每条记录包括:用户ID、时间、地点、停留时间;
(2)建立用户间时空交互矩阵,即利用所述用户个体行为记录,建立用户行为矩阵,并根据时空共现建立两两用户间时空交互矩阵;并对用户时空交互矩阵,提取衡量用户社会相似性和交互规律性的两个交互特性:时空熵和规律度;
(3)建立零模型及选取零阈值,首先构建零假设:用户个体行为不受他人的影响,用户个体行为不具有周期偏向性;根据零假设,建立用户个体行为和用户间时空交互矩阵的零模型,即每个周期内的随机用户行为矩阵和随机时空交互矩阵;统计零模型中的时空熵与规律度的概率分布,通过预置概率p0确定时空熵和规律度的零阈值;
(4)用户间社会关系分类,即通过比较真实用户交互矩阵的在时空熵和规律度两个维度上与其零阈值之间的大小关系,确定两用户间的线下社会关系;
步骤(2)中:
所述利用用户个体行为记录,建立用户行为矩阵,包括:
根据用户行为记录,得到用户集U,地点集L,每条用户行为记录包括用户ID、开始时间、持续时间、地点;
根据用户行为记录中的时间数据,确定用户行为周期T,离散化时间步长度ΔT,其中,所述用户行为周期T将日志数据中的整个时间轴划分为N个周期;
所述根据时空共现建立两两用户间时空交互矩阵,包括:
所述时空共现表示用户u与用户v在同一个地点l拥有时间重合的行为记录;时空共现代表用户u与用户v在实际生活中的一次“交互事件”;定义En为第n个周期内的所有交互事件的集合,如果用户u与用户v在第n个周期,地点l,时间步t有一次时间空间共现,则交互事件en=(u,v,t,l)∈En;
对于每一对拥有至少一次交互事件的用户对(u,v),构建交互矩阵其中,u为用户集U中的第u个用户,v为用户集U中的第v个用户,l表示地点集L中的第l个地点;交互矩阵Mu,v的元素为一个二元组 表示交互权重,表示交互支持度,其中和通过如下方式计算:
所述对用户时空交互矩阵提取衡量用户社会相似性和交互规律性的两个交互特性:时空熵和规律度,包括:
通过如下方式计算用户时空交互矩阵的规律度dr(u,v):
通过如下方式计算用户时空交互矩阵的时空熵de(u,v):
2.根据权利要求1所述的方法,其特征在于,步骤(3)中所述构建零假设为:用户个体行为不受他人的影响,用户个体行为不具有周期偏向性;根据零假设,建立用户个体行为和用户间时空交互矩阵的零模型,即每个周期内的随机用户行为矩阵和随机时空交互矩阵,包括:
根据所述用户行为矩阵计算个体活跃度,所述个体活跃度表示用户在一个周期内访问一个时空栅格的概率;根据所述用户行为矩阵建立用户-时空栅格二部图,所述用户-时空栅格二部图包括:用户集中表示每个用户的节点,表示每个时空栅格(t,l)的节点以及存在行为记录的用户和时空栅格之间的连边;用户行为矩阵中的元素时,用户u与时空栅格(t,l)存在连边;
利用保留度的连边交换法随机化用户-时空栅格二部图,得到随机用户-时空栅格二部图;该方法保留每个节点的度不变,节点和连边的数量不变;
4.根据权利要求3所述的方法,其特征在于,步骤(4)中所述通过比较真实用户交互矩阵的在时空熵和规律度两个维度上与其零阈值之间的大小关系,确定两用户间的线下社会关系,包括:
若用户交互矩阵的时空熵小于时空熵零阈值,规律度大于规律度零阈值,则确定用户间线下社会关系为熟悉的陌生人;若用户交互矩阵的时空熵小于时空熵零阈值,规律度大于规律度零阈值,则确定用户间线下社会关系为熟悉的陌生人;若用户交互矩阵的时空熵大于时空熵零阈值,则确定用户间线下社会关系为熟人关系;其中,若规律度大于规律度零阈值,则确定用户间线下社会关系为熟人关系中的职业关系,包括同事、同学关系;若规律度小于规律度零阈值,则确定用户间线下社会关系为熟人关系中的朋友关系。
5.一种基于用户移动行为的线下社会关系分类装置,其特征在于,包括:
用户个体行为记录获取模块,用于从用户移动行为日志数据库中,获取用户个体行为记录,得到用户集U,地点集L;每条用户行为记录包括用户ID、开始时间、持续时间、地点;利用所述用户个体行为记录,提取用户行为周期,离散时间步长度,并建立用户行为矩阵;
用户间时空交互矩阵建立模块,用于根据时间空间共现建立两两用户间时空交互矩阵,并从所述时空交互矩阵中提取用户交互特性,包括:时空熵和规律度;
零模型建立及零阈值选取模块,用于对用户个体移动行为进行随机化处理,建立用户个体行为和用户间时空交互矩阵的零模型:每个周期内的随机用户行为矩阵和随机时空交互矩阵;提取零模型下的时空熵和规律度并统计其概率分布,通过预置概率p0确定时空熵零阈值和规律度零阈值;
用户间社会关系分类模块,用于通过比较用户真实交互矩阵的时空熵和规律度与其零阈值之间的大小关系,确定两用户间的线下社会关系;
所述用户时空交互矩阵建立模块,包括:
用户交互事件建立子模块,用于根据时空共现确定用户间的所有交互事件,建立交互事件集合;
时空交互矩阵建立子模块,用于对拥有至少一次交互事件的两个用户建立用户间的时空交互矩阵,其中每个矩阵元素为一个二元组,共同描述交互的权重与概率;
交互特性提取子模块,用于根据用户间的时空交互矩阵提取交互特性,包括时空熵与规律度;
所述零模型建立及零阈值选取模块,包括:
用户个体行为随机化子模块,用于对用户行为进行随机化处理,得到随机用户行为矩阵;
随机时空交互矩阵建立子模块,用于根据随机用户行为矩阵简历用户间随机时空交互矩阵;
交互特性零阈值提取子模块,用于根据零模型中的随机时空交互矩阵提取时空熵与规律度,并统计其概率分布,通过预置概率p0确定时空熵零阈值和规律度零阈值;
所述用户个体行为随机化子模块,包括:
用户-时空栅格二部图建立子模块,用于建立用户-时空栅格二部图,所述用户-时空栅格二部分图包括:所述用户集中表示每个用户的节点,表示每个时空栅格的节点以及存在行为记录的用户和时空栅格之间的连边;
用户-时空栅格随机化子模块,用于采用保留度的连边交换法,将用户-时空栅格二部图随机化,得到随机用户-时空栅格二部图;该子模块中保留每个节点的度不变,节点和连边的数量不变;
随机用户行为矩阵重建子模块,用于根据所述用户行为矩阵,计算各用户的用户活跃度,所述用户活跃度表示用户在一个周期内访问一个时空栅格的概率,并根据随机用户-时空栅格二部图重建每个周期内的随机用户行为矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264316.7A CN106682212B (zh) | 2016-12-31 | 2016-12-31 | 一种基于用户移动行为的社会关系分类方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264316.7A CN106682212B (zh) | 2016-12-31 | 2016-12-31 | 一种基于用户移动行为的社会关系分类方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106682212A CN106682212A (zh) | 2017-05-17 |
CN106682212B true CN106682212B (zh) | 2020-10-30 |
Family
ID=58849550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611264316.7A Active CN106682212B (zh) | 2016-12-31 | 2016-12-31 | 一种基于用户移动行为的社会关系分类方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682212B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108650614B (zh) * | 2018-03-19 | 2020-07-28 | 复旦大学 | 一种自动推断社会关系的移动用户位置预测方法与装置 |
CN109543078A (zh) * | 2018-10-18 | 2019-03-29 | 深圳云天励飞技术有限公司 | 社会关系确定方法、装置、设备及计算机可读存储介质 |
CN109471887A (zh) * | 2018-10-25 | 2019-03-15 | 电子科技大学中山学院 | 一种基于相对熵的周期获取方法 |
CN111125272B (zh) * | 2018-10-31 | 2023-07-25 | 百度在线网络技术(北京)有限公司 | 一种区域特征获取方法、装置、计算机设备及介质 |
CN109740069A (zh) * | 2018-11-20 | 2019-05-10 | 北京邮电大学 | 一种用户间亲密关系的识别方法及装置 |
CN109766786B (zh) * | 2018-12-21 | 2020-10-23 | 深圳云天励飞技术有限公司 | 人物关系分析方法及相关产品 |
CN109829485A (zh) * | 2019-01-08 | 2019-05-31 | 科大国创软件股份有限公司 | 一种基于移动通信数据的用户关系挖掘方法及系统 |
CN110765435B (zh) * | 2019-10-23 | 2022-05-17 | 北京旷视科技有限公司 | 确定人员身份属性的方法、装置和电子设备 |
CN111583048A (zh) * | 2020-04-17 | 2020-08-25 | 北京工业大学 | 一种基于活动序列的学生社交关联分析方法 |
CN111540476B (zh) * | 2020-04-20 | 2020-12-01 | 中国科学院地理科学与资源研究所 | 一种基于手机信令数据的呼吸道传染病传染树重构方法 |
CN111739650B (zh) * | 2020-05-28 | 2024-03-26 | 百度在线网络技术(北京)有限公司 | 匿名社交接触回溯方法、装置、电子设备及存储介质 |
CN113240535A (zh) * | 2021-05-13 | 2021-08-10 | 宿州学院 | 社交网络社区结构对信息传播影响的分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034728A (zh) * | 2012-12-19 | 2013-04-10 | 北京中加国道科技有限责任公司 | 利用社会化网络学术资源交互平台进行信息交互的方法 |
CN105022754A (zh) * | 2014-04-29 | 2015-11-04 | 腾讯科技(深圳)有限公司 | 基于社交网络的对象分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120321202A1 (en) * | 2011-06-20 | 2012-12-20 | Michael Benjamin Selkowe Fertik | Identifying information related to a particular entity from electronic sources, using dimensional reduction and quantum clustering |
-
2016
- 2016-12-31 CN CN201611264316.7A patent/CN106682212B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034728A (zh) * | 2012-12-19 | 2013-04-10 | 北京中加国道科技有限责任公司 | 利用社会化网络学术资源交互平台进行信息交互的方法 |
CN105022754A (zh) * | 2014-04-29 | 2015-11-04 | 腾讯科技(深圳)有限公司 | 基于社交网络的对象分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
O2O服务用户分类的潜在类别分析与应用;刘平峰等;《现代图书情报技术》;20160229;第52-58页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106682212A (zh) | 2017-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682212B (zh) | 一种基于用户移动行为的社会关系分类方法与装置 | |
CN108650614B (zh) | 一种自动推断社会关系的移动用户位置预测方法与装置 | |
Schläpfer et al. | The scaling of human interactions with city size | |
Dong et al. | Modeling the co-evolution of behaviors and social relationships using mobile phone data | |
Zhao et al. | Modeling temporal-spatial correlations for crime prediction | |
Hsieh et al. | Total Twitter error: decomposing public opinion measurement on Twitter from a total survey error perspective | |
Huang et al. | Modeling and visualizing regular human mobility patterns with uncertainty: An example using Twitter data | |
Zhang et al. | Human interactive patterns in temporal networks | |
Sonck et al. | Determinants of Internet mediation: A comparison of the reports by Dutch parents and children | |
CN103823888B (zh) | 一种基于节点亲密度的社交网站好友推荐方法 | |
Eldaw et al. | Presence analytics: making sense of human social presence within a learning environment | |
Lutscher et al. | Online repression and tactical evasion: evidence from the 2020 Day of Anger protests in Egypt | |
Smith | The continued relevance of ego network data | |
Yin et al. | Exploring individual activity-travel patterns based on geolocation data from mobile phones | |
Yoneki et al. | Distinct types of hubs in human dynamic networks | |
Xing et al. | A personalized recommendation framework with user trajectory analysis applied in Location-Based Social Network (LBSN) | |
Wei et al. | Constructing and analyzing spatial-social networks from location-based social media data | |
Giunchiglia et al. | Assessing annotation consistency in the wild | |
Masías et al. | On spatial variation in the detectability and density of social media user protest supporters | |
CN114912354B (zh) | 一种预测蚊媒传染病风险的方法、装置及介质 | |
CN106778352A (zh) | 集值数据和社会网络数据联合发布的多源隐私保护方法 | |
Singh et al. | Riskalyzer: Inferring Individual Risk-Taking Propensity Using Phone Metadata | |
Amichi et al. | Revealing an inherently limiting factor in human mobility prediction | |
Liu et al. | Association rules mining analysis of app usage based on mobile traffic flow data | |
CN105808568A (zh) | 一种上下文分布式推理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |