CN113641917A

CN113641917A - 关系获取方法及装置

Info

Publication number: CN113641917A
Application number: CN202010393432.9A
Authority: CN
Inventors: 邢金彪; 王辉
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-12

Abstract

本发明实施例提供一种关系获取方法及装置，该方法包括：确定多个位置中每个位置对应的位置访问序列，每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及所述对象访问所述位置访问序列对应的位置的访问时间；根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列；根据各所述位置访问子序列，得到各对象之间的关系。本发明实施例的方案，对位置访问序列中的时序信息进行充分利用，从时序上挖掘真实的移动社交关系，能够提取到更多更为有效的社交关系，解决了传统基于时空共现方法挖掘社交关系存在的准确率、召回率较低的问题。

Description

关系获取方法及装置

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种关系获取方法及装置。

背景技术

随着智能设备和基于位置的移动社交网络的迅速发展，大量的包含位置的行为信息被记录下来，如社交网络的签到数据、移动基站数据、卡口过车数据等等。

基于上述包含位置信息的数据，可以发现人们在现实世界中的交互行为，并从中挖掘出人们真实的移动社交关系。这种移动社交关系的发现对社交科学、智慧城市、产品营销、隐私保护和异常检测等领域的研究具有极大的意义。目前的移动社交关系获取方案主要是通过获取人们行为上的时空共现来得到的，时空共现指的是两个人在一个较短的时间段内在同一个位置出现。即，目前的这种社交关系的提取方式，是基于假设两个人存在社交关系才会在真实的物理空间中产生行为上的交互的原理。当两个人的行为存在较多的时空共现时，例如两个人经常在某一时间段出现在同一位置，表明两个人存在社交关系的可能性较大。

然而，由于真实的移动社交关系可能并不会在行为上存在较多的时空共现，因此上述方法挖掘得到的关系可能并不准确。

发明内容

本发明实施例提供一种关系获取方法及装置，以解决关系获取方法准确率、召回率较低的问题，实现更多更为有效的社交关系的挖掘。

第一方面，本发明实施例提供一种关系获取方法，包括：

确定多个位置中每个位置对应的位置访问序列，每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及所述对象访问所述位置访问序列对应的位置的访问时间；

根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列；

根据各所述位置访问子序列，得到各对象之间的关系。

在一种可能的实现方式中，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

根据每个位置访问序列中包括的访问时间，对每个位置访问序列中包括的多个元素进行排序；

根据每个位置访问序列中的排序后的多个元素对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列。

在一种可能的实现方式中，根据每个位置访问序列中的排序后的多个元素对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

根据预设时间间隔对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，其中，每个位置访问子序列中的任意两个元素中的访问时间之差小于或等于所述预设时间间隔。

根据每个位置访问序列的对象的标识，对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，其中，每个位置访问子序列中存在两个相关元素，所述两个相关元素中的对象的标识相同。

在一种可能的实现方式中，根据每个位置访问序列的对象的标识，对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

执行第一操作，所述第一操作包括：判断第n个余序列中的前i个元素中是否存在对象的标识与第i+1个元素中对象的标识相同的元素，若是，则根据所述第n个余序列得到一个位置访问子序列和第n+1个余序列，所述位置访问子序列中包括所述第n个余序列中的前i+1个元素，所述第n+1个余序列中包括所述第n个余序列中的后k-i个元素，并更新k为k-i，其中，k为第n个余序列中包括的元素的数目，k>＝i；若否，则更新i为i+1；初始时，n为0，i为1，所述余序列为所述位置访问序列的子集，第0个余序列为所述位置访问序列；

更新n为n+1，更新i为1，并重复执行所述第一操作，直至第n个余序列中不存在两个相关元素，将第n个余序列作为一个位置访问子序列。

在一种可能的实现方式中，根据各所述位置访问子序列，得到各对象之间的关系，包括：

根据各所述位置访问子序列，得到任意两个对象之间的关系强度，其中两个对象之间的关系强度用于指示两个对象的标识在同一个位置访问子序列中的频次；

根据任意两个对象之间的关系强度，得到对应的任意两个对象之间的关系。

根据各所述位置访问子序列，得到任意两个对象的全局权重因子和私有权重因子，所述全局权重因子用于指示目标位置的影响权重，所述私有权重因子用于指示目标位置对所述任意两个对象之间的关系的影响权重，所述目标位置为所述任意两个对象均访问过的位置；

根据任意两个对象的全局权重因子，或者，根据任意两个对象的私有权重因子，或者，根据任意两个对象的综合权重因子，得到对应的任意两个对象之间的关系，其中，所述综合权重因子为根据所述全局权重因子和所述私有权重因子进行融合操作得到的。

在一种可能的实现方式中，确定多个位置中每个位置对应的位置访问序列，包括：

确定多个位置并获取以及每个位置的事件数据，针对任意位置j，所述位置j的事件数据包括访问所述位置j的各对象的标识、以及各对象访问所述位置j的访问时间；

根据每个位置的事件数据，得到每个位置对应的多个元素，每个元素中包括一个对象和对象访问位置的访问时间；

根据每个位置对应的多个元素，得到每个位置对应的位置访问序列。

在一种可能的实现方式中，根据每个位置的事件数据，得到每个位置对应的多个元素，包括：

根据预设对象标识集合对每个位置的事件数据进行筛选，得到每个位置对应的多个元素，其中，所述预设对象标识集合中包括一个或多个标识，所述每个位置对应的多个元素组成的序列中至少包含一个标识属于所述预设对象标识集合的元素。

第二方面，本发明实施例提供一种关系获取装置，包括：

处理模块，用于确定多个位置中每个位置对应的位置访问序列，每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及所述对象访问所述位置访问序列对应的位置的访问时间；

划分模块，用于根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列；

获取模块，用于根据各所述位置访问子序列，得到各对象之间的关系。

在一种可能的实现方式中，所述划分模块具体用于：

在一种可能的实现方式中，所述获取模块具体用于：

在一种可能的实现方式中，所述处理模块具体用于：

第三方面，本发明实施例提供一种关系获取设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的关系获取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的关系获取方法。

本发明实施例提供的关系获取方法及装置，首先确定多个位置中每个位置对应的位置访问序列，来获取各个对象的事件数据，在每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及对象访问相应位置访问序列对应的位置的访问时间，根据位置访问序列，能够获知每个对象在什么时间访问了哪些位置。得到多个位置访问序列后，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，通过访问时间来对每个位置访问序列进行划分，能够提取位置访问序列中的时序关系。最后，根据各位置访问子序列，得到各对象之间的关系。本发明实施例的方案，对位置访问序列中的时序信息进行充分利用，从时序上挖掘真实的移动社交关系，能够提取到较为有效的社交关系，解决了由于行为上较少的时空共现导致挖掘得到的社交关系不准确、真实社交关系召回率较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的关系获取方法的流程示意图；

图3为本发明又一实施例提供的关系获取方法的流程示意图；

图4为本发明实施例提供的事件数据获取示意图；

图5为本发明实施例提供的生成位置访问序列的流程示意图；

图6为本发明实施例提供的位置访问序列生成示意图；

图7为本发明实施例提供的位置访问序列划分流程示意图；

图8为本发明实施例提供的关系获取装置的结构示意图；

图9为本发明实施例提供的关系获取设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种应用场景示意图，如图1所示，在城市的各个区域设置有摄像头，用于对各个公共区域的来往人群进行监控。现有一个人物A，与一项案件相关，因此需要挖掘人物A的社交关系。图1示例的场景中，挖掘人物A的社交关系的方式可以是通过人物A去过的地方以及其他人物去过的地方来进行挖掘。

在图1中，示例了人物A去过的三个位置，分别是位置甲、位置乙和位置丙。在上述三个位置均设置有监控设备，其中，监控设备11用于监控位置甲，监控设备12用于监控位置乙，监控设备13用于监控位置丙。

此时，可以调取监控设备的监控数据来获取事件数据，例如，调取监控设备11的监控数据发送到服务器10，服务器10根据监控设备11的监控数据能够获取位置甲的事件数据，具体包括哪些人物访问了位置甲，以及这些人物访问位置甲的访问时间。相应的，调取监控设备12和监控设备13的监控数据发送到服务器10，服务器10根据监控设备12的监控数据能够获取位置乙的事件数据，具体包括哪些人物访问了位置乙，以及这些人物访问位置乙的访问时间，根据监控设备13的监控数据能够获取位置丙的事件数据，具体包括哪些人物访问了位置丙，以及这些人物访问位置丙的访问时间。

然后，通过获取的各个位置的事件数据，能够挖掘人物A与其他人物的关系，从而判断哪些人物与人物A存在关系。

在图1的示例中，事件数据是通过监控设备的监控数据获取的，图1的获取方式仅仅是一种示例，并不限定事件数据必须要通过监控设备来获取，实际上还包括许多其他的获取方式。例如，用于通过具备定位功能的移动终端上传用户的当前位置，则可以根据移动终端上传的用户的位置以及上传的时间得到一个事件数据。例如，用户通过终端设备在社交软件上发表状态，发表的状态上携带有定位信息，则可以根据用户发表的状态上携带的定位信息，以及发表状态的时间，构成一个事件数据，等等。

下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例提供的关系获取方法的流程示意图，如图2所示，该方法可以包括：

S21，确定多个位置中每个位置对应的位置访问序列，每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及所述对象访问所述位置访问序列对应的位置的访问时间。

位置访问序列记录了各个位置的事件数据，其中，每个位置都有一个对应的位置访问序列，在每个位置访问序列中，包括多个元素，每个元素记录了一个事件数据，该事件数据即为一个对象访问了相应位置，以及访问相应位置的访问时间。根据一个事件数据可以构成一个元素，每个元素中包括一个对象的标识，以及对象访问位置访问序列对应的位置的访问时间。对象为进行访问行为的目标，对象例如可以为人、车辆等等。

例如，现有三个位置对应的三个位置访问序列，三个位置分别为位置A、位置B和位置C，位置A对应的位置访问序列中的每个元素中包括一个对象的标识以及对象访问位置A的访问时间，位置B对应的位置访问序列中的每个元素中包括一个对象的标识以及对象访问位置B的访问时间，位置C对应的位置访问序列中的每个元素中包括一个对象的标识以及对象访问位置C的访问时间。

在同一个位置访问序列中，各元素中的对象的标识可能相同，也可能不同。当多个元素中的对象的标识相同时，表示同一个对象在不同的时间访问了相应的位置。在同一个位置访问序列中，各元素中的访问时间可能相同，也可能不同。当多个元素中的访问时间相同时，表示不同的对象在相同的时间访问了相应的位置。

S22，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列。

在得到了多个位置对应的多个位置访问序列后，需要对位置访问序列进行划分。本发明实施例中，是根据位置访问序列中包括的访问时间来对位置访问序列进行划分的。

可以理解的是，在其他情况类似的情形下，在相隔比较近的时间段内访问了同一个位置的两个对象之间有社交关系的概率，要比在相隔比较远的时间段内访问同一个位置的两个对象有社交关系的概率要大，因此，通过访问时间对位置访问序列进行划分，能够提取到更为有效的社交关系。

在对每个位置访问序列进行划分时，首先获取到位置访问序列中的多个元素对应的访问时间，然后将访问时间相隔较近的尽量分到同一个位置访问子序列中，得到每个位置访问序列对应的多个位置访问子序列，从而能够使得每个位置访问子序列中的多个元素的访问时间相隔较近。

S23，根据各所述位置访问子序列，得到各对象之间的关系。

在对多个位置访问序列进行划分，得到多个位置访问序列对应的多个位置访问子序列后，根据各个位置访问子序列，来挖掘各个对象之间的关系。

若两个对象的标识在多个位置访问子序列中均出现，表明这两个对象在相近的时间间隔内多次访问了相同的位置，此时这两个对象具备社交关系的概率较大。反之，若两个对象的标识在位置访问子序列中很少出现，表明这两个对象在相近的时间间隔内几乎没有访问相同的位置，此时这两个对象具备社交关系的概率较小。因此，根据各位置访问子序列，能够判断各对象之间的关系，得到具备社交关系的对象。

本发明实施例提供的关系获取方法，首先确定多个位置对应的多个位置访问序列，来获取各个对象的事件数据，在每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及对象访问相应位置访问序列对应的位置的访问时间，根据位置访问序列，能够获知每个对象在什么时间访问了哪些位置。得到多个位置访问序列后，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，通过访问时间来对每个位置访问序列进行划分，能够提取位置访问序列中的时序关系。最后，根据各位置访问子序列，得到各对象之间的关系。本发明实施例的方案，对位置访问序列中的时序信息进行充分利用，从时序上挖掘真实的移动社交关系，能够提取到较为有效的社交关系，解决了由于行为上较少的时空共现导致挖掘得到的社交关系不准确且真实社交关系召回率较低的问题。

下面结合图3，并采用具体的实施例，对本发明实施例的方案进行详细说明。

图3为本发明又一实施例提供的关系获取方法的流程示意图，如图3所示，包括：

S31，确定多个位置并获取以及每个位置的事件数据，针对任意位置j，所述位置j的事件数据包括访问所述位置j的各对象的标识、以及各对象访问所述位置j的访问时间。

该步骤为事件数据的记录，首先需要确定多个位置，然后获取每个位置的事件数据。例如，对象(如人、车等)p在时间t访问位置j，即为一次访问事件，该访问事件即为一次事件数据，其中包括对象的标识p，以及对象访问位置j的访问时间t。

图4为本发明实施例提供的事件数据获取示意图，如图4所示，包括4个位置，分别为商场41、医院42、公园43和学校44。一种获取上述四个位置的事件数据的方式是，在上述四个位置中均包括监控设备，通过监控设备的监控录像，能够获知哪些对象访问了上述四个位置，以及每个对象访问上述四个位置的访问时间。

根据监控设备的监控录像，获知访问商场41的对象包括对象A、对象B、对象C、对象D、对象E、对象F，访问医院42的对象包括对象A、对象B、对象E、对象G、对象H、对象I，访问公园43的对象包括对象B、对象C、对象D、对象G、对象H、对象J、对象K，访问学校44的对象包括对象A、对象C、对象D、对象F、对象K、对象L、对象M，且每个对象访问各位置的时间如图4示意。对象A、对象B、对象C、对象D、对象E和对象F访问商场41以及访问商场41的访问时间构成商场41的事件数据，对象A、对象B、对象E、对象G、对象H和对象I访问医院42以及访问医院42的访问时间构成医院42的事件数据，对象B、对象C、对象D、对象G、对象H、对象J和对象K访问公园43以及访问公园43的访问时间构成公园43的事件数据，对象A、对象C、对象D、对象F、对象K、对象L和对象M访问学校44以及访问学校44的访问时间构成学校44的事件数据。图4中示例了每个对象访问每个位置的访问时间，并根据每个对象访问每个位置的访问时间，得到每个位置对应的事件数据。

S32，根据每个位置的事件数据，得到每个位置对应的多个元素，每个元素中包括一个对象和对象访问位置的访问时间。

在得到每个位置的事件数据后，根据每个位置的事件数据，得到每个位置对应的多个元素。以图4中的商场41的事件数据为例，访问商场41的对象包括对象A、对象B、对象C、对象D、对象E和对象F，根据各个对象访问商场41的访问时间，可得到如下元素：

(A，9:20:21)、(A，13:10:33)、(B，9:25:36)、(C，11:50:08)、(D，10:33:58)、(E，12:28:44)、(E，13:15:18)、(F，13:20:31)。

S33，根据每个位置对应的多个元素，得到每个位置对应的位置访问序列。

在得到每个位置对应的多个元素后，根据预设对象标识集合对每个位置的事件数据进行筛选，即可得到每个位置对应的多个元素，其中，预设对象标识集合中包括一个或多个标识，每个位置对应的多个元素组成的序列中至少包含一个标识属于所述预设对象标识集合的元素。

根据预设对象标识集合，过滤筛选包含目标群体的位置访问序列，生成相应的位置访问序列子集。该步骤可以提前过滤与对象不相关的行为序列信息，降低后续算法的计算复杂度。如：若只关注坏人的时序关系，则只需过滤出包含坏人的位置访问序列的即可。例如，若只希望采集男性的时序关系，则只需过滤出包含男性的位置访问序列。例如，若只对对象p和对象q的时序关系感兴趣，其中p和q为两个对象的对象标识，此时预设对象标识集合中可以包括p和q，通过预设对象标识集合对位置访问序列进行筛选，能够将位置访问序列中包含对象p和对象q的位置访问序列保留下来。

预设对象标识集合中包括的具体的标识需要根据实际提取的时序关系来进行确定。另外，该步骤为可选步骤模块，若对象群体实际为全体对象，无需进行过滤操作。

图5为本发明实施例提供的生成位置访问序列的流程示意图，如图5所示，包括：

S51，输入事件数据。

每个事件数据包括访问某个位置的对象的标识以及对象访问该位置的访问时间。图6为本发明实施例提供的位置访问序列生成示意图，如图6所示，包括多个事件数据，构成事件数据集合60。在事件数据集合60中，包括多个事件数据，即图4中四个位置对应的事件数据。

S52，事件数据规范化处理(ID，place，time)。

事件数据的规范化处理即为确定每个事件数据中对象的标识ID，对象访问的位置place，以及访问位置的访问时间time。在图6中，以41代表商场41这个位置，以42代表医院42这个位置，以43代表公园43这个位置，以44代表学校44这个位置，得到规范化处理后的事件数据。例如在图6中的任意一个规范化后的事件数据44C，14:53:23，表示的是对象C在14:53:23访问了学校44这个位置。

S53，以place为key值聚合相应的序列，并按照访问时间排序。

该步骤针对规范化处理后的事件数据，以位置来对事件数据进行区分，得到每个位置对应的事件数据。如图6中所示，在图6中总共涉及4个位置，通过位置ID将事件数据集合60中的事件数据进行区分，得到集合61、集合62、集合63和集合64，其中，集合61中为商场41的事件数据，集合62为医院42的事件数据，集合63为公园43的事件数据，集合64为学校44的事件数据。

S54，生成位置访问序列。

在对每个位置的事件数据构成元素进行排列，即可得到每个位置的位置访问序列，其中排列的规则是根据访问时间进行排序。图6中示例了根据访问时间的先后顺序对四个集合进行排序。根据集合61中的元素进行排序得到序列65，根据集合62中的元素进行排序得到序列66，根据集合63中的元素进行排序得到序列67，根据集合64中的元素进行排序得到序列68。

图6中示例的是根据访问时间从早到晚的顺序排列，实际中也可根据访问时间从晚到早的顺序排列，排列方式类似，此处不再赘述。

S34，根据每个位置访问序列中包括的访问时间，对每个位置访问序列中包括的多个元素进行排序。

根据访问时间对多个元素进行排序，其中排序可以是按照访问时间的顺序排列，也可以是按照访问时间的倒序排列。以图4中商场41中的多个元素、访问时间的顺序排列为例，将商场41中的多个元素进行排列，得到如下有序排列的多个元素：

(A，9:20:21)，(B，9:25:36)，(D，10:33:58)，(C，11:50:08)，(E，12:28:44)，(A，13:10:33)，(E，13:15:18)、(F，13:20:31)。

S35，根据每个位置访问序列中的排序后的多个元素对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列。

将位置访问序列根据对象的活动周期或固定的时间阈值进行切分，目的是将语义上不连贯的位置访问序列进行切分，从而获得更多的位置访问子序列，避免在关系计算时引入过多的噪声，同时也方便计算时序关系的关系强度。

一种可能的实现方式是，根据预设时间间隔对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，其中，每个位置访问子序列中的任意两个元素中的访问时间之差小于或等于预设时间间隔。

具体的，首先定义预设时间间隔，然后针对每个位置访问序列，当各个元素中的时间间隔超过预设时间间隔时，即认为这两个元素的访问事件在语义上不存在连贯性，即可对位置访问序列进行划分。

仍以商场41中的多个有序排列的多个元素为例，假设预设时间间隔为1小时，针对如下元素：

可以看到，(A，9:20:21)和(B，9:25:36)的访问时间之差小于1小时，而(A，9:20:21)和(D，10:33:58)的访问时间之差大于1小时，因此(A，9:20:21)，(B，9:25:36)构成商场41的一个位置访问子序列。然后针对剩下的元素，(D，10:33:58)和(C，11:50:08)的访问时间之差大于1小时，因此(D，10:33:58)构成商场41的一个位置访问子序列。根据如上的方式，商场41中的多个有序排列的多个元素划分后得到如下的4个位置访问子序列：

(A，9:20:21)，(B，9:25:36)；

(D，10:33:58)；

(C，11:50:08)，(E，12:28:44)；

(A，13:10:33)，(E，13:15:18)，(F，13:20:31)。

对位置访问序列进行划分，除了可以根据访问时间进行划分，还可以根据对象访问周期进行划分。

一种可能的实现方式是，根据每个位置访问序列的对象的标识，对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，其中，每个位置访问子序列中存在两个相关元素，所述两个相关元素中的对象的标识相同。

即，给定位置l的访问序列S_l，当位置访问序列中首次重复出现位置访问序列中已出现的对象的标识时，则认为对象访问该位置l已达到一个周期。如：位置访问序列S_l＝A,C,G,E,B,H,C,E(此处未示出各对象访问位置l的访问时间，以各对象的标识来表示位置访问序列中的各元素，且各元素按照访问时间顺序排列)，其中对象C在位置访问序列中首次重复出现，则说明对象访问已达到一个周期，该周期内的位置访问子序列即为：A,C,G,E,B,H,C。

当目标访问已达到一个周期时，则对位置访问序列进行切分。同时，将该目标加入后续子位置访问序列的首位，如此循环直至序列切分完成位置。筛选序列长度大于1的子序列构建位置访问序列集合。

具体的，执行第一操作，第一操作包括：判断第n个余序列中的前i个元素中是否存在对象的标识与第i+1个元素中对象的标识相同的元素，若是，则根据所述第n个余序列得到一个位置访问子序列和第n+1个余序列，所述位置访问子序列中包括所述第n个余序列中的前i+1个元素，所述第n+1个余序列中包括所述第n个余序列中的后k-i个元素，并更新k为k-i，其中，k为第n个余序列中包括的元素的数目，k>＝i；若否，则更新i为i+1；初始时，n为0，i为1，所述余序列为所述位置访问序列的子集，第0个余序列为所述位置访问序列；

更新n为n+1，更新i为1，并重复执行第一操作，直至第n个余序列中不存在两个相关元素，将第n个余序列作为一个位置访问子序列。

例如，假设一个位置访问序列Sl＝A,B,C,F,G,A,E,H,B,G,H，初始时，n为0，首先判断第0个余序列中的前i个元素中是否存在对象的标识与第i+1个元素中对象的标识相同的元素，第0个余序列为位置访问序列Sl。

在n＝0且i＝1时，第0个余序列即为位置访问序列Sl，Sl中包括11个元素，k初始为11。位置访问序列Sl中前1个元素中对象的标识为A，第2个元素中对象的标识为B，不相同，此时更新i为2；i＝2时，位置访问序列Sl中前2个元素中对象的标识为A和B，第3个元素中对象的标识为C，不相同，此时更新i为3；i＝3时，位置访问序列Sl中前3个元素中对象的标识为A、B和C，第4个元素中对象的标识为F，不相同，此时更新i为4，以此类推。当i＝5时，位置访问序列Sl中前5个元素中对象的标识为A、B、C、F和G，第6个元素中对象的标识为A，此时存在两个对象的标识相同的元素，于是根据第0个余序列中的前6(即前i+1)个元素得到一个位置访问子序列，根据第0个余序列中的后6(即k-i)个元素得到第1个余序列。其中，得到的一个位置访问序列中的各元素的排列顺序不变，与第0个余序列中的前i+1个元素的排列顺序相同，同样的，第1个余序列中的各元素的排列顺序不变，与第0个余序列中的后k-i个元素的排列顺序相同。从而，得到的一个位置访问序列为A,B,C,F,G,A，第1个余序列为A,E,H,B,G,H。

然后，更新n为1，更新i为1，判断第1个余序列中的前i个元素中是否存在对象的标识与第i+1个元素中对象的标识相同的元素，执行的操作与上述类似。

通过该方法，能够得到如下的位置访问子序列：

A,B,C,F,G,A；

A,E,H,B,G,H；

H。

基于以上定义的序列切分规则，可以实现对位置访问序列的切分，从而获得大量语义连贯的子位置访问序列。

在对位置访问序列进行划分时，可以选择上述两种方式中的一种，也可以同时使用两种方式。图7为本发明实施例提供的位置访问序列划分流程示意图，如图7所示，包括：

S701，输入位置访问序列，设定时间阈值threshold。

threshold即为预设时间间隔，是预先设定的数值。在向服务器输入位置访问序列后，可根据时间阈值threshold来进行划分，其中，位置访问序列为一个或多个。

S702，逐条遍历位置访问序列sequence。

针对任意的位置访问序列sequence，逐个遍历sequence中的每个元素，在图7的示例中，首先是根据访问时间对位置访问序列进行划分，然后在其基础上，根据对象的周期进一步划分。

S703，判断所有位置访问序列是否遍历完成，若是，则执行S704，若否，则执行S706。

若所有的位置访问序列遍历完成，则得到划分后的子位置访问序列集合，若没有遍历完成，则需要继续遍历。

S704，得到划分后的子位置访问序列集合。

S705，保留长度大于1的子位置访问序列。

该步骤是为了去除长度为1的位置访问子序列，因为当位置访问子序列中只有一个元素时，当中只涉及一个对象，对于获取对象之间的关系并没有用处，将其去除能够节省存储空间。

S706，初始化i＝0。

初始化i＝0后即开始针对一个位置访问序列的遍历过程。

S707，判断i是否小于序列长度，若是，则执行S708，若否，则执行S703。

sequence.length即为第n个余序列的序列长度，是一个变化的数值，当从位置访问序列中不断划分出位置访问子序列后，sequence.length会变小，因此需要根据具体划分的余序列来确定该数值。

S708，判断连续两次事件时间差是否大于时间阈值threshold，若是，则执行S709，若否，则执行S710。

S709，对sequence进行划分，执行S712。

在遍历过程中，若两次事件时间差大于threshold时，此时根据预设时间阈值进行序列的划分，划分出一个位置访问子序列。

S710，判断序列中是否首次重复出现对象p，若是，则执行S711，若否，则执行S712。

S711，对sequence进行划分，将该对象p加入剩余子序列首位，执行S712。

该步骤是根据对象周期进行划分，若某个对象p重复出现，则对sequence进行划分，划分的方法如上所述。

S712，i＝i+1。

通过对i的更新，对序列进行遍历过程。

图7示例了两种划分方式共同进行的操作，实际中可以选择图7示例的方式，也可以采用两种划分方式中的任意一种。

S36，根据各所述位置访问子序列，得到各对象之间的关系。

一种可能的实现方式是，根据各位置访问子序列，得到任意两个对象之间的关系强度，其中两个对象之间的关系强度用于指示两个对象的标识在同一个位置访问子序列中的频次；然后，根据任意两个对象之间的关系强度，得到对应的任意两个对象之间的关系。

例如，如下的子位置访问序列集合中包括三个位置访问子序列，(A,B,G)、(A,H，F,G)、(H,F)。第一个位置访问子序列中包括3个对象的标识，分别是对象A、对象B和对象G，第二个位置访问子序列中包括4个对象的标识，分别是对象A、对象H、对象F和对象G，第三个位置访问子序列中包括2个对象的标识，分别是对象H和对象F。

根据三个位置访问子序列，生成关系点对及其对应的关系强度，表1为各关系点对及对应关系强度表。

表1

关系点对	关系强度	关系点对	关系强度
				A,B	1	A,G	2
B,G	1	A,H	1
				A,F	1	H,F	2
F,G	1	H,G	1

在生成了大量候选关系点对及其对应的强度后，即可得到各对象的关系。

然而，由于时序关系计算时容易引入较多的噪声信息，生成大量噪声点对。同时，仅根据时序关系出现的频率作为关系强度的衡量标准容易忽略低频关系点对信息。因此，在最终时序关系生成过程中，可以采用如下方式获得最终的关系信息。

由于时序关系中会包含较多的噪声数据，通常会设置一定的阈值minSupport进行过滤。如表1中生成的关系点对信息，按阈值minSupport＝2进行过滤时，最终的关系点对即为：

表2

关系点对	关系强度	关系点对	关系强度
				H,F	2	A,G	2

基于关系强度阈值过滤的方法能滤除大量低频关系点对，一定程度上提高关系挖掘的准确率。

基于关系强度阈值过滤的方法一定程度上能过滤出大量的噪声数据，但对于某些场景下却会捕获出大量的噪声点对，或着会损失过多有效的关系点对信息。例如，在城市热门地铁站点，地铁附近上班的人员A,B频繁在该站点乘车，基于该站点的位置访问序列挖掘出来的时序行为关系具有较高的强度(如20)，但真实情况可能A、B却并不存在社交关系。相反的，在某一小区出现的人员C和D，其时序关系强度较低(如3)，但C和D可能具有较高的可能存在社交关系。

为了解决上述问题，可设计基于权重阈值过滤的方案，基于已挖掘出来的关系点对并结合原始行为记录中所包含的对象行为规律、位置自身特点等信息，优化计算关系强度，避免单一的时序频率作为关系强度衡量指标所带来的负面影响，从而挖掘出有效的时序关系。

一种可能的实现方式是，根据各位置访问子序列，得到任意两个对象的全局权重因子和私有权重因子，所述全局权重因子用于指示目标位置的影响权重，所述私有权重因子用于指示目标位置对所述任意两个对象之间的关系的影响权重，所述目标位置为所述任意两个对象均访问过的位置。

然后，根据任意两个对象的全局权重因子，或者，根据任意两个对象的私有权重因子，或者，根据任意两个对象的综合权重因子，得到对应的任意两个对象之间的关系，其中，所述综合权重因子为根据所述全局权重因子和所述私有权重因子进行融合操作得到的。

基于权重阈值过滤的方法包含三种类型的权重计算，包括全局权重因子、私有权重因子和综合权重因子。针对不同的权重因子设置适当的阈值进行过滤，并生成最终的时序关系。

首先对全局权重因子进行介绍。

全局权重因子用于捕获各位置的流行度，两个对象的全局权重因子用于指示目标位置的影响权重，目标位置为两个对象均访问过的位置。不同的位置对两个对象的关系的影响大小是不同的，例如，若两个对象均访问过一个地铁站，另两个对象均访问过一个小区，则在其他条件类似的情况下，访问过同一个小区的两个对象存在关系的概率要比访问过同一个地铁站的两个对象存在关系的概率大，这是由于不同的位置的流行度不同造成的。在地铁站，每天有巨大的人流量，因此即使两个对象均访问过地铁站，也很难说明这两个对象存在关系，即，地铁站这个位置对两个对象存在关系的说服力较弱。而小区的访问量较小，两个对象均访问过一个小区，这两个对象存在关系的概率相对较大，而全局权重因子即是反映目标位置的影响权重的。

首先定义E_ij＝{e₁,e₂,...}表示对象i和对象j之间的共同访问过的位置情况，其中，对象i和对象j为任意的两个对象，e_k＝(loc_k,c_k)表示对象i和对象j共同访问过的位置loc_k及频次c_k。因此，对象i和对象j之间关系F_ij即可表示为E_ij的函数，即F_ij＝G(E_ij)。需要说明的是，频次c_k为对象i和对象j共同访问过的位置loc_k的较小值，例如，若对象i访问位置甲的频次为3次，对象j访问位置甲的频次为2次，则对象i和对象j共同访问过的位置甲的频次c_k为2次。

共同访问频次即为：G₀(E_ij)＝∑c_k，其中，若对象i和对象j共同访问过k个位置，则将访问过每个位置的频次相加即可得到G₀(E_ij)＝∑c_k。

对象i对位置loc_k的访问概率即可用访问频率表示为：

其中，|S_i(loc_k)|表示对S_i(loc_k)取模，S_i(loc_k)表示对象i在位置loc_k出现的次数，

表示所有对象在位置loc_k出现的次数，P(i,loc_k)表示对象i对位置loc_k的访问概率。

对不同位置loc_k可采用信息熵来衡量其自身的特性(是否被频繁访问、不同目标群体访问等)。以香农信息熵(Shannon entropy)为例，位置loc_k的信息熵即为：

全局权重因子用于捕获位置的流行度，如地铁站点、景区这种类型的位置经常会出现大量的人员，而个人居所、别墅等通常仅有很少的人员出现。因此，在不同类型的位置处所发生的共现，对是否具有关系的意义也是不同的。全局权重因子的影响权重即为共同访问位置所对应信息熵的指数。全局权重因子包括但不限于如下计算方式。

其中，G₂(E_ij)表示全局权重因子，

上述实施例介绍了全局权重因子，下面将对私有权重因子进行介绍。

私有权重因子用于指示目标位置对任意两个对象之间的关系的影响权重，目标位置为两个对象均访问过的位置。通常，相同的位置对于不同的目标(如不同的人员)来说具有不同的意义。例如，杭州西湖商圈对于住在附近的人和去旅游的人的意义明显不同。因此，在相同位置出现的不同人员之间是否具有关系，则需要考虑该位置的对于每个对象的意义，而私有权重因子则能够反映每个位置对对象的意义。

私有权重因子包括但不限于如下计算方式：

其中，

基于以上分析，全局权重因子和私有权重因子因素的综合影响结果即为：

G_total(E_ij)＝G₁(E_ij)*G₂(E_ij)，

其中，G_total(E_ij)为综合权重因子，G₁(E_ij)为私有权重因子，G₂(E_ij)为全局权重因子。

可选的，综合权重因子可以通过对全局权重因子和私有权重因子进行融合操作得到，其中，可以将全局权重因子和私有权重因子按照各自对应的比例进行融合，得到综合权重因子，也可以建立综合权重因子与全局权重因子、私有权重因子之间的映射关系，通过该映射关系，以及已知全局权重因子和私有权重因子的情形下，能够得到综合权重因子。进一步的，综合权重因子与全局权重因子、私有权重因子之间的映射关系可以是线性关系，也可以是非线性关系，还可以是通过训练模型建立得到的映射关系，等等，本申请实施例对映射关系的具体方式不作特别限定。

通过对全局权重因子和私有权重因子，以及综合权重因子，来得到各对象之间的关系，各类型权重因子的取值即为在不同维度上对各对象之间的关系权重的度量，权重越大则对象之间的关系强度越大。

本申请实施例中，可仅仅采用全局权重因子来得到对象之间的关系，也可仅仅采用私有权重因子来得到对象之间的关系，也可对全局权重因子和私有权重进行适当的融合，得到综合权重因子，从而根据综合权重因子来得到各对象之间的关系，具体采取的方式可根据实际需要确定。

通过该种方式获得的对象之间的关系，能够考虑不同位置对对象之间的关系的影响，避免仅仅根据关系强度来挖掘对象之间的关系，从而能够实现更有效的关系获取。

本发明实施例提供的关系获取方法，首先确定多个位置中每个位置对应的位置访问序列，来获取各个对象的事件数据，在每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及对象访问相应位置访问序列对应的位置的访问时间，根据位置访问序列，能够获知每个对象在什么时间访问了哪些位置。得到多个位置访问序列后，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，通过访问时间来对每个位置访问序列进行划分，能够提取位置访问序列中的时序关系。最后，根据各位置访问子序列，得到各对象之间的关系。本发明实施例的方案，充分利用了行为记录之间的时序信息，挖掘出更多有效的移动社交关系,并具有较好的可解释性；通过构建事件发生位置的位置访问序列，并对位置访问序列进行切分充分，实现对行为序列中信息的充分利用，避免了大量噪声的引入，同时有效降低了算法的计算复杂度；采用基于对象访问周期的序列切分方法，避免了设置大量的时间阈值所带来的算法调参任务，同时充分挖掘了对象群体的行为事件中所蕴含的语义信息；采用了基于权重阈值过滤的方法，通过计算关系点对所蕴含的私有、全局及综合因子，来综合考虑事件发生位置、对象活动规律等对关系形成带来的影响，有效降低时序关系点对中的噪声，并能有效提高关系发现的准确率。

图8为本发明实施例提供的关系获取装置的结构示意图，如图8所示，包括处理模块81、划分模块82和获取模块83，其中：

处理模块81用于确定多个位置中每个位置对应的位置访问序列，每个位置访问序列中包括多个元素，每个元素中包括一个对象的标识、以及所述对象访问所述位置访问序列对应的位置的访问时间；

划分模块82用于根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列；

获取模块83用于根据各所述位置访问子序列，得到各对象之间的关系。

在一种可能的实现方式中，所述划分模块82具体用于：

在一种可能的实现方式中，所述获取模块83具体用于：

在一种可能的实现方式中，所述处理模块81具体用于：

本发明实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的关系获取设备的硬件结构示意图，如图9所示，该关系获取设备包括：至少一个处理器91和存储器92。其中，处理器91和存储器92通过总线93连接。

可选地，该模型确定还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器91执行所述存储器92存储的计算机执行指令，使得至少一个处理器91执行如上的关系获取方法。

处理器91的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图9所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的关系获取方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种关系获取方法，其特征在于，包括：

根据各所述位置访问子序列，得到各对象之间的关系。

2.根据权利要求1所述的方法，其特征在于，根据每个位置访问序列中包括的访问时间，分别对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

3.根据权利要求2所述的方法，其特征在于，根据每个位置访问序列中的排序后的多个元素对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

4.根据权利要求2所述的方法，其特征在于，根据每个位置访问序列中的排序后的多个元素对每个位置访问序列进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

5.根据权利要求4所述的方法，其特征在于，根据每个位置访问序列的对象的标识，对每个位置访问序列中的排序后的多个元素进行划分，得到每个位置访问序列对应的多个位置访问子序列，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，根据各所述位置访问子序列，得到各对象之间的关系，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，根据各所述位置访问子序列，得到各对象之间的关系，包括：

8.根据权利要求1所述的方法，其特征在于，确定多个位置中每个位置对应的位置访问序列，包括：

9.根据权利要求8所述的方法，其特征在于，根据每个位置的事件数据，得到每个位置对应的多个元素，包括：

10.一种关系获取装置，其特征在于，包括：

11.一种关系获取设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至9任一项所述的关系获取方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9任一项所述的关系获取方法。