CN113988217B

CN113988217B - 一种跨社交平台的用户身份同一性识别的方法

Info

Publication number: CN113988217B
Application number: CN202111387539.3A
Authority: CN
Inventors: 李勇军; 张银银; 黄丽蓉; 颜兆洁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-04-12
Anticipated expiration: 2041-11-22
Also published as: CN113988217A

Abstract

本发明公开了一种跨社交平台的用户身份同一性识别的方法，通过4个模块的处理，考虑了稀疏数据带来的消极影响，提取了用户行动模式，并且在基于轨迹计算相似度时提出了一个地点具备全局流行度和局部流行度，这对两个用户之间的相似计算有不同的权重。经过真实的数据集的验证，本发明的方法具有很好的准确率，同时只要是基于轨迹相似计算的场景，都可应用，具有良好的扩展性。

Description

一种跨社交平台的用户身份同一性识别的方法

技术领域

本发明涉及时空数据挖掘和社交网络领域，尤其是涉及一种跨社交平台的用户身份同一性识别的方法。

背景技术

随着个人移动设备和在线社交服务的快速发展，产生了大量的用户数据。不同的社交平台提供了独有的在线服务，所以每个用户一般都有2到3个社交账号。为了全面描述一个用户，需要将分散在多个社交平台上的数据聚合。因此跨平台的用户身份同一性识别具有很重要的意义。比如商家可以通过全面的用户信息制定营销策略、精准投放广告、优化用户体验并且可以实现更好，更安全的社交平台运营。

目前，在已有的工作中，一种跨平台用户识别方法和系统提出通过获取不同平台的两个账户中发布时间在预设时间段内的消息内容，并对两个账户的消息内容进行分词及特征抽取处理；一种跨平台识别用户的方法及装置同样利用不同平台上用户发表的消息内容作为匹配的基础，差异在于他们先利用用户资料将用户身份相似的多个平台内的用户进行聚类，生成多个用户块，之后对用户块内的用户消息内容抽取特征进行数字化的表示进而计算相似度识别。上述的方法是利用用户发布的文本内容处理后识别统一用户，这在很大程度取决于文本特征的抽取表示，如果抽取特征很难反映用户的习惯，那么就会导致匹配的准确率不高。

一种跨平台的社交网络用户身份识别方法利用用户档案数据和行为数据的分析，提出基于信息熵的后验概率权重分配上，解决了多维数据权重失衡的问题，最后采用基于稳定的婚姻匹配方法实现多对多的用户身份识别。但是存在用户出于隐私的考虑，在初始注册社交网络账号时会填写错误的用户资料。

伴随个人智能移动设备的快速发展，用户的轨迹更加容易获取。因此Wang等人利用用户的时空轨迹，经过采样，转换和添加噪声点匹配用户。Xie等人提出了一个通用的，可扩展的框架，支持经典的Hausdorff和Frechet距离计算方法。上述的工作虽然利用轨迹的维度提高了用户识别的准确率。但是没有综合考虑在具体应用场景中依旧存在的轨迹稀疏，轨迹不对齐和轨迹数据质量低的问题。

基于时空轨迹数据进行跨社交平台的用户身份同一性识别问题依旧存在的三个挑战。

第一，不同社交平台的用户生成的轨迹是不对齐的。这是因为用户根据自己的偏好会以不同的频率访问不同社交平台，所以会产生一个平台上的数据是密集的，但是另一个上获取的轨迹相对稀疏。

第二，处于安全和隐私的考虑，用户有时会关闭社交平台提供的位置服务功能，因此收集到的轨迹是稀疏的。

第三，从社交平台获取到的轨迹数据的质量通常不是很好，因为轨迹仅包含了时间，经度和纬度信息，这也是难以挖掘足够的用户隐含的行为信息。

发明内容

本发明的目的在于克服上述现有技术不足，提出了一种跨社交平台的用户身份同一性识别的方法。该方法不仅提高了跨平台用户识别的准确率，而且进一步反映出了用户移动模式。同时也能应用以时空轨迹为基础的计算应用中。

为了解决上述的挑战，本发明解决技术问题所采用的技术方案：

一种跨社交平台的用户身份同一性识别的方法，包括以下步骤：

1)数据预处理

从第一个社交平台上获取第一用户账户的活动轨迹序列，获取第二个社交平台上第二用户账户的活动轨迹序列。在上述的轨迹序列中包含很多轨迹点，每一个轨迹点由时间，经度，纬度组成。为了全面的分析每个用户，一般需要收集一段时间内一个用户的活动轨迹，比如三个月。直接处理这样的数据是复杂和稀疏的，所以在数据预处理阶段，具体做如下处理：

对于经度和纬度，根据精度的需求，本发明将地理区域按照网格间隔(例如，0.01)划分为网格的二维矩阵形式，其中每个小区域就可以用一个网格grid_id表示。对于每一个用户本发明将其经过的轨迹点按照下面的公式转换落入到二维网格矩阵的小区域中。

其中，假设整个地理区域的纬度范围是[lng_d,lng_u],经度范围是[lat_d,lat_u]，在给定一个用户的轨迹点tra＝(t,lat,lng)后，通过公式转换可以得到落入的网格编号。接下来，针对时间，可以将一天24h按照时间间隔(例如，15min，30min等)进行划分。最后取每一个时间段内最频繁出现的轨迹点落入的grid_id作为当前时间段的活动点。至此，可以将第一用户账户和第二用户账户的轨迹序列表示为一个一维向量。

2)轨迹相似度衡量

本发明是基于两个账户的轨迹序列判断用户是否属于同一身份，轨迹序列又是通过很多轨迹点组成。所以衡量轨迹点之间的距离就极其重要。为此，设定了一个距离下限阈值θ₁和距离上限阈值θ₂.当给定两个不同的轨迹点tra_i，tra_j，通过下面的公式定义他们之间的距离为：

其中d(·)是任意一种距离计算公式，比如欧式距离计算公式或者曼哈顿距离计算公式。如果两个轨迹点之间的距离大于距离上限阈值，本文认为这两点的距离很远，此时将其计算距离置为无穷远，加大差异；如果计算得到的距离小于距离下限阈值，则认为这两点的距离很近，为了缩小差异增大相似，此时将距离置为0；如果计算得到的距离介于上下距离阈值之间，不做任何处理。

上述的处理步骤可以计算两个单轨迹点间的距离，同时，为了解决平台采样率带来的偏差，本发明结合滑动窗口机制计算整个序列之间的距离。在这之前，为了提高基于轨迹计算得到的相似度，引入了局部流行度和全局流行度的概念：

局部流行度(LP)：本文将其定义为在特定的时间段到访的人数。即表示某一特定时间段内地点的流行度，它是一个变化的值。用公式可以表示为：

全局流行度(GP)：本文将其定义为到访过该地点的访问人数，即表示一个地点的平均流行度，总体上它是一个稳定的值。

因此，经过上述的数据预处理，不等长度和不规则的第一用户账户和第二账户分别表示为相同长度的一维向量表示。这里规定第一账户为待计算用户，第二账户为其候选匹配用户。针对待计算用户的每一个时间段内的轨迹点，需要考虑候选匹配用户对应时间段及其前后时间段的轨迹点。并且在原始的距离计算值上乘候选用户轨迹点的全局流行度和局部流行度，对待计算用户轨迹序列中每一个时间段的轨迹点都进行上述的操作，最后加和得到的距离就是第一用户账户和第二用户账户之间的距离值，方便解释，将这一步得到的距离值记为OD，具体的计算公式如下：

但是，存在一些用户只有极其有限的轨迹停留点，所以在上述计算的总距离上加入了一个惩罚机制，以减少稀疏的情况带来的影响。假设一天按照不同的时间间隔阈值划分后共有m个分段，统计在m个分段中是否采集到候选匹配用户的轨迹点，假定候选匹配用户有n个经常停留点时，即缺少的记录为m-n个，其取值范围是[0,m]。当m-n等于0时，说明所有的时间分段内都是有轨迹点，即该用户的轨迹序列是稠密的，因此对上述的总距离不做缩放变化。如果n等于0，表示没有采集到该用户的任何记录，这时将所有的用户与该用户的距离置为无穷大，即无法参与计算比较排除在外。当值位于(0，m)之间，对原始距离乘m-n，表示对最后的距离进行缩放。如果m-n的值越大，表示缺失的轨迹点越多，即缩放后两条轨迹之间的距离越大，相反如果m-n越小，表示对其线性惩罚后距离值相对小。将惩罚之后的距离定义为LPD(Linear Penalty Distance),具体的计算公式如下：

至此，得到了物理空间的经过处理后的两个不同平台上的用户账户之间的距离。但是这一部分仍然捕捉不到一部分更深层次的用户行动模式，所以借助表示学习的方式将用户的轨迹嵌入到另一向量空间，通过向量之间的相似性可以更加容易的判断。

5.3轨迹嵌入

经过5.1处理后，将第一平台的第一用户账户可以表示为一个一维向量，这里记为u_i＝[grid_id₁,...,grid_id_i,...,grid_id_m]，同理将第二平台的第二用户账户记为u_j＝[grid_id₁,...grid_id_i,..,grid_id_n]。首先，定义了这一用户对的联合概率为：

其中，θ_time是时间划分间隔阈值。同时，为了保证嵌入前后的相似度，需要遵循下面的损失函数：

此时，将用户的轨迹序列从原始的物理空间嵌入到另一向量空间，嵌入后的表示能够捕捉到用户行动模式，并且表示的更加简单。

5.4相似验证判断

在将原始用户轨迹序列表示为嵌入向量后，选择用余弦距离计算嵌入向量的相似度。同时设定一个过滤阈值，当计算得到的相似度大于该阈值，认为这两个用户账户很大概率属于同一身份，否则表示没有找到匹配的用户。

本发明提出的跨社交平台的用户身份同一性识别的方法，通过4个模块的处理，考虑了稀疏数据带来的消极影响，提取了用户行动模式，并且在基于轨迹计算相似度时提出了一个地点具备全局流行度和局部流行度，这对两个用户之间的相似计算有不同的权重。经过真实的数据集的验证，本发明的方法具有很好的准确率，同时只要是基于轨迹相似计算的场景，都可应用，具有良好的扩展性。

附图说明

图1本发明的流程图；

图2数据预处理，地理区域网格图；

图3滑动窗口示意图。

具体实施方式

为了描述简单清晰，本发明采用了精确率，召回率和F1分数三个评价指标，对跨社交平台的用户身份同一性进行综合衡量。其中上述的三个指标值越高，说明预测越准确，正确识别出的同一身份的用户更多。

实施例1：

从Foursquare以及Twitter上获取到了匿名的私人用户数据，包括匿名用户的id，及其在该社交平台上留下的轨迹活动序列。其中，用户的总数量是2430个，匹配的用户有259对。假定Foursquare作为第一社交平台，在这个平台上的任意用户都是第一用户账户，同理Twitter作为第二社交平台，在这个平台上的任意用户都是第二用户账户。

第一步的处理就是对社交平台上的所有用户轨迹进行统计，找到经纬度的上下边界，并对其划分网格地理区域。比如在此数据集上，得到纬度的范围在[1.2222695801774948,1.46504],经度的范围在[103.64712784996459,103.9995646767456]。将其作为矩阵的边缘范围，规定划分的间隔为0.01，将这块地理区域划分为210*280的网格矩阵。之后当给定一个用户的轨迹停留点，如(201403201008，1.3553493626997926，103.83084297180176)，利用公式1可以得到该用户在当前的网格id是2538。同理可以相继得到该用户账户所有经过的轨迹点转换后的网格id。之后针对时间的处理，设定时间间隔是15min，因此24h可以被划分为96个时间段。比如从00：00到00：15，统计在这个时间段内该用户账户出现的最频繁的地点，并将其转换后的网格id作为当前时间段的表示。所以，最后任意一个平台上任意用户账户都可被表示为1*96的向量表示。

第二步就是对这两个1*96计算向量之间的距离。在这一步，结合滑动窗口机制，流行度和惩罚机制综合计算。首先设定滑动窗口的大小值是5，一般设定为奇数，便于计算。比如，针对待计算用户的第3个时间段，就要考虑候选匹配用户的第1-6时间段内的轨迹停留点。同时，计算候选匹配用户的第1-6时间段内每个地点的局部流行度和全局流行度的值，结合公式5得到原始的距离OD。此时，可以统计候选匹配用户在96个时间段内空白的记录个数，比如统计得到在5个时间段内没有采集到该用户的轨迹停留点，那么此时m-n等于5，将对惩罚之后的距离再线性乘5进行缩放。最后得到了两个平台上两个账户之间的距离。

第三步，针对上述计算得到的距离，对于第一平台上的第一用户账户，可以得到一个按照距离大小排序的第二平台所有第二用户账户的排序。距离越小表示两个账户更加接近，否则认为两个用户属于同一身份的概率比较小。因此利用第二步得到的计算结果，进行第三步的嵌入表示，公式7中的u_i和u_j是第一步数据预处理之后的一维向量表示，再结合公式8中和第二步处理的结果进行迭代训练。当损失函数随着迭代轮数的增加，其值也逐渐趋于稳定，当不再变化时，停止训练得到嵌入后的向量表示，这里对于嵌入后的向量维度不能取过大的值，也不能取过小。在本发明的实验中，得到120维是最合适的。

第四步，得到每个用户从最初始的轨迹序列变为了嵌入后的120维向量表示。可以对向量计算余弦相似度，从而判断两个用户是否属于同一身份。

至此，完成了本方法的所有计算步骤，为了对比本发明的结果与其他的方法的结果，本发明选择了以下方法作为对比方法，具体对比方法如下。

GCRE[1]:他的全称是Grid Cell and Renyi Entropy Based Algorithm。他们引入了核密度估计方法(KDE)并增加了基于网格的结构提高计算效率。

ORA[2]:Riederer等人提出将时间和空间划分为bins，然后根据他们所处的bins来度量用户对之间的相似性。

DTW[3]:给定两个离散轨迹，该算法可以测量他们之间的距离和相似性，他还可以适应两个轨迹的扩展或者压缩。

具体地，下面表格展示了本发明提出的方法和最新方法在3个评价指标上的结果：

从表格中可以看出，本发明提出的方法从各个指标上都取得了最好的结果。这也证明了本发明提出方案的有效性。

Claims

1.一种跨社交平台的用户身份同一性识别的方法，其特征在于，包括以下步骤：

1)数据预处理

从第一个社交平台上获取第一用户账户的活动轨迹序列，获取第二个社交平台上第二用户账户的活动轨迹序列，在上述的轨迹序列中包含很多轨迹点，每一个轨迹点由时间，经度，纬度组成，为了全面分析每个用户，收集一段时间内一个用户的活动轨迹，比如三个月，直接处理这样的数据是复杂和稀疏的，所以在数据预处理阶段，做如下处理：

对于经度和纬度，根据精度的需求，将地理区域按照网格间隔(例如，0.01)划分为网格的二维矩阵形式，其中每个小区域就可以用一个网格grid_id表示，对于每一个用户将其经过的轨迹点按照下面的公式转换落入到二维网格矩阵的小区域中；

grid_id＝(lat_index-1)*n+lng_index

其中，假设整个地理区域的纬度范围是[lng_d,lng_u],经度范围是[lat_d,lat_u]，在给定一个用户的轨迹点tra＝(t,lat,lng)后，通过公式转换得到落入的网格编号，接下来，针对时间，将一天24h按照时间间隔，如，15min，30min进行划分，最后取每一个时间段内最频繁出现的轨迹点落入的grid_id作为当前时间段的活动点，至此，将第一用户账户和第二用户账户的轨迹序列表示为一个一维向量；

2)轨迹相似度衡量

基于两个账户的轨迹序列判断用户是否属于同一身份，轨迹序列又是通过很多轨迹点组成，所以衡量轨迹点之间的距离就极其重要，为此设定一个距离下限阈值θ₁和距离上限阈值θ₂，当给定两个不同的轨迹点tra_i，tra_j，通过下面的公式定义他们之间的距离为：

其中d(·)是任意一种距离计算公式，比如欧式距离计算公式或者曼哈顿距离计算公式，如果两个轨迹点之间的距离大于距离上限阈值，则认为这两点的距离很远，此时将其计算距离置为无穷远，加大差异；如果计算得到的距离小于距离下限阈值，则认为这两点的距离很近，为了缩小差异增大相似，此时将距离置为0；如果计算得到的距离介于上下距离阈值之间，不做任何处理；

3)轨迹嵌入

经过1)处理后，将第一平台的第一用户账户可以表示为一个一维向量，这里记为u_i＝[grid_id₁,...,grid_id_i,...,grid_id_m]，同理将第二平台的第二用户账户记为u_j＝[grid_id₁,...grid_id_i,..,grid_id_n]，首先，定义这一用户对的联合概率为：

其中，θ_time是时间划分间隔阈值；

4)相似验证判断

在将原始用户轨迹序列表示为嵌入向量后，选择用余弦距离计算嵌入向量的相似度，同时设定一个过滤阈值，当计算得到的相似度大于该阈值，认为这两个用户账户很大概率属于同一身份，否则表示没有找到匹配的用户。

2.根据权利要求1所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，所述步骤3)为了保证嵌入前后的相似度，需要遵循下面的损失函数：

3.根据权利要求1所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，所述步骤2)计算两个单轨迹点间的距离，为了解决平台采样率带来的偏差，结合滑动窗口机制计算整个序列之间的距离，在这之前，为了提高基于轨迹计算得到的相似度，引入了局部流行度和全局流行度的概念。

4.根据权利要求3所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，局部流行度LP：将其定义为在特定的时间段到访的人数，即表示某一特定时间段内地点的流行度，它是一个变化的值，用公式可以表示为：

5.根据权利要求3所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，全局流行度GP：将其定义为到访过该地点的访问人数，即表示一个地点的平均流行度，总体上它是一个稳定的值；

因此，经过上述的数据预处理，将不等长度和不规则的第一用户账户和第二账户分别表示为相同长度的一维向量表示，规定第一账户为待计算用户，第二账户为其候选匹配用户，针对待计算用户的每一个时间段内的轨迹点，考虑候选匹配用户对应时间段及其前后时间段的轨迹点，并且在原始的距离计算值上乘候选用户轨迹点的全局流行度和局部流行度，对待计算用户轨迹序列中每一个时间段的轨迹点都进行上述的操作，最后加和得到的距离就是第一用户账户和第二用户账户之间的距离值，方便解释，将这一步得到的距离值记为OD，具体的计算公式如下：

6.根据权利要求4或5所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，存在一些用户只有极其有限的轨迹停留点，所以在上述计算的总距离上加入了一个惩罚机制，以减少稀疏的情况带来的影响，假设一天按照不同的时间间隔阈值划分后共有m个分段，统计在m个分段中是否采集到候选匹配用户的轨迹点，假定候选匹配用户有n个经常停留点时，即缺少的记录为m-n个，其取值范围是[0,m]，当m-n等于0时，说明所有的时间分段内都是有轨迹点，即该用户的轨迹序列是稠密的，因此对上述的总距离不做缩放变化，如果n等于0，表示没有采集到该用户的任何记录，这时将所有的用户与该用户的距离置为无穷大，即无法参与计算比较排除在外，当值位于(0，m)之间，对原始距离乘m-n，表示对最后的距离进行缩放，如果m-n的值越大，表示缺失的轨迹点越多，即缩放后两条轨迹之间的距离越大，相反如果m-n越小，表示对其线性惩罚后距离值相对小，将惩罚之后的距离定义为LPD(Linear Penalty Distance)，至此，得到了物理空间的经过处理后的两个不同平台上的用户账户之间的距离，但是这一部分仍然捕捉不到一部分更深层次的用户行动模式，所以借助表示学习的方式将用户的轨迹嵌入到另一向量空间，通过向量之间的相似性可以更加容易的判断。

7.根据权利要求6所述的一种跨社交平台的用户身份同一性识别的方法，其特征在于，惩罚之后的距离定义为LPD具体的计算公式如下：