CN111695019A

CN111695019A - 一种识别关联账号的方法及装置

Info

Publication number: CN111695019A
Application number: CN202010529928.4A
Authority: CN
Inventors: 王芃森; 孙福宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-22
Anticipated expiration: 2040-06-11
Also published as: CN111695019B

Abstract

本申请实施例提供了一种识别关联账号的方法及装置，涉及人工智能技术领域，包括：根据出现频率从定位数据中筛选出目标账号的第一位置集合和参考账号的第二位置集合，比对第一位置集合和第二位置集合，获得第一比对结果。根据预设时间段内的出现频率从定位数据中筛选出目标账号的第一时序轨迹和参考账号的第二时序轨迹，比对第一时序轨迹和第二时序轨迹，获得第二比对结果。再根据第一对比结果以及第二对比结果，获得目标账号与参考账号的关联概率。当关联概率满足预设条件时，确定参考账号与目标账号关联。基于统计获得的位置集合和时序轨迹对账号进行关联，降低了时序一致性的要求，避免偶然出行对账号关联产生的影响，提高了账号关联效果。

Description

一种识别关联账号的方法及装置

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种识别关联账号的方法及装置。

背景技术

随着移动互联网的发展，用户使用各种移动终端的应用产生了大量的使用数据，使用这些数据可以对用户行为模式进行研究与挖掘，以便基于用户喜好为用户推送信息。由于用户可能会更换账号，使得研究人员无法持续观测用户，一些用户有多个账号也会可能会使得数据过于分散或者稀疏。因此，通过账号关联可以使得用户信息的持续性更强，信息也更加丰富完整。

目前，账号关联主要是基于账号轨迹相似度实现的，传统轨迹相似度是基于轨迹点或轨迹段的距离计算相似度，该方法对时序一致性要求比较高，用户的偶然出行可能会导致关联效果下降。

发明内容

本申请实施例提供了一种识别关联账号的方法及装置，用于降低对时序性的要求，提高账号关联的准确性。

一方面，本申请实施例提供了一种识别关联账号的方法，该方法包括：

根据目标账号的第一定位数据，获得所述目标账号关联的第一位置集合和第一时序轨迹；

根据参考账号的第二定位数据，获得所述参考账号关联的第二位置集合和第二时序轨迹；

根据所述第一位置集合与所述第二位置集合的第一对比结果，以及所述第一时序轨迹与所述第二时序轨迹的第二对比结果，获得所述目标账号与所述参考账号的关联概率；

当所述关联概率满足预设条件时，确定所述参考账号为所述目标账号的关联账号。

一方面，本申请实施例提供了一种识别关联账号的装置，该装置包括：

获取模块，用于根据目标账号的第一定位数据，获得所述目标账号关联的第一位置集合和第一时序轨迹；

所述获取模块，还用于根据参考账号的第二定位数据，获得所述参考账号关联的第二位置集合和第二时序轨迹；

比对模块，用于根据所述第一位置集合与所述第二位置集合的第一对比结果，以及所述第一时序轨迹与所述第二时序轨迹的第二对比结果，获得所述目标账号与所述参考账号的关联概率；

判断模块，用于当所述关联概率满足预设条件时，确定所述参考账号为所述目标账号的关联账号。

可选地，所述第一位置集合中包括的各个位置信息，是所述第一定位数据中出现频率高于第一阈值的位置信息，所述第一时序轨迹中的各个位置信息，是所述第一定位数据中在预设时段内出现频率高于第二阈值的位置信息；所述第二位置集合中包括的各个位置信息，是所述第二定位数据中出现频率高于第三阈值的位置信息，所述第二时序轨迹中的各个位置信息，是所述第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。

可选地，所述比对模块具体用于：

采用静态位置语义模型分别对所述第一位置集合中的各个位置信息和所述第二位置集合中的各个位置信息进行特征提取，获得第一静态位置特征和第二静态位置特征；

采用时序位置语义模型分别对所述第一时序轨迹中的各个位置信息和所述第二时序轨迹中的各个位置信息进行特征提取，获得第一时序轨迹特征和第二时序轨迹特征；

采用比较器将所述第一静态位置特征、所述第二静态位置特征、所述第一时序轨迹特征和所述第二时序轨迹特征融合，并基于融合获得的融合位置特征确定所述目标账号与所述参考账号的关联概率。

可选地，所述比对模块具体用于：

采用静态位置编码模块分别对所述第一位置集合中的各个位置信息和所述第二位置集合中的各个位置信息进行编码，获得第一候选静态位置特征和第二候选静态位置特征；

采用静态位置特征提取模块分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征。

可选地，所述比对模块具体用于：

基于所述第一位置集合中的各个位置信息的空间权重和时间权重，对所述第一位置集合中的各个位置信息进行嵌入Embedding处理，获得第一候选静态位置特征；

基于所述第二位置集合中的各个位置信息的空间权重和时间权重，对所述第二位置集合中的各个位置信息进行Embedding处理，获得第二候选静态位置特征。

可选地，所述比对模块具体用于：

采用卷积神经网络分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征。

可选地，所述比对模块具体用于：

采用时序位置编码模块分别对所述第一时序轨迹中的各个位置信息和所述第二时序轨迹中的各个位置信息进行编码，获得第一时序位置特征和第二时序位置特征；

采用时序轨迹特征提取模块分别对各个第一时序位置特征和各个第二时序位置特征进行特征增强，获得第一时序轨迹特征和第二时序轨迹特征。

可选地，所述比对模块具体用于：

基于所述第一时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对所述第一时序轨迹中的各个位置信息进行Embedding处理，获得第一时序位置特征；

基于所述第二时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对所述第二时序轨迹中的各个位置信息进行Embedding处理，获得第二时序位置特征。

可选地，所述比对模块具体用于：

将每个第一时序位置特征输入长短记忆网络，获得每个第一时序位置特征的状态向量；

从每个第一时序位置特征的状态向量中选取一个值，获得第一状态向量摘要；

将每个第二时序位置特征输入长短记忆网络，获得每个第二时序位置特征的状态向量；

从每个第二时序位置特征的状态向量中选取一个值，获得第二状态向量摘要；

以所述第二状态向量摘要为注意力机制的查询Query，以每个第一时序位置特征的状态向量为注意力机制的键值Key-Value，对每个第一时序位置特征的状态向量进行注意力机制处理，获得第一时序轨迹特征；

以所述第一状态向量摘要为注意力机制的Query，以每个第二时序位置特征的状态向量为注意力机制的Key-Value，对每个第二时序位置特征的状态向量进行注意力机制处理，获得第二时序轨迹特征。

可选地，所述比对模块具体用于：

将所述第一静态位置特征、所述第二静态位置特征、所述第一时序轨迹特征和所述第二时序轨迹特征输入融合层，获得融合位置特征；

将所述融合位置特征输入全连接层，获得所述目标账号与所述参考账号的关联概率。

可选地，所述静态位置语义模型、所述时序位置语义模型以及所述比较器是采用预训练和微调训练获得的，其中，预训练的训练样本为相同账号的定位数据，微调训练的训练样本为同一用户对应的不同账号的定位数据。

可选地，所述判断模块具体用于：

当所述关联概率大于预设阈值时，确定所述参考账号为所述目标账号的关联账号，否则确定所述参考账号为所述目标账号的非关联账号。

可选地，所述判断模块具体用于：

按照所述目标账号与每个参考账号的关联概率对参考账号进行排序；

将最大关联概率对应的参考账号作为所述目标账号的关联账号，将其他参考账号作为所述目标账号的非关联账号。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述识别关联账号方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述识别关联账号方法的步骤。

本申请实施例中，根据出现频率从定位数据中筛选出目标账号的第一位置集合和参考账号的第二位置集合，比对第一位置集合和第二位置集合，获得第一比对结果。根据预设时间段内的出现频率从定位数据中筛选出目标账号的第一时序轨迹和参考账号的第二时序轨迹，比对第一时序轨迹和第二时序轨迹，获得第二比对结果。再根据第一对比结果以及第二对比结果，获得目标账号与参考账号的关联概率。当关联概率满足预设条件时，确定参考账号与目标账号关联。通过对定位数据进行统计获得位置集合和时序轨迹，然后基于位置集合和时序轨迹对账号进行关联，降低了时序一致性以及数据稠密度的要求，避免了用户偶然出行对账号关联产生的影响，提高了账号关联效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供了一种用户轨迹的示意图；

图1b为本申请实施例提供了一种用户轨迹的示意图；

图2a为本申请实施例提供了一种用户轨迹的示意图；

图2b为本申请实施例提供了一种用户轨迹的示意图；

图3为本申请实施例提供了一种系统架构的结构示意图；

图4为本申请实施例提供了一种神经网络结构的示意图；

图5为本申请实施例提供了一种识别关联账号的方法的流程示意图；

图6为本申请实施例提供了一种静态位置语义模型的示意图；

图7为本申请实施例提供了一种静态位置语义模型的示意图；

图8为本申请实施例提供了一种静态位置语义模型的示意图；

图9为本申请实施例提供了一种静态位置语义模型的示意图；

图10为本申请实施例提供了一种时序位置语义模型的示意图；

图11为本申请实施例提供了一种时序位置语义模型的示意图；

图12为本申请实施例提供了一种时序位置语义模型的示意图；

图13为本申请实施例提供了一种时序位置语义模型的示意图；

图14a为本申请实施例提供了一种长短记忆网络的示意图；

图14b为本申请实施例提供了一种长短记忆网络的示意图；

图15为本申请实施例提供了一种注意力机制的示意图；

图16为本申请实施例提供了一种比较器的示意图；

图17为本申请实施例提供了一种神经网络结构的示意图；

图18为本申请实施例提供了一种识别关联账号的装置的结构示意图；

图19为本申请实施例提供了一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。比如本申请实施例中采用机器学习技术识别用户的关联账号。

账号关联：利用账号(或者设备)在使用相关产品产生的数据进行同一用户的多个账号(或者设备)的关联与判别。

Embedding：将大型稀疏向量转换为保留语义关系的低维空间的方法，通常是对离散one-hot编码数据转换为低维向量。

CNN：Convolutional Neural Networks，又称卷积神经网络，是一种前馈神经网络，人工神经元可以响应周围单元。卷积神经网络包括卷积层和池化层。

RNN：Recurrent Neural Network，又称循环神经网络，这种网络的内部状态可以展示动态时序行为，它可以利用内部的记忆来处理变长的输入序列。

LSTM：Long Short-Term Memory，又称长短记忆网络，它其实是属于RNN的一种变种，通过加入遗忘门、输入门和输出门克服RNN无法很好处理远距离依赖的问题。

GRU：Gated Recurrent Unit，又称门控循环单元，是LSTM网络的一种效果很好的变体，通过更新门和重置门保持了LSTM的效果同时又使结构更加简单。

注意力机制：又称Attention Mechanism，计算当前输入序列与输出向量的匹配程度，匹配度越高也就是注意力越集中的点，其输出权重越高。

Pre-train和Fine-tuning：又称预训练和微调训练，先利用容易得到的大量训练集对模型进行预训练，然后利用预训练后的参数再对相似场景的较小规模数据进行模型参数的微调训练，主要是解决真实场景下训练数据过少的问题，同时微调训练也可选择训练部分模型参数。

下面对本申请实施例的设计思想进行介绍。

用户使用各种移动终端的应用产生了大量的使用数据，使用这些数据可以对用户行为模式进行研究与挖掘，以便基于用户喜好为用户推送信息。由于用户可能会更换账号，或者一些用户有多个账号，这些都会导致数据分散，因此，需要通过账号关联增加用户信息的持续性和完整性。账号关联是利用账号在使用相关产品时产生的数据，进行同一用户的多个账号的关联与判别。目前主要基于用户轨迹的轨迹点或轨迹段的距离计算轨迹相似度，然后根据轨迹相似度对用户的账号进行关联。

由于该方法通过依次计算轨迹中的轨迹点或轨迹段之间的距离，获得轨迹相似度，故该方法对时序一致性的要求较高。当用户偶然出行时，用户轨迹将发生偶然的变化，此时计算获得的轨迹点或轨迹段之间的距离较大，再加上用户通过主动触发定位上报的数据比较稀疏，从而导致一次偶然出行将对关联结果产生较大的影响，进而导致用户关联效果下降。

示例性地，用户A周四的轨迹如图1a所示，用户A周五的轨迹如图1b所示，通过比较图1a和图1b可知，用户A在周五时，从位置N离开后没有按照周四的路线前往位置L，而是去了位置P之后再前往位置N。若直接依次计算两个轨迹中的轨迹点或轨迹段之间的距离获得轨迹相似度，很难将两个轨迹匹配起来。但是通过叠加用户多天轨迹可以发现，用户经常去的地方还是比较固定，比如图1a和图1b所示的位置L、位置M以及位置N。鉴于此，本申请实施例中，在进行账号关联时考虑利用用户经常出现的停留点，具体为：根据目标账号的第一定位数据，获得目标账号关联的第一位置集合，第一位置集合中包括的各个位置信息，是第一定位数据中出现频率高于第一阈值的位置信息。根据参考账号的第二定位数据，获得参考账号关联的第二位置集合，第二位置集合中包括的各个位置信息，是第二定位数据中出现频率高于第三阈值的位置信息，将第一位置集合与第二位置集合进行比对，获得第一对比结果。

虽然利用用户经常出现的停留点进行账号关联时，可以降低对时序性的要求，但是如果两个用户经常出现位置相似，但是时序位置不同，还是有误判的可能。示例性地，用户B的轨迹如图2a所示，用户C的轨迹如图2b所示，通过比较图2a和图2b可知，用户B和用户C常去的位置相似，但是时序不同。若仅仅根据停留点进行账号关联时，会将用户B的账号和用户C的账号判定为一个人的账号。鉴于此，本申请实施例中，考虑在停留点的基础上引入时序轨迹进行账号关联，具体为：根据目标账号的第一定位数据，获得目标账号关联的第一时序轨迹，第一时序轨迹中的各个位置信息，是第一定位数据中在预设时段内出现频率高于第二阈值的位置信息。根据参考账号的第二定位数据，获得参考账号关联的第二时序轨迹，第二时序轨迹中的各个位置信息，是第二定位数据中在预设时段内出现频率高于第四阈值的位置信息，将第一时序轨迹与第二时序轨迹进行比对，获得第二对比结果。之后再根据第一对比结果以及第二对比结果，获得目标账号与参考账号的关联概率。当关联概率满足预设条件时，确定参考账号为所述目标账号的关联账号。

本申请实施例中的账号可以是用户在应用软件上注册的账号，也可以是终端设备的身份标识号(Identity document，ID)、用户识别卡(Subscriber Identity Module，SIM)的ID等。关联账号至少可以适用在以下几种场景：

场景一、用户在应用软件中注册多个账号，则该用户注册的多个账号为关联账号。比如，用户在社交应用软件中注册了多个社交应用软件账号，则该用户注册的多个社交应用软件账号为关联账号。

场景二、用户在不同的应用软件中注册了账号，则该用户在不同应用软件中注册的账号为关联账号。比如，用户在社交应用软件和办公应用软件中均注册了账号，则用户在社交应用软件和办公应用软件中注册的账号为关联账号。

场景三、用户同时拥有多个终端设备或者更换终端设备，则该用户使用过的多个终端设备的ID为关联账号。比如，用户同时拥有两个手机，则该用户同时拥有的两个手机的ID为关联账号。又比如，用户更换了手机，则该用户更换前和更换后的两个手机的ID为关联账号。

场景四、用户可能拥有多张SIM卡或者更换SIM卡，则该用户使用过的多个SIM卡的ID为关联账号。比如，一个用户同时拥有两张SIM卡，则该用户同时拥有的两张SIM卡的ID为关联账号。又比如，用户更换了SIM卡，则该用户更换前和更换后的两个SIM卡的ID为关联账号。

下面对本申请实施例中识别关联账号的方法所适用的系统架构图进行示例介绍，参考图3，其为本申请实施例适用的一种系统架构图，该系统架构至少包括M个终端101以及服务器102，M个终端101即图3中所示的终端101～1至终端101～M，M为正整数，M的值本申请实施例并不进行限制。

终端101中包括定位模块，该定位模块可以是全球定位系统(Global PositioningSystem，GPS)、北斗系统等。终端101上可以安装应用软件，比如社交应用软件、办公应用软件、购物软件等。用户在使用应用软件时，可以开启终端101的定位功能，终端101的定位模块获取定位数据，然后将账号以及定位数据发送至服务器102。终端101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器102为应用软件的后台服务器，服务器102在收集多个账号的定位数据后，按照预设规则将账号划分为多个用户账号集。然后针对每个用户账号集，从中任选一个账号为目标账号，其他的账号参考账号，之后再对目标账号和参考账号进行账号关联。服务器102可以包括一个或多个处理器1021、存储器1022以及与终端101交互的I/O接口1023等，服务器102的存储器1022中可以存储账号关联的程序指令，这些程序指令被处理器1021执行时能够用以实现识别关联账号的功能。此外，服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

下面对本申请实施例中识别关联账号的方法所适用的神经网络结构进行示例介绍，参考图4，其为本申请实施例适用的一种神经网络结构，该网络结构至少包括静态位置语义模型、时序位置语义模型以及比较器。在识别目标账号与参考账号是否为关联账号时，首先根据目标账号的第一定位数据，获得目标账号关联的第一位置集合和第一时序轨迹，第一位置集合中包括的各个位置信息，是第一定位数据中出现频率高于第一阈值的位置信息，第一时序轨迹中的各个位置信息，是第一定位数据中在预设时段内出现频率高于第二阈值的位置信息。根据参考账号的第二定位数据，获得参考账号关联的第二位置集合和第二时序轨迹，第二位置集合中包括的各个位置信息，是第二定位数据中出现频率高于第三阈值的位置信息，第二时序轨迹中的各个位置信息，是第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。然后将第一位置集合和第二位置集合输入静态位置语义模型，获得第一静态位置特征和第二静态位置特征。将第一时序轨迹和第二时序轨迹输入时序位置语义模型，获得第一时序轨迹特征和第二时序轨迹特征。之后再将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征输入比较器，获得目标账号与参考账号的关联概率。当关联概率满足预设条件时，确定参考账号为目标账号的关联账号。

基于图3所示的系统架构图和图4所示的神经网络结构图，本申请实施例提供了一种识别关联账号的方法的流程，如图5所示，该方法的流程可以由识别关联账号的装置执行，识别关联账号的装置可以是上述图3所示的服务器102，该方法包括以下步骤：

步骤S501，根据目标账号的第一定位数据，获得目标账号关联的第一位置集合和第一时序轨迹。

具体地，目标账号的定位数据为用户多天的定位数据。在获得多个账号的定位数据后，可以采用预设规则对多个账号进行筛选，将获得的账号划分为多个用户账号集，其中，预设规则可以是在某一时段经常出现的位置相同。示例性地，根据白天8:00-12:00以及晚上18:00-22：00经常出现的位置对账号进行筛选，将位置相同的账号划分为一个用户账号集中的账号。预设规则也可以是某一时段连接过相同的Wi-Fi。示例性地，将晚上20:00-24:00连接过相同的Wi-Fi的账号划分为一个用户账号集中的账号。需要说明的是，预设规则并不仅限于上述两种，还可以是其他规则，对此，本申请不做具体限定。

获得多个用户账号集后，对每个用户账号集中的账号进行关联。具体实施中，可以从用户账号集中任选一个账号为目标账号，其他的账号为参考账号，然后判断目标账号与每个参考账号是否关联。通过预设规则初步将获得的账号划分为多个用户账号集，然后对每个小规模的用户账号集中的账号进行关联判断，而不是直接对获取的账号进行关联判断，从而提高了账号关联的效率，减少了账号关联的工作量。

在步骤S501中，第一位置集合中包括的各个位置信息，是第一定位数据中出现频率高于第一阈值的位置信息，第一时序轨迹中的各个位置信息，是第一定位数据中在预设时段内出现频率高于第二阈值的位置信息。

具体地，目标账号的第一定位数据中包括位置信息和时间信息，位置信息可以是经纬度坐标。获取第一位置集合的过程为：统计每个位置信息的出现频率，将出现频率高于第一阈值的位置信息确定为用户的停留点的位置信息，利用所有停留点的位置信息组成第一位置集合。示例性地，设定目标账号为社交应用软件账号，第一阈值为4，首先获取社交应用软件账号在过去一周的定位数据，定位数据包括定位时间和经纬度坐标，然后统计定位数据中每个经纬度坐标的出现频率。设定“家”对应的经纬度坐标的出现频率为7，“公司”对应的经纬度坐标的出现频率为5，其他经纬度坐标的出现频率均小于4，则将“家”和“公司”确定为用户的停留点，采用“家”和“公司”的经纬度坐标组成第一位置集合。

获取第一时序轨迹的过程为：首先设置时间窗，每个时间窗对应一个预设时段，然后统计每个时间窗内的第一定位数据中位置信息的出现频率，采用出现频率高于第二阈值的位置信息以及位置信息对应的时间信息组成第一时序轨迹。示例性地，将一天划分为8个时间窗，每个时间窗为3小时，目标账号为社交应用软件账号，第二阈值为3。首先获取社交应用软件账号在过去一周的定位数据，定位数据包括定位时间和经纬度坐标。以0:00-3:00对应的时间窗举例来说，统计定位数据中在该时间窗内的经纬度坐标的出现频率，采用相同的方法可以统计其他时间窗内的经纬度坐标的出现频率。设定时间段0:00-6:00内没有出现频率高于第二阈值的经纬度坐标，在时间段6:00-9:00内，位置A的经纬度坐标的出现频率高于第二阈值。在时间段9:00-18:00内，位置B的经纬度坐标的出现频率高于第二阈值，在时间段18:00-24:00内，位置C的经纬度坐标的出现频率高于第二阈值，则采用位置A、位置B、位置C的纬度坐标以及定位时间组成第一时序轨迹。可选地，时序轨迹可以从0-24小时的顺序变为4时-次日3时，使得时序轨迹更加连续。需要说明的是，获取第一位置集合和第一时序轨迹的方法并仅限于上述一种实施方式，还可以是其他实施方式，比如，第一位置集合中包括的各个位置信息和第一时序轨迹中的各个位置信息，是第一定位数据中预设时间段内的位置信息；又比如，第一位置集合中包括的各个位置信息和第一时序轨迹中的各个位置信息，是从第一定位数据中随机抽取的位置信息，对此，本申请实施例不做具体限定。

步骤S502，根据参考账号的第二定位数据，获得参考账号关联的第二位置集合和第二时序轨迹。

具体地，第二位置集合中包括的各个位置信息，是第二定位数据中出现频率高于第三阈值的位置信息，第二时序轨迹中的各个位置信息，是第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。获取第二位置集合的方法与获取第一位置集合的方法相同，获取第二时序轨迹的方法和获取第一时序轨迹的方法相同，此处不再赘述。

步骤S503，根据第一位置集合与第二位置集合的第一对比结果，以及第一时序轨迹与第二时序轨迹的第二对比结果，获得目标账号与参考账号的关联概率。

一种可能的实施方式，通过计算第一位置集合中的位置信息与第二位置集合中的位置信息的距离获得第一比对结果，通过计算第一时序轨迹与第二时序轨迹的距离获得第二比对结果，然后根据第一对比结果和第二对比结果，获得目标账号与参考账号的关联概率。

另一种可能的实施方式，采用静态位置语义模型分别对第一位置集合中的各个位置信息和第二位置集合中的各个位置信息进行特征提取，获得第一静态位置特征和第二静态位置特征。采用时序位置语义模型分别对第一时序轨迹中的各个位置信息和第二时序轨迹中的各个位置信息进行特征提取，获得第一时序轨迹特征和第二时序轨迹特征。然后采用比较器将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和所述第二时序轨迹特征融合，并基于融合获得的融合位置特征确定目标账号与参考账号的关联概率。

步骤S504，当关联概率满足预设条件时，确定参考账号为目标账号的关联账号。

本申请实施例中，从定位数据中筛选出目标账号的第一位置集合和参考账号的第二位置集合，比对第一位置集合和第二位置集合，获得第一比对结果。从定位数据中筛选出目标账号的第一时序轨迹和参考账号的第二时序轨迹，比对第一时序轨迹和第二时序轨迹，获得第二比对结果。再根据第一对比结果以及第二对比结果，获得目标账号与参考账号的关联概率。当关联概率满足预设条件时，确定参考账号与目标账号关联。通过对定位数据进行统计获得位置集合和时序轨迹，然后基于位置集合和时序轨迹对账号进行关联，降低了时序一致性以及数据稠密度的要求，避免了用户偶然出行对账号关联产生的影响，提高了账号关联效果。

可选地，在上述步骤S503中，静态位置语义模型包括静态位置编码模块和静态位置特征提取模块，如图6所示，静态位置语义模型提取静态位置特征时，首先采用静态位置编码模块分别对第一位置集合中的各个位置信息和第二位置集合中的各个位置信息进行编码，获得第一候选静态位置特征和第二候选静态位置特征。然后采用静态位置特征提取模块分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征。

可选地，静态位置编码模块至少采用以下两种方式对位置集合中的位置信息进行编码：

一种可能的实施方式中，静态位置编码模块采用Embedding对位置集合中的位置信息进行编码，如图7所示，基于第一位置集合中的各个位置信息的空间权重和时间权重，对第一位置集合中的各个位置信息进行嵌入Embedding处理，获得第一候选静态位置特征。基于第二位置集合中的各个位置信息的空间权重和时间权重，对第二位置集合中的各个位置信息进行Embedding处理，获得第二候选静态位置特征。

具体实施中，位置信息的空间权重为该位置信息在定位数据中的出现频率与位置集合中所有位置信息的出现频率的比值。示例性地，获取社交应用软件中所有账号过去7天的定位数据，位置集合中所有位置信息在定位数据中的出现频率为20次，“家”对应的位置信息在定位数据中的出现频率为5次，则“家”对应的位置信息的空间权重为1/4。

位置信息的时间权重为该位置信息对应的定位天数与定位数据的总定位天数的比值。示例性地，获取社交应用软件中所有账号过去7天的定位数据，其中，周一至周五通过定位获得了“公司”对应的位置信息，则“公司”对应的位置信息的时间权重为5/7。将空间权重与时间权重相乘后融合到Embedding处理中，然后将空间权重与时间权重的乘积与Embedding处理的结果融合，获得候选静态位置特征，具体可以采用concate或add将空间权重与时间权重的乘积与Embedding处理的结果融合。可选地，静态位置编码模块采用Embedding处理对位置集合中的位置信息进行编码时，可以从1进行编码，保留0为缺失值，后续模型进行掩膜(mask)处理。

另一种可能的实施方式中，静态位置编码模块采用自然语言处理(NaturalLanguage Processing，NLP)对位置集合中的位置信息进行编码，如图8所示，采用NLP对第一位置集合中的各个位置信息进行特征提取，获得第一候选静态位置特征。采用NLP对第二位置集合中的各个位置信息进行特征提取，获得第二候选静态位置特征。

具体实施中，可以采用NLP中的ELMo或者通用语义表示模型(BidirectionalEncoder Representation from Transformers，Bert)的网络结构模型对位置集合中的位置信息进行编码。

可选地，静态位置特征提取模块采用卷积神经网络分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征。

具体地，可以根据需要设置卷积神经网络的层数，示例性地，如图9所示，采用两层卷积神经网络对候选静态位置特征进行筛选。将第一候选静态位置特征输入第一层卷积神经网络，将第一层卷积神经网络的输出结果输入第一层池化层(pooling)，然后将第一层池化层的输出结果输入第二层卷积神经网络，之后再将第二层卷积神经网络的输出结果输入第二层池化层，获得第一静态位置特征。获取第二静态位置特征的方法与获取第一静态位置特征的方法相同，此处不再赘述。另外在对候选静态位置特征进行筛选时，还可以加入基于卷积神经网络的注意力机制。采用深度学习模型能抽象出账号潜在的位置特征，模型泛化性更强，从而使账号关联的准确性更高。其次，通过对空间位置的Embedding处理，实现了空间位置关联语义的向量化。

可选地，在上述步骤S503中，时序位置语义模型包括时序位置编码模块和时序轨迹特征提取模块，如图10所示，时序位置语义模型提取时序轨迹特征时，首先采用时序位置编码模块分别对第一时序轨迹中的各个位置信息和第二时序轨迹中的各个位置信息进行编码，获得第一时序位置特征和第二时序位置特征。然后采用时序轨迹特征提取模块分别对各个第一时序位置特征和各个第二时序位置特征进行特征增强，获得第一时序轨迹特征和第二时序轨迹特征。

可选地，时序位置编码模块至少采用以下两种方式对时序轨迹中的位置信息进行编码：

一种可能的实施方式中，时序位置编码模块采用Embedding处理对时序轨迹中的位置信息进行编码，如图11所示，基于第一时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第一时序轨迹中的各个位置信息进行Embedding处理，获得第一时序位置特征。基于第二时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第二时序轨迹中的各个位置信息进行Embedding处理，获得第二时序位置特征。

具体实施中，位置信息的时空权重为该位置信息在时间窗内的定位数据中的出现频率与时序轨迹中所有位置信息在时间窗内的定位数据中的出现频率的比值。示例性地，设定定位数据为过去7天的定位数据，时序轨迹中所有位置信息在时间窗6:00-9:00内的定位数据中的出现频率为10次，“家”对应的位置信息在时间窗6:00-9:00内的定位数据中的出现频率为7次，则在时间窗6:00-9:00内，“家”对应的位置信息的时空权重为7/10。空间权重和时间权重在前文已有介绍，此处不再赘述。将空间权重、时间权重以及时空权重相乘后融合到Embedding处理中，然后将空间权重、时间权重以及时空权重的乘积与Embedding处理的结果融合，获得时序位置特征，具体可以采用concate或add将空间权重、时间权重以及时空权重的乘积与Embedding处理的结果融合。

另一种可能的实施方式中，时序位置编码模块采用NLP对时序轨迹中的位置信息进行编码，如图12所示，采用NLP对第一时序轨迹中的各个位置信息进行特征提取，获得第一时序位置特征。采用NLP对第二时序轨迹中的各个位置信息进行特征提取，获得第二时序位置特征。

具体实施中，可以采用NLP中的ELMo或者Bert的网络结构模型对时序轨迹中的位置信息进行编码。

可选地，时序轨迹特征提取模块采用长短记忆网络和注意力机制对时序位置特征进行特征增强，如图13所示，将每个第一时序位置特征输入长短记忆网络，获得每个第一时序位置特征的状态向量。从每个第一时序位置特征的状态向量中选取一个值，获得第一状态向量摘要。将每个第二时序位置特征输入长短记忆网络，获得每个第二时序位置特征的状态向量，从每个第二时序位置特征的状态向量中选取一个值，获得第二状态向量摘要。以第二状态向量摘要为注意力机制的查询Query，以每个第一时序位置特征的状态向量为注意力机制的键值Key-Value，对每个第一时序位置特征的状态向量进行注意力机制处理，获得第一时序轨迹特征。以第一状态向量摘要为注意力机制的Query，以每个第二时序位置特征的状态向量为注意力机制的Key-Value，对每个第二时序位置特征的状态向量进行注意力机制处理，获得第二时序轨迹特征。

示例性地，将第一时序位置特征X1、第一时序位置特征X2、第一时序位置特征X3、第一时序位置特征X4、第一时序位置特征X5分别输入长短记忆网络，获得每个第一时序位置特征的状态向量。然后从每个第一时序位置特征的状态向量中选取一个值x，根据选取的值组成第一状态向量摘要z1，具体如图14a所示。每个第一时序位置特征的状态向量的选取位置不同，选取的值为对应位置最大值。将第二时序位置特征Y1、第二时序位置特征Y2、第二时序位置特征Y3、第二时序位置特征Y4、第二时序位置特征Y5分别输入长短记忆网络，获得每个第二时序位置特征的状态向量。然后从每个第二时序位置特征的状态向量中选取一个值y，根据选取的值组成第二状态向量摘要z2，具体如图14b所示。每个第二时序位置特征的状态向量的选取位置不同，选取的值为对应位置最大值。

进一步地，如图15所示，分别计算第二状态向量摘要z2与第一时序位置特征X1、第一时序位置特征X2、第一时序位置特征X3、第一时序位置特征X4、第一时序位置特征X5的相似度，获得相似度s1、相似度s2、相似度s3、相似度s4、相似度s5，通过SoftMax对每个相似度进行归一化处理后，获得权重a1、权重a2、权重a3、权重a4、权重a5。将每个权重与对应的第一时序位置特征分别相乘后求和，获得第一时序轨迹特征M。分别计算第一状态向量摘要z1与第二时序位置特征Y1、第二时序位置特征Y2、第二时序位置特征Y3、第二时序位置特征Y4、第二时序位置特征Y5的相似度，获得相似度t1、相似度t2、相似度t3、相似度t4、相似度t5，通过SoftMax对每个相似度进行归一化处理后，获得权重b1、权重b2、权重b3、权重b4、权重b5。将每个权重与对应的第二时序位置特征分别相乘后求和，获得第二时序轨迹特征N。

需要说明的是，时序轨迹特征提取模块中的长短记忆网络可以替换为门控循环单元，也可以替换为多层LSTM或BiLSTM。时序轨迹特征提取模块中的注意力机制可以是Co-Attention或多头Attention，对此，本申请不做具体限定。采用深度学习模型获取账号潜在的时序特征，后续将时序特征与静态位置结合对账号进行关联，能有效提高账号关联的准确性。

可选地，在上述步骤S504中，比较器包括融合层和全连接层，如图16所示，首先将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征输入融合层，获得融合位置特征。然后将融合位置特征输入全连接层，获得目标账号与参考账号的关联概率。

具体地，融合层将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征进行Concate融合或Add融合。可选地，在融合时可以加入第一静态位置特征与第二静态位置特征的差和乘积和/或第一时序轨迹特征与第二时序轨迹特征的差和乘积。全连接层可以为一层或多层，以Sigmod作为最外层全连接层的激活函数，用于获得目标账号与参考账号的关联概率，Sigmod输出为0到1之间的值。

可选地，在上述步骤S504中，基于关联概率判断参考账号是否为目标账号的关联账号时，本申请实施例至少提供以下两种实施方式：

一种可能的实施方式，当关联概率大于预设阈值时，确定参考账号为目标账号的关联账号，否则确定参考账号为目标账号的非关联账号。

示例性地，设定预设阈值为0.5，当比较器输出的关联概率大于0.5时，确定参考账号为目标账号的关联账号，否则确定参考账号为目标账号的非关联账号。

一种可能的实施方式，按照目标账号与每个参考账号的关联概率对参考账号进行排序，将最大关联概率对应的参考账号作为目标账号的关联账号，将其他参考账号作为目标账号的非关联账号。

具体地，针对每个用户账号集，从用户账号集中任选一个账号为目标账号，用户账号集中的其他账号为参考账号。按照目标账号与用户账号集中的每个参考账号的关联概率对参考账号进行排序，将最大关联概率对应的参考账号作为目标账号的关联账号，将其他参考账号作为目标账号的非关联账号。

通过对用户多天的定位数据进行统计，获得位置集合以及时序轨迹，然后基于位置集合和时序轨迹进行账号关联，降低了对定位数据的时序性、稠密度、采样周期的要求。

可选地，在上述步骤S504中，静态位置语义模型、时序位置语义模型以及比较器是采用预训练和微调训练获得的，其中，预训练的训练样本为相同账号的定位数据，微调训练的训练样本为同一用户对应的不同账号的定位数据。

具体地，获取各个用户的账号的定位数据，将相同账号在不同时间的定位数据作为正样本，采用预设规则将各个用户的账号划分多个用户账号集，一个用户账号集表示一个用户，将多个用户账号集中的定位数据作为负样本。采用相同账号的定位数据对初始静态位置语义模型、初始时序位置语义模型以及初始比较器进行预训练，获取预静态位置语义模型、预时序位置语义模型以及预比较器。然后以同一用户对应的不同账号的定位数据对预静态位置语义模型、预时序位置语义模型以及预比较器进行微调训练，获得静态位置语义模型、时序位置语义模型以及比较器。

账号可以是应用软件账号、终端设备ID、SIM卡ID等。当账号为应用软件账号时，可以获得不同用户的应用软件账号的定位数据作为预训练的训练样本，根据用户的唯一认证标识(比如身份证号码)获取该用户注册的不同应用软件账号的定位数据作为微调训练的训练样本。当账号为终端设备ID时，可以获得不同终端设备ID对应的定位数据作为预训练的训练样本，根据SIM卡ID获取同一SIM卡对应的不同终端设备ID的定位数据作为微调训练的训练样本。当账号为SIM卡ID时，可以获得不同SIM卡ID对应的定位数据作为预训练的训练样本，根据用户的唯一认证标识(比如身份证号码)获取该用户注册的不同的SIM卡ID的定位数据作为微调训练的训练样本。采用预训练和微调训练的方式获得静态位置语义模型、时序位置语义模型以及比较器，有效解决了账号的定位数据稀疏的问题，降低了对定位数据的稠密程度的要求。

由工于用户在作日和节假日的行为模式有较大的区别，故可以将模型网络扩展为工作日网络和节假日网络。具体地，将账号的历史定位数据划分为工作日定位数据和节假日定位数据。以工作日定位数据为训练样本训练获得工作日静态位置语义模型、工作日时序位置语义模型以及工作日比较器，以节假日定位数据为训练样本训练获得节假日静态位置语义模型、节假日时序位置语义模型以及节假日比较器。对账号进行关联时，首先对账号在工作日的定位数据进行统计，获得位置集合和时序轨迹，然后将位置集合和时序轨迹输入工作日网络，获得账号的关联概率，基于关联概率确定账号是否关联。对账号在节假日的定位数据进行统计，获得位置集合和时序轨迹，然后将位置集合和时序轨迹输入节假日网络，获得账号的关联概率，基于关联概率确定账号是否关联，从而提高账号关联的准确性。

为了更好的解释本申请实施例，下面结合具体的实施场景描述本申请实施例提供的一种识别关联账号的方法，该方法由识别关联账号的装置执行，如图17所示，设定账号为社交应用软件账号，获取过去一周内社交应用软件中每个账号的定位数据，定位数据包括时间信息和位置信息。根据白天8:00-12:00以及晚上18:00-22：00经常出现的位置对社交应用软件账号进行筛选，将位置相同的社交应用软件账号划分为一个用户账号集中的账号。

针对每个用户账号集，从用户账号集中任选一个社交应用软件账号为目标账号，其他的社交应用软件账号为参考账号。根据目标账号的第一定位数据，获得目标账号关联的第一位置集合和第一时序轨迹，第一位置集合中包括的各个位置信息，是第一定位数据中出现频率高于第一阈值的位置信息，第一时序轨迹中的各个位置信息，是第一定位数据中在预设时段内出现频率高于第二阈值的位置信息。根据参考账号的第二定位数据，获得参考账号关联的第二位置集合和第二时序轨迹，第二位置集合中包括的各个位置信息，是第二定位数据中出现频率高于第三阈值的位置信息，第二时序轨迹中的各个位置信息，是第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。

将第一位置集合和第二位置集合输入静态位置语义模型，静态位置语义模型包括静态位置编码模块和静态位置特征提取模块，静态位置编码模块基于第一位置集合中的各个位置信息的空间权重和时间权重，对第一位置集合中的各个位置信息进行嵌入Embedding处理，获得第一候选静态位置特征。基于第二位置集合中的各个位置信息的空间权重和时间权重，对第二位置集合中的各个位置信息进行Embedding处理，获得第二候选静态位置特征。静态位置特征提取模块采用卷积神经网络和池化层分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征。

将第一时序轨迹和第二时序轨迹输入时序位置语义模型，时序位置语义模型包括时序位置编码模块和时序轨迹特征提取模块，时序位置编码模块基于第一时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第一时序轨迹中的各个位置信息进行Embedding处理，获得第一时序位置特征。基于第二时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第二时序轨迹中的各个位置信息进行Embedding处理，获得第二时序位置特征。时序轨迹特征提取模块将每个第一时序位置特征输入长短记忆网络，获得每个第一时序位置特征的状态向量。从每个第一时序位置特征的状态向量中选取一个值，获得第一状态向量摘要。将每个第二时序位置特征输入长短记忆网络，获得每个第二时序位置特征的状态向量，从每个第二时序位置特征的状态向量中选取一个值，获得第二状态向量摘要。以第二状态向量摘要为注意力机制的查询Query，以每个第一时序位置特征的状态向量为注意力机制的键值Key-Value，对每个第一时序位置特征的状态向量进行注意力机制处理，获得第一时序轨迹特征。以第一状态向量摘要为注意力机制的Query，以每个第二时序位置特征的状态向量为注意力机制的Key-Value，对每个第二时序位置特征的状态向量进行注意力机制处理，获得第二时序轨迹特征。

将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征输入比较器，比较器包括融合层和全连接层，采用融合层将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征融合，获得融合位置特征。然后采用两层全连接层对融合位置特征进行处理，获得目标账号与参考账号的关联概率，以Sigmod作为最外层全连接层的激活函数，用于获得目标账号与参考账号的关联概率，Sigmod输出为0到1之间的值。

当比较器输出的关联概率大于0.5时，确定参考账号为目标账号的关联账号，否则确定参考账号为目标账号的非关联账号。

通过对用户多天的定位数据进行统计，获得位置集合以及时序轨迹，然后基于位置集合和时序轨迹进行账号关联，降低了对定位数据的时序性、稠密度、采样周期的要求。利用账号关联，可以实现更换账号(或设备)的新旧账号(或设备)进行关联，实现新账号(或设备)的信息补全与相关应用的冷启动。另外，可以对不同应用场景(比如不同应用软件)下的账号进行关联，丰富数据的场景维度，对数据合作与特定场景数据的挖掘提供支持。

为了验证本申请实施例中的网络模型在进行账号关联时的效果，本申请实施例对网络模型进行了测试，测试结果具体如下：

静态位置语义模型的测试结果如表1所示：

表1.

模型	准确率	召回率	f值
				编码器+全连接层	58.91％	52.88％	0.5332
编码器+卷积神经网络+全连接层	60.66％	72.21％	0.6506
				编码器+卷积神经网络+选择器+全连接层	82.03％	88.96％	0.8482
工作日+节假日静态位置语义模型	83.84％	89.81％	0.8622

由表1可知，随着网络结构的增加，效果不断提升，说明静态位置语义模型的设计是有意义的。

时序位置语义模型的测试结果如表2所示：

表2.

由表2可知，随着网络结构的增加，效果不断提升，说明时序位置语义模型的设计是有意义的。

静态位置语义模型+时序位置语义模型+比较器的测试结果如表3所示：

表3.

表3中LCSS(Longest-Common-Subsequence，最长公共子序列)模型为传统轨迹相似度方法，DP-Link为现有深度学习的时空数据账号关联方法，由表3可知，结合静态位置语义模型和时序位置语义模型对账号进行关联，相较于现有方法来说，关联效果得到了很大的提升。

另外，本申请实施例采用静态位置语义模型+时序位置语义模型+比较器获得目标账号与参考账号之间的关联概率后，对基于关联概率判断参考账号是否为目标账号的关联账号的两种实施方式进行了测试，两种实施方式分别为：实施方式一、基于预设阈值判断参考账号是否为目标账号的关联账号，实施方式二、选取关联概率最大的参考账号为目标账号的关联账号，测试结果如表4所示：

表4.

	准确率	召回率	f值
				实施方式一	91.36％	93.79％	0.9256
实施方式二	92.04％	96.49％	0.9421

由表4可知，选取关联概率最大的参考账号为目标账号的关联账号时，关联的准确率更高。

基于相同的技术构思，本申请实施例提供了一种识别关联账号的装置，如图18所示，该装置1800包括：

获取模块1801，用于根据目标账号的第一定位数据，获得目标账号关联的第一位置集合和第一时序轨迹；

获取模块1801，还用于根据参考账号的第二定位数据，获得参考账号关联的第二位置集合和第二时序轨迹；

比对模块1802，用于根据第一位置集合与第二位置集合的第一对比结果，以及第一时序轨迹与第二时序轨迹的第二对比结果，获得目标账号与参考账号的关联概率；

判断模块1803，用于当关联概率满足预设条件时，确定参考账号为目标账号的关联账号。

可选地，第一位置集合中包括的各个位置信息，是第一定位数据中出现频率高于第一阈值的位置信息，第一时序轨迹中的各个位置信息，是第一定位数据中在预设时段内出现频率高于第二阈值的位置信息；第二位置集合中包括的各个位置信息，是第二定位数据中出现频率高于第三阈值的位置信息，第二时序轨迹中的各个位置信息，是第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。

可选地，比对模块1802具体用于：

采用静态位置语义模型分别对第一位置集合中的各个位置信息和第二位置集合中的各个位置信息进行特征提取，获得第一静态位置特征和第二静态位置特征；

采用时序位置语义模型分别对第一时序轨迹中的各个位置信息和第二时序轨迹中的各个位置信息进行特征提取，获得第一时序轨迹特征和第二时序轨迹特征；

采用比较器将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征融合，并基于融合获得的融合位置特征确定目标账号与参考账号的关联概率。

可选地，比对模块1802具体用于：

采用静态位置编码模块分别对第一位置集合中的各个位置信息和第二位置集合中的各个位置信息进行编码，获得第一候选静态位置特征和第二候选静态位置特征；

可选地，比对模块1802具体用于：

基于第一位置集合中的各个位置信息的空间权重和时间权重，对第一位置集合中的各个位置信息进行嵌入Embedding处理，获得第一候选静态位置特征；

基于第二位置集合中的各个位置信息的空间权重和时间权重，对第二位置集合中的各个位置信息进行Embedding处理，获得第二候选静态位置特征。

可选地，比对模块1802具体用于：

采用时序位置编码模块分别对第一时序轨迹中的各个位置信息和第二时序轨迹中的各个位置信息进行编码，获得第一时序位置特征和第二时序位置特征；

可选地，比对模块1802具体用于：

基于第一时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第一时序轨迹中的各个位置信息进行Embedding处理，获得第一时序位置特征；

基于第二时序轨迹中的各个位置信息的空间权重、时间权重以及时空权重，对第二时序轨迹中的各个位置信息进行Embedding处理，获得第二时序位置特征。

可选地，比对模块1802具体用于：

以第二状态向量摘要为注意力机制的查询Query，以每个第一时序位置特征的状态向量为注意力机制的键值Key-Value，对每个第一时序位置特征的状态向量进行注意力机制处理，获得第一时序轨迹特征；

以第一状态向量摘要为注意力机制的Query，以每个第二时序位置特征的状态向量为注意力机制的Key-Value，对每个第二时序位置特征的状态向量进行注意力机制处理，获得第二时序轨迹特征。

可选地，比对模块1802具体用于：

将第一静态位置特征、第二静态位置特征、第一时序轨迹特征和第二时序轨迹特征输入融合层，获得融合位置特征；

将融合位置特征输入全连接层，获得目标账号与参考账号的关联概率。

可选地，静态位置语义模型、时序位置语义模型以及比较器是采用预训练和微调训练获得的，其中，预训练的训练样本为相同账号的定位数据，微调训练的训练样本为同一用户对应的不同账号的定位数据。

可选地，判断模块1803具体用于：

当关联概率大于预设阈值时，确定参考账号为目标账号的关联账号，否则确定参考账号为目标账号的非关联账号。

可选地，判断模块1803具体用于：

按照目标账号与每个参考账号的关联概率对参考账号进行排序；

将最大关联概率对应的参考账号作为目标账号的关联账号，将其他参考账号作为目标账号的非关联账号。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图19所示，包括至少一个处理器1901，以及与至少一个处理器连接的存储器1902，本申请实施例中不限定处理器1901与存储器1902之间的具体连接介质，图19中处理器1901和存储器1902之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1902存储有可被至少一个处理器1901执行的指令，至少一个处理器1901通过执行存储器1902存储的指令，可以执行前述识别关联账号方法中所包括的步骤。

其中，处理器1901是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1902内的指令以及调用存储在存储器1902内的数据，从而进行账号关联。可选的，处理器1901可包括一个或多个处理单元，处理器1901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1901中。在一些实施例中，处理器1901和存储器1902可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1901可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1902可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1902还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述识别关联账号方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种识别关联账号的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述第一位置集合中包括的各个位置信息，是所述第一定位数据中出现频率高于第一阈值的位置信息，所述第一时序轨迹中的各个位置信息，是所述第一定位数据中在预设时段内出现频率高于第二阈值的位置信息；所述第二位置集合中包括的各个位置信息，是所述第二定位数据中出现频率高于第三阈值的位置信息，所述第二时序轨迹中的各个位置信息，是所述第二定位数据中在预设时段内出现频率高于第四阈值的位置信息。

3.如权利要求2所述的方法，其特征在于，所述根据所述第一位置集合与所述第二位置集合的第一对比结果，以及所述第一时序轨迹与所述第二时序轨迹的第二对比结果，获得所述目标账号与所述参考账号的关联概率，包括：

4.如权利要求3所述的方法，其特征在于，所述采用静态位置语义模型分别对所述第一位置集合中的各个位置信息和所述第二位置集合中的各个位置信息进行特征提取，获得第一静态位置特征和第二静态位置特征，包括：

5.如权利要求4所述的方法，其特征在于，所述采用静态位置编码模块分别对所述第一位置集合中的各个位置信息和所述第二位置集合中的各个位置信息进行编码，获得第一候选静态位置特征和第二候选静态位置特征，包括：

6.如权利要求4所述的方法，其特征在于，所述采用静态位置特征提取模块分别对各个第一候选静态位置特征和各个第二候选静态位置特征进行筛选，获得第一静态位置特征和第二静态位置特征，包括：

7.如权利要求3所述的方法，其特征在于，所述采用时序位置语义模型分别对所述第一时序轨迹中的各个位置信息和所述第二时序轨迹中的各个位置信息进行特征提取，获得第一时序轨迹特征和第二时序轨迹特征，包括：

8.如权利要求7所述的方法，其特征在于，所述采用时序位置编码模块分别对所述第一时序轨迹中的各个位置信息和所述第二时序轨迹中的各个位置信息进行编码，获得第一时序位置特征和第二时序位置特征，包括：

9.如权利要求7所述的方法，其特征在于，所述采用时序轨迹特征提取模块分别对各个第一时序位置特征和各个第二时序位置特征进行特征增强，获得第一时序轨迹特征和第二时序轨迹特征，包括：

10.如权利要求3所述的方法，其特征在于，所述采用比较器将所述第一静态位置特征、所述第二静态位置特征、所述第一时序轨迹特征和所述第二时序轨迹特征融合，并基于融合获得的融合位置特征确定所述目标账号与所述参考账号的关联概率，包括：

11.如权利要求3所述的方法，其特征在于，所述静态位置语义模型、所述时序位置语义模型以及所述比较器是采用预训练和微调训练获得的，其中，预训练的训练样本为相同账号的定位数据，微调训练的训练样本为同一用户对应的不同账号的定位数据。

12.如权利要求1至11任一所述的方法，其特征在于，所述当所述关联概率满足预设条件时，确定所述参考账号为所述目标账号的关联账号，包括：

13.如权利要求1至11任一所述的方法，其特征在于，所述当所述关联概率满足预设条件时，确定所述参考账号为所述目标账号的关联账号，包括：

14.一种识别关联账号的装置，其特征在于，包括：

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～13任一权利要求所述方法的步骤。