CN117150319A

CN117150319A - 一种一人多号的识别方法及装置

Info

Publication number: CN117150319A
Application number: CN202311416308.XA
Authority: CN
Inventors: 龙磊
Original assignee: Beijing Iresearch Technology Co ltd
Current assignee: Beijing Iresearch Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01

Abstract

本申请公开了一种一人多号的识别方法及装置，涉及机器学习技术领域，在该方法中，首先将相同职住数据的用户号码进行分组，然后根据组号进行分组关系匹配，即可获得同号候选数据集，从而可以初步减少用户号码轨迹相似度的计算量。再根据相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，通过相似度阈值对相似度结果进行筛选，可以有效减少计算量，最后将筛选后的结果作为新一轮的同号候选数据集进行迭代相似度计算，从而完成一人多号的识别过程，通过梯度下降的方式减少了识别过程中的计算量，易于实现。

Description

一种一人多号的识别方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种一人多号的识别方法及装置。

背景技术

随着智能手机以及大数据信息处理技术的不断发展，手机的通信信令数据得到了广泛应用，由于手机通信信令数据具有样本覆盖全面、时空信息精度高、连续性强的特点，因此可以通过手机通信信令数据进行区域人口统计。

目前，越来越多的人会同时使用多张手机卡或者多个手机多张手机卡多个运营商，因此需要通过模型算法对这部分用户进行识别，减少重复计算导致区域人口统计误差较大的问题。

现有技术中通常采用聚类算法进行一人多号的识别，需要按照时间顺序将采集到的原始信令数据转换为运行轨迹，按照网格中的距离信息确定移动设备号码之间的轨迹相似性，对于位置以及出现时间高度重叠的移动设备号码之间判断为同一轨迹，即一人多号，但是这种方法需要计算出区域内所有移动设备号码之间的轨迹相似性，计算量巨大，在实际应用中难以实现。

发明内容

有鉴于此，本申请实施例提供了一种一人多号的识别方法及装置，旨在减少一人多号识别过程中的计算量。

第一方面，本申请实施例提供了一种一人多号的识别方法，所述方法包括：

对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，所述职住数据是基于用户号码所在的基站信息确定的；

根据所述职住数据集中的组号进行分组关系匹配，获得同号候选数据集；

根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，所述相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数；

通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果；

根据相似度阈值对所述轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成所述职住数据集中用户号码的识别，获得一人多号的识别数据集，所述相似度阈值是通过所述相似度阈值训练模型进行训练得到的。

可选地，所述对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，包括：

对待识别区域进行网格化处理，获得网格化数据集；

将基站信息和所述网格化数据集进行关联，获得基站网格关联数据集；

对所述基站网格关联数据集中用户的职住数据进行网格化处理，获得职住网格数据集；

基于所述职住网格数据集将相同职住数据的用户号码进行分组，获得职住数据集。

可选地，所述相似度阈值的获取步骤，包括：

根据相似度阈值训练模型中的模型参数对一人多号的样本数据集、轨迹数据以及基站信息进行切片化处理，获得样本数据的切片数据集；

通过相似度算法对所述样本数据的切片数据集中的轨迹数据进行相似度计算，获得相似度阈值。

可选地，所述通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果，包括：

通过余弦相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。

可选地，所述根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，包括：

根据相似度阈值训练模型中的时间切片参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的时间切片；

根据所述相似度阈值训练模型中的空间切片参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的空间切片；

通过所述同号候选数据的时间切片和所述同号候选数据的空间切片构建时空矩阵，获得同号候选数据的切片数据集。

可选地，所述方法还包括：

通过验证数据集对所述一人多号的识别数据集进行验证，获得验证结果；

当所述验证结果满足预设阈值时，停止迭代相似度计算。

第二方面，本申请实施例提供了一种一人多号的识别装置，所述装置包括：

分组模块，用于对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，所述职住数据是基于用户号码所在的基站信息确定的；

匹配模块，用于根据所述职住数据集中的组号进行分组关系匹配，获得同号候选数据集；

切片化处理模块，用于根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，所述相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数；

计算模块，用于通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果；

识别模块，用于根据相似度阈值对所述轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成所述职住数据集中用户号码的识别，获得一人多号的识别数据集，所述相似度阈值是通过所述相似度阈值训练模型进行训练得到的。

可选地，所述分组模块包括：

第一网格化处理单元，用于对待识别区域进行网格化处理，获得网格化数据集；

关联单元，用于将基站信息和所述网格化数据集进行关联，获得基站网格关联数据集；

第二网格化处理单元，用于对所述基站网格关联数据集中用户的职住数据进行网格化处理，获得职住网格数据集；

分组单元，用于基于所述职住网格数据集将相同职住数据的用户号码进行分组，获得职住数据集。

可选地，所述相似度阈值的获取步骤，包括：

第一切片化处理单元，用于根据相似度阈值训练模型中的模型参数对一人多号的样本数据集、轨迹数据以及基站信息进行切片化处理，获得样本数据的切片数据集；

第一计算单元，用于通过相似度算法对所述样本数据的切片数据集中的轨迹数据进行相似度计算，获得相似度阈值。

可选地，所述计算模块，包括：

第二计算单元，用于通过余弦相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。

可选地，所述切片化处理模块，包括：

第二切片化处理单元，用于根据相似度阈值训练模型中的时间切片参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的时间切片；

第三切片化处理单元，用于根据所述相似度阈值训练模型中的空间切片参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的空间切片；

构建单元，用于通过所述同号候选数据的时间切片和所述同号候选数据的空间切片构建时空矩阵，获得同号候选数据的切片数据集。

可选地，所述装置还包括：

验证单元，用于通过验证数据集对所述一人多号的识别数据集进行验证，获得验证结果；

停止单元，用于当所述验证结果满足预设阈值时，停止迭代相似度计算。

第三方面，本申请实施例提供了一种一人多号的识别设备，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以使所述设备执行前述第一方面所述的一人多号的识别方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被运行时，运行所述计算机程序的设备实现前述第一方面所述的一人多号的识别方法。

相较于现有技术，本申请实施例具有以下有益效果：

本申请实施例提供了一种一人多号的识别方法及装置，在该方法中，首先对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，职住数据是基于用户号码所在的基站信息确定的。根据职住数据集中的组号进行分组关系匹配，获得同号候选数据集。根据相似度阈值训练模型中的模型参数对同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数。然后，通过相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。最后，根据相似度阈值对轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成职住数据集中用户号码的识别，获得一人多号的识别数据集，相似度阈值是通过相似度阈值训练模型进行训练得到的。

可见，在本方案中首先将相同职住数据的用户号码进行分组，然后根据组号进行分组关系匹配，即可获得同号候选数据集，从而可以初步减少用户号码轨迹相似度的计算量。再根据相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，通过相似度阈值对相似度结果进行筛选，可以有效减少计算量，最后将筛选后的结果作为新一轮的同号候选数据集进行迭代相似度计算，从而完成一人多号的识别过程，通过梯度下降的方式减少了识别过程中的计算量，易于实现。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种一人多号的识别方法的应用场景示意图；

图2为本申请实施例提供的一种一人多号的识别方法的流程图；

图3为本申请实施例提供的一种时空切片数据矩阵的结构示意图；

图4为本申请实施例提供的一种一人多号的识别方法的场景结构示意图；

图5为本申请实施例提供的一种一人多号的识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前可以将运营商的通信信令数据经过大数据技术转化为与现行人口统计调查制度的范围、分类和计算标准一致的数据，紧扣现行人口统计制度，有效对接运营商大数据，构建科学、有效的区域人口统计模型。

现有技术中是基于聚类算法的移动用户一人多号的识别方法，将城市区域划分为若干个网络，对同一网络区间，计算区间内包含的所有基站的平均经纬度，作为该网格的经纬度，对于每个基站，计算其到各个网格之间的经纬度，将基站归为某个网格区间，实现区间的重新划分。然后读取一对国际移动用户识别码（英文：International MobileSubscriber Identification Number，IMSI）识别号，找到这对识别号所对应的网格经纬度，计算这对识别号之间的距离，按照时间顺序将采集的原始信令数据转换为运行轨迹，按照距离信息确定IMSI之间的轨迹相似性。对位置和出现时间高度重叠的IMSI对，判定位同一轨迹，即一人多号或一人多机。但是这种方法需要计算出区域内所有移动设备号码之间的轨迹相似性，计算量巨大，在实际应用中难以实现。

基于此，为了解决上述问题，在本方案中首先将相同职住数据的用户号码进行分组，然后根据组号进行分组关系匹配，即可获得同号候选数据集，从而可以初步减少用户号码轨迹相似度的计算量。再根据相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，通过相似度阈值对相似度结果进行筛选，可以有效减少计算量，最后将筛选后的结果作为新一轮的同号候选数据集进行迭代相似度计算，从而完成一人多号的识别过程，通过梯度下降的方式减少了识别过程中的计算量，易于实现。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中。该场景包括数据库101和服务器102，其中，数据库101包括用户的职住数据，服务器102采用本申请实施例提供的实施方式，从数据库101获取用户的职住数据，对待识别区域中用户的职住数据进行网格化处理，并基于职住网格数据集将相同职住数据的用户号码进行分组，获得职住数据集。然后根据职住数据集中的组号进行分组关系匹配，获得同号候选数据集，根据相似度阈值训练模型中的模型参数对同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据。最后，通过相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。根据相似度阈值对轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成职住数据集中用户号码的识别，获得一人多号的识别数据集。

首先，在上述应用场景中，虽然将本申请实施例提供的实施方式的动作描述由服务器102执行；但是，本申请实施例在执行主体方面不受限制，只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中一人多号的识别方法及装置的具体实现方式。

参见图2，该图为本申请实施例提供的一种一人多号的识别方法的流程图，结合图2所示，具体可以包括：

S201：对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集。

职住数据是基于用户号码所在的基站信息确定的，是指用户在白天工作时间段使用最多的基站和晚上居住时间使用最多的基站，例如，号码1的基站信息包含工作基站编码、工作基站经纬度坐标点，居住基站编码以及居住基站经纬度坐标点。

在一种可能的实施方式中，可以根据区域边界的地图兴趣面（英文：Area ofInterest，AOI）信息，对待识别区域进行网格化处理，即可获得网格化数据集，网格的边长可以有多种规格的选择，例如5千米、2千米、1千米、500米或200米等，本申请不具体限制网格边长。然后可以将基站信息和网格化数据集进行关联，具体地，可以将基站以坐标的方式体现在网格化数据集中，即可获得基站网格关联数据集。

其次，还可以对从基站处采集到的信息进行数据清洗，可以删除物联网数据，例如共享单车上的用户数据以及智能井盖上的用户数据等，从而减少待分析的计算用户量。

然后还可以对基站网格关联数据集中的用户的职住数据进行网格化处理，从而获得职住网格数据集，即将数据清洗后得到的用户职住数据与基站网格关联数据集进行关联，还可以重新根据网格边长对包含用户职住数据的基站网格关联数据集进行划分，此时网格的边长可以为500米，若待识别区域为市区，则网格的边长可以为200米，或者直接在基站网格关联数据集中选择合适的网格边长，若基站网格关联数据集的网格边长为500，那么可以直接选用基站网格关联数据集中的网格。

最后可以将职住网格数据集中相同职住数据的用户号码进行分组，获得职住数据集，即将同职同住网格相同的用户号码进行分组，从而得到职住数据集。一个用户号码对应于一个用户，例如，每个分组中包括用户，工作网格ID，居住网格ID，组号，那么每个分组中的具体内容可以为u₁，grid_1，grid_2，1；u₂，grid_1，grid_2，1；u₃，grid_3，grid_4，2；u₄，grid_3，grid_4，2；u₅，grid_3，grid_4，2。从中可以看出，u₁和u₂的工作网格和居住网格的ID相同，为同一组，u₃、u₄、u₅的工作网格和居住网格的ID相同，为同一组。基于用户的职住数据进行网格划分，并将相同职住数据的用户号码进行分组，能够加快数据计算分析的处理效率，减少计算的用户量。

S202：根据职住数据集中的组号进行分组关系匹配，获得同号候选数据集。

在一种可能的实施方式中，可以通过两个号码的轨迹相似度为基础进行相似度分析，超过两个号码的识别可以从已知的用户关系中进行关联分析得到，例如，一个分组包括u₁和u₂，另一个分组包括u₁和u₃，这两个分组属于一人多号，那么可以关联分析得到u₂和u₃也属于一人多号。

因此，可以根据职住数据集中的组号进行分组关系匹配，将职住数据集中相同组号的用户号码分为两两一组，获得同号候选数据集，例如，同号候选数据集包括组号、用户1和用户2，那么同号候选数据集中的具体内容可以包括1，u₁，u₂；2，u₃，u₄；2，u₃，u₅；2，u₄，u₅。通过组号将职住数据集中的数据进行分组关系匹配，在后续轨迹相似度的计算过程中仅需计算每个组内两个号码的轨迹相似度，超过两个号码的识别可以通过关联分析得到，从而可以初步减少用户号码轨迹相似度的计算量，还可以降低轨迹相似度计算过程中的时间复杂度。

S203：根据相似度阈值训练模型中的模型参数对同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集。

在一种可能的实施方式中，相似度阈值训练模型可以是提前训练好的，相似度阈值训练模型可以包括预设的时空切片数据矩阵，相似度阈值训练模型中包含时间切片参数和空间切片参数，即预设的时空切片数据矩阵中的时间切片和空间切片，作为一种示例，时空切片数据矩阵可以包括，空间网格粒度为500*500，时间粒度为4小时，一天可以划分为6个时间段，假如用户在第一个时间段出现在g₁网格，第二个时间段出现在g₃网格，时空切片数据矩阵可以为：

g₁中的1对应于第一时间段0-4小时，g₃中的1对应于第二时间段5-8小时。将已知属于一人多号的用户号码的正样本数据集、基于运营商提供的轨迹数据以及基站信息，其中基站信息是指基站的坐标位置数据，按照预设的时空切片数据矩阵进行切片化处理，从而获得正样本数据的切片数据集，即正样本的时空切片数据矩阵。其中轨迹数据包含基站的身份标识号（英文：Identity document，ID）信息和时间信息，即进入基站的时间点和离开基站的时间点，基于基站的ID信息可以关联得到基站的坐标位置数据。

作为一种示例，时间切片t的粒度为（1小时、30分钟、15分钟、10分钟、5分钟、1分钟等），空间切片g网格的边长（5千米、2千米、1千米、500米、200米等），按照上述对应的时间切片和空间切片，对正样本数据集、轨迹数据以及基站信息进行切片化处理，获得正样本数据的切片数据集。

然后通过相似度算法计算正样本数据集在对应的时空切片数据矩阵上的轨迹相似度，即可获得相似度阈值。例如，已知两个号码为同一用户在使用，可以将两个号码的时空切片数据计算出来，然后通过相似度算法计算这两个号码的相似度，假如计算得到的相似度为0.9，则认为在这个时空矩阵上相似度大于等于0.9时，一个分组内的两个号码属于一人多号。由于正样本数据集中包含多个数据，因此可以计算正样本数据在对应的时空切片上的相似度均值，计算得到的阈值集合可以为Y={（t₁_g₁：s₁），（t₂_g₂：s₂），…，（t_i_g_i：s_i）}，其中，t_i t，t_i属于时间切片t，g_i/>g，g_i属于空间切片g，s_i为时间切片t_i，空间切片g_i对应的相似度阈值。

由于用户的轨迹信令数据时间连续性强，为减少计算复杂度，因此可以按照预设的时空切片数据矩阵中的时间切片粒度和空间切片粒度对同号候选数据集所对应的轨迹数据进行切片化处理，可以获得同号候选数据的切片数据集，即同号候选数据所对应的时空切片数据矩阵。

作为一种示例，对一天24小时进行时间切片，时间切片个数为t_n，将待识别区域按照网格进行空间切片，空间切片个数为g_n，对于待识别区域中每一个用户号码即每一个用户的轨迹数据构造t_n*g_n维度的时空矩阵，横坐标为时间，纵坐标为空间，若该用户在t时间范围内出现在网格g内，则对应的值为1，否则为0。在时空切片数据矩阵中选择0和1组合的时空编码元素，可以大幅度提高轨迹相似度计算过程中的计算效率。

当一个用户u₁在t₁时间段内的位置在网格g₁和g_n，可以表示为u₁_t₁=[1，0，0，…，1]^T，其中T为矩阵的转置表示法，该用户在t₂时间段内的位置在网格g₂和g₃，可以表示为u₁_t₂=[0，1，1，…，0]^T，依次对用户的轨迹数据进行判断，即可获得一个t_n*g_n的矩阵，可以通过图3来表示，图3为本申请实施例提供的一种时空切片数据矩阵。

S204：通过相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。

由于多号识别没有种子用户，采用普通的时间窗口进行相似度计算时，时间复杂度高，难以实现，因此在本申请实施例中通过梯度下降的方式，不断细分时空维度，构建时空切片数据矩阵，可以降低轨迹相似度计算过程中的时间复杂度。

在一种可能的实施方式中，相似度算法可以为余弦相似度算法，通过余弦相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，可以计算出一个分组内两个用户在每一个时间切片t_i的轨迹相似度，从而可以获得轨迹相似度结果。

作为一种示例，相似度sim为0，I=X轴切片数量，J=Y轴切片数量，余弦相似度算法的计算逻辑可以为for i=0 to I：sim+=f（u₁_t_i，u₂_t_i） sim=sim/I，即从0开始循环计算至X轴的切片数量，相似度sim+等于f函数中用户u₁在每一个时间切片t_i的轨迹相似度加上用户u₂在一个时间切片t_i的轨迹相似度，最后输出一个分组内两个用户的轨迹相似度为sim+的值除以X轴的切片数量。

f（x，y）函数为余弦相似度计算函数，可以通过公式1来表示：

（公式1）

其中，i为X轴切片数量，j为Y轴切片数量，x_i表示用户u₁在t_i时的网格矩阵元素值，y_i表示用户u₂在t_i时的网格矩阵元素值，假设用户u₁和用户u₂在t₁时间段内的位置为：u₁_t₁=[1，0，0，…，1]^T，u₂_t₁=[1，0，0，…，1]^T，用户u₁和用户u₂在t₂时间段内的位置为：u₁_t₂=[0，1，1，…，0]^T，u₂_t₂=[1，0，0，…，1]^T，那么f（u₁_t₁，u₂_t₁）可以通过公式2来表示：

（公式2）

同理，f（u₁_t₂，u₂_t₂）可以通过公式3来表示：

（公式3）

由此，通过上述公式可以计算获得每个分组内用户号码的轨迹相似度结果。

S205：根据相似度阈值对轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成职住数据集中用户号码的识别，获得一人多号的识别数据集。

在一种可能的实施方式中，可以通过相似度阈值对轨迹相似度结果进行筛选，作为一种示例，相似度阈值集合为S={s₁，s₂，…，s_n}，s₁为时间切片t₁，空间切片g₁对应的相似度阈值，根据相似度阈值筛选出相似度大于S₁的数据，并将筛选结果作为下一轮迭代相似度计算的同号候选数据集，直至计算完成职住数据集中用户号码的识别，获得一人多号的识别数据集，一人多号的识别数据集可以为U={（u₁，u₂），（u₃，u₄），（u₄，u₅）}，由此可知，u₁和u₂为同一用户的多个号码，u₃和u₄为同一用户的多个号码，u₄和u₅为同一用户的多个号码，关联可知，u₃和u₅也为同一用户的多个号码。

通过相似度阈值对相似度结果进行过滤，可以过滤掉在t₁时间内不属于一人多号的用户数据，减少了后续迭代相似度计算过程中的计算量。

在本申请实施例中，采用梯度下降的方式细分了时空切片粒度，由于时空切片具有很强的灵活性，因此可以选择用户活动范围较大的时间段进行切片化处理，例如时间切片粒度可以选择上班时间段7点半至9点半之间，空间切片粒度可以选择网格边长为200米，不仅可以提高数据分析的处理性能和效率，还可以更加高效地构建待分析数据集。

然后通过对应的相似度阈值进行筛选，减少了后续的计算数据量，同时还降低了轨迹相似度计算过程中的时间复杂度。

另外，还可以通过验证数据集对一人多号的识别数据集进行验证，获得验证结果，当验证结果满足预设阈值时，即可停止迭代相似度计算，并输出识别数据集，表示本申请实施例提供的一人多号的识别方法可以直接应用，保证了本申请实施例提供的一人多号的识别方法的准确性。其中，预设阈值可以根据验证数据集与识别数据集的比较结果来设定的，例如，预设阈值可以为80%，通过本申请实施例提供的一种一人多号的识别方法对验证数据集进行识别，通过验证数据集对输出的识别数据集进行验证，当验证数据集与识别数据集的比较结果的重合率大于80%时，可以停止迭代相似度计算，直接通过本申请实施例所提供的一人多号的识别方法对待识别区域的用户号码进行识别。

以上为本申请实施例提供的一种一人多号的识别方法，在该方法中，首先对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，职住数据是基于用户号码所在的基站信息确定的。根据职住数据集中的组号进行分组关系匹配，获得同号候选数据集。根据相似度阈值训练模型中的模型参数对同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数。然后，通过相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果。最后，根据相似度阈值对轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成职住数据集中用户号码的识别，获得一人多号的识别数据集，相似度阈值是通过相似度阈值训练模型进行训练得到的。

参见图4，图4为一种一人多号的识别方法的场景结构示意图。

在一种可能的实施方式中，可以在过滤器401中对待识别区域中的用户数据进行过滤，具体地可以包括，根据待识别区域的区域边界AOI信息，对待识别区域进行网格化计算，然后将基站维度数据即基站坐标信息与网格数据进行关联，即进行基站入格计算，可以获得基站网格关联数据。

然后可以对用户职住数据进行数据清洗，用户职住数据（基站级，月/年）中包括基站的ID信息即基站级以及时间信息，包含了基站在某年某月某个时间段的用户职住数据，具体地包含有用户号码、居住基站ID、居住基站坐标点、工作基站ID以及工作基站坐标点，剔除用户职住数据中的物联网数据，获得待计算数据，将基站网格关联数据与待计算数据进行网格化计算，可以在基站网格关联数据中重新进行网格划分，或者可以直接选用基站网格关联数据中的网格，将同职同住网格相同的用户进行分组，即可获得用户职住网格数据（同职同住）。其中，过滤器401可以是基于分布式环境的并行流式处理的数据模块，可以减少待计算数据量，可以充分利用分布式数据服务器的高效处理性能，从而加快数据汇集的处理效率。

然后可以通过分组器402对用户职住网格数据进行职住相同分组计算，每组包含两个用户，基于组号进行分组关系匹配，可以获得同号候选数据集。

在时空切片迭代器404中可以基于同号候选数据集、以及对应地用户轨迹数据和基站维度数据可以进行时空切片计算，其中用户轨迹数据包括基站的ID信息和时间信息，时空切片中包括时间切片和位置切片即空间切片，由此可以获得同号候选数据切片数据集，基于同号候选数据切片数据集进行相似度计算，并根据相似度阈值对相似度结果进行过滤，即可获得过滤后的同号候选数据切片数据集，最后可以基于过滤后的同号候选数据切片数据集进行二次时空切片，即通过过滤后的同号候选数据切片数据集进行迭代相似度计算。

其中，相似度阈值是通过阈值训练器403进行训练得到的，在阈值训练器403中，可以根据正样本数据集、以及对应的用户轨迹数据和基站维度数据进行时空切片计算，时空切片中包括时间切片和位置切片即空间切片，然后对时空切片的结果进行相似度计算，即可获得相似度阈值。

最后还可以对过滤后的同号候选数据切片数据集进行验证，可以通过模型判别器405对时空切片迭代器404的结果进行验证，可以基于样本数据集对过滤后的同号候选数据切片数据集进行验证，当验证结果的准确率满足预设阈值时，可以停止迭代相似度计算，直接应用时空切片迭代器404进行一人多号的识别，并输出时空切片迭代器404的计算结果。若验证结果的准确率不满足预设阈值时，则输入到时空切片迭代器404重新进行时空切片迭代计算。其中，预设阈值可以通过样本数据集和过滤后的同号候选数据切片数据集之间的比较结果来设定。

可见，在本申请实施例中基于用户的轨迹数据，通过梯度下降的方式细分时空切片粒度，计算用户时空切片轨迹相似度，从而输出一人多号的识别数据集的方式不仅减少了轨迹相似度计算过程中的计算量还降低了计算过程中的时间复杂度。

以上为本申请实施例提供一人多号的识别方法的一些具体实现方式，基于此，本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。

参见图5，该图为本申请实施例提供的一种一人多号的识别装置500的结构示意图，该装置500可以包括：

分组模块501，用于对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，所述职住数据是基于用户号码所在的基站信息确定的；

匹配模块502，用于根据所述职住数据集中的组号进行分组关系匹配，获得同号候选数据集；

切片化处理模块503，用于根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，所述相似度阈值训练模型中的模型参数包括时间切片参数和空间切片参数；

计算模块504，用于通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果；

识别模块505，用于根据相似度阈值对所述轨迹相似度结果进行筛选，将筛选结果作为新一轮的同号候选数据集进行迭代相似度计算，直至完成所述职住数据集中用户号码的识别，获得一人多号的识别数据集，所述相似度阈值是通过所述相似度阈值训练模型进行训练得到的。

在本申请实施例中，通过分组模块501、匹配模块502、切片化处理模块503、计算模块504和识别模块505的配合，首先将相同职住数据的用户号码进行分组，然后根据组号进行分组关系匹配，即可获得同号候选数据集，从而可以初步减少用户号码轨迹相似度的计算量。再根据相似度算法对同号候选数据的切片数据集中的轨迹数据进行相似度计算，通过相似度阈值对相似度结果进行筛选，可以有效减少计算量，最后将筛选后的结果作为新一轮的同号候选数据集进行迭代相似度计算，从而完成一人多号的识别过程，通过梯度下降的方式减少了识别过程中的计算量，易于实现。

作为一种实施方式，分组模块501包括：

作为一种实施方式，所述相似度阈值的获取步骤，包括：

作为一种实施方式，计算模块504，包括：

作为一种实施方式，切片化处理模块503，包括：

作为一种实施方式，一人多号的识别装置500还包括：

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例提供的方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以使所述设备执行本申请任一实施例所述的一人多号的识别方法。

所述计算机存储介质中存储有计算机程序，当所述代码被运行时，运行所述计算机程序的设备实现本申请任一实施例所述的一人多号的识别方法。

本申请实施例中提到的“第一”、“第二”（若存在）等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器（英文：read-only memory，ROM）/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者诸如路由器等网络通信设备）执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种一人多号的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待识别区域中用户的职住数据进行网格化处理，并基于网格化处理得到的职住网格数据集，将相同职住数据的用户号码进行分组，获得职住数据集，包括：

对待识别区域进行网格化处理，获得网格化数据集；

3.根据权利要求1所述的方法，其特征在于，所述相似度阈值的获取步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过相似度算法对所述同号候选数据的切片数据集中的轨迹数据进行相似度计算，获得轨迹相似度结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据相似度阈值训练模型中的模型参数对所述同号候选数据集的轨迹数据进行切片化处理，获得同号候选数据的切片数据集，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述验证结果满足预设阈值时，停止迭代相似度计算。

7.一种一人多号的识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述分组模块包括：

9.一种一人多号的识别设备，其特征在于，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以使所述设备执行如权利要求1至6任一项所述一人多号的识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一人多号的识别方法。