CN109697454A

CN109697454A - 一种基于隐私保护的跨设备个体识别方法及装置

Info

Publication number: CN109697454A
Application number: CN201811314220.6A
Authority: CN
Inventors: 邓皓文; 张�诚; 易岚; 陈宇新
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-30
Anticipated expiration: 2038-11-06
Also published as: CN109697454B

Abstract

本申请公开了一种基于隐私保护的跨设备个体识别方法及装置，涉及数据处理及识别技术领域，所述方法包括：根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号，在第二设备的第二脱敏数据集中识别对应的第二账号；根据识别的第一账号和识别的第二账号生成第一样本集；统计第一样本集的第一变量信息并计算第一特征值；根据第一样本集、第一变量信息、第一特征值生成训练集并进行机器学习，得到预测模型；根据未识别的第一账号和第二账号生成预测集；使用预测模型对预测集进行预测，得到预测结果。本申请中，实现了基于隐私保护的跨设备、跨网络个体识别，对隐私保护、商业应用创新以及数据交易等具有重大意义。

Description

一种基于隐私保护的跨设备个体识别方法及装置

技术领域

本申请涉及数据处理及识别技术领域，尤其涉及一种基于隐私保护的跨设备个体识别方法及装置。

背景技术

在移动端设备迅速发展的同时，同一个用户可能同时拥有两部手机、两台电脑、一个平板、一个智能手表。而随着智能穿戴、出行设备的互联网化，该用户还可能拥有VR头盔、互联网汽车以及众多智能家居产品等，因此，单一用户的注意力将在不同的时间和场景被不同的设备分割。这种情况下，跨设备的个体识别信息(以下简称为ID，用于标识对应的个体/个体对象)的识别将成为整合碎片化用户数据、实现精准广告投放等必不可少的工具，是否支持跨设备ID识别也越来越成为广告主进行广告投放时的重要参考指标。此外，如何将PC端和移动端的数据打通，盘活PC端之前积累的用户数据并在移动端实现这些用户的重定向营销，以及如何精准识别不同设备背后的同一用户，合理控制同一广告在用户处播放的频次，也已成为广告投放的重要诉求。而企业往往并不了解来自跨设备跨网络的ID是否属于同一用户，比如移动环境中的手机IMEI号和PC环境中的网卡号。同时，受到来自法律、隐私保护、商业利益保护等多方面原因，公司跨设备跨网络收集的ID(例如，用户身份证号、护照号、驾驶证、手机号、信息、姓名、住所、驾驶车架号等)，即便可以用于识别用户，但是在公司外部环境中则需要加密或脱敏得到脱敏数据集后才能使用。

上述情况可定义为跨网络、跨设备以及脱敏数据集使得数据使用者不能实现信息融合的问题。

当前，随着智能物联的快速发展，以及多种互联网渠道的发展，对跨设备、跨网络数据的隐私保护融合需求将越来越大，不仅涉及广告服务、品牌公司多渠道用户管理、健康医疗多源数据融合、航空、汽车、保险、制造等领域的用户数据的联合引用，而且将成为大部分集成平台在数据集成层面的隐私保护数据融合算法核心。其实际需求场合包括但不限于以下：

跨平台广告投放。例如，一家电商平台公司根据客户在社交媒体的行为记录、在其他电商平台的消费记录进行ID识别，以精确投放广告；

防止恶意流量。例如，一家数据库公司通过跨设备ID识别出恶意访问的IP(更换不同IP进行高流量访问，以非法窃取数据库资料)，并准确屏蔽此类IP。

医疗健康平台的群体匹配。例如，将人群的生理、病理、诊疗数据匹配社会媒体数据预测某流行病(如流感)群体的后续影响，从而更准确地监控和预测某类流行病在区域内的扩散。

因此，高效地进行跨设备ID识别，对隐私保护、商业应用创新和数据交易具有非常重大的现实意义，然而当前却一直没有有效的方法对于跨设备、跨网络的多套脱敏数据集的进行融合。

发明内容

为解决现有技术的不足，本申请提出一种基于隐私保护的跨设备个体识别方法及装置。

一方面，本申请提出一种基于隐私保护的跨设备个体识别方法，包括：

根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号，在第二设备的第二脱敏数据集中识别对应的第二账号；

根据识别的第一账号和识别的第二账号生成第一跨设备账号样本，得到第一样本集；

统计所述第一样本集的第一变量信息，根据所述第一变量信息计算第一特征值；

根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集，对所述训练集进行机器学习，得到预测模型；

根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集；

使用所述预测模型对所述预测集进行预测，得到所述第二跨设备账号组合是否为同一用户的预测结果。

可选的，所述根据识别的第一账号和识别的第二账号生成第一跨设备账号样本，得到第一样本集，包括：

将识别的各用户标识对应的第一账号和第二账号对应作为部分第一跨设备账号样本，并添加第一标识；

依次将所述部分第一跨设备账号样本中的任意两个所含有的第一账号与第二账号交叉对应作为另一部分第一跨设备账号样本，并添加第二标识；

将添加了所述第一标识的第一跨设备账号样本与添加了所述第二标识的第一跨设备账号样本随机打乱；

分离出打乱的第一标识和第二标识作为标识集合，并将打乱的第一跨设备账号样本作为第一样本集。

可选的，所述统计所述第一样本集的第一变量信息，包括：

根据所述第一样本集中的各第一账号在所述第一脱敏数据集中读取对应的第一记录数据；

根据所述第一样本集中的各第二账号在所述第二脱敏数据集中读取对应的第二记录数据；

分析各第一跨设备账号样本对应的第一记录数据和所述第二记录数据，得到对应的各共有变量集；

对所述第一记录数据和所述第二记录数据中的定性变量，以及所述共有变量集中的各变量进行统一数字化编码；

对各第一跨设备账号样本对应的统一数字化编码之后的第一记录数据和第二记录数据分别进行聚合统计，得到对应的第一聚合统计量和第二聚合统计量。

可选的，所述第一聚合统计量包括第一连续变量和第一离散变量，所述第二聚合统计量包括第二连续变量和第二离散变量；

所述根据所述第一变量信息计算第一特征值，包括：

计算所述共有变量集中各共有变量的第一对比量；

根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量；

根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量。

可选的，所述根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量，包括：

在所述第一样本集中读取第一预设数量的样本，作为第一样本子集；

将所述第一样本子集中各样本对应的第一连续变量和第二连续变量随机组合得到多个连续变量组，确定各连续变量组的重要性；

根据所述各连续变量组的重要性，在所述各连续变量组中筛选出第一预设比例的重要连续变量组，作为第一重要变量组；

在所述第一样本集中各样本对应的第一连续变量和第二连续变量中筛选出所述第一重要变量组，计算筛选的各第一重要变量组中两个连续变量的对比量，并作为第二对比量。

可选的，所述确定各连续变量组的重要性，包括：

确定满足第一预设条件的连续变量组；

对满足所述第一预设条件的各连续变量组进行预设运算，将运算结果保存至连续变量池；

对所述连续变量池中的各运算结果及所述标识集合进行机器学习，得到所述各连续变量组的重要性。

可选的，所述根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量，包括：

将所述第一样本子集中各样本对应的第一离散变量和第二离散变量随机组合得到多个离散变量组，确定各离散变量组的重要性；

根据所述各离散变量组的重要性，在所述各离散变量组中筛选出第二预设比例的重要离散变量组，作为第二重要变量组；

在所述第一样本集中各样本对应的第一离散变量和第二离散变量中筛选出所述第二重要变量组，计算筛选的各第二重要变量组中两个离散变量的对比量，并作为第二对比量。

可选的，所述确定各离散变量组的重要性，包括：

计算所述第一样本子集中各样本对应的各离散变量组中两个离散变量的对比量，并添加至离散变量池；

对所述离散变量池中的各对比量及所述标识集合进行机器学习，得到所述各离散变量组的重要性。

可选的，方法还包括：根据所述第一聚合统计量、第二聚合统计量、第一重要变量组、第二重要变量组、第一对比量、第二对比量、第三对比量及所述第一样本集，生成第二样本集；

对应的，所述根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集，包括：

根据所述第二样本集生成第三样本集；

按照第三预设比例将所述第三样本集划分为训练集、第一验证集、第二验证集。

可选的，所述根据所述第二样本集生成第三样本集，包括：

将所述第二样本集中预设类型的数值替换为相应的替代值后，读取第二预设数量的新样本作为第二样本子集；

对所述第二样本子集及所述标识集合进行机器学习，得到所述第二样本子集中的第一重要变量组和第二重要变量组中各重要变量组的重要性；

根据所述各重要变量组的重要性，在所述第二样本子集中的第一重要变量组和第二重要变量组中筛选出第四预设比例的重要变量组，作为第三重要变量组；

去除所述第二样本集中除所述第三重要变量组外的其他重要变量组得到第三样本集。

可选的，所述对所述训练集进行机器学习，得到预测模型，包括：

分别在所述训练集、第一验证集、第二验证集中提取部分样本，作为第三样本子集；

将所述第三样本子集作为系统模型的输入数据，进行迭代调参，得到最优参数集；

使用所述最优参数集对所述训练集进行训练，并基于所述第一验证集进行验证后得到预测模型；

将所述第二验证集输入所述预测模型进行学习，得到所述预测模型的准确度指标。

可选的，所述根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集，包括：

将未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号彼此任意组合，得到各第二跨设备账号样本，并构成第一预测子集；

统计所述第一预测集的第二变量信息；

根据所述第二变量信息和所述第一预测子集，生成第二预测子集；

计算所述第二预测子集中含有的所述第三重要变量的第二特征值；

根据所述第二特征值和所述第二预测子集，生成预测集。

另一方面，本申请提出一种基于隐私保护的跨设备个体识别装置，包括：

识别模块，用于根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号，在第二设备的第二脱敏数据集中识别对应的第二账号；

第一生成模块，用于根据所述识别模块识别的第一账号和第二账号，生成含有第一跨设备账号组合的第一样本集；

第一统计模块，用于统计所述第一样本集的第一变量信息；

第一计算模块，用于根据所述第一变量信息计算第一特征值；

第二生成模块，用于根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集；

训练模块，用于对所述训练集进行机器学习，得到预测模型；

第三生成模块，用于根据所述识别模块未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集；

预测模块，用于使用所述预测模型对所述预测集进行预测，得到所述第二跨设备账号组合是否为同一用户的预测结果。

本申请的优点在于：

本申请中，基于跨设备或者跨设备、跨网络的第一脱敏数据集和第二脱敏数据集、以及部分唯一的用户识别码，通过对两个脱敏数据集进行融合，构建已知的跨设备账号组合、统计相关数据的变量信息、计算特征值并与机器学习相结合，训练预测模型，从而利用该预测模型对未知的跨设备或者跨设备、跨网络的账号组合中的两个账号是否为同一用户进行预测，实现了基于隐私保护的跨设备、跨网络个体识别，对隐私保护、商业应用创新以及数据交易等具有重大意义。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1为根据本申请实施方式的一种基于隐私保护的跨设备网络个体识别方法流程图；

附图2为步骤102的细化流程图；

附图3为步骤103中统计第一样本集的第一变量信息的细化流程图；

附图4为步骤103中计算第一特征值的细化流程图；

附图5为步骤B2的细化流程图；

附图6为步骤B3的细化流程图；

附图7为步骤104的细化流程图；

附图8为步骤104-1的细化流程图；

附图9为步骤105的细化流程图；

附图10为步骤106的细化流程图；

附图11为根据本申请实施方式的一种基于隐私保护的跨设备个体识别装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

根据本申请的实施方式，提出一种基于隐私保护的跨设备个体识别方法，如图1所示，包括：

步骤101：根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号，在第二设备的第二脱敏数据集中识别对应的第二账号；

其中，用户识别码为用户的唯一标识；第一设备与第二设备为不同的设备，还可以为不同网络环境中的不同设备；第一脱敏数据集包括各用户在第一设备上的脱敏后的第一账号，以及第一账号对应的各第一记录数据；第二脱敏数据集包括各用户在第二设备上的第二账号，以及第二账号对应的各第二记录数据。

例如，第一设备为PC端设备(电脑)，第二设备为移动端设备(手机)；根据用户1的识别码acdg125在PC端设备的第一脱敏数据集中识别对应的第一账号为jingdong123，在移动端设备的第二脱敏数据集中识别对应的第二账号为taobao234；根据用户2的识别码xrty789在PC端设备的第一脱敏数据集中识别对应的第一账号为111jingdong，在移动端设备的第二脱敏数据集中识别对应的第二账号为222taobao。

步骤102：根据识别的第一账号和识别的第二账号，生成含有第一跨设备账号组合的第一样本集；

根据本申请的实施方式，如图2所示，步骤102包括：

步骤102-1：将识别的各用户标识对应的第一账号和第二账号对应作为部分第一跨设备账号样本，并添加第一标识；

其中，第一标识用于标记对应的第一跨设备账号样本中的第一账号和第二账号对应于同一个用户。

例如，将上述识别的第一账号jingdong123与第二账号taobao234对应作为第一跨设备账号样本，并添加第一标识“1”；将第一账号111jingdong与第二账号222taobao对应作为另一个第一跨设备账号样本，并添加第一标识“1”。

步骤102-2：依次将所述部分第一跨设备账号样本中的任意两个所含有的第一账号与第二账号交叉对应作为另一部分第一跨设备账号样本，并添加第二标识；

其中，第二标识用于标记对应的第一跨设备账号样本中的第一账号与第二账号不是同一用户。

例如，将上述两个第一跨设备账号样本中的第一账号与第二账号交叉，得到另一部分的第一跨设备账号样本jingdong123与222taobao，并添加第二标识“0”，以及111jingdong与taobao234，并添加第二标识“0”。

步骤102-3：将添加了第一标识的第一跨设备账号样本与添加了第二标识的第一跨设备账号样本随机打乱；

步骤102-4：分离出打乱的第一标识和第二标识作为标识集合，并将打乱的第一跨设备账号样本作为第一样本集。

其中，第一样本集记为X1＝{Kc_i，Kd_i}，其中，0<i<N，N为第一跨设备账号样本的总个数，Kc_i为第i个第一跨设备账号样本中的第一账号，Kd_i第i个第一跨设备账号样本中的第二账号。

步骤103：统计第一样本集的第一变量信息，根据统计的第一变量信息计算第一特征值；

根据本申请的实施方式，如图3所示，步骤103中统计第一样本集的第一变量信息，包括：

步骤A1：根据第一样本集中的各第一账号在第一脱敏数据集中读取对应的第一记录数据；

本申请中，步骤A1还可以包括：根据第一样本集中的各第一账号和读取的各第一记录数据生成第一数据集C＝{Kc_i，Rc_i}，其中，Rc_i为第i个第一跨设备账号样本中的第一账号Kc_i对应的第一记录数据。

例如，用户1的第一账号jingdong123对应的第一记录数据为用户1通过PC端设备在京东购物商城中的购物记录、收藏店铺、该PC端设备所连网络的网络信息等。

步骤A2：根据第一样本集中的各第二账号在第二脱敏数据集中读取对应的第二记录数据；

本申请中，步骤A2还可以包括：根据第一样本集中的各第二账号和读取的各第二记录数据生成第二数据集D＝{Kd_i，Rd_i}，其中，Rd_i为第i个第一跨设备账号样本中的第二账号Kd_i对应的第二记录数据。

例如，用户1的第二账号taobao234对应的第二记录数据为用户1通过移动端设备在淘宝中的购物记录、收藏店铺记录、该PC端设备所连网络的网络信息等。

步骤A3：分析各第一跨设备账号样本对应的第一记录数据和第二记录数据，得到对应的各共有变量集；

具体的，将各第一记录数据和各第二记录数据中的各信息作为变量，根据各变量的变量名称、变量说明、变量取值范围、变量类型等，确定各第一跨设备账号样本对应的第一记录数据与第二记录数据中相同的变量，并作为共有变量集。

例如，用户1的第一记录数据中的其中一条包括购买商品名称矿泉水、购买时间20181003、金额150元、收件人姓名王某、收件人地址北京某小区1单元101室等变量；另一条包括购买商品名称衣服，购买店铺名称aaaa；第一记录数据中的收藏的店铺的数量为30个。用户1的第二记录数据中的其中一条包括购买商品名称衣服、购买店铺名称bbbb，购买时间20180925、金额300元、收件人姓名李某、收件人地址北京某小区1单元101室等变量；第二记录数据中的收藏的店铺的数量为30个。其中，收件人地址相同、商品名称衣服相同、收藏的店铺的数量相同，均作为用户1的第一记录数据与第二记录数据的共有变量；同时，店铺名称aaaa与店铺名称bbbb均为卖衣服的店铺，类型相同，也作为共有变量。

步骤A4：对各第一记录数据和各第二记录数据中的定性变量，以及共有变量集中的各变量进行统一数字化编码；

其中，定性变量例如为商品种类、店铺名称、地理位置、网络信息等变量；优选的，数字化编码采用从0开始的整数，从而各第一记录数据和各第二记录数据中的所有变量均为数字形式的变量。

例如，在第一记录数据和第二记录数据中均出现了地点北京，则对第一记录数据中的北京和第二记录数据中的北京，采用同一个编码(例如为1)；又如，共有变量中的店铺名称aaaa与店铺名称bbbb，由于店铺名称不同，分别采用不同的编码，如店铺名称aaaa的编码为4，店铺名称bbbb的编码为5。

步骤A5：对各第一跨设备账号样本对应的统一数字化编码之后的第一记录数据和第二记录数据分别进行聚合统计，得到对应的第一聚合统计量和第二聚合统计量。

其中，第一聚合统计量包括第一连续变量和第一离散变量，第二聚合统计量包括第二连续变量和第二离散变量；第一连续变量和第二连续变量包括最小值、最大值、均值、标准差、偏度等；第一离散变量和第二离散变量包括唯一值数、众数、首条数据、末条数据等；

例如，用户1的第一记录数据包括4个购买记录，其中第1个购买记录包括商品名称衣服、价格200元等变量，第2个购买记录包括商品名称足球、价格500元，第3个购买记录包括商品名称矿泉水、价格150元，第4个购买记录包括商品名称衣服、价格350元。统计得到第一连续变量包括最小值(最低价格)150、最大值(最高价格)500、均值(平均价格)300等，第一离散变量包括唯一值数(商品种类)3、众数(不同商品种类购买次数的最大值)2、首条数据为第1个购买记录、末条数据为第4个购买记录等。

根据本申请的实施方式，步骤A5之前，还包括：对各第一记录数据和各第二记录数据中可挖掘信息的变量进行转换或拆分，得到挖掘信息。

例如，某一时间变量为201810011238，则按4:2:2:2:2位数拆分成2018年10月01日12点38分5个连续变量，并根据日历信息生成星期数和是否放假2个信息。

根据本申请的实施方式，如图4所示，步骤103中根据第一变量信息计算第一特征值，包括：

步骤B1：计算共有变量集中各共有变量的第一对比量；

具体的，对共有变量集中的连续型共有变量计算差值，将计算的差值作为第一对比量；离散型共有变量比较是否相同并添加标记，将添加的标记作为第一对比量；其中，连续型共有变量例如购买价格、购买次数、收藏店铺的数量、购物车中商品的数量等；离散型共有变量例如购买商品的商品类型、店铺等。

例如，某个第一跨设备账号样本对应的第一数据记录和第二数据记录，具有的连续型共有变量为属于同一取值区间范围的购买价格，第一数据记录对应的购买价格为300元，第二数据记录对应的购买价格为290元，对应的第一对比量为300-290＝10；具有的离散型共有变量为类型相同的店铺，第一数据记录对应的是店铺名称aaaa，编码是4，第二数据记录对应的是店铺名称bbbb，编码是5，二者不相同，标记0，即对应的第一对比量为0。

步骤B2：根据第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量；

根据本申请的实施方式，如图5所示，步骤B2包括：

步骤B2-1：在第一样本集中读取第一预设数量的样本，作为第一样本子集；

其中，第一预设数量可根据样本的实际数量自行设定，例如为10万。

步骤B2-2：将第一样本子集中各样本对应的第一连续变量和第二连续变量随机组合得到多个连续变量组，确定各连续变量组的重要性；

例如，将某个样本对应的第一连续变量中的最小值与第二连续变量中的最大值对应作为连续变量组，将第一连续变量中的均值与第二连续变量中的最小值对应作为另一个连续变量组。

进一步的，步骤B2-2中，确定各连续变量组的重要性，包括：

步骤C1：确定满足第一预设条件的连续变量组；

具体的，依次计算各连续变量组中的第一连续变量的量纲与第二连续变量的量纲的差值，并判断所述差值是否小于预设数据，是则判定对应的连续变量组满足第一预设条件，否则判定对应的连续变量组不满足第一预设条件。

其中，量纲以10的n次幂为基准，n即为量纲；

例如，预设数据为2，某个连续变量组中的第一连续变量是最小值150，其对应的基准为10²，则量纲是2；第二连续变量是最大值1200，其对应的基准为10³，则量纲是3，二者的差值是1，小于2，判定该连续变量组满足第一预设条件。

步骤C2：对满足第一预设条件的连续变量组进行预设运算，将运算结果保存至连续变量池；

具体的，对满足第一预设条件的连续变量组中的第一连续变量和第二连续变量分别求商和乘积，并将求得的商和乘积保存至连续变量池。

例如，某个连续变量组中的第一连续变量是最小值150，第二连续变量是最大值1200，则求商为150/1200＝0.125，乘积为150*1200＝180000。

步骤C3：对连续变量池中的各运算结果及所述标识集合进行机器学习，得到所述各连续变量组的重要性。

根据本申请的实施方式，步骤C3之前，还包括：

判断是否所有的连续变量组均已进行上述预设运算，是则执行步骤C3，否则判断连续变量池中的运算结果的数量是否到达第三预设数量，是则执行步骤C3，否则继续执行步骤C2。

其中，第三预设数量可根据变量的实际数量进行设定，例如为500。

步骤B2-3：根据所述各连续变量组的重要性，在所述各连续变量组中筛选出第一预设比例的重要连续变量组，作为第一重要变量组；

步骤B2-4：在第一样本集中各样本对应的第一连续变量和第二连续变量中筛选出所述第一重要变量组，计算筛选的各第一重要变量组中两个连续变量的对比量，并作为第二对比量。

其中，计算筛选的各第一重要变量组中两个连续变量的对比量，具体为：计算筛选的各第一重要变量组中两个连续变量的差值。

例如，某个第一重要变量组中的第一连续变量是最小值150，第二连续变量是最大值1200，则差值为150-1200＝-1050。

步骤B3：根据第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量。

根据本申请的实施方式，如图6所示，步骤B3包括：

步骤B3-1：将所述第一样本子集中各样本对应的第一离散变量和第二离散变量随机组合得到多个离散变量组，确定各离散变量组的重要性；

例如，将某个样本对应的第一离散变量中的唯一值数与第二连续变量中的众数对应作为离散变量组。

进一步的，步骤B3-1中，确定各离散变量组的重要性，包括：

步骤F1：计算所述第一样本子集中各样本对应的各离散变量组中两个离散变量的对比量，并添加至离散变量池；

具体的，判断所述第一样本子集中各样本对应的各离散变量组中的第一离散变量与第二离散变量是否相等，并将对应的标记添加至离散变量池。

例如，某个样本对应的离散变量组中的第一离散变量为唯一值数200，第二连续变量为众数150，二者不相等，将赌赢的标记0添加至离散变量池。

步骤F2：对所述离散变量池中的各对比量及所述标识集合进行机器学习，得到所述各离散变量组的重要性。

根据本申请的实施方式，步骤F2之前，还包括：

判断所述第一样本子集中各样本对应的各离散变量组中两个离散变量的对比量是否均计算完成，是则执行步骤F2，否则判断所述离散变量池中的对比量的数量是否到达第四预设数量，是则执行步骤F2，否则继续执行步骤F1。

其中，第四预设数量与第三预设数量可以相同也可以不同，例如，本申请中，第四数量与第三数量相同，均为500。

步骤B3-2：根据所述各离散变量组的重要性，在所述各离散变量组中筛选出第二预设比例的重要离散变量组，作为第二重要变量组；

其中，第二预设比例与第一预设比例可以相同也可以不同，例如，本申请中，第二预设比例与第一预设比例相同，均为前20％。

步骤B3-3：在所述第一样本集中各样本对应的第一离散变量和第二离散变量中筛选出所述第二重要变量组，计算筛选的各第二重要变量组中两个离散变量的对比量，并作为第二对比量。

根据本申请的实施方式，方法还包括：

步骤I：根据所述第一聚合量、第二聚合量、第一重要变量组、第二重要变量组、第一对比量、第二对比量、第三对比量及第一样本集生成第二样本集；

可选的，步骤I为步骤B3之后执行的步骤，具体地，将所述第一聚合量、第二聚合量、第一重要变量组、第二重要变量组、第一对比量、第二对比量、第三对比量均与第一样本集中相应的第一各跨设备账号样本建立关联作为新样本，得到第二样本集。第二样本集记为X2＝{Kc_i，Kd_i，Rc_i ^*，Rd_i ^*，p_1i，t_1i，p_2i，t_2i，p_3i}，其中，Rc_i ^*为第i个第一跨设备账号样本对定的第一聚合量，Rd_i ^*为第i个第一跨设备账号样本对定的第二聚合量，p_1i为第i个第一跨设备账号样本对定的第一对比量，t_1i为第i个第一跨设备账号样本对定的第一重要变量组，p_2i为第i个第一跨设备账号样本对定的第二对比量，t_2i为第i个第一跨设备账号样本对定的第二重要变量组，p_3i第i个第一跨设备账号样本对定的第三对比量。

或者，步骤I包括步骤A5之后执行的步骤A6、步骤B1之后执行的步骤B1’、步骤B2之后执行的步骤B2’、步骤B3之后执行的步骤B3’，具体如下：

步骤A6：根据所述第一聚合统计量、所述第二聚合统计量及第一样本集，生成第四样本集；

具体的，将所述第一聚合统计量和所述第二聚合统计量与第一样本集中相应的第一各跨设备账号样本建立关联并作为第一合并样本，得到第四样本集；第四样本集记为X4＝{Kc_i，Kd_i，Rc_i ^*，Rd_i ^*}。

步骤B1’：根据所述第一对比量和第四样本集，生成第五样本集；

具体的，将所述第一对比量与第四样本集中相应的第一合并样本建立关联并作为第二合并样本，得到第五样本集；第五样本集记为X5＝{Kc_i，Kd_i，Rc_i ^*，Rd_i ^*，p_1i}。

步骤B2’：根据所述第一重要变量组、所述第二对比量和所述第五样本集，生成第六样本集；

具体的，将所述第一重要变量组、所述第二对比量与第五样本集中相应的第二合并样本建立关联并作为第三合并样本，得到第六样本集；第六样本集记为X6＝{Kc_i，Kd_i，Rc_i ^*，Rd_i ^*，p_1i，t_1i，p_2i}。

步骤B3’：根据所述第三对比量和第六样本集生成第二样本集；

具体的，将所述第三对比量与第六样本集中相应的第三合并样本建立关联并作为所述新样本，得到第二样本集；第二样本集记为X2＝{Kc_i，Kd_i，Rc_i ^*，Rd_i ^*，p_1i，t_1i，p_2i，t_2i，p_3i}。

步骤104：根据第一样本集、第一变量信息及第一特征值生成训练集；

根据本申请的实施方式，如图7所示，步骤104包括：

步骤104-1：根据所述第二样本集生成第三样本集；

优选的，如图8所示，步骤104-1包括：

步骤104-1-1：将第二样本集中预设类型的数值替换为相应的替代值后，读取第二预设数量的第二样本作为第二样本子集；

其中，预设类型包括异常值、无穷大值等，优选的，将异常值替换为nan，将无穷大值替换为对应变量的最大值加1；异常值例如为在求商时，分子为零的值。

进一步的，第二预设数量可以根据第二样本集中新样本的数量自行设定，例如为100万。

步骤104-1-2：对第二样本子集及所述标识集合进行机器学习，得到所述第二样本子集中的第一重要变量组和第二重要变量组中各重要变量组的重要性；

步骤104-1-3：根据所述各重要变量组的重要性，在所述第二样本子集中的第一重要变量组和第二重要变量组中筛选出第三预设比例的重要变量组，作为第三重要变量组；

其中，第三预设比例，与第一预设比例和第二预设比例可以相同也可以不同。

步骤104-1-4：去除所述第二样本集中除所述第三重要变量组外的其他重要变量组得到第三样本集。

步骤104-2：按照第四预设比例将第三样本集划分为训练集、第一验证集、第二验证集。

其中，第四预设比例优选为8:1:1。

步骤105：对训练集进行机器学习，得到预测模型；

根据本申请的实施方式，如图9所示，步骤105包括：

步骤105-1：分别在所述训练集、第一验证集、第二验证集中提取部分样本，作为第三样本子集；

优选的，按照所述第四预设比例分别在所述训练集、第一验证集、第二验证集中提取部分样本，作为第三样本子集。

步骤105-2：将第三样本子集作为系统模型的输入数据，进行迭代调参，得到最优参数集；

其中，系统模型优选为贝叶斯模型；具体的，设定贝叶斯模型的空间参数和最优目标，并将第三样本子集作为输入数据输入该模型，进行预设次数的迭代调参，得到最优参数集。

进一步的，最优目标优选为默认曲线下的面积AUC不再改变。

步骤105-3：使用得到的最优参数集对所述训练集进行训练，并基于所述第一验证集进行验证后得到预测模型；

具体的，使用得到的最优参数集对所述训练集进行二分类机器学习，得到初始模型；将第一验证集输入所述初始模型进行验证，当曲线下的面积AUC连续多次(例如200次)不变，或者迭代次数达到默认次数(例如50000次)时，将对应的模型作为预测模型。

步骤105-4：将第二验证集输入预测模型进行学习，得到预测模型的准确度指标。

其中，准确度指标可以根据需求自行设定，例如曲线下的面积AUC，召回率(RECALL)等。

步骤106：根据未识别的第一脱敏数据集中的各第一账号和未识别的第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集；

根据本申请的实施方式，如图10所示，步骤106包括：

步骤106-1：将未识别的第一账号和未识别的第二账号彼此任意组合，得到各第二跨设备账号样本，并构成第一预测子集；

步骤106-2：统计第一预测集的第二变量信息；

本申请中，统计第一预测集的第二变量信息的方法，与步骤103中统计第一样本集的第一变量信息的方法相同，在此不再详述。

步骤106-3：根据第二变量信息和第一预测子集，生成第二预测子集；

具体的，将第二变量信息与第一预测子集中相应的第二跨设备账号样本关联并作为第一预测样本，得到第二预测子集；

步骤106-4：计算第二预测子集中含有的所述第三重要变量的第二特征值；

具体的，根据第三重要变量中的变量名称，在第二预测子集中查找相应的变量，并计算对应的第二特征值；

进一步的，第二特征值与第一特征值相同，包括第一对比量、第二对比量和第三对比量，第二特征值的计算方法与第一特征值的计算方法也相同，在此不再详述。

步骤106-5：根据所述第二特征值和所述第二预测子集，生成预测集。

具体的，将第二特征值与所述第二预测子集中相应的第一预测样本关联并作为第二预测样本，得到预测集。

步骤107：使用预测模型对预测集进行预测，得到各第二跨设备账号组合是否为同一用户的预测结果。

至此，本申请中，基于跨设备或者跨设备、跨网络的第一脱敏数据集和第二脱敏数据集、以及部分唯一的用户识别码，通过对两个脱敏数据集进行融合，构建已知的跨设备账号组合、统计相关数据的变量信息、计算特征值并与机器学习相结合，训练预测模型，从而利用该预测模型对未知的跨设备或者跨设备、跨网络的账号组合中的两个账号是否为同一用户进行预测，实现了基于隐私保护的跨设备、跨网络个体识别，对隐私保护、商业应用创新以及数据交易等具有重大意义。

实施例二

根据本申请的实施方式，还提出一种基于隐私保护的跨设备个体识别装置，如图11所示，包括：

识别模块201，用于根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号，在第二设备的第二脱敏数据集中识别对应的第二账号；

第一生成模块202，用于根据识别模块201识别的第一账号和第二账号生成第一跨设备账号样本，得到第一样本集；

第一统计模块203，用于统计所述第一样本集的第一变量信息；

第一计算模块204，用于根据所述第一变量信息计算第一特征值；

第二生成模块205，用于根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集；

训练模块206，用于对所述训练集进行机器学习，得到预测模型；

第三生成模块207，用于根据识别模块201未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集；

预测模块208，用于使用所述预测模型对所述预测集进行预测，得到所述第二跨设备账号组合是否为同一用户的预测结果。

根据本申请的实施方式，第一生成模块202包括：第一对应子模块、第二对应子模块、打乱子模块和分离子模块，其中：

第一对应子模块，用于将识别的各用户标识对应的第一账号和第二账号对应作为部分第一跨设备账号样本，并添加第一标识；

第二对应子模块，用于依次将所述部分第一跨设备账号样本中的任意两个所含有的第一账号与第二账号交叉对应作为另一部分第一跨设备账号样本，并添加第二标识；

打乱子模块，用于将添加了所述第一标识的第一跨设备账号样本与添加了所述第二标识的第一跨设备账号样本随机打乱；

分离子模块，用于分离出打乱的第一标识和第二标识作为标识集合，并将打乱的第一跨设备账号样本作为第一样本集。

根据本申请的实施方式，第一统计模块203包括：第一读取子模块、第二读取子模块、分析子模块、编码子模块和聚合子模块，其中：

第一读取子模块，用于第一根据所述第一样本集中的各第一账号在所述第一脱敏数据集中读取对应的第一记录数据；

第二读取子模块，用于根据所述第一样本集中的各第二账号在所述第二脱敏数据集中读取对应的第二记录数据；

分析子模块，用于分析各第一跨设备账号样本对应的第一记录数据和所述第二记录数据，得到对应的各共有变量集；

编码子模块，用于对所述第一记录数据和所述第二记录数据中的定性变量，以及所述共有变量集中的各变量进行统一数字化编码；

聚合子模块，用于对各第一跨设备账号样本对应的统一数字化编码之后的第一记录数据和第二记录数据分别进行聚合统计，得到对应的第一聚合统计量和第二聚合统计量。

其中，所述第一聚合统计量包括第一连续变量和第一离散变量，所述第二聚合统计量包括第二连续变量和第二离散变量；

根据本申请的实施方式，第一计算模块204包括：第一计算子模块、第二计算子模块和第三计算子模块，其中：

第一计算子模块，用于计算所述共有变量集中各共有变量的第一对比量；

第二计算子模块，用于根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量；

第三计算子模块，用于根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量。

进一步的，第二计算子模块包括：读取单元、第一确定单元、第一筛选单元、第一计算单元，其中：

读取单元，用于在所述第一样本集中读取第一预设数量的样本，作为第一样本子集；

第一确定单元，用于将所述第一样本子集中各样本对应的第一连续变量和第二连续变量随机组合得到多个连续变量组，确定各连续变量组的重要性；

第一筛选单元，用于根据所述各连续变量组的重要性，在所述各连续变量组中筛选出第一预设比例的重要连续变量组，作为第一重要变量组；

第一计算单元，用于在所述第一样本集中各样本对应的第一连续变量和第二连续变量中筛选出所述第一重要变量组，计算筛选的各第一重要变量组中两个连续变量的对比量，并作为第二对比量。

更进一步的，第一确定单元具体用于：

确定满足第一预设条件的连续变量组；

根据本申请的实施方式，第三计算子模块包括：第二确定单元、第二筛选单元和第二计算单元，其中：

第二确定单元，用于将所述第一样本子集中各样本对应的第一离散变量和第二离散变量随机组合得到多个离散变量组，确定各离散变量组的重要性；

第二筛选单元，用于根据所述各离散变量组的重要性，在所述各离散变量组中筛选出第二预设比例的重要离散变量组，作为第二重要变量组；

第二计算单元，用于在所述第一样本集中各样本对应的第一离散变量和第二离散变量中筛选出所述第二重要变量组，计算筛选的各第二重要变量组中两个离散变量的对比量，并作为第二对比量。

进一步的，第二确定单元具体用于：

根据本申请的实施方式，该装置还包括：第四生成模块；

第四生成模块，用于根据所述第一聚合统计量、第二聚合统计量、第一重要变量组、第二重要变量组、第一对比量、第二对比量、第三对比量及所述第一样本集，生成第二样本集。

根据本申请的实施方式，第二生成模块205包括：第一生成子模块和训练子模块，其中：

第一生成子模块，用于根据所述第二样本集生成第三样本集；

训练子模块，用于按照第二预设比例将所述第三样本集划分为训练集、第一验证集、第二验证集。

进一步的，生成子模块具体用于：

根据所述各重要变量组的重要性，在所述第二样本子集中的第一重要变量组和第二重要变量组中筛选出第三预设比例的重要变量组，作为第三重要变量组；

根据本申请的实施方式，训练模块206包括：提取子模块、调参子模块、训练子模块和学习子模块，其中：

提取子模块，用于分别在所述训练集、第一验证集、第二验证集中提取部分样本，作为第三样本子集；

调参子模块，用于将所述第三样本子集作为系统模型的输入数据，进行迭代调参，得到最优参数集；

训练子模块，用于使用所述最优参数集对所述训练集进行训练，并基于所述第一验证集进行验证后得到预测模型；

学习子模块，用于将所述第二验证集输入所述预测模型进行学习，得到所述预测模型的准确度指标。

根据本申请的实施方式，第三生成模块207包括：组合子模块、统计子模块、第二生成子模块、第四计算子模块和第三生成子模块，其中：

组合子模块，用于将未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号彼此任意组合，得到各第二跨设备账号样本，并构成第一预测子集；

统计子模块，用于统计所述第一预测集的第二变量信息；

第二生成子模块，用于根据所述第二变量信息和所述第一预测子集，生成第二预测子集；

第四计算子模块合，用于计算所述第二预测子集中含有的所述第三重要变量的第二特征值；

第三生成子模块，用于根据所述第二特征值和所述第二预测子集，生成预测集。

根据本申请的实施方式，还提出一种基于隐私保护的跨设备个体识别设备，包括：一个或多个处理器，存储一个或多个程序的存储装置，当所述一个或多个程序被所述一个或多个处理器执行时，实现上述基于隐私保护的跨设备个体识别方法。

进一步的，所述存储装置可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

根据本申请的实施方式，还提出一种计算机可读介质，其上存储有计算机程序(即程序产品)，当所述计算机程序在被处理器运行时，实现上述基于隐私保护的跨设备个体识别方法。

进一步的，所述计算机可读存储介质包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

需要说明的，本申请中各实施例均采用相关的方式描述，各实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于隐私保护的跨设备个体识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据识别的第一账号和识别的第二账号生成第一跨设备账号样本，得到第一样本集，包括：

3.根据权利要求2所述的方法，其特征在于，所述统计所述第一样本集的第一变量信息，包括：

分析各第一跨设备账号样本对应的第一记录数据和第二记录数据，得到对应的各共有变量集；

对各第一跨设备账号样本对应的统一数字化编码后的第一记录数据和第二记录数据分别进行聚合统计，得到对应的第一聚合统计量和第二聚合统计量。

4.根据权利要求3所述的方法，其特征在于，所述第一聚合统计量包括第一连续变量和第一离散变量，所述第二聚合统计量包括第二连续变量和第二离散变量；

所述根据所述第一变量信息计算第一特征值，包括：

计算所述共有变量集中各共有变量的第一对比量；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定各连续变量组的重要性，包括：

确定满足第一预设条件的连续变量组；

7.根据权利要求5所述的方法，其特征在于，所述根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定各离散变量组的重要性，包括：

9.根据权利要求7所述的方法，其特征在于，方法还包括：根据所述第一聚合统计量、第二聚合统计量、第一重要变量组、第二重要变量组、第一对比量、第二对比量、第三对比量及所述第一样本集，生成第二样本集；

所述根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集，包括：

根据所述第二样本集生成第三样本集；

10.根据权利要求9所述的方法，其特征在于，所述根据所述第二样本集生成第三样本集，包括：

11.根据权利要求9所述的方法，其特征在于，所述对所述训练集进行机器学习，得到预测模型，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号，生成第二跨设备账号样本，得到预测集，包括：

统计所述第一预测集的第二变量信息；

根据所述第二特征值和所述第二预测子集，生成预测集。

13.一种基于隐私保护的跨设备个体识别装置，其特征在于，包括：

第一统计模块，用于统计所述第一样本集的第一变量信息；