CN115660711A - 用户id生成方法、装置、电子设备及可读存储介质 - Google Patents

用户id生成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115660711A
CN115660711A CN202211131815.4A CN202211131815A CN115660711A CN 115660711 A CN115660711 A CN 115660711A CN 202211131815 A CN202211131815 A CN 202211131815A CN 115660711 A CN115660711 A CN 115660711A
Authority
CN
China
Prior art keywords
user
target
data set
ids
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211131815.4A
Other languages
English (en)
Inventor
周湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202211131815.4A priority Critical patent/CN115660711A/zh
Publication of CN115660711A publication Critical patent/CN115660711A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种用户ID生成方法、装置、电子设备及可读存储介质,属于通信技术领域。该方法包括:获取目标数据集,上述目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系;对每个联通子图进行编码,得到目标用户对应的用户ID;其中,M和N为正整数。

Description

用户ID生成方法、装置、电子设备及可读存储介质
技术领域
本申请属于通信技术领域,具体涉及一种用户ID生成方法、装置、电子设备及可读存储介质。
背景技术
随着电子设备的用户逐步从增量市场转换为存量市场,大量用户已经发生换机行为,需要针对用户进行更深度的认知分析来洞察用户趋势。当前绝大部分业务场景大都是基于单一业务标识符进行分析与触达。
在相关技术中,基于单一业务标识符进行数据分析与认知会存在场景覆盖不全,无法覆盖全域用户行为数据且丢失了用户历史数据,且各个业务线的数据如同数据孤岛未能有效打通,不利于有效的发挥数据的决策价值,导致在使用数据进行用户属性建模时,需要耗费人力去进行数据映射提数操作,并且很难全面刻画一个用户的属性,导致对用户认知的准确性较差。
发明内容
本申请实施例的目的是提供一种用户ID生成方法、装置、电子设备及可读存储介质,能够有效打通多id之间的关联关系,消除数据孤岛,使得在分析认知侧能针对用户进行更深入、全面的认知,助力业务决策并输出更精准有价值的结论。
第一方面,本申请实施例提供了一种用户ID生成方法,该方法包括:获取目标数据集,上述目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系;对每个联通子图进行编码,得到目标用户对应的用户ID;其中,M和N为正整数。
第二方面,本申请实施例提供了一种用户ID生成装置,该装置包括:获取模块,生成模块和处理模块,其中:获取模块,用于获取目标数据集,目标数据集包括M个ID关联关系,M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;生成模块,用于根据获取模块获取的目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系;处理模块,用于对生成模块生成的对每个联通子图进行编码,得到目标用户对应的用户ID;其中,M和N为正整数。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,用户ID生成装置获取目标数据集,该目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID,根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系,然后对上述每个联通子图进行编码,生成每个目标用户对应的用户ID。通过该方法,用户ID生成装置可以根据获取到的多个ID关联关系,确定属于同一个用户的各个ID(如,账户ID、设备ID以及业务ID)关联关系,并基于该连接关系生成每个用户的唯一ID,由于一个唯一ID对应了用户的多个ID,从而能够通过唯一ID来强关联用户的各个ID,实现有效打通同一用户的多个ID之间的关联关系,消除数据孤岛,使得在分析认知侧能针对用户进行更深入、全面的认知,洞察用户在各个不同业务场景内的数据表现,助力业务决策并输出更精准有价值的结论。
附图说明
图1是本申请实施例提供的用户ID生成方法的流程图;
图2(a)为本申请实施例提供的根据相似度合并用户ID的方法示意图之一;
图2(b)为本申请实施例提供的根据相似度合并用户ID的方法示意图之二;
图3(a)为本申请实施例提供的筛选有效键值对的方法示意图之一;
图3(b)为本申请实施例提供的筛选有效键值对的方法示意图之二;
图4为本申请实施例提供的判断ID连接关系是否保留的方法示意图;
图5(a)为本申请实施例提供的ID连接关系的示意图;
图5(b)为本申请实施例提供的ID键值对编码示意图;
图5(c)为本申请实施例提供的单层拆分后连接的示意图;
图5(d)为本申请实施例提供的生成用户ID的流程的示意图;
图6(a)为本申请实施例提供的生成用户ID过程的数据处理流程的示意图;
图6(b)为本申请实施例提供的联通子图与用户id的示意图;
图7为本申请实施例提供的用户ID生成装置的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图;
图9为本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的用户ID生成方法进行详细地说明。
图1为本申请实施例提供的用户ID生成方法的流程图,如图1所示,本申请实施例提供的用户ID生成方法可以包括以下步骤201至步骤203:
步骤201:用户ID生成装置获取目标数据集。
其中,上述目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID。
在本申请实施例中,上述M个ID关联关系可以为M个ID键值对。
在本申请实施例中,上述账户ID用于标识一个用户的账户,上述账户ID也可以为用户的账号ID。示例性地,上述账户ID可以为用户身份识别码OpenID,国际移动用户识别码(International Mobile Subscriber Identity,IMSI),电话号码(记为phone)以及用户登录应用时的账号ID(如,邮箱ID,记为email)等等,本申请实施例对此不作限定。
需要说明的是,OpenID是一个以用户为中心的数字身份识别框架,它具有开放、分散性。通常可以通过OpenID来作为用户的身份认证。IMSI是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息。账号ID可以为邮箱账号ID,即时通讯应用账号ID,以及社交媒体应用账号ID等等。
在本申请实施例中,上述设备ID用于标识电子设备。示例性地,上述设备ID可以为国际移动设备识别码(International Mobile Equipment Identity,IMEI)。
需要说明的是,IMEI包括通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备。
在本申请实施例中,业务ID用于标识应用业务或者应用程序。
可选地,上述业务ID可以包括业务标识符和应用ID(即APPID)。
示例性地,业务标识符可以用于标识不同的业务,例如通话业务、视频图像类业务以及网购业务等等。
示例性地,上述应用ID可以用于标识不同的应用。例如,即时通讯应用1的应用ID为ID1,即时通讯应用2的应用ID为ID2。
在一些实施例中,上述ID关联关系包括:账户ID和设备ID之间的关联关系,以及账户ID和业务ID之间的关联关系。
示例性地,用户A的账号(如应用C账号)在应用C登录后,该用户A的账户ID和该应用的应用ID之间存在关联关系,两者构成一个ID键值对。
示例性地,用户B的账号(如OpenId)在电子设备D上登录后,该用户B的账户ID和该电子设备C的设备ID之间存在关联关系,两者构成一个ID键值对。
步骤202:用户ID生成装置根据上述目标数据集生成N个联通子图。
其中,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系。
在本申请实施例中,用户ID生成装置在获取目标数据集的各个ID关联关系的情况下,根据每个ID关联关系的关联时间、绑定时间以及用户的活跃行为数据构建数仓,作为生成联通子图的前置准备。
需要说明的是,上述ID关联关系也可以记为ID连接关系,一个ID连接关系在形式上为一个ID键值对。
在本申请实施例中,用户ID生成装置可以将设备ID作为主键,按照ID类型进行划分,获取其1对1的ID键值对,然后通过联通子图算法将所有相关联的ID串联起来,得到结果集,即N个联通子图。
步骤203:用户ID生成装置对每个联通子图进行编码,得到目标用户对应的用户ID。
其中,M和N为正整数。
在本申请实施例中,用户ID生成装置针对至少一个联通子图采用UUID算法进行编码,生成每个联通子图的唯一标识符,即,用户ID。
需要说明的是,一个联通子图代表一个用户,也就是一个自然人,在对联通子图进行编码后,生成的ID为用户的用户ID,使得用户的账户ID、设备ID以及业务ID等各个维度的ID数据会被映射为用户ID上,也就是说其各个维度的数据通过这个用户ID进行关联来打通各个维度的ID,实现数据通融,从而确保业务分析、用户画像等数据应用的准确和全面。
需要说明的是,本申请实施例中的用户ID也可以记为用户OneID,即用户唯一ID。
在本申请实施例提供的用户ID生成方法中,用户ID生成装置获取目标数据集,该目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID,根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系,然后对上述每个联通子图进行编码,生成每个目标用户对应的ID。通过该方法,用户ID生成装置可以根据获取到的多个ID关联关系,确定属于同一个用户的各个ID(如,账户ID、设备ID以及业务ID)关联关系,并基于该连接关系生成每个用户的唯一ID,由于一个唯一ID对应了用户的多个ID,从而能够通过唯一ID来强关联用户的各个ID,从而能够通过唯一ID来强关联用户的各个ID,实现有效打通同一用户的多个ID之间的关联关系,消除数据孤岛,使得在分析认知侧能针对用户进行更深入、全面的认知,洞察用户在各个不同业务场景内的数据表现,助力业务决策并输出更精准有价值的结论。
可选地,在本申请实施例中,上述目标数据集包括存量数据集和增量数据集;上述用户ID包括:存量数据集的用户ID和增量数据集的用户ID。
示例性地,上述存量数据集指的是系统在某一时间节点前所保有的数据,上述增量数据集指的是在现有基础上增长的数据。
示例性地,存量数据集的用户ID指的是基于存量数据集中的ID数据生成的用户ID,可以记为存量数据OneID,增量数据集的用户ID指的是对增量数据集中的ID数据生成的用户ID,可以记为增量数据OneID。
示例性地,用户ID生成装置可以分别生成存量数据集和增量数据集的联通子图,然后分别基于存量数据集的联通子图和增量数据集的联通子图生成对应的用户ID。
如此,通过分别对存量数据和增量数据进行运算处理,得到存量数据和增量数据的用户ID,能够更好地对不同时间段的用户在各个不同业务场景内的数据表现进行分析和对比,从而分析用户的各个业务场景的变化情况,并且降低数据运算时的计算量,提高系统性能。
进一步可选地,在本申请实施例中,一个用户ID对应一个ID集合;本申请实施例提供的用户ID生成方法还包括以下步骤A1至步骤A3:
步骤A1:用户ID生成装置获取第一ID集合和第二ID集合的相似度信息。
其中,上述第一ID集合为存量数据集的用户ID对应的ID集合,上述第二ID集合为增量数据集的用户ID对应的ID集合。
步骤A2:在第一ID集合满足预设条件的情况下,用户ID生成装置根据上述相似度信息对第一ID集合和所述第二ID集合进行合并处理,并保留第一ID集合对应的ID。
步骤A3:在上述第一ID集合不满足上述预设条件的情况下,滤除第一ID集合对应的用户ID,并保留第二ID集合对应的用户ID。
需要说明的是,一个ID集合可以记为一个OneID group,或者一个group。
示例性地,上述预设条件可以为:第一ID集合包含的ID数量小于第一阈值。示例性地,上述第一阈值可以为10、20以及30等,本申请实施例对此不作限定。
示例性地,用户ID生成装置可以在第一ID集合中的ID数量小于第一阈值,且第一ID集合和第二ID集合的相似度大于第二阈值的情况下,将第一ID集合和第二ID集合进行合并。
需要说明的是,由于存量数据集中的数据为历史数据,增量数据集中的数据为新增数据,因此,存量数据集OneID可以记为旧分区OneID,增量数据集OneID可以记为新分区OneID。
需要说明的是,用户在使用电子设备(如,手机)过程中可能存在换机行为,从而在新旧分区OneID的中增加了两个重复集合的可能性,导致OneID准确率降低,因此本申请实施例提供一种数据合并的方案来规避此情况。
在本申请的一些实施例中,在进行数据合并时可以包括以下步骤11至步骤15:
步骤11:换机用户连接数据切除,通过画像数据获取用户的换机日期。在换机日期后进行数据合并时,从较早的OneID group内将该部分原机主的ID进行数据切除。
步骤12:对新旧OneID群体相似度进行度量。首先采用jaccard_similary和overlap_similary对两个集合进行相似度度量。具体计算公式如公式(1)和公式(2)所示:
Figure BDA0003850213190000061
Figure BDA0003850213190000062
其中,A和B分别表示两个OneID集合,js(A,B)和oc(A,B)表示OneID集合A和OneID集合B间的相似度。
需要说明的是,旧分区的OneID集合包含的ID值会比较多,采用jaccard度量会因为并集量级较大而整体相似度偏低(均值接近0.5)。新分区的OneID集合包含的ID值比较少,采用overlap度量会导致相似度过高(均值接近1)。因此统计有交集的新旧分区group并分别采用不同方案度量相似度的数据分布。
具体地,假定两个group的相似度高于均值则视为较高置信度关联group,分别统计两种方案中高置信度的用户的比例。并根据其在交集用户中的占比来确定两种相似度的权值,最后采用加权的方式来度量新旧两个oneid的相似度情况。计算公式如公式(3)所示:
similary=X1*jaccard+X2*overlap (3)
步骤13:对所有有交集的group计算其加权后的相似度权值,并且假定有超过3类ID存在交集为强相关group。选取强相关group内的前95%用户的最小相似度为合并阈值,当两个group之间的相似度高于相似度阈值即可进行数据合并。
步骤14:若存在1个group同时与多个group具有ID交集,分别计算其相似度,对低于阈值的相似度,切除交集边,同时与满足相似度阈值条件的group进行合并。
步骤15:考虑到数据一致性延续问题,优先保留其较老分区的oneid值。
在本申请的一些实施例中,图2(a)为本申请实施例提供的根据相似度合并用户ID的示意图,如图2(a)所示,老分区的oneid1与新分区的oneid2,oneid3均存在边的交集,并且相似度均大于相似度阈值,则将oneid1、oneid2和oneid3对应的ID集合A、ID集合B和ID集合C进行合并,并保留oneid1作为合并后的ID集合对应的用户ID。
在本申请的一些实施例中,图2(b)为本申请实施例提供的根据相似度合并用户ID的示意图,如图2(b)所示,存量数据集的oneid1与增量数据集的oneid4,oneid5均存在边的交集,并且oneid1与oneid4的相似度大于相似度阈值,oneid1与oneid5的相似度大于相似度阈值,所以将oneid1与oneid4连接的imei1从oneid1中移除,合并oneid1对应的ID集合中剩余元素和oneid4对应的ID集合,并保留oneid1作为合并后的ID集合对应的用户ID。
为了便于理解,在本申请实施例中,上述存量数据集合的用户ID,如oneid1可以称为老分区的oneid1,增量数据集的用户ID,如oneid4,oneid5可以称为新分区的oneid4,oneid5。
如此,在用户发生换机行为等情况下,可以针对新旧分区的相似度较高的ID集合进行合并,并且只保留一个用户ID,从而提高生成的用户ID的准确性。
示例性地,用户ID生成装置探查单一OneID包含id数量的数据分布情况,并设置最终的过滤阈值,对于高于阈值的OneID直接打散,保留最新分区的OneID。
需要说明的是,随着数据合并的推移会出现一些超级group包含几百上千个id,该部分为刷机、用户填写虚假信息导致并且前面所设置的规则类并没有有效滤除,对该部分异常行为需要滤除确保数据可用性。滤除阈值选取保留oneid粒度99%+的用户即可。例如,1个oneid内部id个数超过30个即为异常数据,保留其最新分区的oneid。
在本申请的一些实施例中,假设老分区的oneid6与新分区的oneid7存在边的交集,并且相似度均大于相似度阈值,但是oneid6对应的ID集合中包括100个ID,则认为该ID集合中存在异常数据,则滤除该oneid6对应的ID集合中的ID,并保留oneid7作为用户ID。
如此,在进行ID的合并时可以识别旧分区中存在异常的用户ID,而只保留新分区中对应的用户ID,从而提高得到的用户ID的准确性。
可选地,在本申请实施例中,在根据目标数据集生成N个联通子图之前,用户ID生成装置可以对ID数据清洗与筛选,筛选出有效ID键值对作为边,用于最大联通子图的生成。
可选地,上述步骤202之前,本申请实施例提供的用户ID生成方法可以包括以下步骤C1:
步骤C1:用户ID生成装置根据预设过滤规则,对上述M个ID关联关系进行过滤,得到N个ID关联关系。
其中,N为小于或者等于M的正整数。
在本申请的一些实施例中,装置可以进行ID合法性过滤,将不符合规范的ID进行数据滤除。
示例性地,上述预设过滤规则可以为:对ID的位数超过位数阈值的ID进行过滤。
需要说明的是,由于涉及到业务ID以及个人信息ID均有其生成逻辑,因此可以通过正则过滤的方式将不符合规范的id进行数据滤除,例如,将手机号码位数超过11位的id过滤、将内销imei非86开头的id过滤等。
在本申请的一些实施例中,用户ID生成装置可以进行ID连接阈值过滤,将具备的连接关系超出正常范围的ID进行数据滤除。
示例性地,上述预设过滤规则可以为:对存在的连接关系数量超过阈值的ID进行过滤。
示例性地,在一个ID对应多个连接关系,即一个ID与多个ID存在关联关系的情况下,用户ID生成装置可以对连接关系的数量超出合理值的ID对应的连接信息进行滤除。例如,在imei1关联了超过50个账号ID的情况下,则认为该imei1的连接关系存在异常,则将该imei1以及其关联关系过滤。
示例性地,合理值不同id具有不同的阈值设置,阈值可以选取为保留95%以上数据或者根据事实经验设置为其他值。不同id连接根据其上报逻辑单独确定,对应openid、imsi此类每日上报状态的连接数据,用户ID生成装置可以滤除掉部分低频连接的id健值对。
需要说明的是,部分id的采集不规范或者实际业务均会导致1个id会对应另一个id数量过多,超过合理值,例如,某openid对应imei设备累计超过10台,可以将其考虑为设备售卖点导购登录账号信息,即认为此openid关联的id即为无效值),则将该id对应的连接信息进行滤除。
如此,用户ID生成装置可以将不合理的ID连接关系滤除,从而保证后续构建准确有效的联通子图。
在本申请的一些实施例中,上述M个ID关联关系包括:账户ID和设备ID之间的关联关系;上述步骤C1可以包括以下步骤D1和步骤D2:
步骤D1:在一个账户ID与至少两个设备ID存在关联关系的情况下,用户ID生成装置根据上述至少两个设备ID对应的用户的用户信息,判断上述至少两个设备ID对应的设备是否属于同一用户。
步骤D2:若上述至少两个设备ID对应的设备不属于同一用户,则过滤上述账户ID与目标设备ID间的ID关联关系。
其中,上述目标设备ID为上述账户ID最早建立关联关系的设备ID。
示例性地,上述用户信息包括用户的行为信息和用户的基本属性信息中的至少一项。示例性地,用户的行为信息可以包括:用户的应用综合偏好、资讯阅读偏好、起床睡觉时间偏好以及区域偏好等;用户的基本属性信息可以包括:用户常驻位置、籍贯属性以及换机时间间隔等。
在一些实施例中,用户ID生成装置可以根据用户的基本属性信息,进行强规则设置,以过滤不合理的ID关联关系。
示例性地,由于某些ID与用户的设备是强绑定关系的(如imei与手机为1对1的强绑定),而oneid的构建目的是基于自然人为个体,因此基于自然逻辑设计了数项强规则(包含用户常驻位置、籍贯属性、换机时间间隔等),对不合理的id连接对进行切除。
举例说明,如图3(a)所示,openid1与imei1,imei2均存在关联关系,也就是说同一账号登录了不同设备,并且imei1对应的设备在2019年10月至2020年1月期间的常驻位置为城市1,2020年2月和2020年3月的常驻位置为城市2,在2020年4月的常驻位置为城市1,imei2对应的设备在2020年3月的常驻位置为城市2,2020年4月的常驻位置为城市1,也就是说,两个设备的在同一时间的常驻位置相同,可以视为两个设备是一个用户在使用,保留上述关联关系。
举例说明,如图3(b)所示,openid2与imei3,imei4均存在关联关系,也就是说同一账号登录了不同设备,并且imei3对应的设备在2020年3月和4月的常驻位置为城市2,imei4对应的设备在2020年3月和4月的常驻位置为城市3,也就是说,两个设备的在同一时间的常驻位置不同,可以视为两个设备是不是同一个用户在使用,保留openid2与imei4的关联关系,将openid2与imei3的关联关系切除,即只保留openid2-imei4的连接对。
在一些实施例中,用户ID生成装置可以根据用户的行为信息,进行弱规则设置,以过滤不合理的ID关联关系。
需要说明的是,单纯基于位置类数据以及换机间隔等用户基本属性信息度量是否为1个,个体可能会存在误判。由于用户切换设备前后行为习惯不会发生大幅度的变化,因此可以继续通过用户的行为数据来控制边的生成。
示例性地,根据用户的行为信息进行弱规则设置,以过滤不合理的ID关联关系可以包括以下步骤21至步骤23:
步骤21:获取id关联的多设备的偏好类行为并且分别构建成向量形式,并且采用余弦相似度计算该行为维度下两两之间的相似度得到1个具体数值。
步骤22:对应不同类型的行为偏好采用加权的方案。
例如,采用用户的app综合偏好、资讯阅读偏好、起床睡觉时间偏好、区域偏好加权计算相似度(偏好类数据采用画像现有数据),将用户在四类行为上的相似度排列构成矩阵,采用主成分分析方法进行矩阵分解,获取其中主成分的贡献度,并且将其对应的线性组合矩阵求逆获取四类行为的权值,将各个相似度按照此权值加权获取最终的相似度。
步骤23:根据实际互传用户的样本确定相似度的阈值,当关联的id之间相似度高于该阈值时,则视为该关联id行为具有相似性,可以视为同一自然人,保留该边连接关系。若不满足条件,则按照连接时间进行判断,保留最近连接的id数据。
举例说明,以openid1同时与Imei1和Imei2存在连接关系为例,图4为本申请实施例提供的判断ID连接关系是否保留的方法示意图。上述方法具体可以包括以下步骤31至步骤35:
步骤31:计算Imei1的app偏好和Imei2的app偏好之间的余弦相似度X1。
示例性地,获取Imei1的app偏好并且构建成向量形式得到[0.5,0.7,0.1,0.06…,0.2,0.08],获取Imei2的app偏好并且构建成向量形式得到[0.1,0.6,0.2,0.04…,0.2,0.06],计算两两之间的相似度,得到余弦相似度X1。
步骤32:计算Imei1和Imei2的咨询偏好相似度X2,作息时间相似度X3,区域偏好相似度X4。
示例性地,计算资讯偏好相似度X2,作息时间相似度X3以及区域偏好X4,并排列成1个向量[X1,X2,X3,X4]。
步骤33:对上述相似度X1至X4加权计算得到最终权值simX。
示例性地,根据该相似度向量构成矩阵,对矩阵进行分解得到APP偏好权值A,咨询偏好权值B、作息偏好权值C以及区域权值偏好D,对上述四个权值加权得到最终的权值,该权值可以表示为:sim=A*X1+B*X2+C*X3+D*X4=simX。
步骤34:根据互传样本确定相似阈值Y。
步骤35:若Imei1和Imei2的相似度大于Y,则openid1-imei1以及openid1-imei2两个键值对(即连接关系)都保留,若Imei1和Imei2的相似度小于Y,则保留openid1-imei2,滤除键值对openid1-imei2。
如此,用户ID生成装置可以基于用户信息和id数据分布情况,通过预置强弱规则的设计构建了有效可靠的用户id键值对关系用于后续ID联通子图生成。
可选地,在本申请实施例中,上述步骤202中根据目标数据集生成N个联通子图可以包括以下步骤E1至步骤E4:
步骤E1:用户ID生成装置基于所述目标数据集获取X个键值对。
步骤E2:用户ID生成装置对所述X个键值对进行数据拆分,得到Y组键值对。
其中,一组键值对包括至少一个键值对。
步骤E3:用户ID生成装置分别根据上述Y组键值对中的每组键值对,生成每组键值对的最大联通子图。
步骤E4:用户ID生成装置根据每组键值对的最大联通子图,得到N个联通子图。
在本申请的一些实施例中,上述根据目标数据集生成N个联通子图,并根据联通子图生成用户ID的过程具体可以由以下步骤41至步骤46实现:
步骤41:用户ID生成装置以imei数据为主键,获取其对应1对1的键值对,并且通过imei进行数据关联,图5(a)为本申请实施例提供的ID连接关系的示意图。
例如,imei1对应openid有且仅有openid1,imei1对应phone有且仅有phone1,且imei1关于所有id类型无连接或者仅有唯一连接,则将该部分数据直接关联,从而降低数据量级。
步骤42:用户ID生成装置可以对ID键值对进行去重后编码,将ID键值对转换为数字的形式便于后续处理,图5(b)为本申请实施例提供的ID键值对编码示意图。
需要说明的是,由于存量id量级通常为10亿级别,直接执行联通子图构建会因为内存问题执行效率较低或者无法执行,因此可以对ID数据进行分层级拆分,确保最大子图能完整打通所有数据不遗漏。
步骤43:用户ID生成装置将当前的边的信息按照编码尾号进行拆分,得到多组ID键值对,并针对每组ID键值对集采用GraphX进行最大联通子图的构建。
例如,id对的左编号对20取模,按照余数的不同进行拆分,将当前的大规模数据拆分至20个小样本,即20组ID键值对,并且针对每个小样本集采用GraphX进行最大联通子图的构建。
步骤44:在对每一块小子图执行完操作后,针对每个ID编号输出1个最小ID,即,minid作为该最大联通子图的最小节点值,然后将该部分生成的minid进行合并后去重,并且将该部分直接关联其边的id值,重复操作直至minid的去重个数不再发生变化。
需要说明的是,由于子图拆分合并后会因为数据id分散在不同的数据集中而导致遗漏数据合并不完整,存在部分连接关系在该层级操作中没有有效捕捉到,因此,可以重复操作直至minid的去重个数不再发生变化以确保该层合并信息已经全部有效获取。
步骤45:在第一层合并关系完成后,将边关联至其当前对应的最小id值,并且去除关联后的minid与直接的minid一致的无效边,剩余的ID类型数据继续拆分至10个小样本重复执行上述步骤34,图5(c)为本申请实施例提供的单层拆分后连接的示意图。
需要说明的是,此为合并的第二层,合并完成后再次按照步骤35进行第三层数据合并操作,直至数据量级可以一次性合并完成
举例说明,id1-id2为原始健值对,分别与id-minid表关联,原始键值对转换为minid1-minid2,若minid1=minid2,则该键值对为无效边,保存在另外1个数据表内即可。若minid1不等于minid2,则表示该关联关系在第一层合并未捕捉到,将minid1-minid2作为第二次合并的输入边。
步骤46:将已完成合并的id信息逐层往上通过minid进行关联,最终获取到每个id对应的minid编号。对此编号采用UUID类(通用唯一识别码)生成唯一标识符,作为初始的oneid。
上述方案通过对大数据集进行拆分实现了十亿量级规模的联通子图构建,并且初步生成了可用的oneid信息。
结合上述图5(a)至图5(c),图5(d)为本申请实施例提供的生成用户ID的流程的示意图,imei1与openid1、email1、phone1以及app1存在连接关系,可以基于该连接关系将唯一对应键值对直接合并,得到imei1的连接关系。然后对连接关系中的每个ID分别进行编码,即对边信息数值编码,在编码完成后生成最大联通子图,通过minid作为连接键进行反复连接直至minid个数不再发生变化,然后继续拆分生成子图直至量级能单次全量执行,并将数据层回传,确保每个id对应唯一minid。
图6(a)为本申请实施例提供的生成用户ID过程的数据处理流程的示意图,如图6(a)所示,上述数据处理流程可以包括以下步骤51至步骤55:
步骤51:用户ID生成ID对增量id和存量id分别进行规则、合法性过滤。
步骤52:基于过滤后得到的id数据生成对应的边表。
步骤53:进行边合并生成最大联通子图并拆分成联通子图形式,图6(b)为本申请实施例提供的联通子图与用户id的示意图。
步骤54:对联通子图进行编码生成独立标识:oneid,即用户id。
步骤55:进行增量联通子图和存量联通子图相似度计算,对数据合并生成唯一标识。
需要说明的是,基于相似度对数据进行合并的过程可以参见上述图2(a)和图2(b)对应的实施例,此处不再赘述。
如此,通过将大规模id数据进行分块拆分,实现超大规模的最大联通子图构建(不遗漏可能存在的id关联信息),打通全域id类数据,并针对存量数据和增量数据分别构建生成唯一标识符,提高生成的用户ID的准确性和有效性。
本申请实施例提供的唯一身份标识号ID生成方法,执行主体可以为唯一身份标识号ID生成装置。本申请实施例中以唯一身份标识号ID生成装置执行唯一身份标识号ID生成方法为例,说明本申请实施例提供的唯一身份标识号ID生成装置。
图7为本申请实施例提供的用户ID生成装置的结构示意图,如图7所示,该用户ID生成装置包括获取模块701,生成模块702和处理模块703,其中:
获取模块701,用于获取目标数据集,目标数据集包括M个ID关联关系,M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;
生成模块702,用于根据获取模块701获取的目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系;
处理模块703,用于对生成模块702生成的对每个联通子图进行编码,得到目标用户对应的用户ID;
其中,M和N为正整数。
可选地,在本申请实施例中,上述目标数据集包括存量数据集和增量数据集;上述用户ID包括:存量数据集的用户ID和增量数据集的用户ID;一个用户ID对应一个ID集合;
上述获取模块,还用于获取第一ID集合和第二ID集合的相似度信息,第一ID集合为存量数据集的用户ID对应的ID集合,第二ID集合为增量数据集的用户ID对应的ID集合;
上述处理模块,还用于在第一ID集合满足预设条件的情况下,根据相似度信息对第一ID集合和所述第二ID集合进行合并处理;
上述处理模块,还用于在第一ID集合不满足所述预设条件的情况下,滤除第一ID集合对应的用户ID,并保留第二ID集合对应的用户ID。
可选地,在本申请实施例中,
上述处理模块,还用于根据预设过滤规则,对M个ID关联关系进行过滤,得到N个ID关联关系,N为小于或者等于M的正整数。
可选地,在本申请实施例中,上述M个ID关联关系包括:账户ID和设备ID之间的关联关系;
上述处理模块,具体用于在一个账户ID与至少两个设备ID存在关联关系的情况下,根据至少两个设备ID对应的用户的用户信息,判断至少两个设备ID对应的设备是否属于同一用户;
上述处理模块,具体用于若至少两个设备ID对应的设备不属于同一用户,则保留账户ID与目标设备ID间的ID关联关系,目标设备ID为账户ID最新建立关联关系的设备ID。
可选地,在本申请实施例中,
获取模块,具体用于基于目标数据集获取X个键值对;
生成模块,具体用于对X个键值对进行数据拆分,得到Y组键值对,一组键值对包括至少一个键值对;
生成模块,具体用于分别根据Y组键值对中的每组键值对,生成每组键值对的最大联通子图;
生成模块,具体用于根据每组键值对的最大联通子图,得到N个联通子图。
在本申请实施例提供的用户ID生成装置中,用户ID生成装置获取目标数据集,该目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID,根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系,然后对上述每个联通子图进行编码,生成每个目标用户对应的用户ID。通过该方法,用户ID生成装置可以根据获取到的多个ID关联关系,确定属于同一个用户的各个ID(如,账户ID、设备ID以及业务ID)关联关系,并基于该连接关系生成每个用户的唯一ID,由于一个唯一ID对应了用户的多个ID,从而能够通过唯一ID来强关联用户的各个ID,实现有效打通同一用户的多个ID之间的关联关系,消除数据孤岛,使得在分析认知侧能针对用户进行更深入、全面的认知,洞察用户在各个不同业务场景内的数据表现,助力业务决策并输出更精准有价值的结论。
本申请实施例中的用户ID生成装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的用户ID生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的用户ID生成装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述用户ID生成方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图9为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器110,用于获取目标数据集,目标数据集包括M个ID关联关系,M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;
处理器110,用于根据处理器110获取的目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系;
处理器110,用于对处理器110生成的对每个联通子图进行编码,得到目标用户对应的用户ID;
其中,M和N为正整数。
可选地,在本申请实施例中,上述目标数据集包括存量数据集和增量数据集;上述用户ID包括:存量数据集的用户ID和增量数据集的用户ID;一个用户ID对应一个ID集合;
上述处理器110,还用于获取第一ID集合和第二ID集合的相似度信息,第一ID集合为存量数据集的用户ID对应的ID集合,第二ID集合为增量数据集的用户ID对应的ID集合;
上述处理器110,还用于在第一ID集合满足预设条件的情况下,根据相似度信息对第一ID集合和所述第二ID集合进行合并处理;
上述处理器110,还用于在第一ID集合不满足所述预设条件的情况下,滤除第一ID集合对应的用户ID,并保留第二ID集合对应的用户ID。
可选地,在本申请实施例中,
上述处理器110,还用于根据预设过滤规则,对M个ID关联关系进行过滤,得到N个ID关联关系,N为小于或者等于M的正整数。
可选地,在本申请实施例中,上述M个ID关联关系包括:账户ID和设备ID之间的关联关系;
上述处理器110,具体用于在一个账户ID与至少两个设备ID存在关联关系的情况下,根据至少两个设备ID对应的用户的用户信息,判断至少两个设备ID对应的设备是否属于同一用户;
上述处理器110,具体用于若至少两个设备ID对应的设备不属于同一用户,则保留账户ID与目标设备ID间的ID关联关系,目标设备ID为账户ID最新建立关联关系的设备ID。
可选地,在本申请实施例中,
处理器110,具体用于基于目标数据集获取X个键值对;
处理器110,具体用于对X个键值对进行数据拆分,得到Y组键值对,一组键值对包括至少一个键值对;
处理器110,具体用于分别根据Y组键值对中的每组键值对,生成每组键值对的最大联通子图;
处理器110,具体用于根据每组键值对的最大联通子图,得到N个联通子图。
在本申请实施例提供的电子设备,电子设备获取目标数据集,该目标数据集包括M个ID关联关系,上述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID,根据上述目标数据集生成N个联通子图,每个联通子图包括属于同一个目标用户的各个ID之间的连接关系,然后对上述每个联通子图进行编码,生成每个目标用户对应的用户ID。通过该方法,用户ID生成装置可以根据获取到的多个ID关联关系,确定属于同一个用户的各个ID(如,账户ID、设备ID以及业务ID)关联关系,并基于该连接关系生成每个用户的唯一ID,由于一个唯一ID对应了用户的多个ID,从而能够通过唯一ID来强关联用户的各个ID,实现有效打通同一用户的多个ID之间的关联关系,消除数据孤岛,使得在分析认知侧能针对用户进行更深入、全面的认知,洞察用户在各个不同业务场景内的数据表现,助力业务决策并输出更精准有价值的结论。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述用户ID生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述用户ID生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述用户ID生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种用户ID生成方法,其特征在于,所述方法包括:
获取目标数据集,所述目标数据集包括M个ID关联关系,所述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;
根据所述目标数据集生成N个联通子图,每个所述联通子图包括属于同一个目标用户的各个ID之间的连接关系;
对每个所述联通子图进行编码,得到所述目标用户对应的用户ID;
其中,M和N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述目标数据集包括存量数据集和增量数据集;所述用户ID包括:所述存量数据集的用户ID和所述增量数据集的用户ID;一个所述用户ID对应一个ID集合;所述方法还包括:
获取第一ID集合和第二ID集合的相似度信息,所述第一ID集合为所述存量数据集的用户ID对应的ID集合,所述第二ID集合为所述增量数据集的用户ID对应的ID集合;
在所述第一ID集合满足预设条件的情况下,根据所述相似度信息对所述第一ID集合和所述第二ID集合进行合并处理,并保留所述第一ID集合对应的ID;
在所述第一ID集合不满足所述预设条件的情况下,滤除所述第一ID集合对应的用户ID,并保留所述第二ID集合对应的用户ID。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集生成N个联通子图之前,所述方法还包括:
根据预设过滤规则,对所述M个ID关联关系进行过滤,得到N个ID关联关系,N为小于或者等于M的正整数。
4.根据权利要求3所述的方法,其特征在于,所述M个ID关联关系包括:账户ID和设备ID之间的关联关系;所述根据预设过滤规则,对所述M个ID关联关系进行过滤,得到N个ID关联关系,包括:
在一个账户ID与至少两个设备ID存在关联关系的情况下,根据所述至少两个设备ID对应的用户的用户信息,判断所述至少两个设备ID对应的设备是否属于同一用户;
若所述至少两个设备ID对应的设备不属于同一用户,则过滤所述账户ID与目标设备ID间的ID关联关系,所述目标设备ID为所述账户ID最早建立关联关系的设备ID。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集生成N个联通子图,包括:
基于所述目标数据集获取X个键值对;
对所述X个键值对进行数据拆分,得到Y组键值对,一组键值对包括至少一个键值对;
分别根据所述Y组键值对中的每组键值对,生成每组键值对的最大联通子图;
根据所述每组键值对的最大联通子图,得到N个联通子图。
6.一种用户ID生成装置,其特征在于,所述装置包括:获取模块,生成模块和处理模块,其中:
所述获取模块,用于获取目标数据集,所述目标数据集包括M个ID关联关系,所述M个ID关联关系包括以下至少两个ID间的关联关系:账户ID,设备ID以及业务ID;
所述生成模块,用于根据所述获取模块获取的所述目标数据集生成N个联通子图,每个所述联通子图包括属于同一个目标用户的各个ID之间的连接关系;
所述处理模块,用于对生成模块生成的对每个所述联通子图进行编码,得到所述目标用户对应的用户ID;
其中,M和N为正整数。
7.根据权利要求6所述的装置,其特征在于,所述目标数据集包括存量数据集和增量数据集;所述用户ID包括:所述存量数据集的用户ID和所述增量数据集的用户ID;一个所述用户ID对应一个ID集合;
所述获取模块,还用于获取第一ID集合和第二ID集合的相似度信息,所述第一ID集合为所述存量数据集的用户ID对应的ID集合,所述第二ID集合为所述增量数据集的用户ID对应的ID集合;
所述处理模块,还用于在所述第一ID集合满足预设条件的情况下,根据所述相似度信息对所述第一ID集合和所述第二ID集合进行合并处理;
所述处理模块,还用于在所述第一ID集合不满足所述预设条件的情况下,滤除所述第一ID集合对应的用户ID,并保留所述第二ID集合对应的用户ID。
8.根据权利要求6所述的装置,其特征在于,
所述处理模块,还用于根据预设过滤规则,对所述M个ID关联关系进行过滤,得到N个ID关联关系,N为小于或者等于M的正整数。
9.根据权利要求8所述的装置,其特征在于,所述M个ID关联关系包括:账户ID和设备ID之间的关联关系;
所述处理模块,具体用于在一个账户ID与至少两个设备ID存在关联关系的情况下,根据所述至少两个设备ID对应的用户的用户信息,判断所述至少两个设备ID对应的设备是否属于同一用户;
所述处理模块,具体用于若所述至少两个设备ID对应的设备不属于同一用户,则保留所述账户ID与目标设备ID间的ID关联关系,所述目标设备ID为所述账户ID最新建立关联关系的设备ID。
10.根据权利要求6所述的装置,其特征在于,
所述获取模块,具体用于基于所述目标数据集获取X个键值对;
所述生成模块,具体用于对所述X个键值对进行数据拆分,得到Y组键值对,一组键值对包括至少一个键值对;
所述生成模块,具体用于分别根据所述Y组键值对中的每组键值对,生成每组键值对的最大联通子图;
所述生成模块,具体用于根据所述每组键值对的最大联通子图,得到N个联通子图。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的用户ID生成方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的用户ID生成方法的步骤。
CN202211131815.4A 2022-09-16 2022-09-16 用户id生成方法、装置、电子设备及可读存储介质 Pending CN115660711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131815.4A CN115660711A (zh) 2022-09-16 2022-09-16 用户id生成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131815.4A CN115660711A (zh) 2022-09-16 2022-09-16 用户id生成方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115660711A true CN115660711A (zh) 2023-01-31

Family

ID=84983031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131815.4A Pending CN115660711A (zh) 2022-09-16 2022-09-16 用户id生成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115660711A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467492A (zh) * 2023-04-23 2023-07-21 北京欧拉认知智能科技有限公司 一种基于图的OneID实现方法及系统
CN116501726A (zh) * 2023-06-20 2023-07-28 中国人寿保险股份有限公司上海数据中心 基于GraphX图计算的信创云平台数据化运营系统
CN117271850A (zh) * 2023-11-17 2023-12-22 上海光潾网络科技有限公司 基于客户数据平台的用户数据匹配方法、平台、设备和介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467492A (zh) * 2023-04-23 2023-07-21 北京欧拉认知智能科技有限公司 一种基于图的OneID实现方法及系统
CN116501726A (zh) * 2023-06-20 2023-07-28 中国人寿保险股份有限公司上海数据中心 基于GraphX图计算的信创云平台数据化运营系统
CN116501726B (zh) * 2023-06-20 2023-09-29 中国人寿保险股份有限公司上海数据中心 基于GraphX图计算的信创云平台数据化运营系统
CN117271850A (zh) * 2023-11-17 2023-12-22 上海光潾网络科技有限公司 基于客户数据平台的用户数据匹配方法、平台、设备和介质
CN117271850B (zh) * 2023-11-17 2024-01-30 上海光潾网络科技有限公司 基于客户数据平台的用户数据匹配方法、平台、设备和介质

Similar Documents

Publication Publication Date Title
Serafino et al. True scale-free networks hidden by finite size effects
CN110377667B (zh) 关联图谱展示方法、装置、计算机设备和存储介质
CN115660711A (zh) 用户id生成方法、装置、电子设备及可读存储介质
CN102460076B (zh) 生成测试数据
CN105099729B (zh) 一种识别用户身份标识的方法和装置
TW201939400A (zh) 目標用戶群體的確定方法和裝置
CN110275889B (zh) 一种适用于机器学习的特征处理方法及装置
CN108038130A (zh) 虚假用户的自动清理方法、装置、设备及存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN115408546A (zh) 一种时序数据管理方法、装置、设备及存储介质
CN112068812B (zh) 一种微服务生成方法、装置、计算机设备和存储介质
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN103514412B (zh) 构建基于角色的访问控制系统的方法及云服务器
CN114860460B (zh) 一种数据库加速的方法、装置、计算机设备
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN114253951B (zh) 数据处理方法、系统及第二服务器
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质
CN116681454B (zh) 虚拟资源配比策略生成方法、装置、计算机设备和存储介质
CN117151671A (zh) 排班管理方法、装置及存储介质
CN116166879A (zh) 分享业务处理方法、装置、计算机设备和存储介质
CN117978859A (zh) 信息推送方法及相关设备
CN117573387A (zh) 消息推送方法、装置、计算机设备和存储介质
CN116882648A (zh) 账户资源分配方法、装置、计算机设备和存储介质
CN114185888A (zh) 业务报表的取数方法、装置、计算机设备、存储介质
CN117762990A (zh) 数据存储方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination