CN111177481A - 用户标识映射方法及装置 - Google Patents

用户标识映射方法及装置 Download PDF

Info

Publication number
CN111177481A
CN111177481A CN201911393734.XA CN201911393734A CN111177481A CN 111177481 A CN111177481 A CN 111177481A CN 201911393734 A CN201911393734 A CN 201911393734A CN 111177481 A CN111177481 A CN 111177481A
Authority
CN
China
Prior art keywords
user
processed
user data
graph
highest priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911393734.XA
Other languages
English (en)
Other versions
CN111177481B (zh
Inventor
王昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youxin Technology Co ltd
Original Assignee
Beijing Youxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youxin Technology Co ltd filed Critical Beijing Youxin Technology Co ltd
Priority to CN201911393734.XA priority Critical patent/CN111177481B/zh
Publication of CN111177481A publication Critical patent/CN111177481A/zh
Application granted granted Critical
Publication of CN111177481B publication Critical patent/CN111177481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于用户标识映射方法及装置。该用户标识映射方法包括:获取实时采集的待处理用户数据;将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边;将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。本公开基于图数据库实时存储及更新用户标识组数据,用户画像系统可以实时获取用户标识映射关系及用户标识对应的用户数据,从而能够保证互联网广告、实时推荐、实时机器学习系统的正常运行。

Description

用户标识映射方法及装置
技术领域
本公开涉及物联网设备技术领域,尤其涉及用户标识映射方法及装置。
背景技术
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型,本质上是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识;构建用户画像的目的是为了还原用户信息,数据通常来源于用户相关的数据。在构建精准的用户画像时,面临着这样一个问题:不同的数据源只能收集到用户的一种或几种标识ID,比如业务方定义的UID、用户所使用设备的MAC、IMEI、Android ID及浏览器Cookie、登陆使用的手机号、登陆使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡预留手机号等,从而造成用户ID的不统一与零碎化。因此,为了做用户标签的整合,用户ID之间的强打通,如用户标识映射(ID-Mapping)成了用户画像系统构建的基础。
相关技术中,在业务数据及流数据落库之后,使用Spark GraphX技术批量处理用户标识组(ID pair)对应关系数据,将各种用户标识ID看成图的节点,将ID pair对应关系看作图的无向边,生成用户ID pair对应关系图的一个个连通分支子图,每个连通子图代表一个真正的用户,每个连通子图上的标识ID都是同一用户的等价、不同标识ID,这样就实现了ID-Mapping功能。
但是,相关技术是以全量数据、批处理的方式、每隔一段时间的执行一次更新全量ID-Mapping关系计算的模式进行,从而无法达到实时更新ID-Mapping关系的需求。比如用户画像系统新收集到一个MAC-mobile的ID pair,该关系不能立即在ID-Mapping系统中查询到,要等待一段时间执行连通子图生成后才能生效,在这之前不能使用查询到相关的用户ID标识数据,这种延迟影响互联网广告、实时推荐、实时机器学习系统的正常运行。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种用户标识映射方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种用户标识映射方法,包括:
获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
本公开的实施例提供的技术方案可以包括以下有益效果:该技术方案通过将实时采集的待处理用户数据映射为图数据库中的子图,将待处理用户数据中的每一个用户标识对应于子图中一个节点,实现基于图数据库实时存储及更新用户标识组数据,并通过确定待处理用户数据在用户画像系统的存储数据库中的行记录,使得用户画像系统可以实时获取用户标识映射关系及用户标识对应的用户数据,从而能够保证互联网广告、实时推荐、实时机器学习系统的正常运行。
在一个实施例中,所述将所述待处理用户数据映射为图数据库中的子图,包括:
在所述图数据库中查找是否存在包括与所述待处理用户数据的至少一个用户标识对应的节点的子图:
若在所述图数据库中查找到包括与所述待处理用户数据的至少一个用户标识对应的节点的第一子图,则在所述第一子图中增加与所述待处理用户数据中除所述查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所增加的节点与所述待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在所述图数据库中未查找到包括与所述待处理用户数据的任意一个用户标识对应的节点的子图,则在所述图数据库中创建第二子图;所述待处理用户数据中的每一个用户标识分别对应于所述第二子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述第二子图的边。
在一个实施例中,所述方法还包括:
若所述第一子图中包括与所述待处理用户数据的所有的用户标识对应的节点,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在一个实施例中,所述方法还包括:
获取待查询用户的目标用户标识;
在所述图数据库中查找到包括与所述目标用户标识对应的节点的目标子图,及获取所述目标子图中所有节点的用户标识;
在所述用户画像系统的存储数据库中查询以所述目标子图的各个节点的用户标识为行记录的用户数据。
在一个实施例中,所述用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie。
根据本公开实施例的第二方面,提供一种用户标识映射装置,包括:
第一获取模块,用于获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
映射模块,用于将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
确定模块,用于将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
在一个实施例中,所述映射模块在所述图数据库中查找是否存在包括与所述待处理用户数据的至少一个用户标识对应的节点的子图:
若在所述图数据库中查找到包括与所述待处理用户数据的至少一个用户标识对应的节点的第一子图,则在所述第一子图中增加与所述待处理用户数据中除所述查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所增加的节点与所述待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在所述图数据库中未查找到包括与所述待处理用户数据的任意一个用户标识对应的节点的子图,则在所述图数据库中创建第二子图;所述待处理用户数据中的每一个用户标识分别对应于所述第二子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述第二子图的边。
在一个实施例中,所述映射模块还用于若所述第一子图中包括与所述待处理用户数据的所有的用户标识对应的节点,则在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取待查询用户的目标用户标识;
查找模块,用于在所述图数据库中查找到包括与所述目标用户标识对应的节点的目标子图,及获取所述目标子图中所有节点的用户标识;
查询模块,用于在所述用户画像系统的存储数据库中查询以所述目标子图的各个节点的用户标识为行记录的用户数据。
在一个实施例中,所述用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie。
根据本公开实施例的第三方面,提供一种用户标识映射装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面中任一项所述方法实施例的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的用户标识映射方法的流程图。
图2是根据一示例性实施例示出的用户标识映射方法的流程图。
图3是根据一示例性实施例示出的用户标识映射过程示意图。
图4是根据一示例性实施例示出的用户标识映射装置的框图。
图5是根据一示例性实施例示出的用户标识映射装置的框图。
图6是根据一示例性实施例示出的用户标识映射装置的框图。
图7是根据一示例性实施例示出的用户标识映射装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了解决上述问题,本公开实施例提供了一种用户标识映射方法,包括:获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识;将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边;将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录(rowkey)。不同于相关技术中将用户标识存储为RDD文件并使用SPARK GRAPHX技术批量处理ID pair对应关系数据的方案,本公开实施例提供的技术方案通过将实时采集的待处理用户数据映射为图数据库中的子图,将待处理用户数据中的每一个用户标识对应于子图中一个节点,实现基于图数据库实时存储及更新用户标识组数据,并通过确定待处理用户数据在用户画像系统的存储数据库中的行记录,使得用户画像系统可以实时获取用户标识映射关系及用户标识对应的用户数据,从而能够保证互联网广告、实时推荐、实时机器学习系统的正常运行。
基于上述分析,提出以下各具体实施例。
图1是根据一示例性实施例示出的一种用户标识映射方法的流程图,该方法的执行主体可以为服务器;如图1所示,该方法包括以下步骤101-103:
在步骤101中,获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识。
示例的,针对数据源实时采集到的数据,经过ETL(数据清洗)之后,提取转化为键值(key-value)的格式,即为待处理用户数据;key是一个集合,集合中保存有至少一个用户标识;用户标识可以包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie等;value中保存的数据(data)可以统称为一个Event(事件)。各用户标识均采用例如MD5加密等加密方法进行加密保存,以保证数据安全,防止用户隐私泄露。可选的,预设的优先级由高至低的用户标识依次为:实名认证的身份证号>登陆用户设备使用的手机号>实名认证的银行卡号>用户所属业务系统的UID>用户设备的MAC或IMEI>浏览器Cookie。
在步骤102中,将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边。
示例的,图数据库中包括至少一个子图,每个子图对应一个用户,key中用户标识对应为子图的节点,每个子图中一个节点对应用户的一个用户标识;若key中只有一个用户标识,则子图中只有一个节点;若key中有多个用户标识,则子图中有多个节点,节点与节点之间有边,两个节点之间的边(连线)用以表征存在关联关系的两个用户标识。每个节点有多个属性,保存了构建时间、用户标识等信息。
示例的,将待处理用户数据映射为图数据库中的子图的实现方式包括:在图数据库中查找是否存在包括与待处理用户数据的至少一个用户标识对应的节点的子图:
若在图数据库中查找到包括与待处理用户数据的至少一个用户标识对应的节点的第一子图,则:在第一子图中增加与待处理用户数据中除查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由所增加的节点与待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在图数据库中未查找到包括与待处理用户数据的任意一个用户标识对应的节点的子图,则在图数据库中创建第二子图;待处理用户数据中的每一个用户标识分别对应于第二子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成第二子图的边。
可选的,若第一子图中包括与待处理用户数据的所有的用户标识对应的节点,则在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在步骤103中,将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。
示例的,待处理用户数据中优先级最高的用户标识作为待处理用户数据在用户画像系统的底层存储数据库中的行记录;行记录用于用户数据保存,待处理用户数据存储于用户画像系统的底层存储数据库中,该行记录与待处理用户数据关联,可以通过行记录在用户画像系统的底层存储数据库中搜索到与待处理用户数据关联的行记录。通过子图中每一个节点都关联一部分用户数据,相同节点的信息更新使用合并(merge)方法,一个子图的所有节点所关联的用户数据可以合并成一个人的信息,当子图的节点产生分裂的时候,也能保证数据的不丢失。
本公开的实施例提供的技术方案中,通过将实时采集的待处理用户数据映射为图数据库中的子图,将待处理用户数据中的每一个用户标识对应于子图中一个节点,实现基于图数据库实时存储及更新用户标识组数据,并通过确定待处理用户数据在用户画像系统的存储数据库中的行记录,使得用户画像系统可以实时获取用户标识映射关系及用户标识对应的用户数据,从而能够保证互联网广告、实时推荐、实时机器学习系统的正常运行。
图2是根据一示例性实施例示出的一种用户标识映射方法的流程图;如图2所示,在图1所示实施例的基础上,本公开涉及的用户标识映射方法包括以下步骤201-208:
在步骤201中,获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识。
在步骤202中,在图数据库中查找是否存在包括与待处理用户数据的至少一个用户标识对应的节点的子图:若在图数据库中查找到包括与待处理用户数据的至少一个用户标识对应的节点的第一子图,则转到步骤203中;若在图数据库中未查找到包括与待处理用户数据的任意一个用户标识对应的节点的子图,则转到步骤204中。
在步骤203中,在第一子图中增加与待处理用户数据中除查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由所增加的节点与待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;然后,转到步骤205中。
示例的,若第一子图中包括与待处理用户数据的所有的用户标识对应的节点,则在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在步骤204中,在图数据库中创建第二子图;待处理用户数据中的每一个用户标识分别对应于第二子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成第二子图的边。
在步骤205中,将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。
在步骤206中,获取待查询用户的目标用户标识。
在步骤207中,在图数据库中查找到包括与目标用户标识对应的节点的目标子图,及获取目标子图中所有节点的用户标识。
在步骤208中,在用户画像系统的存储数据库中查询以目标子图的各个节点的用户标识为行记录的用户数据。
示例的,可以实时查询到待查询用户的用户标识映射关系、及目标用户标识关联到的所有用户标识;例如:可以根据待查询用户的目标用户标识,实时在图数据库中查找到目标用户标识所在的目标子图、及目标子图中所有节点的用户标识,即获取到待查询用户的用户标识映射关系,以及在存储数据库中查询到所有关联至目标子图中各个节点的用户数据,即关联至待查询用户的用户数据。
示例的,还可以在图数据库中实时查询到已记录的用户总数,及批量查询所有用户的用户标识映射关系,进而在用户画像系统的存储数据库中查询到每个用户的用户数据,实现整合、检索所有关联用户标识的用户数据。
通过使用OLAP模式生成全量的用户标识映射关系的连通子图,与用户数据做关联计算,实现全量用户标识映射关系更新。
本公开的实施例提供的技术方案中,通过将实时采集的待处理用户数据映射为图数据库中的子图,将待处理用户数据中的每一个用户标识对应于子图中一个节点,实现基于图数据库实时存储及更新用户标识组数据,并通过确定待处理用户数据在用户画像系统的存储数据库中的行记录,使得用户画像系统可以实时查询用户标识映射关系及用户标识对应的用户数据,实时更新个性化推荐、广告投放、机器学习、标签预测效果等,保证互联网广告、实时推荐、实时机器学习系统的正常运行。
在一个实施例中,假设按时间先后,对于同一个用户,在浏览首页、点击按钮、注册会员、浏览广告等不同业务阶段收集到五条数据(data1、data2、data3、data4、data5),解析出五组key(key1、key2、key3、key4、key5),为标识出唯一的用户,需要对key做合并。图3示出了用户标识映射过程示意图,为了描述方便,为key中的标识(ID)规定了如下优先级:idcard优先级(L1)>phone优先级(L2)>mac优先级(L3)>uid优先级(L4)>cookie优先级(L5),并且把每个ID简化为一个数字用于描述ID在子图中节点的位置:1(idcard1)、2(phone1)、3(mac1)、4(uid1)、5(cookie1),合并的逻辑即为节点添加边的过程。
参见图3,第一组key中有三个ID,对应节点2、3、4,在图数据库中保存为一个子图,子图中有三个节点,以优先级最高的节点2作为基准,其他两个节点与之相连,生成一个三点两边的子图;每个节点中有多个属性,保存有构建时间、标识等信息;当用户画像系统在调用用户标识映射服务时,会得到一个唯一返回值,这个值根据key中ID的优先级计算得出,针对第一组key来说,返回phone1,phone1会作为用户画像系统底层数据存储HBase的行记录(rowkey)。
第二组key中有三个ID,对应节点2、4、5,其中节点2、4已经存在,则把节点5作为新的节点追加到已存在的子图中,节点5依然与优先级最高的节点2相连。以此类推,每处理一条用户数据,解析出来的key包含一些ID;若这些ID中任意一个已记录在案,则其余ID生成新的节点追加到子图中,之后返回唯一值,用于用户数据保存;若不存在,则创建新的子图,即一个新的用户。
第三组key中有三个ID,对应节点3、4、5,且都已经在子图中,则不需要添加节点,只需生成节点3与4、3与5之间的边,返回的唯一值是根据节点3生成的。
第四组key中有三个ID,对应节点3、4、5,且都已经在子图中、且节点3、4与3、5之间的边已存在,则不需要添加节点和边,返回的唯一值是根据节点3生成的。
第五组key中有三个ID,对应节点1、2、4,其中节点2、4已经存在,则把节点1作为新的节点追加到已存在的子图中,生成节点1与2、1与4之间的边。返回的唯一值是根据节点1生成。
通过将实时采集的待处理用户数据映射为图数据库中的子图,将待处理用户数据中的每一个用户标识对应于子图中一个节点,实现基于图数据库实时存储及更新用户标识组数据,并通过确定待处理用户数据在用户画像系统的存储数据库中的行记录,使得用户画像系统可以实时查询用户标识映射关系及用户标识对应的用户数据。当想要查找一个用户的所有信息时,只需要遍历用户的子图,找到以子图中的每个节点的用户标识为行记录的用户数据。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图4是根据一示例性实施例示出的一种用户标识映射装置的框图;该装置可以采用各种方式来实施,例如在服务器中实施装置的全部组件,或者,在服务器侧以耦合的方式实施装置中的组件;该装置可以通过软件、硬件或者两者的结合实现上述本公开涉及的方法,如图4所示,该用户标识映射装置包括:第一获取模块401、映射模块402及确定模块403,其中:
第一获取模块401被配置为获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识;
映射模块402被配置为将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边;
确定模块403被配置为将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。
本公开实施例提供的装置能够用于执行图1所示实施例的技术方案,其执行方式和有益效果类似,此处不再赘述。
在一种可能的实施方式中,映射模块402在图数据库中查找是否存在包括与待处理用户数据的至少一个用户标识对应的节点的子图:
若在图数据库中查找到包括与待处理用户数据的至少一个用户标识对应的节点的第一子图,则在第一子图中增加与待处理用户数据中除查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由所增加的节点与待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在图数据库中未查找到包括与待处理用户数据的任意一个用户标识对应的节点的子图,则在图数据库中创建第二子图;待处理用户数据中的每一个用户标识分别对应于第二子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成第二子图的边。
在一种可能的实施方式中,映射模块402还用于若第一子图中包括与待处理用户数据的所有的用户标识对应的节点,则在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在一种可能的实施方式中,如图5所示,图4示出的用户标识映射装置还可以包括:第二获取模块501、查找模块502及查询模块503,其中:
第二获取模块501被配置为获取待查询用户的目标用户标识;
查找模块502被配置为在图数据库中查找到包括与目标用户标识对应的节点的目标子图,及获取目标子图中所有节点的用户标识;
查询模块503被配置为在用户画像系统的存储数据库中查询以目标子图的各个节点的用户标识为行记录的用户数据。
在一种可能的实施方式中,用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie。
图6是根据一示例性实施例示出的一种用户标识映射装置的框图,用户标识映射装置可以采用各种方式来实施,例如在服务器中实施装置的全部组件,或者,在服务器侧以耦合的方式实施装置中的组件;参见图6,用户标识映射装置600包括:
处理器601;
用于存储处理器可执行指令的存储器602;
其中,处理器601被配置为:
获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识;
将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边;
将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。
在一个实施例中,上述处理器601还可被配置为:
在图数据库中查找是否存在包括与待处理用户数据的至少一个用户标识对应的节点的子图:
若在图数据库中查找到包括与待处理用户数据的至少一个用户标识对应的节点的第一子图,则在第一子图中增加与待处理用户数据中除查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由所增加的节点与待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在图数据库中未查找到包括与待处理用户数据的任意一个用户标识对应的节点的子图,则在图数据库中创建第二子图;待处理用户数据中的每一个用户标识分别对应于第二子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成第二子图的边。
在一个实施例中,上述处理器601还可被配置为:
若第一子图中包括与待处理用户数据的所有的用户标识对应的节点,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在一个实施例中,上述处理器601还可被配置为:
获取待查询用户的目标用户标识;
在图数据库中查找到包括与目标用户标识对应的节点的目标子图,及获取目标子图中所有节点的用户标识;
在用户画像系统的存储数据库中查询以目标子图的各个节点的用户标识为行记录的用户数据。
在一个实施例中,上述处理器601还可被配置为:
用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用户标识映射装置的框图。例如,装置700可以被提供为一服务器。装置700包括处理组件702,其进一步包括一个或多个处理器,以及由存储器703所代表的存储器资源,用于存储可由处理组件702的执行的指令,例如应用程序。存储器703中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件702被配置为执行指令,以执行上述方法。
装置700还可以包括一个电源组件706被配置为执行用户标识映射装置700的电源管理,一个有线或无线网络接口705被配置为将用户标识映射装置700连接到网络,和一个输入输出(I/O)接口708。装置700可以操作基于存储在存储器703的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由装置700的处理器执行时,使得装置700能够执行如下用户标识映射方法,方法包括:
获取实时采集的待处理用户数据;待处理用户数据中包括至少一个用户标识;
将待处理用户数据映射为图数据库中的子图;待处理用户数据中的每一个用户标识对应于子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成子图的边;
将待处理用户数据中优先级最高的用户标识,确定为待处理用户数据在用户画像系统的存储数据库中的行记录。
在一个实施例中,将待处理用户数据映射为图数据库中的子图,包括:
在图数据库中查找是否存在包括与待处理用户数据的至少一个用户标识对应的节点的子图:
若在图数据库中查找到包括与待处理用户数据的至少一个用户标识对应的节点的第一子图,则在第一子图中增加与待处理用户数据中除查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括待处理用户数据中优先级最高的用户标识对应的节点时,在第一子图中增加由所增加的节点与待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在图数据库中未查找到包括与待处理用户数据的任意一个用户标识对应的节点的子图,则在图数据库中创建第二子图;待处理用户数据中的每一个用户标识分别对应于第二子图中一个节点;待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成第二子图的边。
在一个实施例中,方法还包括:
若第一子图中包括与待处理用户数据的所有的用户标识对应的节点,在第一子图中增加由待处理用户数据中优先级最高的用户标识对应的节点与待处理用户数据中除优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
在一个实施例中,方法还包括:
获取待查询用户的目标用户标识;
在图数据库中查找到包括与目标用户标识对应的节点的目标子图,及获取目标子图中所有节点的用户标识;
在用户画像系统的存储数据库中查询以目标子图的各个节点的用户标识为行记录的用户数据。
在一个实施例中,用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、Android ID、或浏览器Cookie。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种用户标识映射方法,其特征在于,包括:
获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理用户数据映射为图数据库中的子图,包括:
在所述图数据库中查找是否存在包括与所述待处理用户数据的至少一个用户标识对应的节点的子图:
若在所述图数据库中查找到包括与所述待处理用户数据的至少一个用户标识对应的节点的第一子图,则在所述第一子图中增加与所述待处理用户数据中除所述查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所增加的节点与所述待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在所述图数据库中未查找到包括与所述待处理用户数据的任意一个用户标识对应的节点的子图,则在所述图数据库中创建第二子图;所述待处理用户数据中的每一个用户标识分别对应于所述第二子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述第二子图的边。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第一子图中包括与所述待处理用户数据的所有的用户标识对应的节点,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待查询用户的目标用户标识;
在所述图数据库中查找到包括与所述目标用户标识对应的节点的目标子图,及获取所述目标子图中所有节点的用户标识;
在所述用户画像系统的存储数据库中查询以所述目标子图的各个节点的用户标识为行记录的用户数据。
5.根据权利要求1所述的方法,其特征在于,所述用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、AndroidID、或浏览器Cookie。
6.一种用户标识映射装置,其特征在于,包括:
第一获取模块,用于获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
映射模块,用于将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
确定模块,用于将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
7.根据权利要求6所述的装置,其特征在于,所述映射模块在所述图数据库中查找是否存在包括与所述待处理用户数据的至少一个用户标识对应的节点的子图:
若在所述图数据库中查找到包括与所述待处理用户数据的至少一个用户标识对应的节点的第一子图,则在所述第一子图中增加与所述待处理用户数据中除所述查找到的用户标识之外的其它用户标识对应的节点;当所增加的节点中包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边;或者,当所增加的节点中不包括所述待处理用户数据中优先级最高的用户标识对应的节点时,在所述第一子图中增加由所增加的节点与所述待处理用户数据中优先级最高的用户标识对应的节点分别相连形成的边;
若在所述图数据库中未查找到包括与所述待处理用户数据的任意一个用户标识对应的节点的子图,则在所述图数据库中创建第二子图;所述待处理用户数据中的每一个用户标识分别对应于所述第二子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述第二子图的边。
8.根据权利要求7所述的装置,其特征在于,所述映射模块还用于若所述第一子图中包括与所述待处理用户数据的所有的用户标识对应的节点,则在所述第一子图中增加由所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成的边。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取待查询用户的目标用户标识;
查找模块,用于在所述图数据库中查找到包括与所述目标用户标识对应的节点的目标子图,及获取所述目标子图中所有节点的用户标识;
查询模块,用于在所述用户画像系统的存储数据库中查询以所述目标子图的各个节点的用户标识为行记录的用户数据。
10.根据权利要求6所述的装置,其特征在于,所述用户标识包括:用户所属业务系统的UID、登陆用户设备使用的手机号、用户设备使用的邮箱、实名认证的身份证号、实名认证的银行卡号、银行卡号关联的预留手机号、用户设备的MAC、IMEI、AndroidID、或浏览器Cookie。
11.一种用户标识映射装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取实时采集的待处理用户数据;所述待处理用户数据中包括至少一个用户标识;
将所述待处理用户数据映射为图数据库中的子图;所述待处理用户数据中的每一个用户标识对应于所述子图中一个节点;所述待处理用户数据中优先级最高的用户标识对应的节点与所述待处理用户数据中除所述优先级最高的用户标识之外的其它用户标识对应的节点分别相连形成所述子图的边;
将所述待处理用户数据中优先级最高的用户标识,确定为所述待处理用户数据在用户画像系统的存储数据库中的行记录。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN201911393734.XA 2019-12-30 2019-12-30 用户标识映射方法及装置 Active CN111177481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911393734.XA CN111177481B (zh) 2019-12-30 2019-12-30 用户标识映射方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911393734.XA CN111177481B (zh) 2019-12-30 2019-12-30 用户标识映射方法及装置

Publications (2)

Publication Number Publication Date
CN111177481A true CN111177481A (zh) 2020-05-19
CN111177481B CN111177481B (zh) 2023-12-19

Family

ID=70654273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911393734.XA Active CN111177481B (zh) 2019-12-30 2019-12-30 用户标识映射方法及装置

Country Status (1)

Country Link
CN (1) CN111177481B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016081A (zh) * 2020-08-31 2020-12-01 贝壳技术有限公司 标识映射的实现方法、装置、介质和电子设备
CN113900907A (zh) * 2021-11-17 2022-01-07 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN116467492A (zh) * 2023-04-23 2023-07-21 北京欧拉认知智能科技有限公司 一种基于图的OneID实现方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080170A1 (zh) * 2015-11-12 2017-05-18 乐视控股(北京)有限公司 群体用户画像方法及系统
CN108897734A (zh) * 2018-06-13 2018-11-27 康键信息技术(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109257764A (zh) * 2018-10-24 2019-01-22 北京小米移动软件有限公司 用户画像数据处理方法及装置
CN110020587A (zh) * 2019-01-18 2019-07-16 阿里巴巴集团控股有限公司 识别系统智能提速的方法、系统、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080170A1 (zh) * 2015-11-12 2017-05-18 乐视控股(北京)有限公司 群体用户画像方法及系统
CN108897734A (zh) * 2018-06-13 2018-11-27 康键信息技术(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109257764A (zh) * 2018-10-24 2019-01-22 北京小米移动软件有限公司 用户画像数据处理方法及装置
CN110020587A (zh) * 2019-01-18 2019-07-16 阿里巴巴集团控股有限公司 识别系统智能提速的方法、系统、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张小可等: "贝叶斯网络在用户画像构建中的研究", 《移动通信》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016081A (zh) * 2020-08-31 2020-12-01 贝壳技术有限公司 标识映射的实现方法、装置、介质和电子设备
CN112016081B (zh) * 2020-08-31 2021-09-21 贝壳找房(北京)科技有限公司 标识映射的实现方法、装置、介质和电子设备
CN113900907A (zh) * 2021-11-17 2022-01-07 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN113900907B (zh) * 2021-11-17 2024-01-30 杭州推啊网络科技有限公司 一种映射构建方法和系统
CN116467492A (zh) * 2023-04-23 2023-07-21 北京欧拉认知智能科技有限公司 一种基于图的OneID实现方法及系统

Also Published As

Publication number Publication date
CN111177481B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
US20210258236A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
US11669549B2 (en) Identity mapping for cloud migrations
CN107169094B (zh) 信息聚合方法及装置
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US8838679B2 (en) Providing state service for online application users
US20180188932A1 (en) De-anonymization of website visitor identity
CN111177481A (zh) 用户标识映射方法及装置
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN111339171B (zh) 数据查询的方法、装置及设备
JP2015512095A (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
US20160140230A1 (en) Implicit Collaborative Searching Based on Search History Database
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN107358535B (zh) 一种社区发现方法及装置
CN106251114B (zh) 应用中实现审批的方法和装置
CN110717647A (zh) 决策流构建方法、装置、计算机设备和存储介质
CN107491463B (zh) 数据查询的优化方法和系统
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN113285960B (zh) 一种服务数据共享云平台的数据加密方法及系统
CN109614521A (zh) 一种高效的隐私保护子图查询处理方法
CN110134698A (zh) 数据管理方法及相关产品
Liu et al. Smart hardware hybrid secure searchable encryption in cloud with IoT privacy management for smart home system
CN108540471B (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
CN110895604B (zh) 一种虚拟身份信息的关联融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant