CN110908980B - 用户标识映射关系建立方法、系统、设备及存储介质 - Google Patents

用户标识映射关系建立方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN110908980B
CN110908980B CN201810990789.8A CN201810990789A CN110908980B CN 110908980 B CN110908980 B CN 110908980B CN 201810990789 A CN201810990789 A CN 201810990789A CN 110908980 B CN110908980 B CN 110908980B
Authority
CN
China
Prior art keywords
confidence
user identification
data
mapping relation
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810990789.8A
Other languages
English (en)
Other versions
CN110908980A (zh
Inventor
王云开
苏金辉
郭宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN201810990789.8A priority Critical patent/CN110908980B/zh
Publication of CN110908980A publication Critical patent/CN110908980A/zh
Application granted granted Critical
Publication of CN110908980B publication Critical patent/CN110908980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种用户标识映射关系建立方法、系统、设备及存储介质,所述方法包括:获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值;为每条用户标识数据添加唯一用户标识;将各个属性组合作为一第一类顶点,将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。本发明基于二分网络的思想,将原有用户标识数据进行转换清理,构建更明显简洁的数据关系;通过设置不同置信值,将二分网络中每个映射关系进行分数标记,表明其可信度和可用度,更方便下游应用业务使用,提高数据使用范围及数据质量。

Description

用户标识映射关系建立方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用户标识映射关系建立方法、系统、设备及存储介质。
背景技术
随着数据爆发式的增长,企业用户信息来源繁多,造成用户数据在多个来源系统中重复存在多种ID(Identity,身份识别码)信息,使得数据趋向于多元化、碎片化,如何准确的将不同来源的用户ID信息进行整合,并依此建立用户间关系一直是重要难题。
目前业界对于信息整合的主要做法是利用ID-Mapping,其含义即为ID映射,通过设置一个独立于业务线之外的主键作为用户唯一标识,并根据数据中不同的ID进行关联整合,例如使用手机号,身份证号等强关联ID进行关联标识用户,将这些强ID相同的数据赋予一个统一的唯一标识,确保这些数据ID背后的统一性。
ID-Mapping的结果数据建立了用户背后的强关系连接,建立了用户唯一标识,但是仍存在以下不足:
(1)映射结果数据冗余,关联性、可读性不高;
(2)用户关系没有形成完整网络,中间关系未发掘完全;
(3)没有统一有效的度量标准表明数据可用度及可信度。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种用户标识映射关系建立方法、系统、设备及存储介质,基于二分网络的思想,将用户标识数据进行转换处理,构建更明显简洁的数据关系。
本发明实施例提供一种用户标识映射关系建立方法,所述方法包括如下步骤:
获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值,将各个属性组合作为一第一类顶点;
为每条用户标识数据添加唯一用户标识;
将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。
可选地,为每条用户标识数据添加唯一用户标识时,为具有相同强关联顶点的用户标识数据添加同一唯一用户标识;
其中,属性组合与用户一一对应的第一类顶点定义为强关联顶点。
可选地,形成包括所述第一类顶点和第二类顶点的二分网络之后,还包括如下步骤:
根据每条用户标识数据中各个置信因素的置信值计算每条用户标识数据的置信值。
可选地,所述置信因素包括数据来源、是否实名认证、数据使用次数和数据距今最近使用时间差中的至少一种。
可选地,根据如下公式计算每条用户标识数据的置信值CS:
其中,δ为预设的平衡因子,idi为该条用户标识数据中第i个置信因素的置信值,n为计算时所采用的置信因素的个数,I()i为预设的第i个置信因素的置信函数,wi为第i个置信因素的预设权重。
可选地,所述置信因素包括数据来源、是否实名认证、数据使用次数和数据距今最近使用时间差中的至少一种;
其中,对于数据来源的置信因素,置信函数为:
I(idi)=scorej;if idi=srcj
对于是否实名认证的置信因素,置信函数为:
对于数据使用次数的置信因素,置信函数为:
对于数据距今最近一次使用时间差的置信因素,置信函数为:
其中,srcj为第j个业务线的识别码,scorej为预设的第j个业务线的置信评分。
可选地,所述计算每条用户标识数据的置信值之后,还包括如下步骤:
根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值。
可选地,将属性组合与用户一一对应的第一类顶点定义为强关联顶点,将属性组合与用户不存在一一对应关系的第一类顶点定义为弱关联顶点;
所述根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值,包括如下步骤:
判断一映射关系对应的第一类顶点的类型;
如果是强关联顶点,则比较该强关联顶点所对应的各条用户标识数据的置信值,选择最大的值作为该映射关系的置信值;
如果是弱关系顶点,则确定与该映射关系对应的用户标识数据,将该对应的用户标识数据的置信值作为该映射关系的置信值。
可选地,根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值之后,还包括如下步骤:
提取所述二分网络中与一特定映射关系相关的所有映射关系,具体包括如下步骤:
(1)确定该特定映射关系所对应的特定唯一用户标识和特定属性名;
(2)将所述特定唯一用户标识对应的弱关联顶点作为第一轮迭代顶点,将该特定唯一用户标识作为已筛选唯一用户标识,所述二分网络中其他唯一用户标识作为未筛选唯一用户标识,将第一轮迭代置为待迭代轮次;
(3)选择与待迭代轮次的迭代顶点对应的未筛选唯一用户标识,筛选各个未筛选唯一用户标识中对应特定属性名的映射关系,作为当前迭代轮次得到的相关的映射关系;
(4)将当前迭代轮次所涉及的未筛选唯一用户标识置为已筛选,将新增已筛选唯一用户标识中未进行迭代的弱关联顶点作为下一轮迭代顶点,将下一迭代轮次代置为待迭代轮次,然后继续步骤(3)。
可选地,所述提取所述二分网络中与一特定映射关系相关的所有映射关系之后,还包括如下步骤:
计算所述特定映射关系与一相关的映射关系x之间的置信关联度,具体包括如下步骤:
记录各个第一轮迭代顶点与特定唯一用户标识的映射关系的置信值为第一轮中各个第一轮迭代顶点对应的置信基数;
从第二轮迭代开始,记录当前迭代轮次中各个迭代顶点与前一迭代轮次中相关唯一用户标识之间映射关系的置信值,作为当前迭代轮次中各个迭代顶点的置信基数;
确定该相关的映射关系x对应的迭代轮次数m;
查找得到该映射关系x在m轮迭代中每一轮相关的迭代顶点;
确定第j轮相关的迭代顶点的置信基数CSj,j∈(1,m);
根据如下公式计算所述特定映射关系与一相关的映射关系x之间的置信关联度C:
其中,MaxCS表示预设的置信值上限值,CSx表示该相关的映射关系x的置信值。
本发明实施例还提供一种用户标识映射关系建立系统,应用于所述的用户标识映射关系建立方法,所述系统包括:
数据采集模块,用于获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值;
数据标识模块,用于为每条用户标识数据添加唯一用户标识;
网络建立模块,用于将各个属性组合作为一第一类顶点,将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。
本发明实施例还提供一种用户标识映射关系建立设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的用户标识映射关系建立方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的用户标识映射关系建立方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的用户标识映射关系建立方法、系统、设备及存储介质具有下列优点:
本发明基于二分网络的思想,将原有用户标识数据进行转换清理,构建更明显简洁的数据关系;通过设置不同置信值,将二分网络中每个映射关系进行分数标记,表明其可信度和可用度,更方便下游应用业务使用,提高数据使用范围及数据质量;进一步地,通过层级迭代关联度计算,更清晰的显示与此数据相关的其他数据的匹配关联程度,使得数据可用度可信度进一步提升。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的用户标识映射关系建立方法的流程图;
图2是本发明一实施例的二分网络的示意图;
图3是本发明一实施例的计算二分网络中两个数据的置信关联度的示意图;
图4是本发明一实施例的用户标识映射关系建立系统的结构示意图;
图5是本发明一实施例的用户标识映射关系建立设备的结构示意图;
图6是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本发明实施例提供一种用户标识映射关系建立方法。本发明的实施为合法使用。如图1所示,所述用户标识映射关系建立方法包括如下步骤:
S100:获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值,将各个属性组合作为一第一类顶点;
S200:为每条用户标识数据添加唯一用户标识(User Primary Key,UPK);
S300:将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。
因此,本发明基于二分网络的思想,将原有用户标识数据进行转换清理,构建更明显简洁的数据关系。
在该实施例中,将属性组合与用户一一对应的第一类顶点定义为强关联顶点,将属性组合与用户不存在一一对应关系的第一类顶点定义为弱关联顶点。强关联顶点一般指的是可以准确标注用户身份的属性名和属性值的属性组合,例如,身份证号,实名认证过的理财专户号等等,而弱关联顶点一般指的是可以定义用户部分属性及行为活动,但并不能准确标注用户准确身份的属性组合,例如毕业学校和毕业年份、收货地址等。
在步骤S100数据采集阶段,可以首先将各个业务线的用户信息数据进行抽取、整合,并在这一步骤中将收集到的信息进行去重、统一数据格式等操作。
进一步地,在该实施例中,采用强关联顶点来标识用户关系,并根据这些强关联关系顶点计算强关系,并将这些数据的唯一用户标识置为相同,以建立不同强关联顶点之间的强连接。
如下表1示出了多条数据与唯一用户标识以及各个属性组合之间的对应关系。
表1各条用户标识数据列表
唯一用户标识 T1 T2 T3 T4 T5 T6 T7
1 ID1 ID2 ID3 ID4
1 ID1 ID5
2 ID6 ID5 ID7
2 ID8 ID9 ID10
3 ID11 ID12 ID8 ID13
3 ID12 ID14 ID15
3 ID15
其中,每一行表示一条用户标识数据,T1、T3、T5、T6、T7列是强关联属性名,即对于该几个属性名来说,其属性值与用户是一一对应的。T2、T4列是弱关联属性名,即对于该两个属性名来说,其属性值与用户不存在一一对应的关系。可以看出,如果仅仅关注强关联顶点,数据将成为一个个由唯一用户标识构成的孤岛,使得数据应用范围缩小,数据关联性和可读性变差。
因此,本发明进一步提出了二分网络的概念。二分网络是复杂网络中的重要表现形式,现实中的许多网络都呈现二分性质,其中网络只包含两类顶点,并且网络中的边存在于不同类型的顶点之间,我们可以将这类网络称为二分网络,例如公司与员工,商家与顾客等。根据这一思想,本发明将上述计算强弱关联顶点后的数据进行拆分,将各类属性组合视为第一类顶点,将唯一用户标识视为第二类顶点,如此将原先基于属性组合的单定点网络投射成为基于属性组合与唯一用户标识的二分网络如图2所示。对应的二分网络的数据如表2所示。
表2各条映射关系列表
唯一用户标识 属性组合
1 ID1_T1
1 ID2_T2
1 ID3_T4
1 ID4_T5
1 ID5_T2
2 ID6_T1
2 ID5_T2
2 ID7_T4
2 ID8_T4
2 ID9_T6
2 ID10_T7
3 ID11_T1
3 ID12_T3
3 ID8_T4
3 ID14_T5
3 ID15_T6
表2中每一行即表示一对应的唯一用户标识和一对应的属性组合的映射关系,对应于图2中的一条连线。
由此,该实施例中,通过清理重复ID,将弱关联顶点视为桥梁,通过建立弱关联顶点与唯一用户标识的关系,我们建立了各个唯一用户标识与各种属性组合之间更简洁,更明显的映射关系。同时使得不同属性组合之间的关系可以跟着唯一用户标识而建立,在降低数据冗余度的情况下,提高了数据的可用性和关联性。
基于上述根据二分网络转换后的数据可以很容易可以找到不同唯一用户标识之间的关系,但同时会出现一个问题,如果根据弱关联顶点得到了两个相同的属性组合和两个不同的唯一用户标识之间的映射关系,如何选择最可信、最优的映射关系。因此,在该实施例中,进一步地,形成包括所述第一类顶点和第二类顶点的二分网络之后,还包括如下步骤:
根据每条用户标识数据中各个置信因素的置信值计算每条用户标识数据的置信值。其中,所述置信因素包括数据来源、是否实名认证、数据使用次数和数据距今最近使用时间差中的至少一种。各个置信因素的置信值可以根据预设规则进行确定,例如数据来源因素中,如果数据来源于官方网站,则该数据的数据来源因素的置信值为1,如果数据来源于非官方网站,则该数据的数据来源因素的置信值为0,对于是否实名认证因素,如果是实名认证,则置信值为1或“实名”,如果非实名认证,则置信值为0或“非实名”,对于数据使用次数因素,如果数据使用次数大于预设阈值,则置信值为1,否则,置信值为0,数据距今最近使用时间差如果小于预设阈值,则置信值为1,否则置信值为0,等等,此处对置信因素和置信值的设定仅为举例,而不作为本发明的保护范围的限制。
在该实施例中,根据如下公式计算每条用户标识数据的置信值CS:
其中,δ为预设的实数项平衡因子,用于防止当id值为空时使得CS值为0,idi为该条用户标识数据中第i个置信因素的置信值,n为计算时所采用的置信因素的个数,I()i为预设的第i个置信因素的置信函数,wi为第i个置信因素的预设权重。
在不同的业务场景下,面对不同的置信因素,I()i会有不同函数表达式,以下为一般场景下的常用的置信函数如下:
对于数据来源的置信因素,置信函数为:
I(idi)=scorej;if idi=srcj
其中,srcj为第j个业务线的识别码,scorej为预设的第j个业务线的置信评分;
对于是否实名认证的置信因素,置信函数为:
对于数据使用次数的置信因素,置信函数为:
对于数据距今最近一次使用时间差的置信因素,置信函数为:
将表1中的每条数据根据上述公式计算置信值后可以得到如下表3。
表3各条用户标识数据的置信值
唯一用户标识 T1 T2 T3 T4 T5 T6 T7 置信值
1 ID1 ID2 ID3 ID4 2
1 ID1 ID5 4.8
2 ID6 ID5 ID7 8.7
2 ID8 ID9 ID10 3.2
3 ID11 ID12 ID8 ID13 9.6
3 ID12 ID14 ID15 4.4
3 ID15 3.6
在确定了每条用户标识数据的置信值之后,还可以根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值。
在该实施例中,所述根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值,包括如下步骤:
判断一映射关系对应的第一类顶点的类型;
如果是强关联顶点,则比较该强关联顶点所对应的各条用户标识数据的置信值,选择最大的值作为该映射关系的置信值;例如,对于唯一用户标识为1,属性名为T1,属性值为ID1的映射关系来说,分别对应两条用户标识数据(表3中的第一行和第二行),两条用户标识数据的置信值分别为2和4.8,因此选择4.8作为该映射关系的置信值,保证此映射关系的准确性和唯一性。
如果是弱关系顶点,则确定与该映射关系对应的用户标识数据,将该对应的用户标识数据的置信值作为该映射关系的置信值。例如,对于唯一用户标识为1,属性名为T2,属性值为ID2的映射关系,对应于表3中第一行的用户标识数据,其置信值为2。
根据该种方法,整理上述表3进一步得到如下表4。
表4各条映射关系的置信值
唯一用户标识 属性组合 置信值
1 ID1_T1 4.8
1 ID2_T2 2
1 ID3_T4 2
1 ID4_T5 2
1 ID5_T2 4.8
2 ID6_T1 8.7
2 ID5_T2 8.7
2 ID7_T4 8.7
2 ID8_T4 3.2
2 ID9_T6 3.2
2 ID10_T7 3.2
3 ID11_T1 9.6
3 ID12_T3 9.6
3 ID8_T4 9.6
3 ID14_T5 4.4
3 ID15_T6 4.4
因此,该实施例中通过设置不同的置信值,对二分网络中每个映射关系计算置信值,表明各个映射关系的可信度和可用度,更方便下游应用业务使用,提高数据适用范围及数据质量。
进一步地,当业务需要得到与某属性组合相关的某类映射关系的所有数据时,通过强关联顶点我们可以列出该属性组合对应的同一唯一用户标识下所有数据并按照置信分数排序得出数据关联与可信度。而当通过弱关联顶点,我们会通过同唯一用户标识下的弱关联顶点去循环迭代寻找相关联的其他唯一用户标识对应的属性组合。
在该实施例中,根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值之后,还包括如下步骤:
提取所述二分网络中与一特定映射关系相关的所有映射关系,具体包括如下步骤:
(1)确定该特定映射关系所对应的特定唯一用户标识和特定属性名;
(2)将所述特定唯一用户标识对应的弱关联顶点作为第一轮迭代顶点,将该特定唯一用户标识作为已筛选唯一用户标识,所述二分网络中其他唯一用户标识作为未筛选唯一用户标识,将第一轮迭代置为待迭代轮次;
(3)选择与待迭代轮次的迭代顶点对应的未筛选唯一用户标识,筛选各个未筛选唯一用户标识中对应特定属性名的映射关系,作为当前迭代轮次得到的相关的映射关系;
(4)将当前迭代轮次所涉及的未筛选唯一用户标识置为已筛选,将新增已筛选唯一用户标识中未进行迭代的弱关联顶点作为下一轮迭代顶点,将下一迭代轮次代置为待迭代轮次,然后继续步骤(3)。
在该实施例中,所述提取所述二分网络中与一特定映射关系相关的所有映射关系之后,还包括如下步骤:
计算所述特定映射关系与一相关的映射关系x之间的置信关联度,具体包括如下步骤:
记录各个第一轮迭代顶点与特定唯一用户标识的映射关系的置信值为第一轮中各个第一轮迭代顶点对应的置信基数;
从第二轮迭代开始,记录当前迭代轮次中各个迭代顶点与前一迭代轮次中相关唯一用户标识之间映射关系的置信值,作为当前迭代轮次中各个迭代顶点的置信基数;
确定该相关的映射关系x对应的迭代轮次数m;
查找得到该映射关系x在m轮迭代中每一轮相关的迭代顶点;
确定第j轮相关的迭代顶点的置信基数CSj,j∈(1,m);
根据如下公式计算所述特定映射关系与一相关的映射关系x之间的置信关联度C:
其中,MaxCS表示预设的置信值上限值,CSx表示该相关的映射关系x的置信值。
因此,该实施例可以通过层级迭代关联度计算,更清晰的显示与此数据相关的其他数据的匹配关联程度,使得数据可用度可信度进一步提升。
如图3所示,为采用该种方法进行迭代后计算置信关联度的示意图。
在该实施例中,ZH1表示手机号1,ZH2表示地址1,ZH3表示姓名1,ZH4表示地址2,ZH5表示学校1,ZH6表示地址3。需要查找手机号为ZH1的用户的地址。首先,根据手机号ZH1确定特定唯一用户标识为UPK1,根据特定唯一用户标识UPK1和ZH2确定特定映射关系为UPK1-ZH2,需要再寻找与该特定映射关系相关的映射关系,相关的映射关系与特定映射关系具有相同的特定属性名,相关的映射关系中的属性组合即为需要找到的相关的属性组合。
对于第一轮迭代来说,查找到的相关的映射关系即为特定映射关系,其置信相关度即为该映射关系的置信值,即为5。在第二轮迭代中,将弱关联顶点ZH3作为第二轮迭代顶点,找到相关的映射关系UPK2-ZH4,该相关的映射关系UPK2-ZH4的置信值为2,其与特定映射关系的置信相关度为(3/10)*2,其中3即为UPK1-ZH3的置信值,10为该实例中预设的置信值上限,2为UPK2-ZH4的置信值。然后将弱关联顶点ZH5作为第三轮迭代顶点,找到相关的映射关系UPK3-ZH6,该相关的映射关系的置信相关度为(6/10)*(3/10)*2,其中,3即为UPK1-ZH3的置信值,10为该实例中预设的置信值上限,2为UPK2-ZH4的置信值,6为UPK3-ZH6的置信值。
本发明的用户标识映射关系建立方法可以应用于多种场合,得到的用户标识映射关系可以供下游使用。例如,在查找一个手机号所对应的用户信息时,可以先根据该手机号找到对应的唯一用户标识,然后找到该唯一用户标识对应的第一类顶点的信息,例如身份证号、地址、姓名、学校等等,并且可以根据第一类顶点所对应的映射关系的置信值得到各个数据的可信程度,并且可以进一步通过上述的迭代找到其他相关的手机号,在给目标手机号打电话打不通时,可以选择其他的置信关联度较高的手机号,然后将其作为该用户的备选手机号。
具体的应用例如,需要对一些参与活动的用户进行回访,并且给用户寄送礼品。则在拨通用户的手机号码时,首先可以请用户说出自己的地址,然后与查找到的与该手机号码相关联的地址进行比对,如果比对成功,则对用户的身份验证成功。
或者,在为用户推荐好友时,可以根据用户的学校进行查找,找到其他具有相同学校的用户,并且将其他具有相同学校的用户的一些非隐私信息,例如用户头像、用户所在城市等一并显示给用户。在用户与一个推荐的用户加为好友之后,可以进一步显示新增加好友的手机号等信息。
如图4所示,本发明实施例还提供一种用户标识映射关系建立系统,应用于所述的用户标识映射关系建立方法,所述系统包括:
数据采集模块100,用于获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值;
数据标识模块200,用于为每条用户标识数据添加唯一用户标识;
网络建立模块300,用于将各个属性组合作为一第一类顶点,将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。
因此,通过采用本发明的用户标识映射关系建立系统,基于二分网络的思想,将原有用户标识数据进行转换清理,构建更明显简洁的数据关系。同时,与上述用户标识映射关系建立方法实施例相对应地,可以通过设置不同置信值,将二分网络中每个映射关系进行分数标记,表明其可信度和可用度,更方便下游应用业务使用,提高数据使用范围及数据质量;进一步地,与上述用户标识映射关系建立方法实施例相对应地,可以通过层级迭代关联度计算,更清晰的显示与此数据相关的其他数据的匹配关联程度,使得数据可用度可信度进一步提升。
本发明实施例还提供一种用户标识映射关系建立设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的用户标识映射关系建立方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的用户标识映射关系建立方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、设备和计算机存储介质的实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本发明所提供的用户标识映射关系建立方法、系统、设备及存储介质具有下列优点:
本发明基于二分网络的思想,将原有用户标识数据进行转换清理,构建更明显简洁的数据关系;通过设置不同置信值,将二分网络中每个映射关系进行分数标记,表明其可信度和可用度,更方便下游应用业务使用,提高数据使用范围及数据质量;进一步地,通过层级迭代关联度计算,更清晰的显示与此数据相关的其他数据的匹配关联程度,使得数据可用度可信度进一步提升。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种用户标识映射关系建立方法,其特征在于,所述方法包括如下步骤:
获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值,将各个属性组合作为一第一类顶点;
为每条用户标识数据添加唯一用户标识;
将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络;
根据每条用户标识数据中各个置信因素的置信值计算每条用户标识数据的置信值;
根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值;
其中,将属性组合与用户一一对应的第一类顶点定义为强关联顶点,将属性组合与用户不存在一一对应关系的第一类顶点定义为弱关联顶点;
所述根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值,包括如下步骤:
判断一映射关系对应的第一类顶点的类型;
如果是强关联顶点,则比较该强关联顶点所对应的各条用户标识数据的置信值,选择最大的值作为该映射关系的置信值;
如果是弱关系顶点,则确定与该映射关系对应的用户标识数据,将该对应的用户标识数据的置信值作为该映射关系的置信值。
2.根据权利要求1所述的用户标识映射关系建立方法,其特征在于,为每条用户标识数据添加唯一用户标识时,为具有相同强关联顶点的用户标识数据添加同一唯一用户标识;
其中,属性组合与用户一一对应的第一类顶点定义为强关联顶点。
3.根据权利要求1所述的用户标识映射关系建立方法,其特征在于,所述置信因素包括数据来源、是否实名认证、数据使用次数和数据距今最近使用时间差中的至少一种。
4.根据权利要求1或3所述的用户标识映射关系建立方法,其特征在于,根据如下公式计算每条用户标识数据的置信值CS:
其中,δ为预设的平衡因子,idi为该条用户标识数据中第i个置信因素的置信值,n为计算时所采用的置信因素的个数,I()i为预设的第i个置信因素的置信函数,wi为第i个置信因素的预设权重。
5.根据权利要求4所述的用户标识映射关系建立方法,其特征在于,所述置信因素包括数据来源、是否实名认证、数据使用次数和数据距今最近使用时间差中的至少一种;
其中,对于数据来源的置信因素,置信函数为:
I(idi)=scorej;if idi=srcj
对于是否实名认证的置信因素,置信函数为:
对于数据使用次数的置信因素,置信函数为:
对于数据距今最近一次使用时间差的置信因素,置信函数为:
其中,srcj为第j个业务线的识别码,scorej为预设的第j个业务线的置信评分。
6.根据权利要求1所述的用户标识映射关系建立方法,其特征在于,根据每条用户标识数据的置信值确定所述二分网络中每条映射关系的置信值之后,还包括如下步骤:
提取所述二分网络中与一特定映射关系相关的所有映射关系,具体包括如下步骤:
(1)确定该特定映射关系所对应的特定唯一用户标识和特定属性名;
(2)将所述特定唯一用户标识对应的弱关联顶点作为第一轮迭代顶点,将该特定唯一用户标识作为已筛选唯一用户标识,所述二分网络中其他唯一用户标识作为未筛选唯一用户标识,将第一轮迭代置为待迭代轮次;
(3)选择与待迭代轮次的迭代顶点对应的未筛选唯一用户标识,筛选各个未筛选唯一用户标识中对应特定属性名的映射关系,作为当前迭代轮次得到的相关的映射关系;
(4)将当前迭代轮次所涉及的未筛选唯一用户标识置为已筛选,将新增已筛选唯一用户标识中未进行迭代的弱关联顶点作为下一轮迭代顶点,将下一迭代轮次代置为待迭代轮次,然后继续步骤(3)。
7.根据权利要求6所述的用户标识映射关系建立方法,其特征在于,所述提取所述二分网络中与一特定映射关系相关的所有映射关系之后,还包括如下步骤:
计算所述特定映射关系与一相关的映射关系x之间的置信关联度,具体包括如下步骤:
记录各个第一轮迭代顶点与特定唯一用户标识的映射关系的置信值为第一轮中各个第一轮迭代顶点对应的置信基数;
从第二轮迭代开始,记录当前迭代轮次中各个迭代顶点与前一迭代轮次中相关唯一用户标识之间映射关系的置信值,作为当前迭代轮次中各个迭代顶点的置信基数;
确定该相关的映射关系x对应的迭代轮次数m;
查找得到该映射关系x在m轮迭代中每一轮相关的迭代顶点;
确定第j轮相关的迭代顶点的置信基数CSj,j∈(1,m);
根据如下公式计算所述特定映射关系与一相关的映射关系x之间的置信关联度C:
其中,MaxCS表示预设的置信值上限值,CSx表示该相关的映射关系x的置信值。
8.一种用户标识映射关系建立系统,其特征在于,应用于权利要求1至7中任一项所述的用户标识映射关系建立方法,所述系统包括:
数据采集模块,用于获取用户标识数据,每条所述用户标识数据包括至少一属性组合,各个属性组合包括一属性名和对应的属性值;
数据标识模块,用于为每条用户标识数据添加唯一用户标识;
网络建立模块,用于将各个属性组合作为一第一类顶点,将各个唯一用户标识作为一第二类顶点,建立第一类顶点和第二类顶点的映射关系,以形成包括所述第一类顶点和第二类顶点的二分网络。
9.一种用户标识映射关系建立设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的用户标识映射关系建立方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7中任一项所述的用户标识映射关系建立方法的步骤。
CN201810990789.8A 2018-08-28 2018-08-28 用户标识映射关系建立方法、系统、设备及存储介质 Active CN110908980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810990789.8A CN110908980B (zh) 2018-08-28 2018-08-28 用户标识映射关系建立方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810990789.8A CN110908980B (zh) 2018-08-28 2018-08-28 用户标识映射关系建立方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110908980A CN110908980A (zh) 2020-03-24
CN110908980B true CN110908980B (zh) 2024-04-12

Family

ID=69812158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810990789.8A Active CN110908980B (zh) 2018-08-28 2018-08-28 用户标识映射关系建立方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110908980B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016081B (zh) * 2020-08-31 2021-09-21 贝壳找房(北京)科技有限公司 标识映射的实现方法、装置、介质和电子设备
CN112069231B (zh) * 2020-09-08 2024-05-17 京东科技控股股份有限公司 用户信息处理方法及装置、存储介质、电子设备
CN115345335B (zh) * 2022-08-23 2024-03-19 中国民航信息网络股份有限公司 一种民航开放旅客预订系统中旅客姓名的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN105378763A (zh) * 2013-05-09 2016-03-02 微软技术许可有限责任公司 推断实体属性值
CN106326367A (zh) * 2016-08-11 2017-01-11 华南师范大学 基于wnbi和rsvd混合协同推荐算法
CN107885778A (zh) * 2017-10-12 2018-04-06 浙江工业大学 一种基于动态临近点谱聚类的个性化推荐方法
CN108322473A (zh) * 2018-02-12 2018-07-24 北京京东金融科技控股有限公司 用户行为分析方法与装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209647A (ja) * 2000-01-25 2001-08-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 情報検索装置、情報検索方法および情報検索処理プログラムを記録した記録媒体
US20070185868A1 (en) * 2006-02-08 2007-08-09 Roth Mary A Method and apparatus for semantic search of schema repositories
US10034135B1 (en) * 2011-06-08 2018-07-24 Dstillery Inc. Privacy-sensitive methods, systems, and media for geo-social targeting
CN104240166B (zh) * 2013-06-19 2018-04-17 国际商业机器公司 在管理系统中共享信息的方法和装置
CN103530428B (zh) * 2013-11-04 2016-08-17 武汉大学 一种基于开发者实践技能相似性的同行推荐方法
US10127289B2 (en) * 2015-08-19 2018-11-13 Palantir Technologies Inc. Systems and methods for automatic clustering and canonical designation of related data in various data structures

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN105378763A (zh) * 2013-05-09 2016-03-02 微软技术许可有限责任公司 推断实体属性值
CN106326367A (zh) * 2016-08-11 2017-01-11 华南师范大学 基于wnbi和rsvd混合协同推荐算法
CN107885778A (zh) * 2017-10-12 2018-04-06 浙江工业大学 一种基于动态临近点谱聚类的个性化推荐方法
CN108322473A (zh) * 2018-02-12 2018-07-24 北京京东金融科技控股有限公司 用户行为分析方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于用户偏好加权的混合网络推荐算法;张新猛等;山东大学学报 ( 理学版);第第 50 卷卷(第第 9 期期);全文 *
面向移动健康医疗系统的多层二分网络推荐算法;周岩;雷世尧;张灿;;中国科学院大学学报(第01期);全文 *

Also Published As

Publication number Publication date
CN110908980A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
US11151151B2 (en) Integration template generation
US9439053B2 (en) Identifying subgraphs in transformed social network graphs
CN110908980B (zh) 用户标识映射关系建立方法、系统、设备及存储介质
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US10552497B2 (en) Unbiasing search results
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
US10719529B2 (en) Presenting a trusted tag cloud
JP6307822B2 (ja) プログラム、コンピュータおよび訓練データ作成支援方法
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
CN115455046A (zh) 图中的重复确定
CN110879808B (zh) 一种信息处理方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US9792527B2 (en) Automated slide comparator
CN110941744A (zh) 一种数据列表添加器及添加方法
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
US11200215B2 (en) Data quality evaluation
CN102968593B (zh) 用于多租户环境下定位应用程序的隔离点的方法和系统
US7284012B2 (en) Multiple attribute object comparison based on quantitative distance measurement
US20150154665A1 (en) Plan Reader
CN111241347A (zh) 一种图数据库的创建方法、企业数据查询方法及装置
JP2020035276A (ja) 情報処理装置及び情報処理方法
CN111581228A (zh) 更正搜索条件的搜索方法、装置、存储介质及电子设备
US12039273B2 (en) Feature vector generation for probabalistic matching
US20220036006A1 (en) Feature vector generation for probabalistic matching
CN114399343B (zh) 一种智能机器人线上辅助销售方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant