CN105912663A

CN105912663A - 一种基于大数据的用户标签合并方法

Info

Publication number: CN105912663A
Application number: CN201610223304.3A
Authority: CN
Inventors: 商志营
Original assignee: Ningbo Jidong Accurate Advertising Media Co Ltd
Current assignee: Ningbo Jidong Accurate Advertising Media Co Ltd
Priority date: 2016-04-12
Filing date: 2016-04-12
Publication date: 2016-08-31

Abstract

本发明涉及一种基于大数据的用户标签合并方法，用以将同一个用户的不同ID合并，包括以下步骤：1)获取多个待确认ID用户的至少两个ID类型以及ID类型对应的ID类型值记录，所述的ID类型包括浏览器cookie、设备ID、Email、手机号、微信号和APP用户ID；2)根据待确认ID用户的ID类型值，将具有相同ID类型值对应的记录合并，并且判定为同一个用户。与现有技术相比，本发明具有合并高效、准确等优点。

Description

一种基于大数据的用户标签合并方法

技术领域

本发明涉及用户标签合并方法，尤其是涉及一种基于大数据的用户标签合并方法。

背景技术

不同人群信息收集平台中判别人的标识都不一样，例如，PC浏览器下通常用cookie来区分，手机app上用设备ID等来区分。

同一个人在不同平台上联网时，系统获知的ID有很多个，但事实上这些ID代表同一个人；如何能将多种ID统一为一个人的ID事情就是目前业界的一个问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种合并高效、准确的基于大数据的用户标签合并方法。

本发明的目的可以通过以下技术方案来实现：

一种基于大数据的用户标签合并方法，用以将同一个用户的不同ID合并，包括以下步骤：

1)获取多个待确认ID用户的至少两个ID类型以及ID类型对应的ID类型值记录，所述的ID类型包括浏览器cookie、设备ID、Email、手机号、微信号和APP用户ID；

2)根据待确认ID用户的ID类型值，将具有相同ID类型值对应的记录合并，并且判定为同一个用户。

所述的步骤2)中，具体包括以下步骤：

当两条记录中同一ID类型对应的ID类型值相同时，则将两条记录保留并统一具有相同ID类型值及其对应的ID类型，同时合并其余ID类型对应的ID类型值。

所述的步骤2)中，当一条记录中含有多种ID类型，且其中至少有一种ID类型含有至少一个对应的ID类型值时，按照可靠性的优先级顺序对记录进行合并，当高可靠性优先级的ID类型与低可靠性优先级的ID类型均有对应的ID类型值时，按照高可靠性优先级的ID类型进行合并，并舍弃低可靠性优先级的ID类型的ID类型值。

所述的可靠性的优先级顺序为：

个人专用的ID类型的可靠性高于公用的ID类型，其中，个人专用的ID类型包括Email、手机号和微信号，公用的ID类型包括浏览器cookie、设备ID和APP用户ID。

当舍弃低可靠性优先级的ID类型的ID类型值后，该条记录仅有一个ID类型且对应多个ID类型值时，则将该条记录拆分为多条子记录，重新进行合并。

与现有技术相比，本发明具有以下优点：

一、合并高效：本发明能够从用户ID的大数据记录中提取相应的ID类型值，并且进行合并，使得不同用户的记录能够高效的合并，为根据用户特征处理数据的系统(例如广告投放系统)提供更为准确的信息。

二、合并准确：本发明通过建立可靠性的优先级顺序进行记录的合并，考虑到当一条记录中含有多种ID类型，且其中至少有一种ID类型含有至少一个对应的ID类型值时的复杂情况，并且还考虑到了剔除低可靠性的ID类型值后仅有一个ID类型有多个ID值的情况，考虑全面，合并准确。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

本发明的基本思路如图1所示：

表1 搜集到的初始数据表

如表1所示，当收集到的每个人的ID只有1个时，没有办法确认多个记录其实是一个人；

如果收集的信息中至少有两种ID时，就可以根据相同ID合并的方法来判断多个记录是否为同一个人。

具体方法为：

当两条记录在同一种ID下的值是相同的情况下，可判定为同一人，合并两条记录，并将其他类型的ID合并；合并时，同一种ID的不同值放在一起。

举例说明：假设收集到的数据如表2所示：

表2 收集到的数据表

记录ID	cookie	设备ID	EMAIL	手机号	微信号	APP用户ID	其它ID
								A	1		2
B		1	2
								C		2		1	1
D		3		1
								E	2					1
F		4					1’

对于记录A、B，因为email相同，于是可以判定其为同一个人，同理，因为记录C和D，因为手机号相同，也可以判定为同一个人；

最终数据合并为表3：

表3 合并后的最终数据表

记录ID

cookie

设备ID

EMAIL

手机号

微信号

APP用户ID

其它ID

A

1

2

C

2，3

1

注意，合并后的记录C中，设备ID会有两个值，也就是表示这个人会使用两个设备；

ID类型可靠性问题：

上述步骤初步合并后的数据，会存在这种现在，一条记录中，包含多种类型的ID，并且至少有一种ID包含多个值；

例如表4所示：

表4 包含多种类型的ID，并且至少有一种ID包含多个值时的情况表

上述数据中记录b1和b2其实有问题，通常来说，cookie信息区分一个人的可靠性不高，手机不同一般认为是不同的人，所以记录b1、b2、d中的cookie数据已经没有意义，应该去除；

去除cookie之后，b1,b2记录只包含手机号一种ID，所以还需要还原为独立的记录；

但是，设备ID也属于可靠性不高的ID，因此，记录c还是有效的；

另外，email、手机号同属于高可靠的ID，所以记录d中email、手机号的信息仍然有效；

最后的结果将变成：

记录ID

cookie

设备ID

EMAIL

手机号

微信号

APP用户ID

其它ID

a

1,2

1

b1

2

b2

3

b3

4

b4

5

c

6,7

1，2

d

1,2

6,7

总结一下判定有效性的方法：

1.先对系统中可采集的各类型ID标记“高可靠性”或“低可靠性”；

a)一般手机号、email、微信号...等个人专用的账号都属于“高可靠性”ID；

b)Cookie，设备号...等可能为多人使用的ID属于“低可靠性”ID；

c)每种类型的ID，在接入系统的时候，就需要根据采集渠道的具体情况来确认其可靠性高低，上文所述仅为示例，本方法不作强制限定；

2.当一条记录中，高可靠性ID为多值，同时低可靠性ID也有数据的情况下，此条记录中的低可靠性ID值没有意义，需要去除该记录中的第可靠性ID的值。

3.去除了ID值的记录如果仅包含一种ID，且为多值的时候，需要重新将这条记录拆分为多条；

反复运用上述两个方法即可正确合并所有记录；

上述方法是一种思路，在具体实现的过程中可以进行各种优化来提高合并的效率，这里就不赘述。

模糊ID的问题

有些平台上采集的ID可能不是一个精确值，而是一个模糊值，比如拍摄的头像。

对于此类ID需要使用与数据类型相应的模糊匹配算法来认定是否算作一个ID(比如，图像类的ID就要用图像识别中的相似度算法来匹配，当判断完两个图像相似度>某个阈值时，就可以认为两个ID相同)，然后运用上述算法合并数据，示例：表2中的两个记录E、F，假设“其它ID”这一列属于需要模糊匹配的情况，其ID值“1”和“1’”以模糊匹配规则可以算作相等的情况下，也就可以合并记录。

合并完数据之后，一条记录上将包含一个人的多种ID，当任意一个ID被捕捉到时，都可以查询到这条记录。为根据人群特征处理数据的系统(例如广告投放系统)提供更为准确的信息。

Claims

1.一种基于大数据的用户标签合并方法，用以将同一个用户的不同ID合并，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据的用户标签合并方法，其特征在于，所述的步骤2)中，具体包括以下步骤：

3.根据权利要求2所述的一种基于大数据的用户标签合并方法，其特征在于，所述的步骤2)中，当一条记录中含有多种ID类型，且其中至少有一种ID类型含有至少一个对应的ID类型值时，按照可靠性的优先级顺序对记录进行合并，当高可靠性优先级的ID类型与低可靠性优先级的ID类型均有对应的ID类型值时，按照高可靠性优先级的ID类型进行合并，并舍弃低可靠性优先级的ID类型的ID类型值。

4.根据权利要求3所述的一种基于大数据的用户标签合并方法，其特征在于，所述的可靠性的优先级顺序为：

5.根据权利要求3所述的一种基于大数据的用户标签合并方法，其特征在于，当舍弃低可靠性优先级的ID类型的ID类型值后，该条记录仅有一个ID类型且对应多个ID类型值时，则将该条记录拆分为多条子记录，重新进行合并。