CN105912663A - 一种基于大数据的用户标签合并方法 - Google Patents

一种基于大数据的用户标签合并方法 Download PDF

Info

Publication number
CN105912663A
CN105912663A CN201610223304.3A CN201610223304A CN105912663A CN 105912663 A CN105912663 A CN 105912663A CN 201610223304 A CN201610223304 A CN 201610223304A CN 105912663 A CN105912663 A CN 105912663A
Authority
CN
China
Prior art keywords
type
record
user
types value
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610223304.3A
Other languages
English (en)
Inventor
商志营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Jidong Accurate Advertising Media Co Ltd
Original Assignee
Ningbo Jidong Accurate Advertising Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Jidong Accurate Advertising Media Co Ltd filed Critical Ningbo Jidong Accurate Advertising Media Co Ltd
Priority to CN201610223304.3A priority Critical patent/CN105912663A/zh
Publication of CN105912663A publication Critical patent/CN105912663A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据的用户标签合并方法,用以将同一个用户的不同ID合并,包括以下步骤:1)获取多个待确认ID用户的至少两个ID类型以及ID类型对应的ID类型值记录,所述的ID类型包括浏览器cookie、设备ID、Email、手机号、微信号和APP用户ID;2)根据待确认ID用户的ID类型值,将具有相同ID类型值对应的记录合并,并且判定为同一个用户。与现有技术相比,本发明具有合并高效、准确等优点。

Description

一种基于大数据的用户标签合并方法
技术领域
本发明涉及用户标签合并方法,尤其是涉及一种基于大数据的用户标签合并方法。
背景技术
不同人群信息收集平台中判别人的标识都不一样,例如,PC浏览器下通常用cookie来区分,手机app上用设备ID等来区分。
同一个人在不同平台上联网时,系统获知的ID有很多个,但事实上这些ID代表同一个人;如何能将多种ID统一为一个人的ID事情就是目前业界的一个问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种合并高效、准确的基于大数据的用户标签合并方法。
本发明的目的可以通过以下技术方案来实现:
一种基于大数据的用户标签合并方法,用以将同一个用户的不同ID合并,包括以下步骤:
1)获取多个待确认ID用户的至少两个ID类型以及ID类型对应的ID类型值记录,所述的ID类型包括浏览器cookie、设备ID、Email、手机号、微信号和APP用户ID;
2)根据待确认ID用户的ID类型值,将具有相同ID类型值对应的记录合并,并且判定为同一个用户。
所述的步骤2)中,具体包括以下步骤:
当两条记录中同一ID类型对应的ID类型值相同时,则将两条记录保留并统一具有相同ID类型值及其对应的ID类型,同时合并其余ID类型对应的ID类型值。
所述的步骤2)中,当一条记录中含有多种ID类型,且其中至少有一种ID类型含有至少一个对应的ID类型值时,按照可靠性的优先级顺序对记录进行合并,当高可靠性优先级的ID类型与低可靠性优先级的ID类型均有对应的ID类型值时,按照高可靠性优先级的ID类型进行合并,并舍弃低可靠性优先级的ID类型的ID类型值。
所述的可靠性的优先级顺序为:
个人专用的ID类型的可靠性高于公用的ID类型,其中,个人专用的ID类型包括Email、手机号和微信号,公用的ID类型包括浏览器cookie、设备ID和APP用户ID。
当舍弃低可靠性优先级的ID类型的ID类型值后,该条记录仅有一个ID类型且对应多个ID类型值时,则将该条记录拆分为多条子记录,重新进行合并。
与现有技术相比,本发明具有以下优点:
一、合并高效:本发明能够从用户ID的大数据记录中提取相应的ID类型值,并且进行合并,使得不同用户的记录能够高效的合并,为根据用户特征处理数据的系统(例如广告投放系统)提供更为准确的信息。
二、合并准确:本发明通过建立可靠性的优先级顺序进行记录的合并,考虑到当一条记录中含有多种ID类型,且其中至少有一种ID类型含有至少一个对应的ID类型值时的复杂情况,并且还考虑到了剔除低可靠性的ID类型值后仅有一个ID类型有多个ID值的情况,考虑全面,合并准确。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
本发明的基本思路如图1所示:
表1 搜集到的初始数据表
如表1所示,当收集到的每个人的ID只有1个时,没有办法确认多个记录其实是一个人;
如果收集的信息中至少有两种ID时,就可以根据相同ID合并的方法来判断多个记录是否为同一个人。
具体方法为:
当两条记录在同一种ID下的值是相同的情况下,可判定为同一人,合并两条记录,并将其他类型的ID合并;合并时,同一种ID的不同值放在一起。
举例说明:假设收集到的数据如表2所示:
表2 收集到的数据表
记录ID cookie 设备ID EMAIL 手机号 微信号 APP用户ID 其它ID
A 1 2
B 1 2
C 2 1 1
D 3 1
E 2 1
F 4 1’
对于记录A、B,因为email相同,于是可以判定其为同一个人,同理,因为记录C和D,因为手机号相同,也可以判定为同一个人;
最终数据合并为表3:
表3 合并后的最终数据表
记录ID cookie 设备ID EMAIL 手机号 微信号 APP用户ID 其它ID
A 1 1 2
C 2,3 1 1
注意,合并后的记录C中,设备ID会有两个值,也就是表示这个人会使用两个设备;
ID类型可靠性问题:
上述步骤初步合并后的数据,会存在这种现在,一条记录中,包含多种类型的ID,并且至少有一种ID包含多个值;
例如表4所示:
表4 包含多种类型的ID,并且至少有一种ID包含多个值时的情况表
上述数据中记录b1和b2其实有问题,通常来说,cookie信息区分一个人的可靠性不高,手机不同一般认为是不同的人,所以记录b1、b2、d中的cookie数据已经没有意义,应该去除;
去除cookie之后,b1,b2记录只包含手机号一种ID,所以还需要还原为独立的记录;
但是,设备ID也属于可靠性不高的ID,因此,记录c还是有效的;
另外,email、手机号同属于高可靠的ID,所以记录d中email、手机号的信息仍然有效;
最后的结果将变成:
记录ID cookie 设备ID EMAIL 手机号 微信号 APP用户ID 其它ID
a 1,2 1
b1 2
b2 3
b3 4
b4 5
c 6,7 1,2
d 1,2 6,7
总结一下判定有效性的方法:
1.先对系统中可采集的各类型ID标记“高可靠性”或“低可靠性”;
a)一般手机号、email、微信号...等个人专用的账号都属于“高可靠性”ID;
b)Cookie,设备号...等可能为多人使用的ID属于“低可靠性”ID;
c)每种类型的ID,在接入系统的时候,就需要根据采集渠道的具体情况来确认其可靠性高低,上文所述仅为示例,本方法不作强制限定;
2.当一条记录中,高可靠性ID为多值,同时低可靠性ID也有数据的情况下,此条记录中的低可靠性ID值没有意义,需要去除该记录中的第可靠性ID的值。
3.去除了ID值的记录如果仅包含一种ID,且为多值的时候,需要重新将这条记录拆分为多条;
反复运用上述两个方法即可正确合并所有记录;
上述方法是一种思路,在具体实现的过程中可以进行各种优化来提高合并的效率,这里就不赘述。
模糊ID的问题
有些平台上采集的ID可能不是一个精确值,而是一个模糊值,比如拍摄的头像。
对于此类ID需要使用与数据类型相应的模糊匹配算法来认定是否算作一个ID(比如,图像类的ID就要用图像识别中的相似度算法来匹配,当判断完两个图像相似度>某个阈值时,就可以认为两个ID相同),然后运用上述算法合并数据,示例:表2中的两个记录E、F,假设“其它ID”这一列属于需要模糊匹配的情况,其ID值“1”和“1’”以模糊匹配规则可以算作相等的情况下,也就可以合并记录。
合并完数据之后,一条记录上将包含一个人的多种ID,当任意一个ID被捕捉到时,都可以查询到这条记录。为根据人群特征处理数据的系统(例如广告投放系统)提供更为准确的信息。

Claims (5)

1.一种基于大数据的用户标签合并方法,用以将同一个用户的不同ID合并,其特征在于,包括以下步骤:
1)获取多个待确认ID用户的至少两个ID类型以及ID类型对应的ID类型值记录,所述的ID类型包括浏览器cookie、设备ID、Email、手机号、微信号和APP用户ID;
2)根据待确认ID用户的ID类型值,将具有相同ID类型值对应的记录合并,并且判定为同一个用户。
2.根据权利要求1所述的一种基于大数据的用户标签合并方法,其特征在于,所述的步骤2)中,具体包括以下步骤:
当两条记录中同一ID类型对应的ID类型值相同时,则将两条记录保留并统一具有相同ID类型值及其对应的ID类型,同时合并其余ID类型对应的ID类型值。
3.根据权利要求2所述的一种基于大数据的用户标签合并方法,其特征在于,所述的步骤2)中,当一条记录中含有多种ID类型,且其中至少有一种ID类型含有至少一个对应的ID类型值时,按照可靠性的优先级顺序对记录进行合并,当高可靠性优先级的ID类型与低可靠性优先级的ID类型均有对应的ID类型值时,按照高可靠性优先级的ID类型进行合并,并舍弃低可靠性优先级的ID类型的ID类型值。
4.根据权利要求3所述的一种基于大数据的用户标签合并方法,其特征在于,所述的可靠性的优先级顺序为:
个人专用的ID类型的可靠性高于公用的ID类型,其中,个人专用的ID类型包括Email、手机号和微信号,公用的ID类型包括浏览器cookie、设备ID和APP用户ID。
5.根据权利要求3所述的一种基于大数据的用户标签合并方法,其特征在于,当舍弃低可靠性优先级的ID类型的ID类型值后,该条记录仅有一个ID类型且对应多个ID类型值时,则将该条记录拆分为多条子记录,重新进行合并。
CN201610223304.3A 2016-04-12 2016-04-12 一种基于大数据的用户标签合并方法 Pending CN105912663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610223304.3A CN105912663A (zh) 2016-04-12 2016-04-12 一种基于大数据的用户标签合并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610223304.3A CN105912663A (zh) 2016-04-12 2016-04-12 一种基于大数据的用户标签合并方法

Publications (1)

Publication Number Publication Date
CN105912663A true CN105912663A (zh) 2016-08-31

Family

ID=56745848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610223304.3A Pending CN105912663A (zh) 2016-04-12 2016-04-12 一种基于大数据的用户标签合并方法

Country Status (1)

Country Link
CN (1) CN105912663A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN112463065A (zh) * 2020-12-10 2021-03-09 恩亿科(北京)数据科技有限公司 一种账号打通的计算方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394118A (zh) * 2014-07-29 2015-03-04 焦点科技股份有限公司 一种用户身份识别方法及系统
CN104573094A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394118A (zh) * 2014-07-29 2015-03-04 焦点科技股份有限公司 一种用户身份识别方法及系统
CN104573094A (zh) * 2015-01-30 2015-04-29 深圳市华傲数据技术有限公司 网络账号识别匹配方法
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN107515915B (zh) * 2017-08-18 2020-02-18 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
CN112463065A (zh) * 2020-12-10 2021-03-09 恩亿科(北京)数据科技有限公司 一种账号打通的计算方法及系统

Similar Documents

Publication Publication Date Title
CN110705405B (zh) 目标标注的方法及装置
EP2742442B1 (en) A method for detecting a copy of a reference video, corresponding apparatus for extracting a spatio-temporal signature from video data and corresponding computer readable storage medium
CN110147722A (zh) 一种视频处理方法、视频处理装置及终端设备
US20160335590A1 (en) Method and system for planogram compliance check based on visual analysis
CN107203765B (zh) 敏感图像检测方法和装置
CN105608409A (zh) 指纹识别的方法及装置
CN105975980A (zh) 监控图像标注质量的方法和装置
CN110738178A (zh) 园区施工安全检测方法、装置、计算机设备及存储介质
CN100474331C (zh) 字符串识别装置
CN106815588A (zh) 垃圾图片过滤方法及装置
CN102637255A (zh) 用于处理图像中包含的面部的方法和设备
CN108764197A (zh) 伴随车辆识别方法、装置、终端及计算机可读存储介质
CN111753642B (zh) 一种确定关键帧的方法及装置
CN105912663A (zh) 一种基于大数据的用户标签合并方法
CN115062186A (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN105930313A (zh) 处理通知信息的方法和装置
CN109359689B (zh) 一种数据识别方法及装置
CN107506735A (zh) 照片归类方法以及归类系统
CN111966339A (zh) 埋点参数的录入方法、装置、计算机设备和存储介质
CN106485221A (zh) 一种根据相似集中度自动替换基准相片的方法
CN108334602B (zh) 数据标注方法和装置、电子设备、计算机存储介质
CN102667770A (zh) 用于计算机辅助地注解多媒体数据的方法和设备
CN110502953A (zh) 一种图像模型比对方法和装置
Zhu et al. An automatic system to detect and extract texts in medical images for de-identification
CN111797922B (zh) 文本图像分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831

RJ01 Rejection of invention patent application after publication