CN108536831A - 一种基于多参数的用户识别系统及方法 - Google Patents

一种基于多参数的用户识别系统及方法 Download PDF

Info

Publication number
CN108536831A
CN108536831A CN201810322477.XA CN201810322477A CN108536831A CN 108536831 A CN108536831 A CN 108536831A CN 201810322477 A CN201810322477 A CN 201810322477A CN 108536831 A CN108536831 A CN 108536831A
Authority
CN
China
Prior art keywords
data
user
relationship
parameter
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810322477.XA
Other languages
English (en)
Inventor
张幸峰
朱慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Focuses On Mdt Infotech Ltd
Original Assignee
Shanghai Focuses On Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Focuses On Mdt Infotech Ltd filed Critical Shanghai Focuses On Mdt Infotech Ltd
Priority to CN201810322477.XA priority Critical patent/CN108536831A/zh
Publication of CN108536831A publication Critical patent/CN108536831A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多参数的用户识别系统,包括数据接入模块,所述数据接入模块用于收集并提取各来源数据中的ID以及ID关系数据;数据准备模块,所述数据准备模块用于数据的清洗;连接算法模块,所述连接算法模块用于根据ID关系对,基于连图原则将一个最大连通图归属到一个CCID上;结果查询模块,所述结果查询模块用于提供CCID查询服务,上行用户ID,下行CCID,本发明能够对多终端、多平台的ID进行归并,识别同一用户的多个ID,扩展同一用户的数据信息,对于提升数据挖掘、精准营销等方面具有重大意义。

Description

一种基于多参数的用户识别系统及方法
技术领域
本发明涉及参数识别领域,具体涉及到一种基于多参数的用户识别系统及方法。
背景技术
企业在进行数字营销的过程中,在多个渠道对用户有不同的标识方法,产生了例如PC Cookie、移动设备IMEI/IDFA、微信OpenID等多种ID。如何确定这些ID归属于同一个人?对数据的归集、交换、受众画像等都有重大的意义。若能确定多个ID归属于同一用户,那就能把同一用户的不同平台、终端的数据集关联在一起,将大大扩展基于同一用户的数据信息,对许多数据挖掘分析意义也非常重大。
现今,基于多参数的用户识别,其中一个普遍的解决方法是通过各个平台、数据库中的表进行关联即两个表中有相同的ID就认为这是同一用户,通过这种关联方法不但使得整合ID效率和ID归并率极低,而且极易出错。
还有一种方法是通过将包括用户个人数据、用户社会关系数据、用户生成数据、用户行为数据4种进行归类,基于已归类的用户数据进行分析,根据算法模型的概率判断是否为同一用户。此种方法的缺点是提高了识别同一用户的成本,而且ID归并率和识别正确率也都较低。
发明内容
为了解决上述不足的缺陷,本发明提供了一种基于多参数的用户识别系统及方法,本发明能够对多终端、多平台的ID进行归并,识别同一用户的多个ID,扩展同一用户的数据信息,对于提升数据挖掘、精准营销等方面具有重大意义。
本发明提供了一种基于多参数的用户识别系统,包括数据接入模块,所述数据接入模块用于收集并提取各来源数据中的ID以及ID关系数据;数据准备模块,所述数据准备模块用于数据的清洗;连接算法模块,所述连接算法模块用于根据ID关系对,基于连图原则将一个最大连通图归属到一个CCID上;结果查询模块,所述结果查询模块用于提供CCID查询服务,上行用户ID,下行CCID。
上述的识别系统,其中,原始数据通过标准API或以文件的形式接入,提取用户ID关系对。
上述的识别系统,其中,所述数据的清洗包括数据格式清洗和异常关系的清洗,所述数据格式清洗包括明细不符合数据类型格式的数据进行清洗,所述异常关系的清洗包括非正常的关系对数据的清洗。
上述的识别系统,其中,将连接数据的质量分为不同的三个等级,分级将决定关系对的基础权重,并影响关系权重的计算。
上述的识别系统,其中,归并引擎根据关系对基础权重,再计算出关系权重,具体为:综合数据源质量、数据类型质量、频次因素、时间衰减计算出关系权重。
同时在另一种实施例中,本发明还提供了一种基于多参数的用户识别方法,包括以下步骤:
步骤(1):原始数据通过标准API或以文件的形式接入,提取用户ID关系对;
步骤(2):进行数据格式清洗和异常关系的清洗;
步骤(3):将连接数据质量分为高、中、低三个等级;
步骤(4):归并引擎根据关系对基础权重并计算出关系权重;
步骤(5):将ID两两关系连接构建一个连通图,基于最大连通图生成CCID;
步骤(6):通过结果查询功能可实现同一用户多个ID的查询。
上述的识别方法,其中,所述步骤(1)具体包括:
步骤(1.1)明确各类原始记录中的用户ID字段,从表单监测日志、用户注册信息第一方数据中提取的ID关系对;
步骤(1.2)第三方数据源提供的用户数据连接能力。
上述的识别方法,其中,所述步骤(2)具体包括:
步骤(2.1):数据格式清洗:对明细不符合数据类型格式的数据进行清洗;
步骤(2.2):异常关系数据清洗:非正常的关系对数据。
上述的识别方法,其中,所述步骤(3)具体包括,高质量:用户绑定关系;中质量:用户注册信息中提取的关系对;低质量:流水日志中提取的关系对;以及基础权重根据关系对出现次数和时间衰减因素综合计算,其可人工干预。
上述的识别方法,其中,所述步骤(4)具体包括:数据源质量:连接数据的数据质量;数据类型质量:拥有较强逻辑关系或在同一个环境场景中获取的连接数据,可设置较高权重;频次因素:对多个数据源中多次出现的同一组连接数据,认为有较高可信度;时间衰减:对最新出现的连接数据给予较大权重,时间久远的数据设定衰减因子,以减小风险。
本发明具有以下有益效果:1、本发明把原来低效、易错的识别多个ID归属于同一用户的方法转变为一个可量化的、规模化的算法,极大的提升了多个ID归属于同一个人的识别率和准确率,并且其可以应用于各个行业、领域,为大数据产品底层数据的清洗、归并提供了一个很好的示范;2、本发明能够对多终端、多平台的ID进行归并,识别同一用户的多个ID,扩展同一用户的数据信息,对于提升数据挖掘、精准营销等方面具有重大意义。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本发明的主旨。
图1为本发明提供的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
为了彻底理解本发明,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
参照图1所示,本发明提供了一种基于多参数的用户识别系统,包括数据接入模块,所述数据接入模块用于收集并提取各来源数据中的ID以及ID关系数据;数据准备模块,所述数据准备模块用于数据的清洗;连接算法模块,所述连接算法模块用于根据ID关系对,基于连图原则将一个最大连通图归属到一个CCID上;结果查询模块,所述结果查询模块用于提供CCID查询服务,上行用户ID,下行CCID。
在本发明一优选但非限制的实施例中,原始数据通过标准API或以文件的形式接入,提取用户ID关系对。
在本发明一优选但非限制的实施例中,数据的清洗包括数据格式清洗和异常关系的清洗,所述数据格式清洗包括明细不符合数据类型格式的数据进行清洗,所述异常关系的清洗包括非正常的关系对数据的清洗。
在本发明一优选但非限制的实施例中,将连接数据的质量分为不同的三个等级,分级将决定关系对的基础权重,并影响关系权重的计算,进一步优选,归并引擎根据关系对基础权重,再计算出关系权重,具体为:综合数据源质量、数据类型质量、频次因素、时间衰减计算出关系权重。
同时本发明还提供了一种基于多参数的用户识别方法,包括以下步骤:
步骤(1):原始数据通过标准API或以文件的形式接入,提取用户ID关系对;具体包括:步骤(1.1)明确各类原始记录中的用户ID字段,从表单监测日志、用户注册信息第一方数据中提取的ID关系对;步骤(1.2)第三方数据源提供的用户数据连接能力。
步骤(2):进行数据格式清洗和异常关系的清洗;具体包括:步骤(2.1):数据格式清洗:对明细不符合数据类型格式的数据进行清洗;步骤(2.2):异常关系数据清洗:非正常的关系对数据。
步骤(3):将连接数据质量分为高、中、低三个等级;具体包括,高质量:用户绑定关系;中质量:用户注册信息中提取的关系对;低质量:流水日志中提取的关系对;以及基础权重根据关系对出现次数和时间衰减因素综合计算,其可人工干预。
步骤(4):归并引擎根据关系对基础权重并计算出关系权重;具体包括:数据源质量:连接数据的数据质量;数据类型质量:拥有较强逻辑关系或在同一个环境场景中获取的连接数据,可设置较高权重;频次因素:对多个数据源中多次出现的同一组连接数据,认为有较高可信度;时间衰减:对最新出现的连接数据给予较大权重,时间久远的数据设定衰减因子,以减小风险。
步骤(5):将ID两两关系连接构建一个连通图,基于最大连通图生成CCID;
步骤(6):通过结果查询功能可实现同一用户多个ID的查询。
以下提供一本发明的具体实施例
实施例1
参照图1所示,一种基于多参数的用户识别系统,其包括了4个模块:数据接入:收集并提取各来源数据中的ID以及ID关系数据。数据准备:清洗脏数据,如:数据格式错误、异常关系等。连接算法:根据ID关系对,基于连图原则将一个最大连通图归属到一个CCID上。结果查询:提供CCID查询服务,上行用户ID,下行CCID或其他类型的用户ID。其中识别方法包括下列步骤:
步骤一:原始数据通过标准API或以文件的形式接入,提取用户ID关系对。
第一方关系对数据:明确各类原始记录中的“用户ID”字段,从表单监测日志、用户注册信息等第一方数据中提取的ID关系对。
第三方连接能力:第三方数据源提供的用户数据连接能力,如:某数据供应商可判断多个cookie是否映射到同一个用户或判断手机号映射到线上的设备号(如IMEI)。
步骤二:进行数据格式清洗和异常关系的清洗
1)数据格式清洗:对主要是明细不符合数据类型格式的数据进行清洗,比如身份证、email格式等;
2)异常关系数据清洗:非正常的关系对数据。如,一个身份证对应100个手机号。异常数据会被剔除到计算范围之外。
步骤三:根据以下原则,将“连接数据”质量分为“高、中、低”三个等级。分级将决定关系对的“基础权重”,影响关系权重的计算。
1)高质量:用户绑定关系,如:身份证和绑定的手机号。基础权重为1.0;
2)中质量:用户注册信息中提取的关系对,如:会员号和邮箱号。基础权重为0.8;
3)低质量:流水日志中提取的关系对,如:IMEI和Mac地址;
4)基础权重根据关系对出现次数和时间衰减因素综合计算,其可人工干预。
步骤四:归并引擎根据关系对基础权重,再综合以下因素计算出关系权重:
1)数据源质量:“连接数据”的数据质量,如:某个拥有账号体系的大型媒体A提供的“会员号&手机号&IMEI号”关系、某业务人员提供的“手机号&IMEI”名单;可认为前者数据质量较高,给予较大的权重。
2)数据类型质量:拥有较强逻辑关系或在同一个环境场景中获取的连接数据,可设置较高权重。如:“某域A下的cookie&该域网站会员ID”、“cookie&手机号”,给予前者较大权重。
3)频次因素:对多个数据源中多次出现的同一组连接数据,认为有较高可信度。如:第一方CRM及多家第三方数据供应商的连接数据中,多次出现同一条“手机号&IMEI”信息(可设定阈值),则给予较大权重。
4)时间衰减:对最新出现的连接数据给予较大权重,时间久远的数据设定衰减因子,以减小风险。如:12个月前收集的“手机号&IMEI”关系,近1个月收集到的同一个手机号的“手机号&IMEI”关系,后者给予较大权重,前者权重叠加衰减因子。
5)其他:可根据业务条件自定义条件及权重。
步骤五:将ID两两关系连接构建一个连通图,基于最大连通图生成CCID(ChiefClouds UserID)。以下例子为两个分别与手机号关联的连通分量merge为一个连通分量。
步骤六:“结果查询”功能可实现同一用户多个ID的查询。
本实施例,能够对多终端、多平台的ID进行归并,识别同一用户的多个ID,扩展同一用户的数据信息,对于提升数据挖掘、精准营销等方面具有重大意义;以及把原来低效、易错的识别多个ID归属于同一用户的方法转变为一个可量化的、规模化的算法,极大的提升了多个ID归属于同一个人的识别率和准确率,并且其可以应用于各个行业、领域,为大数据产品底层数据的清洗、归并提供了一个很好的示范。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于多参数的用户识别系统,其特征在于,包括数据接入模块,所述数据接入模块用于收集并提取各来源数据中的ID以及ID关系数据;数据准备模块,所述数据准备模块用于数据的清洗;连接算法模块,所述连接算法模块用于根据ID关系对,基于连图原则将一个连通图归属到一个CCID上;结果查询模块,所述结果查询模块用于提供CCID查询服务,上行用户ID,下行CCID。
2.如权利要求1所述的一种基于多参数的用户识别系统,其特征在于,原始数据通过标准API或以文件的形式接入,提取用户ID关系对。
3.如权利要求2所述的一种基于多参数的用户识别系统,其特征在于,所述数据的清洗包括数据格式清洗和异常关系的清洗,所述数据格式清洗包括明细不符合数据类型格式的数据进行清洗,所述异常关系的清洗包括非正常的关系对数据的清洗。
4.如权利要求3所述的一种基于多参数的用户识别系统,其特征在于,将连接数据的质量分为不同的三个等级,分级将决定关系对的基础权重,并影响关系权重的计算。
5.如权利要求4所述的一种基于多参数的用户识别系统,其特征在于,归并引擎根据关系对基础权重,再计算出关系权重,具体为:综合数据源质量、数据类型质量、频次因素、时间衰减计算出关系权重。
6.一种基于多参数的用户识别方法,其特征在于,包括以下步骤:
步骤(1):原始数据通过标准API或以文件的形式接入,提取用户ID关系对;
步骤(2):进行数据格式清洗和异常关系的清洗;
步骤(3):将连接数据质量分为高、中、低三个等级;
步骤(4):归并引擎根据关系对基础权重并计算出关系权重;
步骤(5):将ID两两关系连接构建一个连通图,基于最大连通图生成CCID;
步骤(6):通过结果查询功能可实现同一用户多个ID的查询。
7.如权利要求6所述的一种基于多参数的用户识别方法,其特征在于,所述步骤(1)具体包括:
步骤(1.1)明确各类原始记录中的用户ID字段,从表单监测日志、用户注册信息第一方数据中提取的ID关系对;
步骤(1.2)第三方数据源提供的用户数据连接能力。
8.如权利要求7所述的一种基于多参数的用户识别方法,其特征在于,所述步骤(2)具体包括:
步骤(2.1):数据格式清洗:对明细不符合数据类型格式的数据进行清洗;
步骤(2.2):异常关系数据清洗:非正常的关系对数据。
9.如权利要求8所述的一种基于多参数的用户识别方法,其特征在于,所述步骤(3)具体包括,高质量:用户绑定关系;中质量:用户注册信息中提取的关系对;低质量:流水日志中提取的关系对;以及基础权重根据关系对出现次数和时间衰减因素综合计算,其可人工干预。
10.如权利要求9所述的一种基于多参数的用户识别方法,其特征在于,所述步骤(4)具体包括:数据源质量:连接数据的数据质量;数据类型质量:拥有较强逻辑关系或在同一个环境场景中获取的连接数据,可设置较高权重;频次因素:对多个数据源中多次出现的同一组连接数据,认为有较高可信度;时间衰减:对最新出现的连接数据给予较大权重,时间久远的数据设定衰减因子,以减小风险。
CN201810322477.XA 2018-04-11 2018-04-11 一种基于多参数的用户识别系统及方法 Pending CN108536831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810322477.XA CN108536831A (zh) 2018-04-11 2018-04-11 一种基于多参数的用户识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810322477.XA CN108536831A (zh) 2018-04-11 2018-04-11 一种基于多参数的用户识别系统及方法

Publications (1)

Publication Number Publication Date
CN108536831A true CN108536831A (zh) 2018-09-14

Family

ID=63480888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810322477.XA Pending CN108536831A (zh) 2018-04-11 2018-04-11 一种基于多参数的用户识别系统及方法

Country Status (1)

Country Link
CN (1) CN108536831A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046196A (zh) * 2019-04-16 2019-07-23 北京品友互动信息技术股份公司 标识关联方法及装置、电子设备
CN110648172A (zh) * 2019-09-04 2020-01-03 北京益商慧评网络科技有限公司 一种融合多种移动设备的身份识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
US20130246389A1 (en) * 2010-10-12 2013-09-19 Robert Osann, Jr. User Preference Correlation for Web-Based Selection
CN103927307A (zh) * 2013-01-11 2014-07-16 阿里巴巴集团控股有限公司 一种识别网站用户的方法和装置
CN105391594A (zh) * 2014-09-03 2016-03-09 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246389A1 (en) * 2010-10-12 2013-09-19 Robert Osann, Jr. User Preference Correlation for Web-Based Selection
CN103927307A (zh) * 2013-01-11 2014-07-16 阿里巴巴集团控股有限公司 一种识别网站用户的方法和装置
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
CN105391594A (zh) * 2014-09-03 2016-03-09 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046196A (zh) * 2019-04-16 2019-07-23 北京品友互动信息技术股份公司 标识关联方法及装置、电子设备
CN110648172A (zh) * 2019-09-04 2020-01-03 北京益商慧评网络科技有限公司 一种融合多种移动设备的身份识别方法和系统

Similar Documents

Publication Publication Date Title
CN103164416B (zh) 一种用户关系的识别方法及设备
CN103605791B (zh) 信息推送系统和信息推送方法
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN106453357A (zh) 一种网络购票异常行为的识别方法、系统及设备
CN109740155A (zh) 一种客服系统人工智能质检规则自我归纳模型的方法及系统
CN106022708A (zh) 一种预测员工离职的方法
CN115759640B (zh) 一种智慧城市的公共服务信息处理系统及方法
CN107886366A (zh) 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN104636439A (zh) 一种分析用户社会关系的方法及装置
CN112686388A (zh) 一种在联邦学习场景下的数据集划分方法及系统
CN107707386A (zh) 基于复合物联网的燃气表故障提示方法及物联网系统
CN107832333B (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN109299085A (zh) 一种数据处理方法、电子设备及存储介质
CN108536831A (zh) 一种基于多参数的用户识别系统及方法
CN116934270A (zh) 一种基于数据分析的图书馆书籍借调管理系统
CN104598648A (zh) 一种微博用户交互式性别识别方法及装置
CN112381546A (zh) 一种基于时间序列聚类检测异常风险账户的方法
CN107562457A (zh) 导航菜单的生成方法及装置
CN114820252A (zh) 一种基于大数据的教学咨询服务管理系统
CN114297447A (zh) 基于防疫大数据的电子证件标记方法、系统及可读存储介质
Fischer et al. Telephone communication patterns in Austria: A comparison of the IPFP‐based graph‐theoretic and the intramax approaches
CN107766737A (zh) 一种数据库审计方法
CN116594974A (zh) 一种基于会员行为日志的智慧工会app活跃度分析方法
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备
CN107835216A (zh) 基于复合物联网的电表节能激励方法及物联网系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication