CN108664480A

CN108664480A - 一种多数据源用户信息整合方法和装置

Info

Publication number: CN108664480A
Application number: CN201710188552.3A
Authority: CN
Inventors: 渠敬伟; 张光增; 李雪怡
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2018-10-16
Anticipated expiration: 2037-03-27
Also published as: US11256683B2; US20200104292A1; WO2018177275A1; CN108664480B

Abstract

本发明公开一种多数据源用户信息整合方法及装置，所述方法在待整合ID条目在ID图谱中匹配到多于一个的主键时，即待整合ID条目在ID图谱中匹配到多于一个的内部ID条目时，依据第一预设评价方式，从所述多于一个的主键中确定出与所述待整合ID条目关联性最高的第一目标主键，并将所述待整合ID条目整合至所述第一目标主键所对应的内部ID条目中，最终实现了将所述匹配到ID图谱中多于一个主键/内部ID条目的待整合ID，有效整合、关联至所述ID图谱中，从而本发明解决了现有技术无法对此类条目(匹配ID图谱中多个内部ID条目的待整合条目)进行有效整合归一的问题，在此基础上，可进一步有效解决多数据源的用户识别问题。

Description

一种多数据源用户信息整合方法和装置

技术领域

本发明属于多渠道用户整合及用户识别技术领域，尤其涉及一种多数据源用户信息整合方法和装置。

背景技术

在当今的移动互联网时代，用户接触网络和媒体的渠道愈加多样化与碎片化，同一用户往往在不同的渠道/数据源拥有多个不同的ID(Identity，身份标识号码)，如同一用户在网页端及手机App端等多个数据源分别拥有不同ID，并在不同数据源下分别采用相应不同的ID来接触网络或媒体等。

这会为当前互联网营销带来非常大的挑战，品牌商、电商、游戏商等无法通过统一的ID来识别单一用户，也无法追踪到单一用户的整个生命周期内的所有行为和交互，进而会为精准营销及良好的用户管理带来困难。

解决这一问题的核心在于如何建立一个ID-Graph(ID-图谱)来记录、清洗/整合所有渠道的ID映射关系，目前的实现方案为通过整合不同渠道/数据源的用户ID信息，获得不同渠道/数据源用户ID间的映射关系，形成ID-Graph(ID图谱)，后续基于ID-Graph将不同渠道/数据源下的相应不同ID识别为单一用户，并输出使用，从而实现精准营销与良好的用户管理。但现有技术在建立ID-Graph过程中，当将待整合至ID-Graph的某数据源ID条目与ID-Graph匹配时，如果该ID条目会引起ID-Graph中已有的多于一个的ID条目关联，如待整合的ID条目包括的两个字段分别匹配到ID-Graph中的两个不同ID条目，从而引起这两个ID条目的关联等，现有技术会对待整合的ID条目作未匹配成功处理，并将所述待整合ID条目作为一新的用户添加至ID-Graph(以不断完善ID-Graph)，而不与所匹配的所述两个ID条目中的任何一个进行关联。

然而，当待整合ID条目会引起ID-Graph中已有的多个ID条目关联时，所述待整合ID条目往往与在ID-Graph中相匹配的各ID条目中的某一个同属一个用户，因此，采用现有技术的方案会导致此种情况下无法有效地关联不同ID，无法有效地对不同ID进行整合归一，进而导致无法真正有效地解决目前由于ID碎片化而关联识别多数据源用户的问题。

发明内容

有鉴于此，本发明的目的在于提供一种多数据源用户信息整合方法和装置，以克服现有技术存在的问题，进一步有效解决由于ID碎片化而关联识别多数据源用户的问题。

为此，本发明公开如下技术方案：

一种多数据源用户信息整合方法，包括：

获得多数据源中的待整合数据源提供的待整合身份标识号码ID信息，所述待整合ID信息中包括至少一条待整合ID条目；

判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目；其中，所述ID图谱为空或包括至少一条内部ID条目，每条内部ID条目均一对一关联一个相应的主键；

若各条待整合ID条目中的第一待整合ID条目存在相匹配的内部ID条目，则获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息；

如果所述第一待整合ID条目对应的所述主键信息包括多于一个的主键，则依据第一预设评价方式，从所述多于一个的主键中确定出与所述第一待整合ID条目关联性最高的第一目标主键；

将所述第一待整合ID条目整合至所述第一目标主键所对应的内部ID条目中。

上述方法，优选的，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则所述确定每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目，包括：

依据每条待整合ID条目中包括的各个ID字段与ID图谱中各内部ID条目包括的各字段的匹配情况，判断每条待整合ID条目在ID图谱中是否存在相匹配的内部ID条目；

其中，所述待整合ID条目包括的各个ID字段中至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段。

上述方法，优选的，所述依据第一预设评价方式，从所述多于一个的主键中确定出与第一待整合ID条目关联性最高的第一目标主键，包括：

依据第一可信度评价方式，从所述多于一个的主键中确定出可信度最高的第一目标主键；其中，待整合ID条目匹配的多个主键中主键的可信度越高，则主键与待整合ID条目间的关联性越强。

上述方法，优选的，还包括:

若不存在与所述第一待整合ID条目相匹配的内部ID条目，则为所述第一待整合ID条目生成一新的主键，并将所述第一待整合ID条目与所述新的主键间的关联关系添加至所述ID图谱。

上述方法，优选的，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则在所述判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目之前，还包括:

当所述待整合ID条目多于一条时，确定所述多于一条的待整合ID条目中是否存在会引起超出预定数目的多个待整合ID条目相关联的字段值，且所述字段值为非唯一用户标识字段的值；

若存在，则对因所述字段值引起关联的所述多个待整合ID条目进行异常检测，并在检测无异常时，舍弃掉无异常的待整合ID条目中的所述字段值；在检出异常时，舍弃异常的待整合ID条目。

上述方法，优选的，在所述获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息之后，还包括：

当所述第一待整合ID条目多于一条时，合并匹配到相同主键的各个第一待整合ID条目，和/或合并具有至少一个相同的非唯一用户标识字段值但ID条目数未超出所述预定数目的各个第一待整合ID条目；

当合并所得的合并条目对应多个主键时，依据第二预设评价方式，从合并条目对应的所述多个主键中确定出与所述合并条目关联性最高的第二目标主键，并将所述合并条目关联至所述第二目标主键；合并条目对应的多个主键为ID图谱中已存在的主键，和/或ID图谱中不存在的新生成主键。

一种多数据源用户信息整合装置，包括：

第一获取单元，用于获得多数据源中待整合数据源提供的待整合ID信息，所述待整合ID信息中包括至少一条待整合ID条目；

判断单元，用于判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目；其中，所述ID图谱为空或包括至少一条内部ID条目，ID图谱中的每条内部ID条目均一对一关联一个相应的主键；

第二获取单元，用于在各条待整合ID条目中的第一待整合ID条目存在相匹配的内部ID条目时，获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息；

确定单元，用于在所述第一待整合ID条目对应的所述主键信息包括多于一个的主键时，依据第一预设评价方式，从所述多于一个的主键中确定出与所述第一待整合ID条目关联性最高的第一目标主键；

第一整合单元，用于将所述第一待整合ID条目整合至所述第一目标主键所对应的内部ID条目中。

上述装置，优选的，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则所述判断单元，进一步用于：

依据每条待整合ID条目中包括的各个ID字段与ID图谱中各内部ID条目包括的各字段的匹配情况，确定每条待整合ID条目在ID图谱中是否存在相匹配的内部ID条目；

上述装置，优选的，所述确定单元，进一步用于：

依据第一可信度评价方式，从所述多于一个的主键中确定出可信度最高的第一目标主键；其中，待整合ID条目匹配的多个主键中主键的可信度越高，则主键与所述待整合ID条目间的关联性越强。

上述装置，优选的，还包括：

第二整合单元，用于在不存在与所述第一待整合ID条目相匹配的内部ID条目时，为所述第一待整合ID条目生成一新的主键，并将所述第一待整合ID条目与所述新的主键间的关联关系添加至所述ID图谱。

上述装置，优选的，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则所述装置还包括：

异常处理单元，用于当所述待整合ID条目多于一条时，确定所述多于一条的待整合ID条目中是否存在会引起超出预定数目的多个待整合ID条目相关联的字段值，且所述字段值为非唯一用户标识字段的值；若存在，则对因所述字段值引起关联的所述多个待整合ID条目进行异常检测，并在检测无异常时，舍弃掉无异常的待整合ID条目中的所述字段值；在检出异常时，舍弃异常的待整合ID条目。

上述装置，优选的，还包括：

合并处理单元，用于在所述第一待整合ID条目多于一条时，合并匹配到相同主键的各个第一待整合ID条目，和/或合并具有至少一个相同的非唯一用户标识字段值但ID条目数未超出所述预定数目的各个第一待整合ID条目；以及在合并所得的合并条目对应多个主键时，依据第二预设评价方式，从对应的所述多个主键中确定出与所述合并条目关联性最高的第二目标主键，并将所述合并条目关联至所述第二目标主键；合并条目对应的多个主键为ID图谱中已存在的主键，和/或ID图谱中不存在的新生成主键。

由以上方案可知，本发明公开的多数据源用户信息整合方法，在待整合ID条目在ID图谱中匹配到多于一个的主键时，即待整合ID条目在ID图谱中匹配到多于一个的内部ID条目时，依据第一预设评价方式，从所述多于一个的主键中确定出与所述待整合ID条目关联性最高的第一目标主键，并将所述待整合ID条目整合至所述关联性最高的第一目标主键所对应的内部ID条目中，最终实现了将所述匹配到ID图谱中多于一个主键/内部ID条目的待整合ID，有效整合、关联至所述ID图谱中，从而本发明解决了现有技术无法对此类条目(匹配ID图谱中多个内部ID条目的待整合条目)进行有效整合归一的问题，在此基础上，可进一步有效解决多数据源的用户识别问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的多数据源用户信息整合方法流程图；

图2是本发明实施例二提供的多数据源用户信息整合方法流程图；

图3是本发明实施例三提供的多数据源用户信息整合方法流程图；

图4是本发明实施例四提供的多数据源用户信息整合方法流程图；

图5是本发明实施例四提供的采用本发明方案将待整合ID条目整合至ID图谱的实现流程示意图；

图6是本发明实施例五提供的多数据源用户信息整合装置的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

ID-Set：ID集合，是数据源中所有可作为用户标识ID字段的合集。

ID-Graph：ID图谱，一种记录了不同数据源提供的不同ID信息之间关联关系的ID结构。

v_id：默认ID-Graph(初始为空)中的主键，在ID图谱中不可重复。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一提供一种多数据源用户信息整合方法，该方法适用于数据管理平台或有多渠道用户整合需求的领域，旨在通过一套较优的整合和识别逻辑，将多数据源的ID信息纳入ID图谱，从而通过在ID图谱对多数据源ID信息的不断整合、关联，来为后续精准营销、人群画像分析或人员追踪场景下多数据源用户的关联识别提供便利。

参考图1示出的多数据源用户信息整合方法流程图，该方法可以包括以下步骤：

步骤101、获得多数据源中的待整合数据源提供的待整合身份标识号码ID信息，所述待整合ID信息中包括至少一条待整合ID条目。

其中，所述多数据源可以是网页端、手机App端等多种渠道对应的数据源，所述待整合ID信息至少包括一条待整合ID条目，一般来说，在同一数据源下，每条ID条目相应对应一个用户，不同的ID条目对应不同用户，每条ID条目包括一个或多个ID字段，其中至少包括在数据源中用于标识唯一用户的唯一用户标识字段，除此之外还可以包含一个或多个能够辅助标识用户的非唯一用户标识字段。

例如，在本实施例给出的以下ID条目示例中：“cookie_id3，imei1，phone1”，假设字段值cookie_id3对应的字段(cookie_id)为该ID条目的唯一用户标识字段，则其他字段值imei1、phone1分别对应的两个字段则为该ID条目的非唯一用户标识字段。

本步骤101具体可通过脚本程序提取待整合数据源所提供的待整合ID信息，所述待整合ID信息具体可以是一个ID集合(ID-Set)，该ID集合可包括至少一个ID条目(ID记录)，示例性地，例如，具体可以是以下的ID集合：

cookie_id1，idfa1；

cookie_id1，imei1，mac1；

cookie_id2，imei2；

cookie_id3，imei1，phone1；

cookie_id4，imei1；

cookie_id5，idfa1；

其中，cookie_id字段的值为用户使用浏览器时，服务器为了辨别用户身份进行session追踪而存储在用户本地终端上的数据，其他字段值如idfa、imei等各字段的值为用户的相应终端设备的标识信息，本实施例假设cookie_id为唯一用户标识，则其他字段值为非唯一用户标识。实际应用中，所述唯一用户标识/非唯一用户标识可基于相应字段对用户标识所起到的实际作用(是否能够标识唯一用户)，进行预先设定。

步骤102、判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目；其中，所述ID图谱为空或包括至少一条内部ID条目，ID图谱中的每条内部ID条目均一对一关联一个相应的主键。

所述ID图谱是一种记录了不同数据源的不同ID信息之间关联关系的ID结构，所述ID图谱在初始时为空，通过不断纳入、整合不同数据源提供的不同ID信息，实现将不同数据源的不同ID信息进行关联、整合，具有关联关系的不同数据源ID信息默认为对应同一用户，ID图谱中具有关联关系的不同数据源ID信息均关联至同一个主键，后续可将在ID图谱中关联至同一主键的不同数据源ID信息识别为同一用户。本实施例将ID图谱中关联至同一主键的不同数据源ID信息对应的一个整合ID条目称为ID图谱的内部ID条目。

在将待整合ID条目纳入并整合至ID图谱的过程中，需首先基于ID图谱的已有内部ID条目对该待整合ID条目进行识别，确定待整合ID条目在ID图谱中是否存在相匹配/关联的内部ID条目，具体地，可通过将待整合ID条目中的每一ID字段值与ID图谱的各内部ID条目进行匹配，来确定待整合ID条目在ID图谱中是否存在相匹配/关联的内部ID条目。

当待整合ID条目中存在至少一个ID字段值与ID图谱中的相应内部ID条目匹配/关联时，则认为待整合ID条目在ID图谱中存在相匹配/关联的内部ID条目，其中，待整合ID条目的某一ID字段值与ID图谱中的某一内部ID条目匹配/关联，具体是指，待整合ID条目的某一ID字段值与ID图谱中某一内部ID条目的某一字段值相同。

步骤103、若各条待整合ID条目中的第一待整合ID条目存在相匹配的内部ID条目，则获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息。

其中，所述第一待整合ID条目具体包含在所述待整合数据源提供的多条待整合ID条目中。

如果第一待整合ID条目在ID图谱中存在相匹配/关联的内部ID条目，则获得与所述第一待整合ID条目相匹配的内部ID条目的主键，其中，当第一待整合ID条目有多个字段值与ID图谱中的不同内部ID条目相匹配/关联时，则具体获得所述相匹配的多个不同内部ID条目的不同主键。

具体地，例如，假设待整合ID条目“cookie_id1，idfa1”的字段值“cookie_id1”能够匹配到ID图谱中主键v_id1对应的内部ID条目(即v_id1下关联有cookie_id1)，而字段值“idfa1”在ID图谱中不存在相匹配的内部ID条目，则本步骤获得所述主键v_id1。假设待整合ID条目“cookie_id1，imei1，mac1”，中的“cookie_id1”、“mac1”分别匹配到ID图谱中的v_id1、v_id3对应的内部ID条目，则本步骤针对该待整合ID条目，获得所述主键值v_id1,v_id3。

此处，需要指出的是，本实施例具体依据待整合ID条目中包括的各个ID字段与ID图谱中各内部ID条目包括的各字段的匹配情况，来确定待整合ID条目包括的各个ID字段在ID图谱中是否存在相匹配的内部ID条目，举例来说，若待整合ID条目1中的字段A与内部ID条目2中的字段B匹配(即字段A、B具有相同的字段值)，则表示待整合ID条目1中的字段A与内部ID条目2匹配。

步骤104、如果所述第一待整合ID条目对应的所述主键信息包括多于一个的主键，则依据第一预设评价方式，从所述多于一个的主键中确定出与所述第一待整合ID条目关联性最高的第一目标主键。

本实施例中，所述第一预设评价方式为第一可信度评价方式。

针对第一待整合ID条目引起ID图谱中多于一个的内部ID条目关联的情况，即第一待整合ID条目在ID图谱中匹配到多于一个的内部ID条目，从而获得第一待整合ID条目对应的多于一个的主键的情况，本实施例采用第一可信度评价方式，从所述多于一个的主键中确定出可信度最高的第一目标主键，并将该可信度最高的第一目标主键，作为所述第一待整合ID条目在ID图谱中关联性最高的主键，也就是说，第一待整合ID条目所匹配的多个主键中某一个主键的可信度越高，则该主键与所述第一待整合ID条目间的关联性越强。

示例性地，本实施例基于主键的生成时间来衡量、评价第一待整合ID所匹配的多个主键的可信度，一般来说，主键的生成时间越晚，则其实时性越高，本实施例认为其可信度越高，从而，针对第一待整合ID条目所匹配的多个主键，本实施例具体选择生成时间最晚的主键作为与所述第一待整合ID关联性最强的主键。

例如，对于上述待整合ID条目“cookie_id1，imei1，mac1”同时匹配到ID图谱中两个主键v_id1、v_id3的情况，假设主键v_id3的生成时间(可从v_id3的时间属性中读取)晚于v_id1的生成时间，则认为待整合ID条目“cookie_id1，imei1，mac1”与v_id3的关联性较强。

需要说明的是，如果第一待整合ID条目引起ID图谱中过多数量的内部ID条目关联，此种情况下，结合实际情况(一般不会引起太多内部ID条目关联)，考虑到极有可能是第一待整合ID自身存在异常，基于此，在本发明其他实施例中，还可以设定一个最多匹配主键数(如可以设定为2)，当第一待整合ID条目引起图谱中超过该数目的内部ID条目关联时，则认为第一待整合ID条目异常，舍弃该第一待整合ID条目，后续可将该第一待整合ID条目记录到预先创建的异常ID数据库中，并对其进行异常检测，如对其进行人工检测等，验证其是否异常(仅作为一个异常验证，即使检测无异常，仍对该第一待整合ID条目作舍弃处理)。

步骤105、将所述第一待整合ID条目整合至所述第一目标主键所对应的内部ID条目中。

在确定出第一待整合ID条目在ID图谱中对应的关联性最高的所述第一目标主键后，可将所述第一待整合ID条目关联至所述第一目标主键，并在ID图谱的所述关联性最高的第一目标主键下整合所述第一待整合ID条目的信息，其中，在整合过程中，对于第一待整合ID条目与所述关联性最高的第一目标主键所对应的内部ID条目中的相同字段值则不再重复存储。

如果第一待整合ID条目在ID图谱中仅能匹配到一个主键，则将所述第一待整合ID条目直接关联至所能够匹配的主键，并将所述第一待整合ID条目包括的ID信息整合至所匹配的主键对应的内部ID条目中。

实际应用中，可周期性提取、整合多数据源的用户ID信息，以持续维护ID图谱中的关联信息，保证ID图谱的实时参考性。

在将待整合数据源的待整合ID信息整合至ID图谱中后，可基于ID图谱的用户关联信息识别不同数据源的同一用户，从而可为后续的精准营销、人群画像分析或人员追踪场景下多数据源用户的关联识别提供便利。由以上方案可知，本发明公开的基于多数据源的用户识别方法，在待整合ID条目在ID图谱中匹配到多于一个的主键时，即待整合ID条目在ID图谱中匹配多于一个的内部ID条目时，依据第一预设评价方式，从所述多于一个的主键中确定出与所述待整合ID条目关联性最高的第一目标主键，并将所述待整合ID条目整合至所述关联性最高的第一目标主键所对应的内部ID条目中，最终实现了将所述匹配到ID图谱中多于一个主键/内部ID条目的待整合ID条目，有效整合、关联至所述ID图谱中，从而本发明解决了现有技术无法对此类条目(匹配ID图谱中多个内部ID条目的待整合条目)进行有效整合归一的问题，在此基础上，可进一步有效解决多数据源的用户识别问题。

实施例二

本实施例二中，参考图2示出的多数据源用户信息整合方法流程图，所述方法还可以包括以下步骤：

步骤201、若不存在与所述第一待整合ID条目相匹配的内部ID条目，则为所述第一待整合ID条目生成一新的主键，并将所述第一待整合ID条目与所述新的主键间的关联关系添加至所述ID图谱。

具体地，如果ID图谱中不存在与所述第一待整合ID条目相匹配的内部ID条目，则表示ID图谱中还未建立起该第一待整合ID条目在多数据源中的关联信息，基于此，可为该未匹配成功的第一待整合ID条目生成并颁发一新的主键，并将该第一待整合ID条目与所述新的主键间的关联关系添加至所述ID图谱中，实现对ID图谱的不断完善。

例如，假设待整合ID条目“cookie_id2,imei2”中的两个字段均未在ID图谱中匹配到相应内部ID条目/主键，则可为该ID条目生成一新的主键，如v_id2，后续可将该ID条目与新主键v_id2间的关联关系，如“cookie_id2,imei2，v_id2”添加至ID图谱中。

实施例三

本实施例三中，参考图3示出的多数据源用户信息整合方法流程图，所述方法在所述步骤102之前还可以包括以下步骤：

步骤301、当所述待整合ID条目多于一条时，确定所述多于一条的待整合ID条目中是否存在会引起超出预定数目的多个待整合ID条目相关联的字段值，且所述字段值为非唯一用户标识字段的值；

步骤302、若存在，则对因所述字段值引起关联的所述多个待整合ID条目进行异常检测，并在检测无异常时，舍弃掉无异常的待整合ID条目中的所述字段值；在检出异常时，舍弃异常的待整合ID条目。

本实施例提供入库(指将待整合ID条目整合至ID图谱)前对待整合ID条目进行异常处理的方案。

具体地，在待整合数据源提供有多条待整合ID条目时，如果其中存在会引起超出预定数目(如可以将预定数目设为2，从而允许出现不超出两条ID条目关联的情况)的多个待整合ID条目相关联的字段值，则将该字段值所关联的各个待整合ID条目记录到异常ID数据库中，并对其进行异常检测，如具体可采用人工等方式检测各条ID条目异常与否，对于检测无异常的ID条目，则舍弃其中引起与其他ID条目关联的所述字段值，并对舍弃该字段值的ID条目进行入库(整合至ID图谱)处理。对于异常的ID条目，则对其作舍弃处理，不再对异常的ID条目进行入库。

例如，对于以下3条待整合ID条目：

cookie_id1，imei1，mac1；

cookie_id3，imei1，phone1；

cookie_id4，imei1；

其中，由于3条待整合ID条目中均包括相同的字段值imei1，从而字段值imei1会引起这3条ID条目的关联，针对此种情况，本实施例会将所述3条ID条目记录至异常ID数据库，对其进行异常检测，并舍弃检测结果为异常的异常ID条目，对于无异常的ID条目，则舍弃其中的引起与其他ID条目关联的所述字段值imei1，例如，假设上述3条ID条目检测后均无异常，则最终可对舍弃掉字段值imei1的以下3条ID条目作入库处理：

cookie_id1，mac1；

cookie_id3，phone1；

cookie_id4。

采用本实施例方案，可在将待整合ID条目整合至ID图谱之前，对因具有相同字段值而取得关联的各个待整合ID条目进行异常检测及异常处理，在此基础上可有效提升基于多数据源用户信息整合所得的ID图谱的参考价值。

实施例四

本实施例四中，参考图4示出的多数据源用户信息整合方法流程图，所述方法在所述步骤103之后还可以包括以下步骤：

步骤401、当所述第一待整合ID条目多于一条时，合并匹配到相同主键的各个第一待整合ID条目，和/或合并具有至少一个相同的非唯一用户标识字段值但ID条目数未超出所述预定数目的各个第一待整合ID条目；

步骤402、当合并所得的合并条目对应多个主键时，依据第二预设评价方式，从合并条目对应的所述多个主键中确定出与所述合并条目关联性最高的第二目标主键，并将所述合并条目关联至所述第二目标主键；合并条目对应的多个主键为ID图谱中已存在的主键，和/或ID图谱中不存在的新生成主键。

本实施例提供入库(指将待整合ID条目整合至ID图谱)前对待整合ID条目进行合并处理的方案。

具体地，在待整合数据源提供有多条待整合ID条目时，如果其中有多个待整合ID条目能够匹配到ID图谱中的相同主键，和/或存在具有至少一个相同字段值但ID条目数未超出所述预定数目的多个待整合ID条目，则对符合这两种情况中任一情况的多个待整合ID条目进行合并处理。

合并处理后得到的合并条目，可能会对应多个主键，针对此种情况，本实施例依据第二预设评价方式，从所述多个主键中确定出与所述合并条目关联性最高的第二目标主键，最终将合并条目关联至该第二目标主键。本实施例具体采用第二可信度评价方式，从合并条目对应的多个主键中确定出可信度最高的第二目标主键，并将该可信度最高的第二目标主键，作为合并条目在ID图谱中关联性较强的主键，即认为合并条目对应的多个主键中某个主键的可信度越高，则该主键与所述合并条目间的关联性越强。

接下来，以一具体示例对合并过程进行阐述，以下示例性给出某数据源的多个待整合ID条目及各ID条目在ID图谱中的主键匹配情况：

cookie_id1，idfa1，v_id1； (cookie_id1匹配ID图谱中的v_id1)

cookie_id1,mac1,v_id1,v_id3； (cookie_id1匹配v_id1、mac1匹

配v_id3)

cookie_id2,imei2,v_id2 (ID图谱中无v_id2，新颁发的)

cookie_id3,phone1,v_id1； (phone1匹配v_id1)

cookie_id4,v_id4； (ID图谱中无v_id4，新颁发的)

cookie_id5,idfa1,v_id5； (ID图谱中无v_id5，新颁发的)

其中，第2、4、5条ID条目中具有删除线的字段值imei1为依据本发明实施例三的异常处理逻辑舍弃掉的字段，第1、6条ID条目中包含相同的非唯一标识字段值idfa1，但由于该字段值idfa1仅引起两条ID条目关联，关联的ID条目数未超出所述预定数目，从而认为这两个关联的ID条目均正常。

在上述ID条目示例中，第1、2、4条ID条目均匹配v_id1，从而合并这3条ID条目，且由于第1、6条ID条目中包含相同的非唯一标识字段值idfa1，从而需合并第1、6条ID条目，进而最终需将第1、2、4、6条ID条目合并，所得的合并条目以及合并条目匹配的主键如下：

cookie_id1，idfa1，mac1，cookie_id3，phone1，cookie_id5，v_id1，v_id3，v_id5；

上述合并条目对应有3个主键，其中，v_id1、v_id3为ID图谱中已存在的主键，v_id5为ID图谱中不存在的新颁发主键，此种情况下，由于该合并条目能够匹配到ID图谱中已存在的主键，从而无需为其在ID图谱中添加新的主键，因此，本实施例首先会认定ID图谱中已存在的主键的可信度最高，从而会首先淘汰新颁发的主键v_id5，而对于v_id1、v_id3，则从中选择一个生成时间较晚的主键作为该合并条目最终匹配的主键，假设v_id3的生成时间晚于v_id1，则认为v_id1的可信度低于v_id3，从而淘汰v_id1，则最终该合并条目及其匹配的主键为：

cookie_id1，idfa1，mac1，cookie_id3，phone1，cookie_id5，v_id3。

对于上述6条ID条目示例，依据本发明的处理方案，最终的整合入库情况为：

cookie_id1，idfa1，mac1，cookie_id3，phone1，cookie_id5，v_id3；

cookie_id2，imei2，v_id2；

cookie_id4，v_id4；

即，将所述合并条目关联至ID图谱中的主键v_id3，其中，对于合并条目中在v_id3下已存在的字段值则不必重复存储，而未能匹配成功的ID条目，则将其与其新主键间的对应关系添加至ID图谱中。参考图5，图5示出了采用本发明方案将待整合ID条目整合至ID图谱的实现流程。

采用本实施例方案，可在将待整合ID条目整合至ID图谱之前，对相关联的各个待整合ID条目进行合并处理，在此基础上可提升进行入库处理时的信息整合效率及最终所得的ID图谱的参考价值。

实施例五

本实施例五公开一种多数据源用户信息整合装置，参考图6示出的多数据源用户信息整合装置的结构示意图，该装置包括：

第一获取单元61，用于获得多数据源中待整合数据源提供的待整合身份标识号码ID信息，所述待整合ID信息中包括至少一条待整合ID条目；判断单元62，用于确定每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目；其中，所述ID图谱为空或包括相应条数的内部ID条目，ID图谱中的每条内部ID条目均一对一关联一个相应的主键；第二获取单元63，用于在各条待整合ID条目中的第一待整合ID条目存在相匹配的内部ID条目时，获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息；确定单元64，用于在所述第一待整合ID条目对应的所述主键信息包括多于一个的主键时，依据第一预设评价方式，从所述多于一个的主键中确定出与所述第一待整合ID条目关联性最高的第一目标主键；第一整合单元65，用于将所述第一待整合ID条目整合至关联性最高的所述第一目标主键所对应的内部ID条目中。

在本发明实施例的一实施方式中，所述判断单元，进一步用于：依据每条待整合ID条目中包括的各个ID字段与ID图谱中各内部ID条目包括的各字段的匹配情况，判断各条待整合ID条目包括的每个ID字段在ID图谱中是否存在相匹配的内部ID条目；其中，所述待整合ID条目包括的各个ID字段中至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段。

在本发明实施例的一实施方式中，所述确定单元，进一步用于：依据第一可信度评价方式，从所述多于一个的主键中确定出可信度最高的第一目标主键；其中，待整合ID条目匹配的多个主键中主键的可信度越高，则主键与所述待整合ID信息间的关联性越强。

在本发明实施例的一实施方式中，所述装置还包括：第二整合单元，用于在不存在与所述第一待整合ID条目相匹配的内部ID条目时，则为所述第一待整合ID条目生成一新的主键，并将所述第一待整合ID条目与所述新的主键间的关联关系添加至所述ID图谱。

在本发明实施例的一实施方式中，所述装置还包括：异常处理单元，用于当所述待整合ID条目多于一条时，确定所述多于一条的待整合ID条目中是否存在会引起超出预定数目的多个待整合ID条目相关联的字段值，且所述字段值为非唯一用户标识字段的值；若存在，则对因所述字段值引起关联的所述多个待整合ID条目进行异常检测，并在检测无异常时，舍弃掉无异常的待整合ID条目中的所述字段值；在检出异常时，舍弃异常的待整合ID条目。

在本发明实施例的一实施方式中，所述装置还包括：合并处理单元，用于在所述待整合ID条目多于一条时，合并匹配到相同主键的各个待整合ID条目，和/或合并具有至少一个相同的非唯一用户标识字段值但ID条目数未超出所述预定数目的各个待整合ID条目；以及在合并所得的合并条目对应多个主键时，依据第二预设评价方式，从对应的所述多个主键中确定出与所述合并条目关联性最高的第二目标主键；合并条目对应的多个主键为ID图谱中已存在的主键，和/或ID图谱中不存在的新生成主键。

此处，需要说明的是，本实施例涉及的多数据源用户信息整合装置的描述，与上文方法的描述是类似的，且同方法的有益效果描述，对于本发明的多数据源用户信息整合装置在本实施例中未披露的技术细节，请参照本发明方法实施例的说明，本实施对此不再作赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多数据源用户信息整合方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则所述判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目，包括：

3.根据权利要求1所述的方法，其特征在于，所述依据第一预设评价方式，从所述多于一个的主键中确定出与第一待整合ID条目关联性最高的第一目标主键，包括：

4.根据权利要求1所述的方法，其特征在于，还包括:

5.根据权利要求1-4任一项所述的方法，其特征在于，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则在所述判断每条待整合ID条目在预先创建的ID图谱中是否存在相匹配的内部ID条目之前，还包括:

6.根据权利要求5所述的方法，其特征在于，在所述获得与所述第一待整合ID条目相匹配的内部ID条目的主键信息之后，还包括：

7.一种多数据源用户信息整合装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述待整合ID条目至少包括在所述待整合数据源中用于标识唯一用户的唯一用户标识字段，则所述判断单元，进一步用于：

9.根据权利要求7所述的装置，其特征在于，所述确定单元，进一步用于：

10.根据权利要求7所述的装置，其特征在于，还包括：