CN104993958A

CN104993958A - 一种用户主数据的生成方法及系统

Info

Publication number: CN104993958A
Application number: CN201510367774.2A
Authority: CN
Inventors: 杨泽森
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2015-10-21

Abstract

本发明公开了一种用户主数据的生成方法及系统，将从各个业务平台采集用户数据后，首先对所采用的用户数据清洗；其次，根据用户数据质量分析结果，生成树结构的多个用户识别算法，从生成的多个用户识别算法中选择一个以上的用户识别算法对清洗后的用户数据进行归并；最后，对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。本发明保证了所生产的用户主数据准确；本发明实施例还可以根据用户数据质量分析结果生成树结构的多个用户识别算法，并从中选择一个以上的用户识别算法进行组合计算，对用户数据进行合并，这样可以确定最优的归并方法，从而根据需要生成灵活的用户主数据。

Description

一种用户主数据的生成方法及系统

技术领域

本发明涉及计算机领域，特别涉及一种用户主数据的生成方法及系统。

背景技术

随着计算机技术的发展，在计算机网络侧存在多个业务平台，为用户提供不同类型的业务服务，在多个业务平台为用户提供不同类型的业务服务过程中，需要获取用户相关的数据。因此，同一用户的数据可能在多个不同的业务平台上存在，且各个业务平台上存储的同一用户的数据，也存在新旧及有效无效差异，在计算机网络对同一用户的数据进行管理时，造成困难，计算机网络侧中的各种业务平台无法识别自身存储的用户数据是否准确，无法基于自身存储的用户数据进行用户数据分析、评级和根据用户数据分析结果制定对应的营销策略等，给各个业务平台的管理维护造成困难。

因此，为了克服上述困难，需要统一对同一用户的有效数据进行删选，得到用户主数据，作为后续进行用户数据分析、评级和根据用户数据分析结果制定营销策略的唯一基础。

图1为现有技术提供的用户主数据的生成方法流程图，其具体步骤为：

步骤101、计算机网络侧的各个业务平台将用户数据采集后，上报给计算机网络侧中处理用户数据的服务器；

在这里，用户数据为多个用户的不同数据；

步骤102、所述服务器将接收到的来自不同业务平台上的用户数据进行用户识别要素范围划分；

在这里，用户识别要素划分是对每一个用户的用户数据的内容进行分类，比如分为：用户姓名、证据类型、证据号码和手机号码等；

步骤103、所述服务器探查识别要素范围内的用户数据质量及用户数据分布；

步骤104、所述服务器根据探查结果，选择用户数据识别算法；

在本步骤中，用户数据识别算法有多种，比如根据用户识别要素范围内的身份证号码和用户姓名进行用户数据识别，在这里，是根据探查结果，选择用户数据识别算法的，比如探查出的用户的用户数据多分布在身份证号码和用户姓名等用户数据中，则采用的用户数据识别算法为根据用户识别要素范围内的身份证号码和用户姓名进行用户数据识别；

步骤105、所述服务器进行用户数据的逻辑归并，得到用户主数据；

在本步骤中，对用户数据进行识别后，就可以根据设定的信息逻辑归并方法或所设定的其他物理归并方法，对用户数据进行逻辑归并，得到需要的用户主数据；

在本步骤中，得到的用户主数据就是按照身份证号码和用户姓名对用户数据进行逻辑归并，得到对应身份证号码和用户姓名的用户主数据；

步骤106、所述服务器对用户主数据设置统一的用户标识后，结束。

从图1可以看出，目前用户主数据的生成方法存在以下缺点：

第一，在对用户数据识别过程中，没有完善的用户数据清洗控制和实现方法，使得不准确的用户数据也一并被进行了用户主数据的生成；

第二，采用基于识别要素范围划分的用户数据识别算法固化和死板，会造成无法实现真正意义上的用户数据归并；

第三，逻辑归并并没有实现真正意义上的用户主数据，也就是没有将同一用户在不同业务平台的用户数据合并为一条用户主数据；

第四，如果采用固定的逻辑归并方法，则会存在将其他业务平台上的有效的和最新用户数据给屏蔽的情况；

第五，在生成统一的用户标识后之后，由于在用户数据归并和用户数据覆盖过程中造成的有效用户数据丢失，会造成用户数据失真的情况；

第六，在增量的用户数据再次合并方面支持不足。

因此，基于图1所生成的用户主数据作为后续进行用户数据分析、评级和根据用户数据分析结果制定营销策略的基础，存在着很多问题，由于按照图1所述的过程得到用户主数据不准确且固化，所以最终造成以用户分析为目标的计算机网络侧的客户关系管理(CRM，Customer RelationshipManagement)和企业级用户信息整合系统(ECIF，Enterprise CustomerInformation Facility)在进行用户数据分析时，达不到用户价值最大化的预期目标。

发明内容

有鉴于此，本发明实施例提供一种用户主数据的生成方法，该方法能够根据需要生成灵活的用户主数据，且保证生成的用户主数据准确。

本发明实施例还提供一种用户主数据的生成系统，该系统能够根据需要生成灵活的用户主数据，且保证生成的用户主数据准确。

根据上述目的，本发明是这样实现的：

一种用户主数据的生成方法，包括：

接收各个业务平台所采集的用户数据；

对所采集的用户数据进行清洗；

根据清洗后的用户数据质量分析结果，生成树结构的多个用户识别算法，从生成的多个用户识别算法中选择一个以上的用户识别算法对清洗后的用户数据进行归并；

对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。

一种用户主数据的生成系统，包括：采集模块、清洗模块、数据质量分析模块、选择模块、归并模块及覆盖模块，其中，

采集模块，用于采集各个业务平台上的用户数据；

清洗模块，用于将所采集的用户数据进行清洗；

数据质量分析模块，用于对清洗后的用户数据进行数据质量分析后，得到数据分析结果，根据数据分析结果，生成树结构的多个用户识别算法；

选择模块，用于从生成的多个用户识别算法中选择一个以上的用户识别算法；

归并模块，用于采用所选择的一个以上的用户识别算法对清洗后的用户数据进行归并；

覆盖模块，用于对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。

由上述方案可以看出，本发明实施例将从各个业务平台采集用户数据后后，首先对所采用的用户数据清洗；其次，根据用户数据质量分析结果，生成树结构的多个用户识别算法，从生成的多个用户识别算法中选择一个以上的用户识别算法对清洗后的用户数据进行归并；最后，对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。由于本发明在对用户数据进行归并前进行清洗，将其中的无用数据丢弃；并在后续对归并后的用户数据进行同一用户的重复用户数据覆盖，所以保证了所生产的用户主数据准确；本发明实施例还可以根据用户数据质量分析结果生成树结构的多个用户识别算法，并从中选择选择一个以上的用户识别算法进行组合计算，对用户数据进行合并，这样可以确定最优的归并方法，从而根据需要生成灵活的用户主数据。

附图说明

图1为现有技术提供的用户主数据的生成方法流程图；

图2为本发明实施例提供的用户主数据的生成方法流程图；

图3为本发明实施例提供的采用java进行用户主数据的生成方法框架示意图；

图4为本发明实施例提供的用户主数据的生成系统结构示意图；

图5为本发明实施例提供的多个用户识别算法的树结构示意图；

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

从背景技术可以看出，在对所获取的用户数据实现识别要素范围的确定时，划分困难，且在之前并没有对无用的用户数据进行处理，造成了后续基于用户数据生成的用户主数据不准确，且在后续对用户数据进行归一时，采用的是设定的一种用户识别算法完成，并没有根据用户数据的特点选择，造成最终生成的用户数据不符合需要，不灵活。

因此，本发明实施例首先对所采用的用户数据清洗；其次，根据用户数据质量分析结果，生成树结构的多个用户识别算法，从生成的多个用户识别算法中选择一个以上的用户识别算法对清洗后的用户数据进行归并；最后，对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。由于本发明在对用户数据进行归并前进行清洗，将其中的无用数据丢弃；并在后续对归并后的用户数据进行同一用户的重复用户数据覆盖，所以保证了所生产的用户主数据准确；本发明实施例还可以根据用户数据质量分析结果生成树结构的多个用户识别算法，并从中选择选择一个以上的用户识别算法进行组合计算，对用户数据进行合并，这样可以确定最优的归并方法，从而根据需要生成灵活的用户主数据。

图2为本发明实施例提供的用户主数据的生成方法流程图，其具体步骤为：

步骤201、接收各个业务平台所采集的用户数据；

步骤202、对所采集的用户数据进行清洗；

在本步骤中，将所接收的每一条用户数据进行设定格式的记录，生成用户数据记录对象后，再根据设置的清洗规则对每一条用户数据记录对象进行清洗；

步骤203、根据清洗后的用户数据质量分析结果，生成树结构的多个用户识别算法，从生成的多个用户识别算法中选择一个以上的用户识别算法对清洗后的用户数据进行归并；

在本步骤中，当选择时，可以根据用户的需要选择，也可以从生成的多个用户识别算法中自动选择最优的一个以上的用户识别算法；

步骤204、对归并后的用户数据按照设置的数据覆盖算法针对同一用户的重复用户数据覆盖后，得到用户主数据。

在本发明实施例中，可以采用单元模块化设计，并采用各类编程语言实现，如java，C#，C++，C等，也可以采用数据库语言或函数等形式实现本发明实施例。

在本发明实施例中，将所接收的每一条用户数据进行设定格式的记录时，生成用户数据记录对象的过程可以通过数据源映射方式实现，具体地说，就是采用java的ResultSetMetaData类通过数据库连接(jdbc)方式获取到对应的用户数据，该用户数据是设置在各个业务平台所存储的用户数据表中的，然后利用java的HashMap类将用户识别要素与用户数据表中的用户数据进行映射，根据映射关系通过idbc方式读取用户数据表中的每条用户数据中的用户识别要素值，得到一个用户数据记录对象。

在本发明实施例中，在对用户数据记录对象进行清洗时，可以采用java的正则表达式，对用户数据记录对象中的用户识别要素定义出相应的清洗函数后，采用该相应的清洗函数进行清洗。

在本发明实施例中，对用户数据进行数据质量分析就是对所有清洗后的数据对象记录进行汇总，根据设置的指标公式通过java的Math类中基础计算函数，计算出相应的值。采用POI接口生成设置的报表。

在本发明实施例中，根据数据质量分析结果，利用二叉树原理定义出最优的归并算法。

在采用java语言进行图2所示的过程如图3所示，当接收到用户数据后，依次进行数据源映射、数据处理器的处理、数据装载、进入输入库及得到结果，其中，数据处理器由两部分组成，一部分为用户数据清洗，另一部分为用户数据合并。在进行用户数据的清洗后，还进行数据质量分析后，将数据质量分析结果反馈给用户数据合并过程，从而选择最优的归并算法，将数据质量分析结果输出。数据装载是指将用户合并后的用户数据记录对象通过jdbc方式加载到相应的数据库中。

图4为本发明实施例提供的一种用户主数据的生成系统结构示意图，包括：采集模块、清洗模块、数据质量分析模块、选择模块、归并模块及覆盖模块，其中，

采集模块，用于采集各个业务平台上的用户数据；

清洗模块，用于将所采集的用户数据进行清洗；

在该系统中，清洗模块，还用于将所接收的每一条用户数据进行设定格式的记录，生成用户数据记录对象后，再根据设置的清洗规则对每一条用户数据记录对象进行清洗。

以下对上述系统中的各个功能模块进行详细说明。

清洗模块

该模块中主要实现用户数据识别要素范围的确定和所采用的识别要素清洗算法，并采用所确定的识别要素清洗算法进行用户数据识别要素范围内的清洗。举例来说，清洗的过程如表1所示：

表一

数据质量分析模块

该模块根据清洗后的用户数据记录，自动进行用户识别判定和推荐，得到数据质量分析结果，该数据质量分析模块还提供人机交互接口，可以实现人机交互，根据反馈信息在制定数据质量分析方法，进行数据质量分析，得到用户数据分析结果。

例如，如表二所示，表二为数据质量分析结果表

用户数据识别要素	是否可用	有效性
			用户姓名	√	99.99％
性别	√	85.82％
			生日	√	76.35％
证件类型	√	98.96％
			证件号码	√	97.98％
手机号码	√	96.46％
			固定电话	√	89.31％
银行转账账号	√	92.28％

表二

根据得到的用户数据质量分析结果，对设定的所有归并算法进行优劣排序，生成树结构的多个用户识别算法，如图5所示。

选择模块

从图5所示的算法树结构中，就可以采用人工方式或直接根据最优方式，比如匹配最多的用户数据识别要素的算法设置为最优的用户识别算法。可以选择多个进行组合，在采用所选择的最优的用户识别算进行归并的过程中，只要满足组成算法中的任意一条就可以将该用户数据记录对象归并到同一用户的用户数据下。

覆盖模块

由于同一用户的用户数据可能存储在多个业务平台上或同一业务平台上存在多个同一用户的不同用户数据，则在对该用户的用户数据归并后，必须制定合适的用户数据整合覆盖算法，并按照该算法进行用户数据的更新或创建。

具体地说，用户数据覆盖算法执行过程为：

第一个步骤，设置用户的有效用户数据覆盖无效用户数据

在执行时，有效地且准确的用户数据可以覆盖无效的用户数据，当判断皆为有效的、准确的或皆为无效的或没有具体含义这两种情况时，判断下一原则。

第二个步骤，用户的新的用户数据覆盖旧的用户数据

来自同一业务平台源的用和数据根据用户数据采集时间的先后顺序，规定对应的优先级别，新采集的用户数据可以覆盖之前采集的用户数据；

第三个步骤，用户的高优先级业务源数据覆盖低优先级业务源数据

根据对各个业务平台的数据质量认可程度，对业务平台设定用户数据归并时的优先级别，来自高优先级的业务平台的用户数据可以覆盖来自较低优先级的业务平台的用户数据。

从图4所述的系统可以看出，各个模块都支持系统自动与人工参与的自动化过程，保证了用户主数据生成的高可用性、灵活性和实用性。

在本发明实施例中，可以采用图4所述的过程进行模块化设计，实现了在用户主数据生成过程中每个步骤及该步骤可动态调整算法的功能封装，避免了各个步骤之间的高耦合性，从而实现模块的智能、自动化内容调整、单元模块的装置和卸载。在整个用户数据生成过程之前提供人工交互的统一配置窗口，实现个性化的算法与内容的配置，从而得到生成最佳用户主数据的目标。

采用本发明实施例，可以支持全量用户主数据或增量主数据的生成方式，可以通过人工交互的统一配置窗口实现。在默认情况下，如果当前没有生成过用户主数据，则按照全量方式遵循本发明实施例方式执行；当要生成新的用户主数据或已经生成的用户主数据要更新时，则根据所设置的更新频率，执行本发明实施例，从而进行增量的用户主数据处理，实现离线用户主数据的T+1形式的增量。

增量用户主数据处理以已经存在的用户主数据为基础，结合各个业务平台进行再次用户主数据合并，将结果保存在所设置的临时的用户主数据表中，等待执行完成并经过用户验证后，就会覆盖原有的用户主数据。

举一个具体的例子对本发明实施例进行详细说明

从各个业务平台获取的用户数据如表三所示

表三

首先，对用户数据进行设定格式的记录，生成用户数据记录对象，然后进行清洗，进行数据质量分析后，选择对应的用户识别算法进行归并，在这里，采用的用户识别算法为组合的用户识别算法，即“证件类型+证件号码”算法、“用户姓名+手机号码”算法以及“用户姓名+固定电话”算法进行归并。

a)执行“证件类型+证件号码”算法，得到表四的用户数据，其中的第一行的用户数据与第二行的用户数据为同一用户的相关数据，进行标注。

表四

b)执行“用户姓名+手机号码”的算法得到表五的用户数据，其中的第一行的用户数据、第二行的用户数据及第四行的用户数据为同一用户的相关数据，进行标注。

表五

c)执行“用户姓名+固定电话”的算法得到表六的用户数据，其中的第一行的用户数据、第二行的用户数据、第三行的用户数据及第四行的用户数据为同一用户的相关数据，第五行的用户数据和第六行的用户数据为同一用户的相关数据，进行标注。

表六

最后，对同一用户的相关数据进行数据覆盖，采用设置的数据覆盖算法，顺序进行覆盖，假设默认用户数据来源的优先级别从高到低为：计算机互联网、手机应用及手机通信，则最终得到的用户主数据如表七所示：

用户号	用户名称	固定电话	手机号码	证件类型	证件号码
						1	张三	01088888888	13288888888	11	130126199212023258
5	张飞	01033333333	13666666666	11	130125198910122136
						7	张飞	01011111111

表七

本发明实施例实现了用户主数据的自动化生成，保证了用户主数据生成的高效性、可靠性和实用性。为计算机网络中的各个业务平台提供最新且有效的已有的准确的用户数据，为用户营销策略及用户分级提供了准确高效的用户标准信息。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户主数据的生成方法，其特征在于，包括：

接收各个业务平台所采集的用户数据；

对所采集的用户数据进行清洗；

2.如权利要求1所述的生成方法，其特征在于，所述清洗为：

将所接收的每一条用户数据进行设定格式的记录，生成用户数据记录对象后，根据设置的清洗规则对每一条用户数据记录对象进行清洗。

3.如权利要求1所述的生成方法，其特征在于，所述生成树结构的多个用户识别算法为：

根据所设定的用户数据质量分析方法进行清洗后的用户数据的用户数据质量分析，得到用户数据质量分析结果；

对所设定的所有归并算法，按照得到的用户数据质量分析结果优劣排序，得到树结构的多个用户识别算法。

4.如权利要求1所述的生成方法，其特征在于，所述选择一个以上的用户识别算法为：

根据用户设定选择或者从生成的多个用户识别算法中选择最优的一个以上的用户识别算法。

5.一种用户主数据的生成系统，其特征在于，包括：采集模块、清洗模块、数据质量分析模块、选择模块、归并模块及覆盖模块，其中，

采集模块，用于采集各个业务平台上的用户数据；

清洗模块，用于将所采集的用户数据进行清洗；

6.如权利要求5所述的系统，其特征在于，所述清洗模块，还用于将所接收的每一条用户数据进行设定格式的记录，生成用户数据记录对象后，再根据设置的清洗规则对每一条用户数据记录对象进行清洗。

7.如权利要求5所述的系统，其特征在于，还包括人机交互模块，用于对清洗模块的清洗方法进行设定；或/和对数据质量分析模块的数据质量分析方法进行设定；或/和对选择模块的选择方法进行设定；或/和对覆盖模块的数据覆盖算法进行设定。

8.如权利要求5所述的系统，其特征在于，所述数据质量分析模块，还用于根据所设定的用户数据质量分析方法进行清洗后的用户数据的用户数据质量分析，得到用户数据质量分析结果；对所设定的所有归并算法，按照得到的用户数据质量分析结果优劣排序，得到树结构的多个用户识别算法。

9.如权利要求5所述的系统，其特征在于，所述选择模块，还用于根据用户设定选择或者从生成的多个用户识别算法中选择最优的一个以上的用户识别算法。