具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,是本发明实施例提供的身份标识拉通方法的实现流程示意图,该方法应用于不同业务系统中线上业务或线下业务的管理。如图所示,该方法包括以下步骤:
步骤S101,获取目标业务系统中客户身份标识的数据信息并按字段进行存储。
在本发明实施例中,所述的目标业务系统包括至少两个业务系统,客户在不同的业务系统中,使用了不同的身份标识;所述的客户身份标识包括但不限于:身份证号、合同号、手机号等,其中,线上业务系统的身份标识还包括:QQ账号、微信账号等;所述的客户身份标识还包括:社保账号、驾驶证编号、联系电话、邮箱地址、微博账号、浏览器Cookie中的一种或多种;所述的数据信息为客户身份识别对应的具体值,比如QQ账号的数字序列。
另外,获取目标业务系统中客户身份标识的数据信息并按字段进行存储,首先收集客户身份标识,并按不同字段保存至客户身份标识表格中,例如表1所示,将各个业务系统中存在的客户身份标识:身份证号、社保账号、驾驶证编号、联系电话、邮箱地址、QQ账号、微信账号、微博账号、浏览器Cookie等,收集并保存至客户身份标识表中。
表1
其次,将客户身份标识的字段对应的数据信息进行记录,如表2所示,不同字段对应的数据信息:
Sid |
IDCARD |
TEl |
EMAIL |
QQ |
WEIXIN |
A |
610481199303255000 |
13109619609 |
1529841625@qq.com |
1529841625 |
13109619609 |
B |
420625199805016000 |
18372263310 |
2929073243@qq.com |
2929073243 |
18372263310 |
C |
|
18372263310 |
235073243@qq.com |
235073243 |
18372263310 |
D |
|
18871014588 |
573681466@qq.com |
573681466 |
18871014588 |
E |
420625199805016000 |
13472263939 |
2929073243@qq.com |
2929073243 |
18372263310 |
表2
步骤S102,根据字段对应的数据信息,统计目标业务系统中一个或多个字段对应的数据信息相同的客户身份标识。
在本发明实施例中,每个业务系统对应一个或多个字段,每个字段存储有对应的数据信息,根据每个字段对应的数据信息,统计字段中具有相同数据信息的客户身份标识,需要说明的是,目标业务系统中相同的数据信息可以是特定字段对应的数据信息相同,也可以是多个字段对应的数据信息相同,例如:目标业务系统中的客户身份标识的字段中包含有身份证的数据信息或者驾驶证的数据信息,则通过身份证对应的数据信息或者驾驶证对应的数据信息进行判断是否为同一客户;若没有身份证或驾驶证的数据信息,则进行其他字段数据信息的匹配,若有多个字段对应的数据信息相同,则判断为同一客户。例如表2中,B的身份证号420625199805016000对应18372263310、2929073243@qq.com、2929073243、18372263310这几个字段的数据信息,而C所包括的字段中没有身份证号数据信息,但是Tel字段的数据信息与B中的Tel字段的数据信息相同,E与B具有相同的身份证号数据信息,则将B、C和E进行客户身份标识的统计。
步骤S103,将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行拉通,获取合并数据组。
在本发明实施例中,所述拉通是把客户分散在各个业务系统的数据进行整合,将每个系统中不同的身份标识对应到每一个实体客户上,从而可以对某一个实体或者虚拟客户的所有相关业务信息进行独立的数据分析。
其中,所述将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行拉通,获取合并数据组的步骤包括:
A1、对具有一个或多个字段对应的数据信息相同的客户身份标识以同一字段的数据信息分别与客户身份标识的其它多个字段的数据信息对应方式进行一对多映射;
A2、根据所述同一字段的数据信息,将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行归约合并。
在本发明实施例中,所述的拉通包括映射Map阶段和归约Reduce阶段,对于具有相同数据信息的客户身份标识,则以同一字段的数据信息分别与客户身份标识的其它多个字段的数据信息对应的方式进行一对多的映射,例如:表2中的B和E,具有相同的身份证号和不同的手机号,则以身份证号为标识进行一对多的映射:B 420625199805016000→18372263310、2929073243@qq.com、2929073243、18372263310,E 420625199805016000→13472263939、2929073243@qq.com、2929073243、18372263310;C没有身份证号,但手机号与B相同,则将B的身份证号复制给C进行一对多的映射:C420625199805016000→18372263310、235073243@qq.com、235073243、18372263310。根据同一字段的数据信息将具有相同数据信息的客户身份标识进行归约合并,所述的归约合并为将与同一字段的数据信息对应的多个字段的数据信息中删除重复的数据信息,合并不同的数据信息。例如表2中的B、C和E,同一身份证的数据信息相同,则在同一个归约内部处理,将与身份证数据信息对应的其它数据信息进行合并去重处理,例如:BCE 420625199805016000→13472263939,18372263310,2929073243@qq.com,2929073243,18372263310。
另外,例如表2中的A,具有身份证号,但是与其他客户身份标识没有相同的数据信息,则进行单独的映射和归约处理,依然是以身份证号与其他数据信息对应的方式进行一对多的映射,在归约阶段进行单独记录。
需要说明的是,客户身份标识中包含身份证号,则以身份证号作为唯一标识进行拉通。
进一步的,在所述获取多个业务系统中客户身份标识的数据信息的步骤之后,所述方法还包括:
步骤S202,根据字段对应的数据信息,统计目标业务系统中所述字段对应的数据信息均不相同的客户身份标识。
在本发明实施例中,所述的客户身份标识包括一个或多个字段,每个字段对应不同的数据信息,获取的不同业务系统的客户身份标识,其中相同的字段对应的数据信息相同或者不同,例如表2中的A和D,与其他客户身份标识的字段没有相同的数据信息,其中A包括身份证数据信息,D不包括身份证数据信息,则进一步对A和D进行统计。
步骤S203,对所述目标业务系统中所述字段对应的数据信息均不相同的客户身份标识,分别以字段对应的数据信息中的其中一个字段的数据信息与其它字段的数据信息建立映射,并将所述没有相同数据信息的客户身份标识记为独立身份标识。
在本发明实施例中,对于没有相同数据信息的客户身份标识,同样进行映射Map阶段和归约Reduce阶段的拉通运算;例如表2中的A,包括身份证号对应的数据信息,则以身份证号与其他字段的数据信息对应的方式建立映射关系:A 610481199303255000→13109619609、1529841625@qq.com、1529841625、13109619609;表2中的D没有身份证号,且与其他客户身份标识没有相同的数据信息,则将D的字段打乱,每个字段对应的数据信息作为一个新的关键字,其余字段对应的数据信息作为关键字的值,建立映射关系,例如表2中的D18871014588→573681466@qq.com、573681466、18871014588;573681466@qq.com→18871014588、573681466、18871014588;573681466→18871014588、573681466@qq.com、18871014588;18871014588→18871014588、573681466@qq.com、573681466。
在归约阶段,对于没有相同数据信息的客户标识A和D则进行单独记录,并标记为独立身份标识。
步骤S204,对所述独立身份标识分配系统身份标识。
在本发明实施例中,所述的独立身份标识包括有身份证号的独立身份标识和没有身份证号的独立身份标识,对于独立身份标识对应一个独立的用户也会分配一个系统身份标识SID。
进一步的,在将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行拉通,获取合并数据组的步骤之后,所述方法还包括:
B1、对所述合并数据组分配系统身份标识。
在本发明实施例中,在对不同业务系统,具有相同数据信息的客户身份标识进行拉通后,对拉通后的合并数据组进行系统身份标识SID的分配,使得每个系统中不同的身份标识对应到每一个实体或虚拟客户上,并以系统身份标识SID作为客户的唯一标识,用于进行标签的计算和检索,例如对客户的性别、年龄、风控评分等标签的计算和检索,从而进行统一管理。
B2、将所述多个字段对应的数据信息作为主键rowkey,分别与所述同一字段的数据信息进行对应,建立映射关系并存储。
在本发明实施例中,将拉通后的每一组数据分配系统身份标识SID后,采用一个系统身份标识SID与多个字段的数据信息对应的方式建立一对多的映射,并将映射结果保存至分布式数据库Hbase;保存时,将多个字段的数据信息分散,每个字段对应的数据信息作为主键rowkey与身份证号对应,存储至分布式数据库Hbase,通过设置的多个主键rowkey,使得在存储单元中对客户信息的查找更加便捷。例如表2中的A的存储形式为:
610481199303255000→13109619609,1529841625@qq.com,1529841625,13109619609;
设置多个主键rowkey以便查找:
13109619609→610481199303255000;
1529841625@qq.com→610481199303255000;
1529841625→610481199303255000。
如图3所示,为本发明实施例提供的身份标识拉通框架示意图,如图所示,对应表2中的客户身份标识的数据信息,不同业务系统A、B、C、D、E的客户身份标识以及所包含的数据信息作为输入信息,进行拉通计算,输出合并数据组B(C,E)和独立的数据组D、A,进一步对数据组分配系统身份标识SID:H、I、J。
需要说明的是,本领域技术人员在本发明揭露的技术范围内,可容易想到的其他排序方案也应在本发明的保护范围之内,在此不一一赘述。
通过本发明实施例,对不同业务系统的客户身份标识进行拉通并分配以SID来作为用户的唯一标识,用于进行标签的计算和检索,可以整合各个业务系统的客户数据,贷后、催收、电销、客服等,对客户做更全面的分析,并将这些分析成果再用于各个业务系统中,进行不同业务系统中客户相关的信息进行统一高效管理,以达到智能化的运营。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参见图4,是本发明实施例提供身份标识拉通装置的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
所述身份标识拉通装置包括:
数据采集单元41,用于获取目标业务系统中客户身份标识的数据信息并按字段进行存储;
第一统计单元42,用于根据字段对应的数据信息,统计目标业务系统中一个或多个字段对应的数据信息相同的客户身份标识;
第一数据处理单元43,用于将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行拉通,获取合并数据组。
进一步的,所述身份标识拉通装置还包括:
第二统计单元,用于根据字段对应的数据信息,统计目标业务系统中所述字段对应的数据信息均不相同的客户身份标识;
第二数据处理单元,用于对所述目标业务系统中所述字段对应的数据信息均不相同的客户身份标识,分别以字段对应的数据信息中的其中一个字段的数据信息与其它字段的数据信息建立映射,并将所述没有相同数据信息的客户身份标识记为独立身份标识。
进一步的,所述第一数据处理单43元包括:
第一映射模块,用于对具有一个或多个字段对应的数据信息相同的客户身份标识以同一字段的数据信息分别与客户身份标识的其它多个字段的数据信息对应方式进行一对多映射;
归约合并模块,用于根据所述同一字段的数据信息,将所述具有一个或多个字段对应的数据信息相同的客户身份标识进行归约合并。
其中,所述的身份标识拉通装置还包括:
系统身份标识分配模块:用于对所述合并数据组分配系统身份标识;
第二映射模块:用于将所述多个字段对应的数据信息作为主键rowkey,分别与所述同一字段的数据信息进行对应,建立映射关系并存储。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述移动终端的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述移动终端中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图5是本发明一实施例提供的身份标识拉通终端设备的示意图。如图5所示,该实施例的身份标识拉通终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如Java程序。所述处理器50执行所述计算机程序52时实现上述各个身份标识拉通方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至44的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述身份标识拉通终端设备5中的执行过程。
所述身份标识拉通终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述身份标识拉通终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是身份标识拉通终端设备5的示例,并不构成对身份标识拉通终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述身份标识拉通终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述身份标识拉通终端设备5的内部存储单元,例如身份标识拉通终端设备5的硬盘或内存。所述存储器51也可以是所述身份标识拉通终端设备5的外部存储设备,例如所述身份标识拉通终端设备5上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述身份标识拉通终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述身份标识拉通终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。