CN106372219A - 基于异构平台的用户行为数据关联方法及系统 - Google Patents

基于异构平台的用户行为数据关联方法及系统 Download PDF

Info

Publication number
CN106372219A
CN106372219A CN201610806246.7A CN201610806246A CN106372219A CN 106372219 A CN106372219 A CN 106372219A CN 201610806246 A CN201610806246 A CN 201610806246A CN 106372219 A CN106372219 A CN 106372219A
Authority
CN
China
Prior art keywords
heterogeneous system
data
heterogeneous
subscriber identity
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610806246.7A
Other languages
English (en)
Inventor
杜亭
田广礼
张西
陈云武
谭丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Earth View (wuhan) Information Technology Co Ltd
Original Assignee
Earth View (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Earth View (wuhan) Information Technology Co Ltd filed Critical Earth View (wuhan) Information Technology Co Ltd
Priority to CN201610806246.7A priority Critical patent/CN106372219A/zh
Publication of CN106372219A publication Critical patent/CN106372219A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于异构平台的用户行为数据关联方法,包括:S1、列出异构系统的用户标识字段信息;S2、建立ID总表;S3、提取一个异构系统,读取异构系统中用户标识信息字段;S4、在提取下一个异构系统时,开始进行用户标识数据归并;S5、重复执行步骤S4,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到步骤S4;S6、通过步骤S4将ID总表补充完毕;S7、判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;S8、生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。

Description

基于异构平台的用户行为数据关联方法及系统
技术领域
本发明涉及信息数据处理技术领域,特别涉及一种基于异构平台的用户行为数据关联方法及系统。
背景技术
目前,旅游行业有很多的信息采集的平台,比如wifi系统,微信信息,门票系统,酒店系统等,一个旅游投资公司往往拥有不同业态的各种异构平台数据系统,但是这些平台独立工作,需要一种方法将这些异构的数据关联寻找出来,进而挖掘分析确认这些系统的用户是否是同一个用户,利用这种挖掘方法进一步确认用户在各种平台上的行为数据关联,形成一个统一的用户描述信息。
发明内容
有鉴于此,本发明提出一种能够解决多异构平台中,寻找匹配确认各种异构平台中的用户信息,并确认是否同一个用户,并提取到一个统一的用户行为数据平台中的基于异构平台的用户行为数据关联方法及系统。
一种基于异构平台的用户行为数据关联方法,其包括如下步骤:
S1、列出异构系统的用户标识字段信息;
S2、建立ID总表,ID总表用于合并异构系统的关联数据结果;
S3、提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空;
S4、在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充;
S5、重复执行步骤S4,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到步骤S4;
S6、通过步骤S4将ID总表补充完毕;
S7、判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;
S8、生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S1中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S7包括:
S71、新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时,通过第三个异构系统确认这两个信息是同一个人;
S72、后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录;
S73、将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S8包括:
S81、定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上;
S82、读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断;
S83、判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据;
S84、使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理;
S85、循环步骤S81至步骤S84开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
本发明还提供一种基于异构平台的用户行为数据关联系统,其包括如下单元:
信息列举单元,用于列出异构系统的用户标识字段信息;
ID总表构建单元,用于建立ID总表,ID总表用于合并异构系统的关联数据结果;
数据填充单元,用于提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空;
数据归并单元,用于在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充;
迭代单元,用于重复执行数据归并单元,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到数据归并单元;
数据补充单元,用于通过数据归并单元将ID总表补充完毕;
关联判断单元,用于判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;
反向提取单元,用于在生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
在本发明所述的基于异构平台的用户行为数据关联系统中,
所述信息列举单元中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
在本发明所述的基于异构平台的用户行为数据关联系统中,
所述关联判断单元包括:
同一用户判断子单元,用于对新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时,通过第三个异构系统确认这两个信息是同一个人;
重复信息删除子单元,用于对后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录;
信息合并子单元,用于将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
在本发明所述的基于异构平台的用户行为数据关联系统中,
所述反向提取单元包括:
用户行为表创建子单元,用于定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上;
ID总表数据查询子单元,用于读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断;
用户标识数据提取子单元,用于判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据;
数据插入子单元,用于使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理;
迭代子单元,用于循环用户行为表创建子单元至数据插入子单元开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
实施本发明提供的基于异构平台的用户行为数据关联方法及系统与现有技术相比具有以下有益效果:当有多种不同异构系统,每种异构系统有各自的唯一信息标识,但是无法确定这些异构系统中的用户是否是一个用户,利用本发明技术方案,可以得出(只要这一批异构系统的数据有相互关联)异构系统中的用户是否是同一个用户,并且从不同的异构系统中提取出这个用户的相关行为。最终形成统一的ID总表和用户行为信息表,能够为后续的数据分析做准备。
附图说明
图1是本发明实施例的基于异构平台的用户行为数据关联系统示意图;
图2是本发明实施例的基于异构平台的用户行为数据关联系统结构框图;
图3是图2中关联判断单元结构框图;
图4是图2中反向提取单元结构框图。
具体实施方式
一种基于异构平台的用户行为数据关联方法,其包括如下步骤:
S1、列出异构系统的用户标识字段信息。
S2、建立ID总表,ID总表用于合并异构系统的关联数据结果。
S3、提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空。
S4、在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充。
S5、重复执行步骤S4,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到步骤S4。
S6、通过步骤S4将ID总表补充完毕。
S7、判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;如果第一个异构系统提供了比如某个特征值,比如身份证号,第二个异构系统提供了比如手机号码的特征值,第三个异构系统同时提供了身份证号和手机号码,且有关联,则进入混合合并模式。
S8、生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S1中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S7包括:
S71、新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时但是还不确认是同一个人,通过第三个异构系统确认这两个信息是同一个人。
S72、后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录。
S73、将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
在本发明所述的基于异构平台的用户行为数据关联方法中,
所述步骤S8包括:
S81、定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上。
S82、读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断。
S83、判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据。
S84、使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理。
S85、循环步骤S81至步骤S84开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
如图1、2所示,图1是本发明实施例的基于异构平台的用户行为数据关联系统示意图,本发明还提供一种基于异构平台的用户行为数据关联系统,其包括如下单元:
信息列举单元,用于列出异构系统的用户标识字段信息;
ID总表构建单元,用于建立ID总表,ID总表用于合并异构系统的关联数据结果;
数据填充单元,用于提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空;
数据归并单元,用于在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充;
迭代单元,用于重复执行数据归并单元,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到数据归并单元;
数据补充单元,用于通过数据归并单元将ID总表补充完毕;
关联判断单元,用于判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;
反向提取单元,用于在生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
在本发明所述的基于异构平台的用户行为数据关联系统中,
所述信息列举单元中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
如图3所示,在本发明所述的基于异构平台的用户行为数据关联系统中,
所述关联判断单元包括:
同一用户判断子单元,用于对新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时,通过第三个异构系统确认这两个信息是同一个人;
重复信息删除子单元,用于对后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录;
信息合并子单元,用于将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
如图4所示,在本发明所述的基于异构平台的用户行为数据关联系统中,
所述反向提取单元包括:
用户行为表创建子单元,用于定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上;
ID总表数据查询子单元,用于读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断;
用户标识数据提取子单元,用于判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据;
数据插入子单元,用于使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理;
迭代子单元,用于循环用户行为表创建子单元至数据插入子单元开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (8)

1.一种基于异构平台的用户行为数据关联方法,其特征在于,其包括如下步骤:
S1、列出异构系统的用户标识字段信息;
S2、建立ID总表,ID总表用于合并异构系统的关联数据结果;
S3、提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空;
S4、在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充;
S5、重复执行步骤S4,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到步骤S4;
S6、通过步骤S4将ID总表补充完毕;
S7、判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;
S8、生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
2.如权利要求1所述的基于异构平台的用户行为数据关联方法,其特征在于,
所述步骤S1中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
3.如权利要求2所述的基于异构平台的用户行为数据关联方法,其特征在于,
所述步骤S7包括:
S71、新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时,通过第三个异构系统确认这两个信息是同一个人;
S72、后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录;
S73、将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
4.如权利要求3所述的基于异构平台的用户行为数据关联方法,其特征在于,
所述步骤S8包括:
S81、定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上;
S82、读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断;
S83、判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据;
S84、使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理;
S85、循环步骤S81至步骤S84开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
5.一种基于异构平台的用户行为数据关联系统,其特征在于,其包括如下单元:
信息列举单元,用于列出异构系统的用户标识字段信息;
ID总表构建单元,用于建立ID总表,ID总表用于合并异构系统的关联数据结果;
数据填充单元,用于提取一个异构系统,读取异构系统中用户标识信息字段,判断用户标识字段中是否存在用户标识数据,如果用户标识字段存在用户标识数据,则将用户标识数据填充到对应的ID总表中,如果用户标识数据为空,则保留ID总表中位空;
数据归并单元,用于在提取下一个异构系统时,开始进行用户标识数据归并,用户标识数据归并的规则如下:如果本异构系统的某个用户标识数据项和ID总表中的用户标识数据项一致;则从本异构系统提取其他用户标识数据填充;
迭代单元,用于重复执行数据归并单元,直至所有的异构系统均完成归并;在存在新增异构系统时,跳转到数据归并单元;
数据补充单元,用于通过数据归并单元将ID总表补充完毕;
关联判断单元,用于判断如果第一个异构系统提供了某个特征值;第二个异构系统提供了另一特征值;第三个异构系统同时提供了上述两个特征值,且有关联,则进入混合合并模式;
反向提取单元,用于在生成统一完整的ID总表后,反向从原异构系统中开始提取用户行为数据进行处理。
6.如权利要求5所述的基于异构平台的用户行为数据关联系统,其特征在于,
所述信息列举单元中将异构系统中用户标识字段信息放入配置文件,配置文件的格式如下:
SystemName用于表示异构系统名称;
SystemDBLink用于表示异构数据库JDBC链接;
BussinessTableName用于表示业务系统表名称,多表用逗号分隔;
SQLForBussinessdata用于表示提取业务数据的SQL定义;
Fields用于表示关联数据的对应字段,用逗号分隔;
MapData用于表示业务数据到统一用户行为表的映射数据关系,使用键值对表示。
7.如权利要求6所述的基于异构平台的用户行为数据关联系统,其特征在于,
所述关联判断单元包括:
同一用户判断子单元,用于对新进入的用户标识数据匹配到第一个关键字的用户,补充全第一个关键字的所有用户标识数据;第一个异构系统带身份证号,第二个异构系统是手机号码,第三个异构系统同时包括手机号码和身份证号;则第三个异构系统的用户标识数据进入时,对于某个用户身份证号和手机号码已经进入异构系统时,通过第三个异构系统确认这两个信息是同一个人;
重复信息删除子单元,用于对后续增加的用户标识数据,对已有用户标识数据进行逐条匹配,第三个异构系统和ID总表的身份证号,在先判断了相同时,则第三个异构系统带的手机号码填写在ID总表和身份证对应的那一条用户标识数据中,同时,在继续匹配中在还有手机号相同的一条记录也在这个第三个异构系统中,则直接删除这条手机号相同的记录;
信息合并子单元,用于将身份证号设置为拥有最高有限级别,如果归并信息中发现有身份证号相同,手机号码不同的用户,则判断该用户拥有双手机或者手机换号;则可以记录为两条记录,并归并成同一个人的信息。
8.如权利要求7所述的基于异构平台的用户行为数据关联系统,其特征在于,
所述反向提取单元包括:
用户行为表创建子单元,用于定义用户行为数据表的表结构,同时对所有异构系统的用户标识字段对应到用户行为表的字段结构上;
ID总表数据查询子单元,用于读取ID总表的第一条用户标识数据,打开异构系统的一个业务数据库的对应表,通过直接查看配置文件进行判断;
用户标识数据提取子单元,用于判断配置文件中,该异构数据库的关联字,从配置文件中,使用预先写好的SQL,利用关联字提取该异构系统的用户标识数据;
数据插入子单元,用于使用配置文件的数据映射关系,完成最后的用户标识数据插入映射处理;
迭代子单元,用于循环用户行为表创建子单元至数据插入子单元开始获得处理下一个异构系统直至所有的异构系统中用户标识数据处理完毕。
CN201610806246.7A 2016-09-07 2016-09-07 基于异构平台的用户行为数据关联方法及系统 Pending CN106372219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610806246.7A CN106372219A (zh) 2016-09-07 2016-09-07 基于异构平台的用户行为数据关联方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610806246.7A CN106372219A (zh) 2016-09-07 2016-09-07 基于异构平台的用户行为数据关联方法及系统

Publications (1)

Publication Number Publication Date
CN106372219A true CN106372219A (zh) 2017-02-01

Family

ID=57900308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610806246.7A Pending CN106372219A (zh) 2016-09-07 2016-09-07 基于异构平台的用户行为数据关联方法及系统

Country Status (1)

Country Link
CN (1) CN106372219A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334529A (zh) * 2017-03-31 2018-07-27 北京安天网络安全技术有限公司 一种利用已公开大数据获取攻击者信息的方法及系统
CN108388675A (zh) * 2018-03-26 2018-08-10 深圳市买买提信息科技有限公司 一种身份标识拉通方法及终端设备
CN108665383A (zh) * 2018-05-08 2018-10-16 华南师范大学 旅游大数据管理方法和系统
CN111460042A (zh) * 2020-04-24 2020-07-28 国网吉林省电力有限公司 一种异构多系统间电网用户标志信息同步和匹配方法
CN115757396A (zh) * 2022-10-25 2023-03-07 杭州比智科技有限公司 一种oneid项目实现方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488148A (zh) * 2009-02-25 2009-07-22 浪潮集团山东通用软件有限公司 一种从多个数据库中进行数据整理归集的方法
CN101799807A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种异构数据表的合并方法及其系统
CN104239320A (zh) * 2013-06-14 2014-12-24 深圳中兴网信科技有限公司 一种数据合并方法及系统
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799807A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种异构数据表的合并方法及其系统
CN101488148A (zh) * 2009-02-25 2009-07-22 浪潮集团山东通用软件有限公司 一种从多个数据库中进行数据整理归集的方法
CN104239320A (zh) * 2013-06-14 2014-12-24 深圳中兴网信科技有限公司 一种数据合并方法及系统
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN105550307A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种网民身份关系网络图的生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334529A (zh) * 2017-03-31 2018-07-27 北京安天网络安全技术有限公司 一种利用已公开大数据获取攻击者信息的方法及系统
CN108388675A (zh) * 2018-03-26 2018-08-10 深圳市买买提信息科技有限公司 一种身份标识拉通方法及终端设备
CN108665383A (zh) * 2018-05-08 2018-10-16 华南师范大学 旅游大数据管理方法和系统
CN111460042A (zh) * 2020-04-24 2020-07-28 国网吉林省电力有限公司 一种异构多系统间电网用户标志信息同步和匹配方法
CN111460042B (zh) * 2020-04-24 2022-06-14 国网吉林省电力有限公司 一种异构多系统间电网用户标志信息同步和匹配方法
CN115757396A (zh) * 2022-10-25 2023-03-07 杭州比智科技有限公司 一种oneid项目实现方法及系统

Similar Documents

Publication Publication Date Title
CN106372219A (zh) 基于异构平台的用户行为数据关联方法及系统
CN105279535B (zh) 一种识别码智能分析处理系统及其处理方法
CN107679247A (zh) 一种电商网站实现自定义维护产品扩展信息的方法
CN102546469B (zh) 一种搜索触发的即时通讯群组建立方法和装置
CN104794656A (zh) 一种应用于社交网络的推荐方法和推荐系统
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN106528613A (zh) 智能问答方法及装置
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN102426650A (zh) 用于人物图像分析的方法和装置
CN101986672B (zh) 一种信息处理方法及装置
CN110457443A (zh) 一种基于刑事案件的犯罪行为链构建方法
CN107944866B (zh) 交易记录排重方法及计算机可读存储介质
CN110321107A (zh) 数据处理模块的生成方法和服务器
CN107492015A (zh) 对象的推荐方法和装置
CN101105817A (zh) 服装辅助设计系统及方法
CN106169065A (zh) 一种信息处理方法及电子设备
CN105930313A (zh) 处理通知信息的方法和装置
CN104156430A (zh) 一种快速提取安卓手机数据的装置和方法
CN108197187A (zh) 查询语句的优化方法、装置、存储介质和计算机设备
CN103929499B (zh) 一种物联网异构标识识别方法和系统
CN109492031A (zh) 表格数据的显示方法、服务器以及计算机存储介质
CN104573034B (zh) 基于cdr话单的用户群体划分方法和系统
CN112148735A (zh) 一种用于结构化表格数据知识图谱的构建方法
CN104484321B (zh) 一种二维表格定义的方法及系统
CN106326408A (zh) 一种通过检索和分析生成笔录的方法、系统和终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201