CN105045904B - 一种基于数据仓库的用户数据整合方法及系统 - Google Patents

一种基于数据仓库的用户数据整合方法及系统 Download PDF

Info

Publication number
CN105045904B
CN105045904B CN201510482987.XA CN201510482987A CN105045904B CN 105045904 B CN105045904 B CN 105045904B CN 201510482987 A CN201510482987 A CN 201510482987A CN 105045904 B CN105045904 B CN 105045904B
Authority
CN
China
Prior art keywords
user
data
tables
sources
keyword message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510482987.XA
Other languages
English (en)
Other versions
CN105045904A (zh
Inventor
闫开品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510482987.XA priority Critical patent/CN105045904B/zh
Publication of CN105045904A publication Critical patent/CN105045904A/zh
Application granted granted Critical
Publication of CN105045904B publication Critical patent/CN105045904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据仓库的用户数据整合方法及系统,其中,该方法包括:获取线上数据库中各种来源下的用户基础表的关键字信息;根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。本发明简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。

Description

一种基于数据仓库的用户数据整合方法及系统
技术领域
本发明涉及电子商务数据技术领域,尤其涉及一种基于数据仓库的用户数据整合方法及系统。
背景技术
随着电子商务的快速发展和激烈竞争,电商与各商家进行深度的合作,例如:京东和微信,京东和QQ,这样用户可以方便地从多渠道(QQ、微信等)或多终端(电脑PC端,手机APP端等)进行注册并购物,形成了一个用户多个账号的情形,用户的各个账号之间的关系一般通过绑定或联合登录来进行关联。
因消费者数量庞大,大型电商积累几亿甚至更多的用户数据,在多渠道且信息量庞大的数据环境下,将这些数据进行整合是至关重要的一环。
现有技术中,通过数据抽取工具,将线上数据直接抽取到数据仓库中,然后将全部数据通过搭建模型进行直接使用。这样会存在以下的缺陷:1、数据孤岛多:用户数据中账户之间缺乏较强的关联性;2、数据使用不便:对于一用户多个账号的情形,判定一个账号与另一个账号之间的绑定关系较繁琐;3、数据范围大:进行计算时,需要将全部数据进行统计和分析,在这过程中携带着大量非核心用户数据进行统计和分析,系统资源消耗大,运行效率低。
发明内容
有鉴于此,本发明实施例提供一种基于数据仓库的用户数据整合方法及系统,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
第一方面,本发明实施例提供了一种基于数据仓库的用户数据整合方法, 包括:
获取线上数据库中各种来源下的用户基础表的关键字信息;
根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;
根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
第二方面,本发明实施例还提供了一种基于数据仓库的用户数据整合系统,包括:
关键字信息获取模块:用于获取线上数据库中各种来源下的用户基础表的关键字信息;
映射表建立模块:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
本发明实施例提供的一种基于数据仓库的用户数据整合方法及系统,该方法通过获取线上数据库中各种来源下的用户基础表的关键字信息以及建立用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并将过滤后数据表中的用户数据与用户购物行为表中的数据进行加工。本发明实施例增强了用户账号之间的关联性,简化了一个用户 多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种基于数据仓库的用户数据整合方法流程图;
图2是本发明实施例二提供的一种基于数据仓库的用户数据整合方法流程图;
图3是本发明实施例三提供的一种基于数据仓库的用户数据整合方法的流程结构图;
图4是本发明实施例四提供的一种基于数据仓库的用户数据整合系统结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1是本实施例一提供的一种基于数据仓库的用户数据整合方法流程图;该方法适用于电子商务的分布式数据库的用户数据进行整合的情形,该方法可以由配置在服务器中的基于数据仓库的用户数据整合系统来执行,基于数据仓库的用户数据整合系统可以由软件和/或硬件的方式来实现。
如图1所示,该方法包括:
S110:获取线上数据库中各种来源下的用户基础表的关键字信息。
线上数据库中具有大量的用户的数据,包括电商公司内部的数据以及公司外部传入的数据。公司内部的数据包括电脑PC端用户数据、手机APP端用户数据、手机M端用户数据等;公司传入的数据包括QQ端用户数据、微信端用户数据等。由此可见,用户数据来源于不同的渠道或终端,对于不同来源的用户数据,采用用户基础表进行记录用户数据的基础信息。在本实施例中,所述的用户基础表中至少包括关键字信息,用户基础表中可以包括关键字信息和用户账号ID;其中,用户账号ID为用户数据对应的用户来源生成的编号,可以便于区别各个不同的用户数据。所述的用户基础表中还可以包括其他的用户信息。所述关键字信息为各种来源下均会包含的信息,例如可以包括:用户注册账号、用户手机号、用户级别以及用户来源等。
在本实施例中,用户注册账号为用户在各个终端或各个渠道的注册账号,一般情况下,同一个用户的用户注册账号在每个渠道或终端是相同的。用户手机号为敏感信息,需要进行加密存储,以防止用户手机号外泄;如果注册时没有用户手机号,则设置为空串。其中,对于不同来源的用户数据,线上数据库中的用户基础表中对于用户的手机号加密的方法进行统一,即同一个用户的手机号经过加密后的内容相同。在本实施例中,用户手机号的加密方法优选采用MD5加密。
在本实施例中,用户来源,是指用户注册的渠道或终端,在一个用户基础表中,用户的来源相同,其中,用户来源常用字母进行表示,例如,“QQ”代表QQ端数据、“PC”代表电脑PC端数据等。用户级别为用户所在渠道的用户的最新级别,例如,一个用户的用户数据来源为QQ端,该用户在QQ端的最新 级别为钻石,则该用户在QQ端的用户级别为钻石。
S120:根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表。
在本实施例中,用户统一级别是根据在各种渠道下的用户级别根据预设的规则进行确定的。可以从多个维度对用户的属性值进行分类,来确定其用户统一级别。用户统一级别与用户级别的划分规则可以不同。
例如,根据消费金额的多少进行划分用户级别和用户统一级别。在QQ端,规定消费1000元以上的用户,用户级别为钻石;用户统一级别规定消费2000元以上的用户,用户统一级别为钻石,1000-2000元之间的用户,用户统一级别为金牌。如果一个用户的消费在1000-2000元之间,则该用户的在QQ端的用户级别为钻石,用户统一级别为金牌。
用户级别和用户统一级别之间的映射表中至少包括了用户数据的来源、用户级别、用户级别和用户统一级别的对应关系、以及用户统一级别。在确定用户统一级别时,根据不同来源下的用户基础表中的用户级别,通过查询用户级别和用户统一级别映射表,就可以确定用户的统一级别。
S130:根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表。
在本实施例中,根据获取的关键字信息以及建立的映射表将各种来源下的多个用户基础数据表进行整合,具体的,建立一个整合数据表,由于关键字信息一般是多个用户基础数据表共有的,所以可以将各种来源下的多个用户基础表中的关键字信息分别存储到整合数据表中相对应的位置内,然后重新生成新的用户账号ID。根据整合数据表中的用户手机号,新分配用户手机号ID,根据建立的用户级别和用户统一级别之间的映射表,得到用户统一级别,添加到该 整合数据表中。其中,建立的整合数据表中,还可以将用户基础表中除关键字信息之外的数据进行存储。
在本实施例中,在整合数据表中重新生成的用户账号ID与用户基础表中的用户账号ID编写的方法是不同的,如在用户基础表中,用户账号ID为100001、100002等;而在整合数据表中,用户账号ID为100011、100022等;其作用均是为了区别每一条的用户数据,仅编写的方法不同。在整合数据表中重新生成用户账号ID时,用户来源相同时,根据排列的顺序进行编号;用户来源不同时,用户账号ID的首位数字是不同的。如,在整合数据表中,用户来源为QQ端,用户账号ID为100011、100022、100033等,按照排列顺序进行编号;当用户来源为APP端时,用户账号ID与QQ端的用户账号ID首位数字是不同的,依然按照排列顺序进行编号,用户账号ID为200011、200022、200033等。在整合的数据表中,用户账号ID也可以有其他编写形式,能够体现用户数据的来源是否相同或不同即可(用户数据来源相同,用户账号ID首位数字相同;否则,用户账号ID首位数字不同)。
S140:对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
在本实施例中,由于用户基础表中包含了一些无用的用户数据,因此整合的数据表中的用户也存在一些无用的用户数据,需将这些无用的用户数据进行去除。其中,无用的数据包括没有手机号的用户数据以及用户统一级别为注册用户的用户数据。
用户的购物行为表可以是用户的订单、用户的晒单等。过滤后的数据表中包含一个用户多个账号的用户数据,根据用户手机号ID进行判断在不同来源下的用户是否是同一个用户,如果在不同的来源下,用户手机号ID相同,则为同 一个用户。将不同来源下的同一个用户的多个账号的多条用户数据以用户为维度进行存储为一条用户数据,并将同一个用户不同来源的购物行为表的数据进行聚合,这样有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
例如,如果一个用户,在QQ端、APP端、微信端均有用户注册账号XX,那么在过滤后的数据表中,存在3条该用户的用户数据,将以3条用户数据进行压缩,压缩成该用户的1条用户数据记录,并且该用户在QQ端、APP端、微信端均有一个订单,将各个订单的信息聚合在一起,存储在该用户的购物信息中,根据购物的信息分析该用户的个人喜好、个人属性、购物习惯等。
本发明实施例一提供的一种基于数据仓库的用户数据整合方法,该方法通过获取线上数据库中各种来源下的用户基础表、关键字信息以及建立的用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并将过滤后数据表中的用户数据与用户购物行为表中的数据进行加工。本发明实施例简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例二
图2是本实施例二提供的一种基于数据仓库的用户数据整合方法的流程图;在上述实施例的基础上,在获取线上数据库中各种来源下的用户基础表的关键字信息之前,还执行如下操作:
设定线上数据库中用户基础表的关键字信息。
进一步的,在上述技术方案中,所述根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的 数据表的操作优选包括:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
由此,通过用户来源以及用户注册账号,生成新的用户账号ID,使每一条不同来源下的用户数据进行区分,通过用户手机号分配与用户手机号相对应的用户手机号ID,由于用户手机号是加密的,内容较长,用户手机号ID相对于用户手机号内容较少,采用用户手机号ID便于用户数据的查询、统计和分析。通过建立的映射表根据用户级别生成用户统一级别,获得整合后的数据表,将不同来源下的用户级别进行统一划分,使用户数据便于统计和分析。
进一步的,在上述技术方案中,所述对整合后的数据表进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的用户购物信息进行加工的操作优选包括:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
由此,通过将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户均去除的方法,能够提高用户数据查询的效率,降低系统资源的 消耗。
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合,有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
基于上述优化,如图2所示,本实施例提供的技术方案具体包括如下:
S210:设定线上数据库中用户基础表的关键字信息。
在本实施例中,因为用户数据的来源比较多,所以用户的基础信息较多,在线上数据库中需要存储用户基础表中必要的关键字信息。所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源。
S220:获取线上数据库中各种来源下的用户基础表的关键字信息。
S230:根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表。
S240:将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字。
在本实施例中,在不同的用户来源下,会存在相同的用户注册账号的情形,但是,通过用户来源和用户注册账号确定的用户数据是唯一的,因此,通过用户来源和注册账号确定的数据表的主关键字是唯一的,生成的新的用户账号ID也是唯一的。例如,在QQ端和APP端,存在相同的用户注册账号li3,仅通过用户注册账号确定的用户数据不唯一(两条用户数据),但通过用户来源和用户注册账号后,用户数据分别为QQ端、li3和APP端、li3;这两条用户数据中虽然用户注册账号相同,但用户来源不同,所以用户数据是不同的,故通 过用户来源和用户注册账号确定的用户数据是唯一的。因此,在不同的用户来源下,不论用户注册账号是否相同,新生成的用户账号ID是不同的。所以,将新的用户账号ID作为整合后数据表的主关键字,通过上述方法将每一条的用户数据进行区分。
S250:根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID。
在本实施例中,由于用户手机号是加密的,内容较长多变,不便于查询、统计和分析,因此根据每一个用户的手机号分配唯一的用户手机号ID,在处理用户手机号ID的内容时相对于用户手机号内容更加方便。例如,用户手机号的位数是11位,其中,最后两位为10,则10通过加密后可以为“abcdef”,“10”加密后占用为6个字符。用户手机号其他数字也可以通过上述加密的方法,则用户手机号加密后,占用的字符大于11,而用户的手机号ID是与用户的数量有关系的,如果用户的数量为100个,则手机号ID采用3个字符进行表示,如100,101等;如果用户数量比较多,如30万,则用户手机号ID采用6个字符进行表示,相对于用户手机号而言,占用的字符比较少,内容少,便于用户数据的查询、统计、分析。
S260:查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
在本实施例中,在数据表中,根据用户级别,查询建立的映射表,找到该级别下的用户统一级别。例如,在用户来源为QQ端时,用户级别为红钻,查询映射表,对应QQ端用户级别为红钻的用户统一级别为钻石。其中,整合后的数据表中包括新的用户账号ID,用户来源、用户注册账号、用户手机号、用户手机号ID、用户级别、用户统一级别,其中新的账号ID目的是为了区别存储的每 一条用户数据。
S270:将整合后的数据表中没有手机号的用户数据以及用户统一级别为注册用户的用户数据均去除。其中注册用户为仅注册且没有任何购物行为的用户。
在本实施例中,没有手机号的用户数据、以及用户统一级别为注册用户的用户数据为无用数据,每次对用户数据进行分析时掺有这些无用数据会影响查询的效率,故将这些无用的数据,进行去除。其中,注册用户是指只注册且无任何购物行为的用户;注册用户的成长值为0,成长值是用户通过登录、购物、评价、晒单所获得的,累积的成长值总额决定用户级别。
S280:将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
在本实施例中,过滤后的数据表中针对一个目标用户存在多个账号的情形,根据用户手机号ID进行判断在不同来源下的目标用户是否是同一个用户,如果在不同的来源下,用户手机号ID相同,则为同一个用户。将不同来源下的同一个用户的多个账号的多条用户数据以用户为维度存储为一条用户数据,并将预先存储的与目标用户相对应的多个购物行为表中的数据进行聚合,使多个购物表中的数据存储在目标用户的购物信息中,这样使一个用户对应不同来源的购物行为数据,有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
本实施例提供了一种基于数据仓库的用户数据整合方法,该实施在实施例一的基础上进行了优化,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例三
图3本实施例三提供的一种基于数据仓库的用户数据整合方法的流程结构图,如图3所示,线上数据库中具有大量的用户的数据,包括电商公司内部的数据以及公司外部传入的数据。公司内部的数据包括表1:电脑PC端用户数据、表2:手机APP端用户数据、表3:手机M端用户数据等;公司传入的数据包括表4:QQ端用户数据、表5微信端用户数据等。
该方法包括:步骤:310:设定表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息。其中,关键字信息包括:用户账号、用户手机号、用户级别和用户来源。
例如,表a示出了为用户数据来自于为QQ端的用户基础表;其中,表a中包含了用户账号ID、用户注册账号、用户手机号、用户级别和用户来源,其中表a中还包括其他的用户信息,表a中没有示出;其他来源的用户数据的用户基础表均可以如表a中所示的内容,仅用户来源不同而已。用户账号ID为用户数据对应的用户来源生成的编号,在通过表a所示的形式对不同的来源的用户基础表进行表示时,用户账号ID的编写形式会不同,如,如表a中所示,用户数据来源为QQ端时,用户账号ID的编写形式为100001、100002、100003等;当用户数据来源为手机APP端时,用户账号的编写形式为200001、200002、200003等;当用户数据来源为M端时,用户账号的编写形式为300001、300002、300003等。其中,表a的内容为图3中表4的内容,表1、表2、表3、表5等采用表a的形式进行表示。
表a
用户账号ID 用户注册 用户手机号 用户级别 用户来源 ……
账号
100001 wang1 Ac3d910… 钻石 QQ ……
100002 zhang1 B61a701… 红钻 QQ ……
100003 li3 D8vjfd0… 注册 QQ ……
…… …… …… …… QQ ……
步骤320:获取表1、表2、表3、表4、表5以及其他来源的关键字信息。
步骤330:根据预设的规则建立用户级别与用户统一级别的映射表b。
在本实施例中,如表b所示,用户来源为QQ的用户数据,用户级别为钻石、红钻、注册分别对应的用户统一级别为钻石、钻石、注册,用户来源为APP的用户级别为铁牌对应的用户统一级别为铜牌。其中,如表b所示,在QQ端,用户级别分别为钻石和红钻的用户,用户统一级别均为钻石,导致这种情形有可能是:在QQ端,以消费的多少进行划分用户级别,规定2000-2500元之间的用户级别为钻石,2500元以上的用户级别为红钻;而用户的统一级别规定2000元以上为钻石。如果一个用户的消费在2000-2500元之间,用户级别为钻石,用户统一级别也为钻石;如果另一个用户的消费在2500元以上,用户级别为红钻,则用户统一级别仍为钻石。
表b
在上述实施例的基础上,用户级别和用户统一级别之间的映射表中的对应关系还可以设置成其他的关系,可以根据查询的方便的原则或者需要进行任意的设定。
步骤340:将获取的表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字。
步骤350:根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID。
步骤360:查询所述建立的映射表b,根据用户级别生成用户统一级别,获得整合后的数据表c。
在本实施例中,整合后的数据表如表c所示,将表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息存储到一个数据表中,其中,数据表中包括:新的用户账号ID,用户来源、用户注册账号、用户手机号、用户手机号ID、用户级别、统一级别。如表c所示,用户数据分别来源于QQ、APP和PC端,注册账号均为li3的用户,用户手机号、用户手机号ID相同,每一个用户手机号对应唯一的用户手机号ID,因在不同的用户来源下,用户级别 以及用户统一级别是不同的。
表c
步骤370:将整合后的数据表c中没有手机号的用户数据以及用户统一级别为注册用户的用户数据均去除。
在本实施例中,将整合后的表c进行过滤后,得到过滤后的数据表d。如表d中所示,用户账号ID为3000011的用户,没有用户手机号信息;用户账号ID为1000033的用户,其用户统一级别为注册用户;故将表c中用户账号ID为3000011以及1000033的用户数据进行了过滤。其中,注册用户是指只注册且无任何购物行为的用户。
表d
S380:将过滤后的数据表d中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
在本实施例中,将表d中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合,获得表e。表e示出了加工后的用户数据表,如表e所示,购物信息中的订单信息中只给出了用户消费的金额以及用户购物的种类,其他信息没有示出。其中,对于用户注册账号为li3的用户,订单信息有两条;第一条订单信息来源APP端,第二条订单信息来源PC端(参照表c),将来自APP端和PC端的同一个用户的购物行为信息进行聚合,有利于用户数据的分析。其中,用户注册账号为li3的用户,根据订单的信息,可以分析该用户喜好购买食品的货物。
表e
在上述实施例的基础上,表e中的内容还可以设置成其他的形式。
本实施例三提供了一种基于数据仓库的用户数据整合方法,本实施例是基于数据仓库的用户数据的整合方法的优选的实施例,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例四
图4是本实施例四提供的一种基于数据仓库的用户数据整合系统结构示意图;如图4所示,该系统包括:
关键字信息获取模块401:用于获取线上数据库中各种来源下的用户基础表的关键字信息;
映射表建立模块402:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块403:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块404:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表进行加工。
本发明实施例三提供的一种基于数据仓库的用户数据整合系统,该系统通过获取线上数据库中各种来源下的用户基础表的关键字信息以及建立用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并结合预存储的用户购物行为表进行加工。本发明实施例增强了用户账号之间的关联性,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
在上述实施例的基础上,所述系统还包括:关键字信息设定模块405,用于对获取线上数据库中用户基础表的关键字信息之前,设定线上数据库中用户基础表的关键字信息。
在本实施例中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;所述的用户基础表中包括关键字信息以及用户账号ID信息。
在本实施例中,数据整合模块403,具体用于:将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户的来源以及注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;根据所述用户手机号,生成用户手机号ID;查询建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
在本实施例中,数据加工模块404具体用于:将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除,将过滤后的数据 表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。其中注册用户为仅注册且没有任何购物行为的用户。
本发明实施例四提供的一种基于数据仓库的用户数据整合系统,对各功能模块的功能进行了优化,增强了用户账号之间的关联性,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于数据仓库的用户数据整合方法,其特征在于,所述方法应用于对电商积累的用户数据进行整合的场景,其中,该方法包括:
获取线上数据库中各种来源下的用户基础表的关键字信息;其中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;
根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;
根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
2.根据权利要求1所述的方法,其特征在于,获取线上数据库中各种来源下的用户基础表的关键字信息之前包括:
设定线上数据库中用户基础表的关键字信息。
3.根据权利要求1所述的方法,其特征在于,
所述的用户基础表中包括关键字信息以及用户账号ID信息。
4.根据权利要求3所述的方法,其特征在于,所述根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表,包括:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
5.根据权利要求3所述的方法,其特征在于,所述对整合后的数据表进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工包括:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
6.一种基于数据仓库的用户数据整合系统,其特征在于,所述系统应用于对电商积累的用户数据进行整合的场景,其中该系统包括:
关键字信息获取模块:用于获取线上数据库中各种来源下的用户基础表的关键字信息;其中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;
映射表建立模块:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
7.根据权利要求6所述的系统,其特征在于,还包括:关键字信息设定模块,用于对获取线上数据库中各种来源下的用户基础表的关键字信息之前,设定线上数据库中用户基础表的关键字信息。
8.根据权利要求6所述的系统,其特征在于,
所述的用户基础表中包括关键字信息以及用户账号ID信息。
9.根据权利要求8所述的系统,其特征在于,数据整合模块,具体用于:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为整合后数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
10.根据权利要求8所述的系统,其特征在于,数据加工模块具体用于:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
CN201510482987.XA 2015-08-07 2015-08-07 一种基于数据仓库的用户数据整合方法及系统 Active CN105045904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510482987.XA CN105045904B (zh) 2015-08-07 2015-08-07 一种基于数据仓库的用户数据整合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510482987.XA CN105045904B (zh) 2015-08-07 2015-08-07 一种基于数据仓库的用户数据整合方法及系统

Publications (2)

Publication Number Publication Date
CN105045904A CN105045904A (zh) 2015-11-11
CN105045904B true CN105045904B (zh) 2019-05-03

Family

ID=54452451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510482987.XA Active CN105045904B (zh) 2015-08-07 2015-08-07 一种基于数据仓库的用户数据整合方法及系统

Country Status (1)

Country Link
CN (1) CN105045904B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708845A (zh) * 2015-11-12 2017-05-24 阿里巴巴集团控股有限公司 一种互联网账号的数据处理方法及装置
CN105634860B (zh) * 2015-12-21 2019-09-24 中国电子科技集团公司第十五研究所 一种上网行为轨迹还原的方法和装置
CN106933892B (zh) * 2015-12-31 2019-05-31 北京国双科技有限公司 描述信息的存储方法及装置
CN105678609A (zh) * 2016-02-26 2016-06-15 北京京东尚科信息技术有限公司 一种基于不同虚拟标识单元实时展示状态的方法与系统
CN105912663A (zh) * 2016-04-12 2016-08-31 宁波极动精准广告传媒有限公司 一种基于大数据的用户标签合并方法
CN106874335B (zh) * 2016-08-19 2020-08-04 阿里巴巴集团控股有限公司 行为数据处理方法、装置及服务器
CN108268565B (zh) * 2017-01-04 2020-11-03 北京京东尚科信息技术有限公司 基于数据仓库处理用户浏览行为数据的方法及系统
CN106970994B (zh) * 2017-04-01 2019-07-12 长沙智擎信息技术有限公司 一种自动化的在线实践证据提取方法
CN107341238B (zh) * 2017-07-04 2020-12-22 北京京东尚科信息技术有限公司 数据处理方法及系统
CN107967355A (zh) * 2017-12-19 2018-04-27 金蝶软件(中国)有限公司 一种数据的获取方法、装置及介质
CN110532254A (zh) * 2018-05-25 2019-12-03 杭州海康威视数字技术股份有限公司 融合数据表的方法和装置
CN108924263A (zh) * 2018-08-21 2018-11-30 安徽讯飞智能科技有限公司 一种基于终端时空数据向终端推送信息的方法
CN110489406A (zh) * 2019-07-29 2019-11-22 天闻数媒科技(湖南)有限公司 一种基础数据清洗及同步的方法、装置及存储介质
CN110990473B (zh) * 2019-11-28 2023-11-03 京东科技信息技术有限公司 标签数据处理系统和方法
CN112001710A (zh) * 2020-09-07 2020-11-27 山东钢铁集团日照有限公司 一种钢铁产品生产过程大数据读取整合系统
CN112395367A (zh) * 2020-11-10 2021-02-23 中国人寿保险股份有限公司 一种数据库数据处理方法及装置
CN113783834B (zh) * 2021-07-29 2023-04-18 深圳思为科技有限公司 一种整合兼容多种登录方式中冗余数据的方法及相关装置
CN113822745A (zh) * 2021-09-28 2021-12-21 北京沃东天骏信息技术有限公司 一种物品展示方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901252A (zh) * 2010-06-23 2010-12-01 中兴通讯股份有限公司 一种整合多个网站中同一用户数据的方法及整合平台
CN1975772B (zh) * 2006-12-22 2012-07-04 中国建设银行股份有限公司 整合多个系统中的信息的方法和装置
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104270386A (zh) * 2014-10-22 2015-01-07 中国建设银行股份有限公司 跨应用系统用户信息整合方法及身份信息管理服务器
CN104572946A (zh) * 2014-12-30 2015-04-29 小米科技有限责任公司 黄页数据处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975772B (zh) * 2006-12-22 2012-07-04 中国建设银行股份有限公司 整合多个系统中的信息的方法和装置
CN101901252A (zh) * 2010-06-23 2010-12-01 中兴通讯股份有限公司 一种整合多个网站中同一用户数据的方法及整合平台
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104270386A (zh) * 2014-10-22 2015-01-07 中国建设银行股份有限公司 跨应用系统用户信息整合方法及身份信息管理服务器
CN104572946A (zh) * 2014-12-30 2015-04-29 小米科技有限责任公司 黄页数据处理方法及装置

Also Published As

Publication number Publication date
CN105045904A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105045904B (zh) 一种基于数据仓库的用户数据整合方法及系统
CN106557513B (zh) 事件信息推送方法及事件信息推送装置
WO2017101389A1 (zh) 一种移动终端的信息推荐方法及装置
CN103530378B (zh) 数据分页查询与数据库的构建的方法与装置
CN108510311A (zh) 一种确定营销方案的方法、装置及电子设备
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN109726388A (zh) Pdf文件解析方法、装置、设备及计算机可读存储介质
CN110392155B (zh) 通知消息的显示、处理方法、装置及设备
CN107729330B (zh) 获取数据集的方法和装置
CN112307297B (zh) 一种基于优先级规则的用户标识统一方法及系统
CN114066533A (zh) 产品推荐方法、装置、电子设备及存储介质
CN112258244B (zh) 确定目标物品所属任务的方法、装置、设备及存储介质
CN106503198A (zh) 一种基于hadoop元数据的冷数据识别方法及系统
CN103020189A (zh) 数据处理装置和数据处理方法
CN116228374A (zh) 物流行业市场单量数据预警方法、装置、设备及存储介质
CN112487251A (zh) 一种用户id数据关联方法及装置
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN108255893B (zh) 个性化对象推荐方法和装置
CN113076382B (zh) 用户标签的生成方法、装置、电子设备及可读存储介质
CN104750823B (zh) 推广情况数据的查询方法及装置
CN110020227B (zh) 一种数据排序方法和装置
CN110750695A (zh) 信用数据的处理方法及计算机可读存储介质
CN111263351A (zh) 业务处理方法、业务处理装置、电子设备及存储介质
CN106919626B (zh) 数据处理方法和装置以及数据查询方法和装置
CN110069486B (zh) 一种存储自定义参数的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant