CN108268565A - 基于数据仓库处理用户浏览行为数据的方法及系统 - Google Patents

基于数据仓库处理用户浏览行为数据的方法及系统 Download PDF

Info

Publication number
CN108268565A
CN108268565A CN201710003991.2A CN201710003991A CN108268565A CN 108268565 A CN108268565 A CN 108268565A CN 201710003991 A CN201710003991 A CN 201710003991A CN 108268565 A CN108268565 A CN 108268565A
Authority
CN
China
Prior art keywords
data
browsing behavior
user browsing
business
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710003991.2A
Other languages
English (en)
Other versions
CN108268565B (zh
Inventor
孙冬
成凯
董月红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710003991.2A priority Critical patent/CN108268565B/zh
Publication of CN108268565A publication Critical patent/CN108268565A/zh
Application granted granted Critical
Publication of CN108268565B publication Critical patent/CN108268565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/01Automatic library building

Abstract

本发明提供一种基于数据仓库处理用户浏览行为数据的方法及系统,能够进行数据仓库的自动创建,并且利用自动创建的数据仓库,对用户浏览行为原始数据进行有效地存储和管理,为进一步应用分析提高数据基础。该方法包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表。

Description

基于数据仓库处理用户浏览行为数据的方法及系统
技术领域
本发明涉及计算机技术及软件领域,尤其涉及一种基于自动构建的数据仓库处理用户浏览行为数据的方法及系统。
背景技术
随着电子商务的发展,日常运营中生成的大量用户、商品、生产相关的数据,呈现爆发式增长,数据结构逐渐多元化,数据含有的信息量越来越多,因此,电子商务企业对数据化运营也越来越关注。
其中,通过搜集用户访问商品页面的浏览行为,可以更好的洞察用户的需求,发现目标用户,帮助进行营销策略的制定以及商品现货水平评估,提高电子商务企业的业务创新能力,提升业务运营水平和经营效率。例如,当用户浏览商品页面或用户点击商品可配送区域时,可以初步确定用户可能对某商品产生了购买兴趣,并了解用户下单的区域,通过记录和收集用户的浏览行为可对商品的备货起到有一定的辅助作用。因此,对电子商务中用户浏览行为进行有效的整理分析,可以为进一步研究用户需求提供数据应用基础。
现有的用户浏览行为原始数据的处理方案中,通常包括:利用网页埋点等方法进行数据搜集、数据抽取,将数据入库,继而进行数据使用。但这种数据处理方式非常不便,首先,其没有将数据抽取到数据仓库,并通过自动化构建数据模型进行数据仓库的构建,以实现数据的有效管理;此外,也没有对数据应用场景的进一步分析阐释。
发明内容
有鉴于此,本发明提供一种基于数据仓库处理用户浏览行为数据的方法及系统,能够进行数据仓库的自动创建,并且利用自动创建的数据仓库,对用户浏览行为原始数据进行有效地存储和管理,为进一步应用分析提高数据基础。
为实现上述目的,根据本发明的一个方面,提供了一种基于自动构建的数据仓库处理用户浏览行为数据的方法。
本发明的一种基于自动构建的数据仓库处理用户浏览行为数据的方法包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
可选地,所述方法还包括:获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
可选地,将用户浏览行为原始数据抽取到数据存储服务器中还包括:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。
可选地,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。
可选地,生成数据模型表还包括:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。
可选地,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。
为实现上述目的,根据本发明的另一方面,提供了一种基于自动构建的数据仓库处理用户浏览行为数据的系统。
本发明的一种基于自动构建的数据仓库处理用户浏览行为数据的系统包括:数据准备模块,包括获取单元,用于获取用户浏览行为原始数据,以及存储单元,用于保存所述用户浏览行为原始数据;数据抽取模块,用于将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;数据仓库自动构建模块,用于根据所述用户浏览行为原始数据表构建数据仓库,从而生成基于各业务主题的业务主题汇总表;应用模块,用于根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,所述数据仓库自动构建模块还用于:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
可选地,所述数据准备模块还用于:在所述获取单元获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
可选地,所述数据抽取模块还用于:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。
可选地,所述数据仓库自动构建模块还包括:表统一单元,用于将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;搜索单元,用于根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;逻辑单元,用于根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;构建单元,用于根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;汇总单元,用于按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。
可选地,所述构建单元还用于:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。
可选地,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。
为实现上述目的,根据本发明的再一方面,提供了又一种基于自动构建的数据仓库处理用户浏览行为数据的系统。
本发明的又一种基于自动构建的数据仓库处理用户浏览行为数据的系统包括存储器和处理器,其中:存储器用于存储指令;处理器用于根据所述指令执行本发明的基于自动构建的数据仓库处理用户浏览行为数据的方法。
根据本发明的技术方案,通过以Hadoop为平台,以Hive作为数据模型构建工具,从而能够提升数据处理的稳定性、可扩展性;通过基于数据之间的逻辑关系,自动构造数据模型以实现数据仓库的自动构建,从而为用户浏览行为原始数据的处理提供了一种可行的方法和模块,为数据处理提供稳定的运行环境;通过利用自动创建的数据仓库对用户浏览行为的数据进行处理,从而能够实现对用户浏览行为原始数据的有效处理,为在电子商务领域中进一步研究用户需求提供了数据基础;通过将处理得到的按业务主题汇总的汇总数据进一步构建为应用表,从而为各应用系统进行有效分析整理提供便利。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法的主要步骤的示意图;
图2是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的系统的主要部分的示意图;
图3是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的系统的主要框架示意图;
图4是根据本发明实施例的另一基于自动构建的数据仓库处理用户浏览行为数据的系统的主要部分的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法主要利用基于自动构建的数据仓库处理用户浏览行为数据的系统进行。基于自动构建的数据仓库处理用户浏览行为数据的系统主要包括4个模块:数据准备模块、数据抽取模块、数据仓库自动构建模块以及应用模块。
图1是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法的主要步骤的示意图。
如图1所示,本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法主要包括如下步骤:
步骤S11:获取用户浏览行为原始数据,并加以保存。本发明实施例中,本步骤主要利用数据准备模块进行。数据准备模块包括获取单元,用于采集用户浏览商品页面行为而被记录下来的用户浏览行为原始数据,采集到用户浏览行为原始数据后,可以将该数据保存在各业务系统对应的源数据库中。
获取用户浏览行为原始数据之后,还可对用户浏览行为原始数据进行清洗,剔除干扰数据等预处理工作,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
步骤S12:将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表。本发明实施例中,将用户浏览行为原始数据抽取到数据存储服务器中还包括:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。在各源数据库中,用户浏览行为数据是以文件的形式存在,数据结构散乱,缺乏规范的结构形式,不利于进行后续分析。在本步骤抽取数据之后,用户浏览行为原始数据以表格的形式存储在数据存储服务器如Hadoop服务器中,从而得到用户浏览行为原始数据表,便于后续整理分析。
步骤S13:根据所述用户浏览行为原始数据表自动构建数据仓库,从而生成基于各业务主题的业务主题汇总表。
本步骤的目的在于实现对所述用户浏览行为原始数据进行存储和管理。其中,本步骤的根据所述用户浏览行为原始数据表自动构建数据仓库还包括:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总对所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
步骤S14:根据数据服务需求,将所述业务主题汇总表构建成应用表,以供应用系统进行分析。
在前述描述中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。所述业务主题可以包括:存货主题、商品主题、销量主题中的一种或几种。
其中,生成数据模型表还包括:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。
通过本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法可以看出,通过以Hadoop为平台,以Hive作为数据模型构建工具,从而能够提升数据处理的稳定性、可扩展性;通过基于数据之间的逻辑关系,自动构造数据模型以实现数据仓库的自动构建,从而为用户浏览行为原始数据的处理提供了一种可行的方法和模块,为数据处理提供稳定的运行环境;通过利用自动创建的数据仓库对用户浏览行为的数据进行处理,从而能够实现对用户浏览行为原始数据的有效处理,为在电子商务领域中进一步研究用户需求提供了数据基础;通过将处理得到的按业务主题汇总的汇总数据进一步构建为应用表,从而为各应用系统进行有效分析整理提供便利。
图2是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的系统的主要部分的示意图;图3是根据本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的系统的主要框架示意图。
如图2所示,本发明的一种基于自动构建的数据仓库处理用户浏览行为数据的系统20包括:数据准备模块201、数据抽取模块202、数据仓库自动构建模块203以及应用模块204,其中,
数据准备模块201,包括获取单元(可参见图3),用于获取用户浏览行为原始数据,以及存储单元(可参见图3),用于保存所述用户浏览行为原始数据;数据抽取模块202用于将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;数据仓库自动构建模块203用于根据所述用户浏览行为原始数据表自动构建数据仓库,从而生成基于各业务主题的业务主题汇总表;应用模块204用于根据数据服务需求,将所述业务主题汇总表构建成应用表。
其中,数据仓库自动构建模块203还可用于:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
其中,数据准备模块201还可用于:在获取单元获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
数据抽取模块202还可用于:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。
数据仓库自动构建模块203还可包括:表统一单元(可参见图3),用于将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;搜索单元(可参见图3),用于根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;逻辑单元(可参见图3),用于根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;构建单元(可参见图3),用于根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;汇总单元(可参见图3),用于按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。
其中,构建单元还可用于:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。另外,其中的业务主题可包括:存货主题、商品主题、销量主题中的一种或几种。
以下结合图2和图3对本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的系统进行详细说明。
数据准备模块201,通过获取单元采集用户浏览行为原始数据,并进行数据清洗,异常干扰数据剔除等预处理工作。
本发明实施例中,首先可以对网页页面进行定向埋点,例如,当用户浏览商品页面选择配送至区域时,商品状态为用户所浏览的省、市、县、区的商品库存状态,则获取单元可获得本次用户浏览行为原始数据的一部分记录;将用户此种浏览行为原始数据的日志,进行清洗,只保留有效用户的浏览行为原始数据,排除干扰数据的干扰,如爬虫浏览记录、未登陆用户浏览记录和页面默认浏览的记录等。将清洗后的数据,通过存储单元,保存下来。
数据抽取模块202,将用户浏览行为原始数据抽入到数据仓库中。
首先,通过数据抽取模块202的抽取单元,将用户浏览行为原始数据通过调度单元定期(例如可以但不限于是每天)抽取到Hadoop本地服务器上;然后在数据仓库工具Hive中,建立原始数据映射表,并将数据按周期(例如前述每天抽取数据,则按天)做分区;
数据仓库自动构建模块203,本发明实施例中,数据仓库自动构建模块203可包括表统一单元、搜索单元、逻辑单元、构建单元和汇总单元。
表统一单元,用于把进入数据仓库的用户浏览行为原始数据表与数据仓库定义元数据进行一一对应,把用户浏览行为原始数据表和原始字段映射为数据仓库定义的用户浏览行为数据表和字段。
搜索单元,用于接收用户输入的各业务系统的名称、数据表名称和关键字段信息,对用户浏览行为原始数据表进行搜索,搜索出总体信息表和关键字段关联信息表。所述关键字段信息是根据各业务系统的名称及各业务系统的数据表及字段之间的关系预先设定而得,通常可包含一个或多个具有关联关系的关键字段。所述总体信息表记录有所述关键字段信息中每一个关键字段以及该关键字段的主表和附表在源数据库表中的表号信息,所述关键字段关联信息表记录有所述关键字段信息中所有的关键字段相互之间的逻辑关系。
逻辑单元,根据数据模型,通过分析处理所述关键字段关联信息表得到数据模型表结构。
构建单元,根据用户浏览行为数据表和所述关键字段关联信息表自动创建数据模型表。
继而通过汇总单元,将数据模型表中的数据按用户指定的维度进行任意汇总,得到业务主题汇总表,供业务人员使用,从而完成基于数据模型的数据仓库的字段构建。
以下以PV现货率模型的数据仓库的自动构建过程为例,具体说明如下:
1)表统一单元,将线上各生产系统的PV现货的原始数据表和原始字段名称,一一映射为数据仓库的PV现货的数据表和字段,例如,字段pin,映射为user_acct_log等;
2)通过搜索单元,将导入的PV现货的数据表,根据用户配置的系统名称、表名称和关键字段信息,关键字段信息如配送中心、库房、SKU编号等进行搜索,得到主表与附表的逻辑关系;
3)根据PV现货数据模型定义的业务指标,通过关键字段之间的关联关系,逻辑单元自动构建出用户所需要的数据模型表结构和处理逻辑;
4)根据数据模型表所有信息,通过构建单元,编写Hive脚本或者数据并行处理工具MapReduce,生成数据模型表;
5)最终将数据模型表中的数据进行汇总,生成按业务主题的汇总表,如存货主题、商品主题、销量主题等。
应用模块204,用于根据数据服务口径,将业务主题汇总表进一步处理为应用表;然后可将应用表数据推送到应用系统上,供各应用系统分析使用。
通过上述系统,基于电子商务的业务特色,可收集和处理用户浏览商品页面的行为数据,为进一步研究用户需求提供了数据基础,如通过PV现货数据模型的应用表数据,可分析当前商品的预计购买情况,以及无货的区域,帮助采销判断是否需要备货,是否需要开拓新的区域等。
图4是根据本发明实施例的另一基于自动构建的数据仓库处理用户浏览行为数据的系统的主要部分的示意图。
如图4所示,本发明实施例的另一基于自动构建的数据仓库处理用户浏览行为数据的系统40的主要存储器401和处理器402,其中:存储器401用于存储指令;处理器402用于根据指令执行本发明实施例的基于自动构建的数据仓库处理用户浏览行为数据的方法。
从以上描述可以看出,通过以Hadoop为平台,以Hive作为数据模型构建工具,从而能够提升数据处理的稳定性、可扩展性;通过基于数据之间的逻辑关系,自动构造数据模型以实现数据仓库的自动构建,从而为用户浏览行为原始数据的处理提供了一种可行的方法和模块,为数据处理提供稳定的运行环境;通过利用自动创建的数据仓库对用户浏览行为的数据进行处理,从而能够实现对用户浏览行为原始数据的有效处理,为在电子商务领域中进一步研究用户需求提供了数据基础;通过将处理得到的按业务主题汇总的汇总数据进一步构建为应用表,从而为各应用系统进行有效分析整理提供便利。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (13)

1.一种基于自动构建的数据仓库处理用户浏览行为数据的方法,其特征在于,包括:
获取用户浏览行为原始数据,并加以保存;
将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;
根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;
根据数据服务需求,将所述业务主题汇总表构建成应用表,
其中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:
根据业务需求构建数据模型表结构;
将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;
按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
3.根据权利要求1所述的方法,其特征在于,将用户浏览行为原始数据抽取到数据存储服务器中还包括:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。
4.根据权利要求1所述的方法,其特征在于,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:
将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;
根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;
根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;
根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;
按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。
5.根据权利要求4所述的方法,其特征在于,生成数据模型表还包括:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。
6.根据权利要求1所述的方法,其特征在于,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。
7.一种基于自动构建的数据仓库处理用户浏览行为数据的系统,其特征在于,包括:
数据准备模块,包括获取单元,用于获取用户浏览行为原始数据,以及存储单元,用于保存所述用户浏览行为原始数据;
数据抽取模块,用于将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;
数据仓库自动构建模块,用于根据所述用户浏览行为原始数据表自动构建数据仓库,从而生成基于各业务主题的业务主题汇总表;
应用模块,用于根据数据服务需求,将所述业务主题汇总表构建成应用表,
其中,所述数据仓库自动构建模块还用于:
根据业务需求构建数据模型表结构;
将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;
按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。
8.根据权利要求7所述的系统,其特征在于,所述数据准备模块还用于:在所述获取单元获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。
9.根据权利要求7所述的系统,其特征在于,所述数据抽取模块还用于:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。
10.根据权利要求7所述的系统,其特征在于,所述数据仓库自动构建模块还包括:
表统一单元,用于将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;
搜索单元,用于根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;
逻辑单元,用于根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;
构建单元,用于根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;
汇总单元,用于按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。
11.根据权利要求10所述的系统,其特征在于,所述构建单元还用于:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。
12.根据权利要求7所述的系统,其特征在于,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。
13.一种基于自动构建的数据仓库处理用户浏览行为数据的系统,其特征在于,包括存储器和处理器,其中:
所述存储器用于存储指令;
所述处理器用于根据所述指令执行如权利要求1-6中任一项所述的基于自动构建的数据仓库处理用户浏览行为数据的方法。
CN201710003991.2A 2017-01-04 2017-01-04 基于数据仓库处理用户浏览行为数据的方法及系统 Active CN108268565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710003991.2A CN108268565B (zh) 2017-01-04 2017-01-04 基于数据仓库处理用户浏览行为数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710003991.2A CN108268565B (zh) 2017-01-04 2017-01-04 基于数据仓库处理用户浏览行为数据的方法及系统

Publications (2)

Publication Number Publication Date
CN108268565A true CN108268565A (zh) 2018-07-10
CN108268565B CN108268565B (zh) 2020-11-03

Family

ID=62770975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710003991.2A Active CN108268565B (zh) 2017-01-04 2017-01-04 基于数据仓库处理用户浏览行为数据的方法及系统

Country Status (1)

Country Link
CN (1) CN108268565B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033452A (zh) * 2018-08-23 2018-12-18 重庆富民银行股份有限公司 一种数据仓库智能构建装载方法及系统
CN110795478A (zh) * 2019-09-29 2020-02-14 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库更新方法、装置和电子设备
CN110807016A (zh) * 2019-09-29 2020-02-18 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库构建方法、装置和电子设备
CN111339075A (zh) * 2020-02-28 2020-06-26 三盟科技股份有限公司 面向教育领域的数据追溯方法、系统、设备及存储介质
CN111444292A (zh) * 2020-04-14 2020-07-24 恩亿科(北京)数据科技有限公司 快消品数据处理方法、装置、电子设备及存储介质
CN111639068A (zh) * 2020-05-24 2020-09-08 中信银行股份有限公司 一种基于多系统的公共数据池生成方法、装置、设备、和可读存储介质
CN111694810A (zh) * 2019-03-12 2020-09-22 阿里巴巴集团控股有限公司 数据仓库的创建方法、装置、电子设备及可读存储介质
CN111814444A (zh) * 2020-07-21 2020-10-23 四川爱联科技有限公司 一种基于bs架构的表格数据汇总分析方法
CN114610204A (zh) * 2022-03-14 2022-06-10 中国农业银行股份有限公司 一种数据处理的辅助装置、方法、存储介质及电子设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460362A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 用于产生推荐积分的方法和装置
CN1996293A (zh) * 2006-12-31 2007-07-11 华为技术有限公司 一种分析门户系统及分析门户业务的实现方法
CN101110115A (zh) * 2006-07-20 2008-01-23 阿里巴巴公司 一种在网络中处理商品信息的方法及系统
CN102693307A (zh) * 2012-05-24 2012-09-26 上海克而瑞信息技术有限公司 一种网站用户的访问行为记录分析系统
US20140149357A1 (en) * 2012-11-26 2014-05-29 Amazon Technologies, Inc. Block restore ordering in a streaming restore system
CN104135387A (zh) * 2014-08-12 2014-11-05 浪潮通信信息系统有限公司 一种基于元模型拓扑的网管数据处理可视化监控方法
CN104866576A (zh) * 2015-05-25 2015-08-26 广州精点计算机科技有限公司 一种Data Vault模型数据仓库自动构建的方法及装置
CN104899199A (zh) * 2014-03-04 2015-09-09 阿里巴巴集团控股有限公司 一种数据仓库数据处理方法和系统
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及系统
US20160078064A1 (en) * 2014-09-11 2016-03-17 Oracle International Corporation Automatic generation of logical database schemas from physical database tables and metadata
EP3043295A2 (en) * 2015-01-06 2016-07-13 Esecure Sp. z o.o. Intelligent business support system
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法
CN105930384A (zh) * 2016-04-14 2016-09-07 南京理工大学 基于Hadoop体系的传感云数据存储系统及其实现方法
CN105956883A (zh) * 2016-05-10 2016-09-21 镇江硅谷信息科技有限公司 电子商务数据处理系统
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460362A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 用于产生推荐积分的方法和装置
CN101110115A (zh) * 2006-07-20 2008-01-23 阿里巴巴公司 一种在网络中处理商品信息的方法及系统
CN1996293A (zh) * 2006-12-31 2007-07-11 华为技术有限公司 一种分析门户系统及分析门户业务的实现方法
CN102693307A (zh) * 2012-05-24 2012-09-26 上海克而瑞信息技术有限公司 一种网站用户的访问行为记录分析系统
US20140149357A1 (en) * 2012-11-26 2014-05-29 Amazon Technologies, Inc. Block restore ordering in a streaming restore system
CN104899199A (zh) * 2014-03-04 2015-09-09 阿里巴巴集团控股有限公司 一种数据仓库数据处理方法和系统
CN104135387A (zh) * 2014-08-12 2014-11-05 浪潮通信信息系统有限公司 一种基于元模型拓扑的网管数据处理可视化监控方法
US20160078064A1 (en) * 2014-09-11 2016-03-17 Oracle International Corporation Automatic generation of logical database schemas from physical database tables and metadata
EP3043295A2 (en) * 2015-01-06 2016-07-13 Esecure Sp. z o.o. Intelligent business support system
CN104866576A (zh) * 2015-05-25 2015-08-26 广州精点计算机科技有限公司 一种Data Vault模型数据仓库自动构建的方法及装置
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及系统
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法
CN105930384A (zh) * 2016-04-14 2016-09-07 南京理工大学 基于Hadoop体系的传感云数据存储系统及其实现方法
CN105956883A (zh) * 2016-05-10 2016-09-21 镇江硅谷信息科技有限公司 电子商务数据处理系统
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033452A (zh) * 2018-08-23 2018-12-18 重庆富民银行股份有限公司 一种数据仓库智能构建装载方法及系统
CN109033452B (zh) * 2018-08-23 2021-09-07 重庆富民银行股份有限公司 一种数据仓库智能构建装载方法及系统
CN111694810A (zh) * 2019-03-12 2020-09-22 阿里巴巴集团控股有限公司 数据仓库的创建方法、装置、电子设备及可读存储介质
CN111694810B (zh) * 2019-03-12 2024-04-05 阿里巴巴集团控股有限公司 数据仓库的创建方法、装置、电子设备及可读存储介质
CN110795478A (zh) * 2019-09-29 2020-02-14 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库更新方法、装置和电子设备
CN110807016A (zh) * 2019-09-29 2020-02-18 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库构建方法、装置和电子设备
CN111339075A (zh) * 2020-02-28 2020-06-26 三盟科技股份有限公司 面向教育领域的数据追溯方法、系统、设备及存储介质
CN111444292B (zh) * 2020-04-14 2023-11-03 恩亿科(北京)数据科技有限公司 快消品数据处理方法、装置、电子设备及存储介质
CN111444292A (zh) * 2020-04-14 2020-07-24 恩亿科(北京)数据科技有限公司 快消品数据处理方法、装置、电子设备及存储介质
CN111639068A (zh) * 2020-05-24 2020-09-08 中信银行股份有限公司 一种基于多系统的公共数据池生成方法、装置、设备、和可读存储介质
CN111814444A (zh) * 2020-07-21 2020-10-23 四川爱联科技有限公司 一种基于bs架构的表格数据汇总分析方法
CN114610204A (zh) * 2022-03-14 2022-06-10 中国农业银行股份有限公司 一种数据处理的辅助装置、方法、存储介质及电子设备
CN114610204B (zh) * 2022-03-14 2024-03-26 中国农业银行股份有限公司 一种数据处理的辅助装置、方法、存储介质及电子设备

Also Published As

Publication number Publication date
CN108268565B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN108268565A (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
JP7307914B2 (ja) データを編成し見出すためのシステム及び方法
US10430480B2 (en) Enterprise data processing
Zakir et al. Big data analytics.
US10504120B2 (en) Determining a temporary transaction limit
GB2595615A (en) Managing data objects for graph-based data structures
CN101477522A (zh) 收集与分析商业智能数据的系统
US8788497B2 (en) Automated criterion-based grouping and presenting
Kanchi et al. Challenges and Solutions in Big Data Management--An Overview
BR102013001760A2 (pt) sistema de gerenciamento de projeto com base em memória associativa.
US10055469B2 (en) Method and software for retrieving information from big data systems and analyzing the retrieved data
Sridhar et al. A comparative study on how big data is scaling business intelligence and analytics
Šebalj et al. Big data: Changes in data management
Sá et al. Big data in cloud: A data architecture
Prakashbhai et al. Inference patterns from Big Data using aggregation, filtering and tagging-A survey
Kim et al. A survey of big data technologies and how semantic computing can help
Madaan et al. Big data analytics: A literature review paper
US20140279831A1 (en) Data modeling techniques
EP2637110A1 (en) Automated data interface generation
Mateo A Knowledge extraction framework for call center analytics
US9208224B2 (en) Business content hierarchy
CN109960777A (zh) 物品评论个性化推荐方法、系统、电子设备及存储介质
Nereu et al. Big Data Analytics: A Preliminary Study of Open Source Platforms.
US20220188344A1 (en) Determining an ontology for graphs
US11954424B2 (en) Automatic domain annotation of structured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant