CN111475509A - 一种基于大数据的用户画像和多维分析系统 - Google Patents
一种基于大数据的用户画像和多维分析系统 Download PDFInfo
- Publication number
- CN111475509A CN111475509A CN202010257729.2A CN202010257729A CN111475509A CN 111475509 A CN111475509 A CN 111475509A CN 202010257729 A CN202010257729 A CN 202010257729A CN 111475509 A CN111475509 A CN 111475509A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- layer
- behavior
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000005065 mining Methods 0.000 claims abstract description 9
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 230000008520 organization Effects 0.000 claims abstract 2
- 238000013500 data storage Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000002688 persistence Effects 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000007726 management method Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 44
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004141 dimensional analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 241000533950 Leucojum Species 0.000 description 1
- 235000008708 Morus alba Nutrition 0.000 description 1
- 240000000249 Morus alba Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于大数据的用户画像和多维分析系统。本发明能够将用户的行为数据以实时和离线两种方式采集下来,通过大数据组件进行计算和分析,计算结果为用户画像数据,数据的组织形式是以标签为字段的宽表。并且通过倒排索引的方式组织画像数据,将这些数据的索引存储在大数据的仓库当中。Web平台将多个具体标签当作输入条件,输出统计和聚合结果。这是典型的多维数据分析场景。另外,画像数据还可以作为客户关系管理的依据。在用户价值分层、潜在高价值用户挖掘、RFM分层等方面有较好的应用。
Description
技术领域
本发明涉及大数据应用技术领域,具体涉及一种基于大数据的用户画像和多维分析系统。
背景技术
当前,整个人类社会已经高速进入大数据时代。特别是以各种计算机或智能设备为载体,在操作系统、应用程序、网络服务当中均内置有需经授权的用户数据采集、上传和分析功能。通过汇聚海量、多样、实时的用户数据,形成超大规模的数据集合,再利用大数据计算方法,获得数据背后用户的偏好、行动规律等有价值的信息,同时将相关标签对应到相关的用户,形成画像数据。以通过大数据计算所得的画像信息为基础,能对不同的用户提供相应不同的服务,提高不同层次用户的体验,等等。
为了应对大数据时代,技术储备雄厚的公司大都选择自行开发大数据系统和处理软件,形成符合自己公司的大数据产品,这些产品中不少是关于用户画像的。例如,中国专利文献CN 107038237 A公开了一种基于大数据的用户画像系统及画像方法,用户画像系统其特征在于用户关联模块和用户画像模块,用户画像方法具体包括用户数据处理、网站数据处理,以及用户数据和网站数据的匹配。文本数据处理后,获得用户的关注点。利用这些关注点,给用户打上标签。文本数据处理单元得到的结果,作为用户标签单元的输入。可以通过分类算法:逻辑回归、决策树、朴素贝叶斯、kNN最近邻、SVM支持向量机、神经网络等给用户打上最终的标签,实现精准画像。又例如,中国专利文献CN 106547916 A公开了一种用户画像标签查询方法及装置,其将标签序列用于按照用户顺序号、采用Bitset方式、通过1或者0分别表示每个用户是否拥有相应标签,根据查询顺序结果和预设的用户顺序表,得到拥有所述欲查询标签的用户号。
多维数据分析也是大数据产品的一种应用方向。中国专利文献CN 106528787 A则公开了一种基于海量数据多维分析的查询方法及装置,方法包括:接收用户发送的携带有待查询的维度信息的查询请求,根据该维度信息,在预先建立的subcube表中查询该维度信息对应的数据,当查询到该维度信息对应的数据,则将数据返回给用户,当未查询到该维度信息对应的数据,则在预先建立的cube表中查询该维度信息对应的数据,将数据返回给用户,并将该维度信息包含的维度名作为维度组合进行采集,其中,该subcube表由cube表中的部分列合成。通过上述方法,subcube表中的行数是少于cube表中的行数的,用户先在预先建立的subcube表中进行查询,这样可以有效地提高查询的效率,并且,subcube表只是列举出部分维度的维度组合,而无需穷举出所有的维度组合,这样有效地降低计算量。又例如,中国专利文献公开了一种基于大数据的数据多维分析处理方法,包括如下步骤:(1)自动化连接各业务系统抽取业务数据,将所述业务数据存储至业务数据层;(2)自动化连接所述业务数据层,按业务主题流程转换清理所述业务数据,形成具有业务主题信息的事实表和维度表;(3)将所述事实表与维度表按分析主题组合为立方体;(4)选择所述立方体进行多维数据分析处理。通过对业务数据的进一步转换清理后,可以过滤掉无效数据,汇总需要的数据以降低明细数据量,并且按数据库来有效索引,极大地提高数据的查询性能。
可见,将大数据分析应用于用户画像的现有技术当中,大都是以行为数据的采集为基础,进而,统计分析这些行为数据包含的规律,主要以时序条件为统计基准,获得以用户id为key值的画像数据,再通过画像数据的分析挖掘获得行为偏好,进而进行针对性的用户关系管理,譬如用户价值分层维护、潜在高价值用户的挖掘、用户RFM分层、用户行为预测等等。
现有技术中存在的不足包括:第一,现有用户画像技术很少涉及到大数据量的计算操作,大都基于传统的关系型数据库,数据量较大的情况下就会导致计算失败或者计算时间过长。第二,即使用到了大数据的计算框架和引擎,数据的采集过程则主要通过ETL过程将数据从关系数据库中抽取,计算类型主要是离线数据的处理,而实时计算是大数据计算的主流趋势,行为数据的实时性不仅能提高数据的准确性和时效性,而且能提供更多的标签和信息量。第三,现有用户画像的查询技术主要是画像数据的明细查询,存储查询技术也局限于关系型数据库,并没有在多维分析的角度上对用户画像数据进行检索和分析。第四,现有的多维分析系统主要是ROLAP和MOLAP,系统之间架构复杂难维护,需要建立数据立方体(cube)的结构,或者新的视图,也导致了在检索上的性能损失。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于大数据的用户画像和多维分析系统。本发明从联网智能设备上运行的服务当中采集用户的行为数据,如登录、浏览、点击、交易、互动、离开等;将这些行为数据通过各种聚合分组统计的操作产生用户画像数据;再对这些用户画像数据进行倒排索引;因此web系统可依据索引数据,面向分析人员进行多维数据分析操作;起到用户关系的妥善管理的作用。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的用户画像系统,其特征在于,包括:行为数据采集层、行为数据存储层、行为数据计算层、画像数据应用层;
所述行为数据采集层,指通过两种方式将用户行为数据采集到存储层。这两种方式包括:(1)从pc和移动设备上实时采集用户的行为数据,如登录、浏览、交易、退出等数据。(2)通过ETL过程从RDBS上拉取相关数据。
所述行为数据存储层从数据采集层获得用户行为数据,采用文本方式或者列存储的方式存储数据。数据的组织形式是一部分按照数据的种类存储,一部分是按照数据的时间字段存储。
所述行为数据计算层从所述行为数据存储层获得存储文件,提取行为数据,利用大数据计算组件(hadoop或spark),以用户id为整合字段,从用户行为数据中抽象出各种行为标签,按照特定的时间区间计算出标签宽表,并另做存储。
所述画像数据展示层从索引层获取画像数据,将一个或多个标签字段作为传入参数条件,返回统计结果,并在web系统上作商务智能展示。这是典型的多维数据分析场景。
优选的是,所述行为数据采集层具体包括:实时业务流接口和结构化数据ETL过程;所述实时业务接口从智能设备实时性地采集用户的操作记录和操作时间,以数据流的形式发送到数据队列,采集组件包括日志型的采集工具flume,也可以是业务程序api将用户数据实时发送到数据队列kafka,或者其他实现缓冲作用的队列;所述结构化数据ETL过程使用ETL工具将结构化数据从关系型数据库拉取至行为数据存储层,ETL工具可以是针对性的软件开发程序,也可以是开源的如dataX、kettle等组件。
优选的是,所述行为数据存储层具体包括:分布式的文件系统、列式存储等nosql数据库和传统的关系型数据库。分布式的文件系统主要用于大数据量的存储,使用存储用户的明细数据。可供选择的工具有hadoop的HDFS,除了读写等流程外,还能冗余灾备功能,也可以选择云厂商的存储资源,明细数据的存储功能要求能实现大时间间隔内的查询;列式存储包括hbase、elasticsearch等工具,主要用于大数据量的字段查询和olap多维分析。Hbase是hadoop生态圈的分布式列式存储数据库,elasticsearch自带列式存储,但主要是作为数据搜索引擎的工具使用。
进一步优选的是,所述行为数据计算层将行为数据做聚合分组操作,基于业务数据规则,提炼出各种行为特征。如登录次数、活跃时间、交易数额、购买偏向等等。计算框架既可以基于文本做处理,也可以基于数据仓库。文本文件,通过代码实现计算,如spark读取parquet文件,提取scheme,组成dataframe数据结构,在此基础上进行数据计算工作;数据仓库,比如hive或者sparksql,通过sql操作获取标签数据,例如用户登录表和用户注册表进行聚合,可以获得用户是老用户和新用户。实时数据一般会在storm或者sparkstreaming平台直接进行计算,如各种聚合工作:count,sum,avg等等,这些计算后的结果输入数据库,由web直接查询。
优选的是,所述画像数据应用层将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段。数据分析人员可基于各种平台,如web端或数据仓库端进行分析挖掘。Web端对画像数据进行直接查询,譬如画像宽表明细查询,通过用户id或者字段查询画像总体数据。数据仓库端的分析挖掘包括各种场景的客户关系管理,包括用户价值分层维护、潜在高价值用户挖掘、用户的RFM分析、用户的付费预估、用户的流失率分析等等。
本发明进而提供了一种基于大数据的多维分析系统,其特征在于,包括以下层次:画像数据索引层、画像数据展示层。
所述画像数据索引层,指将画像数据通过倒排索引的算法,使标签字段数据列存储化,这种方式使得标签快速查找和替换成为可能。
所述画像数据展示层,指主要通过web或客户端方式展示标签统计数据,输入条件是不同维度的标签数据限制,输出值为这些维度下的标签统计和聚合结果。
优选的是,所述画像数据索引层,包括数据索引和索引数据存储。数据索引指的是将数据的字段拆分,以字段值为key、以数据id为value,而不是以数据id为key、以字段值为value,这种倒排索引方式能极大压缩索引数据存储的压力。经过倒排索引的数据存储主要是以磁盘为持久化载体,以缓存为检索载体,实现读和持久化的分离。倒排索引的原理如图所示:
字段值(支付等级字段) | 数据id |
V1 | 1,4,5 |
V2 | 2 |
V3 | 3,6 |
V4 | 7,9 |
V5 | 8 |
进一步优选的是,所述画像数据展示层,指主要通过web或客户端方式展示标签统计数据,输入条件是不同维度的标签数据限制,输出值为这些维度下的标签统计和聚合结果。基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。钻取操作基于维度层次的改变,本发明高低维度皆有存储,故可以满足;切片和切块需要某个维度的多条件查询,本发明可以查询某字段的具体多个标签来满足此需求;本发明的所有维度兼做索引,故旋转维度操作也可以满足。跟传统olap的雪花模型结构不同的是,为了多维查询的性能考虑,字段的值已经做了映射操作,所以查询的速度会更快。展示的可视化基于web平台,查询条件主要通过多选列表或下拉单实现输入,后台调用查询api,将模型数据(大部分为统计值和聚合结果)返回给web前端。前端利用开源的图表框架,如jqgrid和echarts,以散点图、折线图、柱状图、地图、饼图、雷达图、k线图、箱线图、热力图、关系图、树状图、矩形树图、平行坐标、桑基图、漏斗图、仪表图、象形柱图、主题河流图、日力图等形式将多维数据分析结果展示出来。
(三)有益效果
与现有技术相比,本发明提供了一种基于大数据的用户画像和多维分析系统,具备以下有益效果:
本发明能够实现实时数据的采集、计算和展现,这在注重时效性的互联网行业格外有益。而且在计算量上,本发明基于大数据组件进行数据计算,因此,计算量级可达到TB级别,计算速度也能超越大部分传统计算框架。另外,在数据查询的种类上,本发明不仅可以支持明细数据的查询,还可以基于画像数据进行多维度的数据分析,实现商务智能的超越。最后,在多维分析方面,本发明提供了一种轻型的多维计算和查询工具,并自行实现了结果的可视化查询。
附图说明
图1为本发明提出的一种基于大数据的用户画像和多维分析系统整体结构示意图;
图2为本发明系统的行为数据采集层结构示意图;
图3为本发明采取的行为数据计算存储架构示意图;
图4为本发明系统的多维分析系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提出的一种基于大数据的用户画像和多维分析系统整体结构示意图。该系统整体上分为行为数据采集层、行为数据存储层、行为数据计算层、画像数据应用层、画像数据索引层、画像数据展示层。
所述行为数据采集层,指通过网络与智能设备建立连接,从智能设备上运行的应用或者服务当中,实时性采集用户的行为数据。用户的行为数据一般包括:用户设备注册登录情况、用户账号登录情况、用户对页面的浏览情况(包括点击事件、输入事件等)、用户交易情况(包括用户购买的商品、付出的金额等)、用户的互动情况(包括用户之间的消息传递等等)、用户离开情况(包括用户离开的环境和状态)等等。
如图2所示,所述行为数据采集层具体包括:日志数据接入、RDBS数据接入和实时数据接入。所述日志数据接入,从应用或者服务实时获得该应用或服务中记录用户操作行为及其操作时间的日志;可以在应用或者服务当中埋入钩子插件,将用户每一步操作产生的操作行为及其操作时间实时记录在用户日志当中。所述RDBS数据接入,指通过ETL手段,将原本存储于关系型数据库的数据存储至行为数据存储层,这些数据记录了用户比较重要的行为和相关状态,譬如登录情况(登录时间、登录设备机型、用户的来源信息、登录联网类型、用户的当前虚拟币值等等),交易情况(用户交易时间、交易对象id、交易数额、交易物品、交易物品数量、交易类型等等),离开情况(离开时间、离开时刻虚拟数值、离开时刻停留页面或服务、停留时长)。实时数据接入是指,针对用户操作时呈现的特定行为场景当中涉及的全部对象,定时查询采样每个对象的状态数据;例如,对于实时业务来说,每个对象的状态数据均保存在服务器的实时配置文件之中,并且根据服务器与智能设备之间双向交互的业务数据流的指令和参数,对该状态数据予以更新,则实时数据接入的相关接口可以侦听该业务数据流,进而获得每个对象的状态数据。
所述行为数据存储层主要分为缓冲层和持久层。缓冲层是指实时数据接入之后,为了防止数据输入并发量过大超出数据存储速率,故在实时数据输入和数据存储之间搭建的队列。缓冲层的主要组件包括kafka、redis和自研的队列系统。缓冲层还可以起到冗余数据的作用,队列中的数据可以通过持久化保存指定的时间。持久层是日志数据接入、RDBS数据接入的存储载体,也是实时数据最终的存储介质。持久层主要是分布式的数据系统HDFS,行为数据明细都存储于hdfs。
所述行为数据计算层从所述行为数据存储层获得文本文件或者结构化数据存储文件,提取行为数据,一般的,某个标签的值需要数个文件或结构化数据表进行连接join才能获得。在大规模数据的情况下,join操作会导致任务过长并失败。这种情况下,我们通过设置spark的partition,将这个值设置到合适区间,比如setspark.sql.shuffle.partitions=2000;或者增大join的广播表大小,比如set spark.sql.autoBroadcastJoinThreshold=100000000。即可优化spark的join性能。譬如某个标签为注册天数(注册时间与统计登陆时间的差值),可统计出该用户的生命周期。这就需要用户登录表和注册表进行join操作,算出此差值,并将此标签值打在该用户的标签宽表上。将众多标签集成起来,形成的宽表数据就是统计时间区间内的用户画像数据。具体流程如图3所示。
所述画像数据应用层,将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段。数据分析人员可基于各种平台,如web端或数据仓库端进行分析挖掘。基础报表是较基本的应用,以时间序列为基本条件,日/周/月为自然统计周期,可统计出包括登录人数、付费交易人数、注册人数、新增付费人数等等比较重要的统计数据。以RFM分层为例,为了反应用户最近期的付费变化,同时预估用户短期的付费情况,减少流失,将用户最近付费日R(远->近:1~3分),用户付费频率F(低->高:1~3分),用户付费金额M(小->大:1~3分)作为最基本的标签评分,应用马尔科夫链原则。马尔科夫链是一种随机过程,设用户短期内付费为随机过程,如果现阶段用户付费状况是已知的,并且之后付费与现阶段付费之前的状态无关,则可以设用户付费的状态空间为S,假设对于任意的,任意的,在条件下,的条件概率分布函数恰好等于其在条件下的条件概率函数,即:
除了上述应用之外,画像数据还有一个更重要的应用,即多维数据分析。它能使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI的特征。F是fast,指系统能在数秒内对用户的多数分析要求作出反应;A是analysis,指用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告;M是multi-dimensional,指提供对数据分析的多维视图和分析;I是information,指能及时获得信息,并且管理大容量信息。
所述画像数据索引层,指通过一种倒排索引的方法,将画像数据的字段值建立索引,以字段值为key、数据条的id为value,构建一种nosql数据存储方式。
如图4所示,画像数据由大量的标签字段组成,每个字段代表某个用户在统计周期内的某个统计值或行为度量。一般来说,相当多的用户的某个字段标签值是相同的,因此,从存储角度讲,重复的标签值是冗余的。只需注明哪些用户的此标签字段值是相同的即可。这样的话,每个标签字段可以维护一张倒排索引的字典表。字典表以键值对分布。类似于hash表,通过数组的形式存储这些标签值,设为key,value值为用户画像文档值ID,若下个用户文档字段的key值相等,则这个文档ID以链表的结构连接到上个文档值ID之后。这些字典表文件存储于磁盘当中,热数据的检索可以通过缓存放入内存中。当进行多维查询时,前端web传入字段条件参数,执行引擎找到此字段的字典表,经hash算法找到此字段值的存储桶,对value值中的文档数进行count操作,将统计结果返回给web端。当传入条件为多个不同标签的字段值,则找出符合各个标签字段值的文档,再对这些文档取交集,比如标签X中符合标签值条件的文档为,标签Y中符合标签值条件的文档为,则符合条件的文档为:
所述画像数据展示层,不仅包括画像数据的直接展示或报表统计,还包含多维分析的展示层。Web平台可以采取java典型的ssm架构,即spring、springMVC和mybatis架构,也可以采用python的Django架构。前端展示工具可以采用百度的echarts或者highcharts。通过这些有力的开源工具,我们可以据此作出丰富多彩的图表。
本发明能够将对用户各种行为数据的大数据采集与分析,与用户未来和潜在的行为关联起来,运用随机过程、聚类等大数据分析算法,实现对相关服务和应用的用户偏好的大数据分析,所产生的分析结论既可以优化现有的用户体验,还可以预测用户未来的行为,对用户进行分层运营,为用户提供精准推荐营销等等各种智能服务。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种基于大数据的用户画像系统,其特征在于,包括:行为数据采集层、行为数据存储层、行为数据计算层、画像数据应用层;
所述行为数据采集层,指通过两种方式将用户行为数据采集到存储层;
这两种方式包括:(1)从pc和移动设备上实时采集用户的行为数据,如登录、浏览、交易、退出等数据;(2)通过ETL过程从RDBS上拉取相关数据;
所述行为数据存储层从数据采集层获得用户行为数据,采用文本方式或者列存储的方式存储数据;
数据的组织形式是一部分按照数据的种类存储,一部分是按照数据的时间字段存储;
所述行为数据计算层从所述行为数据存储层获得存储文件,提取行为数据,利用大数据计算组件(hadoop或spark),以用户id为整合字段,从用户行为数据中抽象出各种行为标签,按照特定的时间区间计算出标签宽表,并另做存储;
所述画像数据应用层将所述数据计算层获得的画像数据应用于业务系统,基于画像数据,可以进行分析和挖掘;
还可以通过多维操作,进行多维数据分析和相关可视化展现;
所述行为数据采集层具体包括:实时业务流接口和结构化数据ETL过程;所述实时业务接口从智能设备实时性地采集用户的操作记录和操作时间,以数据流的形式发送到数据队列;所述结构化数据ETL过程使用ETL工具将结构化数据从关系型数据库拉取至行为数据存储层;
所述行为数据存储层具体包括:分布式的文件系统、列式存储等nosql数据库和传统的关系型数据库;
分布式的文件系统主要用于大数据量的存储,使用存储用户的明细数据;列式存储包括hbase、elasticsearch等工具,主要用于大数据量的字段查询和olap多维分析;
所述行为数据计算层将行为数据做聚合分组操作,基于业务数据规则,提炼出各种行为特征;
如登录次数、活跃时间、交易数额、购买偏向等等;
计算框架既可以基于文本做处理,也可以基于数据仓库;
文本文件,通过代码实现计算;数据仓库,比如hive或者sparksql,通过sql操作获取标签数据;
所述画像数据应用层将标签数据归纳为画像数据,额外存储于数据库当中,并根据时序推移,不断更新和增加字段;
数据分析人员可基于各种平台,如web端或数据仓库端进行分析挖掘。
2.基于大数据的多维分析系统包括根据权利要求1所述的基于大数据的用户画像系统,其特征在于,包括:画像数据索引层、画像数据展示层;
所述画像数据索引层,指将画像数据通过倒排索引的算法,使标签字段数据列存储化,这种方式使得标签快速查找和替换成为可能;
所述画像数据展示层,指主要通过web或客户端方式展示标签统计数据,输入条件是不同维度的标签数据限制,输出值为这些维度下的标签统计和聚合结果;所述画像数据索引层,包括数据索引和索引数据存储,数据索引指的是将数据的字段拆分,以字段值为key、以数据id为value,而不是以数据id为key、以字段值为value,这种倒排索引方式能极大压缩索引数据存储的压力;
索引数据存储主要是以磁盘为持久化载体,以缓存为检索载体,实现读和持久化的分离;所述画像数据展示层以web平台作为多维分析的载体,鉴于倒排索引已经被存储,多维分析的cube就不需要重新计算,因此,底层大数据索引平台基本可以秒级返回统计结果,在web平台以统计图表的形式展示出来,这些图表包括但不限于饼图、柱形图、折线图、省份城市地图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010257729.2A CN111475509A (zh) | 2020-04-03 | 2020-04-03 | 一种基于大数据的用户画像和多维分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010257729.2A CN111475509A (zh) | 2020-04-03 | 2020-04-03 | 一种基于大数据的用户画像和多维分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475509A true CN111475509A (zh) | 2020-07-31 |
Family
ID=71749566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010257729.2A Pending CN111475509A (zh) | 2020-04-03 | 2020-04-03 | 一种基于大数据的用户画像和多维分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475509A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287015A (zh) * | 2020-10-14 | 2021-01-29 | 北京易观智库网络科技有限公司 | 画像生成系统及其方法、电子设备及存储介质 |
CN112287226A (zh) * | 2020-10-29 | 2021-01-29 | 四川长虹电器股份有限公司 | 基于大数据的用户画像方法 |
CN112416488A (zh) * | 2020-11-03 | 2021-02-26 | 深圳依时货拉拉科技有限公司 | 一种用户画像实现的方法、装置、计算机设备及计算机可读存储介质 |
CN112527881A (zh) * | 2020-12-16 | 2021-03-19 | 国家电网有限公司客户服务中心 | 一种基于hive的数据汇聚方法 |
CN112597157A (zh) * | 2020-12-16 | 2021-04-02 | 光大兴陇信托有限责任公司 | 一种报送信息存储管理方法和系统 |
CN112685514A (zh) * | 2021-01-08 | 2021-04-20 | 北京云桥智联科技有限公司 | Ai智能客户价值管理平台 |
CN112765113A (zh) * | 2021-01-31 | 2021-05-07 | 云知声智能科技股份有限公司 | 索引压缩方法、装置、计算机可读存储介质及电子设备 |
CN112765146A (zh) * | 2021-01-26 | 2021-05-07 | 四川新网银行股份有限公司 | 一种用户画像标签数据质量的监控方法 |
CN113094409A (zh) * | 2021-04-08 | 2021-07-09 | 国网电子商务有限公司 | 业务数据的处理方法及装置、计算机存储介质 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN113421133A (zh) * | 2021-07-21 | 2021-09-21 | 赛诺数据科技(南京)有限公司 | 基于客户匹配的网络营销系统 |
CN114528452A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 基于烟酒销售的数据标签实现方法及系统 |
CN115563103A (zh) * | 2022-09-15 | 2023-01-03 | 河南星环众志信息科技有限公司 | 一种多维度聚合方法、系统、电子设备及存储介质 |
CN116127162A (zh) * | 2023-04-13 | 2023-05-16 | 长沙数智融媒科技有限公司 | 大数据实时用户标签方法及系统、计算机设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
-
2020
- 2020-04-03 CN CN202010257729.2A patent/CN111475509A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287015B (zh) * | 2020-10-14 | 2024-03-01 | 北京易观数智科技股份有限公司 | 画像生成系统及其方法、电子设备及存储介质 |
CN112287015A (zh) * | 2020-10-14 | 2021-01-29 | 北京易观智库网络科技有限公司 | 画像生成系统及其方法、电子设备及存储介质 |
CN112287226A (zh) * | 2020-10-29 | 2021-01-29 | 四川长虹电器股份有限公司 | 基于大数据的用户画像方法 |
CN112416488B (zh) * | 2020-11-03 | 2024-05-14 | 深圳依时货拉拉科技有限公司 | 一种用户画像实现的方法、装置、计算机设备及计算机可读存储介质 |
CN112416488A (zh) * | 2020-11-03 | 2021-02-26 | 深圳依时货拉拉科技有限公司 | 一种用户画像实现的方法、装置、计算机设备及计算机可读存储介质 |
CN112527881A (zh) * | 2020-12-16 | 2021-03-19 | 国家电网有限公司客户服务中心 | 一种基于hive的数据汇聚方法 |
CN112597157A (zh) * | 2020-12-16 | 2021-04-02 | 光大兴陇信托有限责任公司 | 一种报送信息存储管理方法和系统 |
CN112597157B (zh) * | 2020-12-16 | 2023-04-18 | 光大兴陇信托有限责任公司 | 一种报送信息存储管理方法和系统 |
CN112685514A (zh) * | 2021-01-08 | 2021-04-20 | 北京云桥智联科技有限公司 | Ai智能客户价值管理平台 |
CN112765146A (zh) * | 2021-01-26 | 2021-05-07 | 四川新网银行股份有限公司 | 一种用户画像标签数据质量的监控方法 |
CN112765146B (zh) * | 2021-01-26 | 2022-10-21 | 四川新网银行股份有限公司 | 一种用户画像标签数据质量的监控方法 |
CN112765113A (zh) * | 2021-01-31 | 2021-05-07 | 云知声智能科技股份有限公司 | 索引压缩方法、装置、计算机可读存储介质及电子设备 |
CN112765113B (zh) * | 2021-01-31 | 2024-04-09 | 云知声智能科技股份有限公司 | 索引压缩方法、装置、计算机可读存储介质及电子设备 |
CN113094409A (zh) * | 2021-04-08 | 2021-07-09 | 国网电子商务有限公司 | 业务数据的处理方法及装置、计算机存储介质 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN113421133A (zh) * | 2021-07-21 | 2021-09-21 | 赛诺数据科技(南京)有限公司 | 基于客户匹配的网络营销系统 |
CN114528452A (zh) * | 2022-02-18 | 2022-05-24 | 浪潮卓数大数据产业发展有限公司 | 基于烟酒销售的数据标签实现方法及系统 |
CN115563103B (zh) * | 2022-09-15 | 2023-12-08 | 河南星环众志信息科技有限公司 | 一种多维度聚合方法、系统、电子设备及存储介质 |
CN115563103A (zh) * | 2022-09-15 | 2023-01-03 | 河南星环众志信息科技有限公司 | 一种多维度聚合方法、系统、电子设备及存储介质 |
CN116127162A (zh) * | 2023-04-13 | 2023-05-16 | 长沙数智融媒科技有限公司 | 大数据实时用户标签方法及系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416620B (zh) | 一种基于大数据的画像数据的智能社交广告投放平台 | |
CN111475509A (zh) | 一种基于大数据的用户画像和多维分析系统 | |
US7921069B2 (en) | Granular data for behavioral targeting using predictive models | |
US9858326B2 (en) | Distributed data warehouse | |
US9760907B2 (en) | Granular data for behavioral targeting | |
US11194812B2 (en) | Efficient aggregation of sliding time window features | |
CN112785397A (zh) | 一种产品推荐方法、装置及存储介质 | |
CN102667761A (zh) | 可扩展的集群数据库 | |
Irudeen et al. | Big data solution for Sri Lankan development: A case study from travel and tourism | |
CN111552885B (zh) | 实现自动化实时消息推送运营的系统及其方法 | |
CN109614507B (zh) | 一种基于频繁项挖掘的遥感图像推荐装置 | |
US20190244146A1 (en) | Elastic distribution queuing of mass data for the use in director driven company assessment | |
US20140337274A1 (en) | System and method for analyzing big data in a network environment | |
CN110795613A (zh) | 商品搜索方法、装置、系统及电子设备 | |
US20220222268A1 (en) | Recommendation system for data assets in federation business data lake environments | |
Gaurav et al. | An outline on big data and big data analytics | |
CN114691762A (zh) | 企业数据智能构建方法 | |
CN107729206A (zh) | 告警日志的实时分析方法、系统和计算机处理设备 | |
Mazurova et al. | Research of ACID transaction implementation methods for distributed databases using replication technology | |
Ramakrishnan et al. | Exploratory mining in cube space | |
CN116089723A (zh) | 一种推荐系统推荐方法及其设备 | |
US20160071135A1 (en) | Method for obtaining business intelligence information from a large dataset | |
CN115098029A (zh) | 数据处理方法及装置 | |
Bhatnagar | Data mining-based big data analytics: parameters and layered framework | |
Doshi et al. | Analytics and visualization of trends in news articles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |