基于大数据治理技术实现用户画像构建处理的系统及其方法
技术领域
本发明涉及数据处理技术领域,尤其涉及用户画像构建领域,具体是指一种基于大数据治理技术实现用户画像构建处理的系统及其方法。
背景技术
在进入大数据时代,精细化运营成为企业重要的竞争力,而“用户画像”是实现企业精细化运营的有力手段。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。依托于企业多年积累的海量数据及强大的数据分析能力,将数据抽象成标签,并通过标签将用户形象具体化,以此形成用户画像,通过用户画像可帮助企业了解用户信息,实现目标用户精准筛选,提升企业在大数据时代的竞争力。
现有的用户画像构建方法,主要是通过对海量多源异构用户行为数据的收集、处理、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,形成用户画像,从而了解用户的信息。下面分别从用户行为数据的收集、处理和分析三个步骤说明现有的用户画像构建方法:
一、用户行为数据收集:
采用数据集成工具收集用户行为数据,如:年龄、性别、身高、体重、职业、收入、消费能力、兴趣爱好等数据,并将收集的用户行为数据集中存储。
二、用户行为数据处理:
使用大数据工具对用户行为数据进行清洗,去除冗余数据,在数据处理过程中会使用到交互计算和多种复杂算法,一定程度上保证数据的质量。
三、用户行为数据建模:
使用机器学习等技术,实现用户行为数据建模,模型实现对用户行为数据主动学习,进行用户行为判断,产出用户标签。
经过以上三步,形成了用户画像数据,基于用户画像可实现精准的内容推荐,实现千人千面运营。
现有的技术实现了用户画像的构建,满足了企业对于用户画像构建的需求。但是在实际的应用中,用户画像会产生一定的波动,现有的技术仅仅依靠单个或者几个大数据工具对用户行为数据进行清洗、处理,缺乏成体系的闭环的质量管控措施,并不能很好的控制用户画像的波动。
其次,对于用户行为数据的处理缺乏相关的依据,无法形成统一权威的标准,就这造成了产生的用户画像缺乏权威性,难以得到各方的认同。
最后,用户画像是经过很多步骤处理产生的,当用户画像出现波动时,现有的技术无法对用户画像产生过程进行追溯,要想查找用户画像波动根源费时费力。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种准确性高、操作简便、适用范围较为广泛的基于大数据治理技术实现用户画像构建处理的系统及其方法。
为了实现上述目的,本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法如下:
该基于大数据治理技术实现用户画像构建处理的系统,其主要特点是,所述的系统包括:
用户行为数据接引模块,用于接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
用户行为数据融合模块,与所述的用户行为数据接引模块相连接,用于获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
用户行为数据建模分析模块,与所述的用户行为数据接引模块和用户行为数据融合模块相连接,用于创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
用户画像产出模块,与所述的用户行为数据建模分析模块相连接,用于根据用户标签库数据生成用户画像API接口。
较佳地,所述的用户行为数据融合模块包括:
采集元数据单元,与所述的用户行为数据接引模块相连接,用于采集数据湖中数据库信息;
创建标准单元,与所述的采集元数据单元相连接,用于根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
创建质量规则单元,与所述的创建标准单元相连接,用于定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
较佳地,所述的采集元数据单元采集的数据库信息包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键。
较佳地,所述的用户行为数据接引模块包括多源适配器。
较佳地,所述的用户行为数据建模分析模块包括:
标签建模单元,与所述的融合库相连接,用于根据用户画像的数据建立用户行为标签表;
画像预测单元,与所述的标签建模单元相连接,用于建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
标签聚类单元,与所述的画像预测单元相连接,用于通过聚类计算实现标签聚类,将结果保存入库。
较佳地,所述的用户行为数据接引模块接引至数据湖中的数据包括用户信息表、手机信息表、手机类目表和日志表。
较佳地,所述的用户行为数据融合模块采集的元数据包括用户信息表、手机信息表、手机类目表和WEB端日志表的元数据信息。
较佳地,所述的用户行为数据融合模块采集的元数据还包括用户行为数据的加工过程元数据以及计算过程元数据信息。
较佳地,所述的标签聚类单元通过K-means聚类算法计算并实现标签聚类。
该利用上述系统实现基于大数据治理技术的用户画像构建处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)所述的用户行为数据接引模块接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
(2)所述的用户行为数据融合模块获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
(3)所述的用户行为数据建模分析模块创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
(4)所述的用户画像产出模块根据用户标签库数据生成用户画像API接口。
较佳地,所述的用户行为数据融合模块包括采集元数据单元、创建标准单元和创建质量规则单元,所述的步骤(2)具体包括以下步骤:
(2.1)所述的采集元数据单元采集数据湖中数据库信息;
(2.2)所述的创建标准单元根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
(2.3)所述的创建质量规则单元定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
较佳地,所述的用户行为数据建模分析模块包括标签建模单元、画像预测单元和标签聚类单元,所述的步骤(3)具体包括以下步骤:
(3.1)所述的标签建模单元根据用户画像的数据建立用户行为标签表;
(3.2)所述的画像预测单元建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
(3.3)所述的标签聚类单元通过聚类计算实现标签聚类,将结果保存入库。
采用了本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法,提供了基于大数据治理技术实现用户画像构建的系统及方法,在用户画像构建之前引入了大数据治理技术,实现了用户行为数据标准体系及闭环质量管理体系的建立,从而提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。另外,通过用户行为元数据技术,还能对用户画像数据问题进行追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
附图说明
图1为本发明的基于大数据治理技术实现用户画像构建处理的系统的结构示意图。
图2为本发明的基于大数据治理技术实现用户画像构建处理的系统的用户行为数据融合模块的结构示意图。
图3为本发明的基于大数据治理技术实现用户画像构建处理的系统的用户行为数据建模分析模块的结构示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于大数据治理技术实现用户画像构建处理的系统,其中包括:
用户行为数据接引模块,用于接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
用户行为数据融合模块,与所述的用户行为数据接引模块相连接,用于获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
用户行为数据建模分析模块,与所述的用户行为数据接引模块和用户行为数据融合模块相连接,用于创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
用户画像产出模块,与所述的用户行为数据建模分析模块相连接,用于根据用户标签库数据生成用户画像API接口。
作为本发明的优选实施方式,所述的用户行为数据融合模块包括:
采集元数据单元,与所述的用户行为数据接引模块相连接,用于采集数据湖中数据库信息;
创建标准单元,与所述的采集元数据单元相连接,用于根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
创建质量规则单元,与所述的创建标准单元相连接,用于定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
作为本发明的优选实施方式,所述的采集元数据单元采集的数据库信息包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键。
作为本发明的优选实施方式,所述的用户行为数据接引模块包括多源适配器。
作为本发明的优选实施方式,所述的用户行为数据建模分析模块包括:
标签建模单元,与所述的融合库相连接,用于根据用户画像的数据建立用户行为标签表;
画像预测单元,与所述的标签建模单元相连接,用于建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
标签聚类单元,与所述的画像预测单元相连接,用于通过聚类计算实现标签聚类,将结果保存入库。
作为本发明的优选实施方式,所述的用户行为数据接引模块接引至数据湖中的数据包括用户信息表、手机信息表、手机类目表和日志表。
作为本发明的优选实施方式,所述的用户行为数据融合模块采集的元数据包括用户信息表、手机信息表、手机类目表和WEB端日志表的元数据信息。
作为本发明的优选实施方式,所述的用户行为数据融合模块采集的元数据还包括用户行为数据的加工过程元数据以及计算过程元数据信息。
作为本发明的优选实施方式,所述的标签聚类单元通过K-means聚类算法计算并实现标签聚类。
本发明的该利用上述系统实现基于大数据治理技术的用户画像构建处理的方法,其中包括以下步骤:
(1)所述的用户行为数据接引模块接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
(2)所述的用户行为数据融合模块获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
(2.1)所述的采集元数据单元采集数据湖中数据库信息;
(2.2)所述的创建标准单元根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
(2.3)所述的创建质量规则单元定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则;
(3)所述的用户行为数据建模分析模块创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
(3.1)所述的标签建模单元根据用户画像的数据建立用户行为标签表;
(3.2)所述的画像预测单元建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
(3.3)所述的标签聚类单元通过聚类计算实现标签聚类,将结果保存入库;
(4)所述的用户画像产出模块根据用户标签库数据生成用户画像API接口。
本发明的具体实施方式中,本发明提供基于大数据治理技术实现用户画像构建的系统及方法,包括用户行为数据接引模块、用户行为数据融合模块、用户行为数据建模分析模块及用户画像产出模块。
在大数据时代,通过对海量数据进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,形成用户画像。但是在处理海量多源异构数据时,仅仅依靠单个或者几个工具的能力去处理,往往造成用户画像波动,影响结果的准确性,同时出现用户画像波动时,查找原因较为困难。
本发明通过用户行为数据接引模块,实现海量多源异构的用户行为数据的接引,并对数据进行实时清洗,去除冗余数据,将接引数据存储到数据湖中。用户行为数据融合模块采用大数据治理技术获取数据湖中的用户行为元数据信息,并以此为核心构建用户行为数据标准及用户行为数据质量检核规则,以此提升数据湖中用户行为数据的标准化程度及数据质量,使得用户行为数据能够有机融合,并将元数据、数据标准、质量规则存入融合库中。用户行为数据建模分析模块创建用户行为标签模型并实现对用户行为数据打标签操作,采用机器学习中的聚类(无监督学习)技术实现对用户行为数据的标签聚类,形成不同类型的用户标签,并将标签信息存入用户标签库。最终用户画像产出模块根据用户标签库数据生成用户画像API接口,供第三方系统通过调用API接口查询用户画像信息。
本发明提供了基于大数据治理技术实现用户画像构建的系统及方法,核心在于通过大数据治理技术获取接引并存储于数据湖中的用户行为元数据信息,并以此为核心构建用户行为数据标准及用户行为数据质量检核规则,从而构建用户行为数据标准体系及闭环质量管理体系,提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。同时通过用户行为元数据,实现用户画像数据问题的追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
本技术方案提供基于大数据治理技术实现用户画像构建的系统及方法,包括用户行为数据接引模块、用户行为数据融合模块、用户行为数据建模分析模块及用户画像产出模块,如图1所示。
下面详细描述“用户行为数据接引模块”、“用户行为数据融合模块”、“用户行为数据建模分析模块”及“用户画像产出模块”的构成和原理。
一、用户行为数据接引模块
在实际应用中,用户行为数据的来源多样,数据库不尽相同。用户行为数据接引模块拥有多源适配器,可实现对Oracle、MySQL、Sqlserver、DB2等数据库及国产数据库(达梦数据库、南大通用、人大金仓)的支持,并实现对用户行为数据的实时清洗、转换和加工,去除冗余数据,按照要求的数据格式将用户行为数据存储到数据湖中。
二、用户行为数据融合模块
由于用户行为数据来源不同,数据采用的标准不统一同时数据质量也存在各种问题,数据无法完全融合。
用户行为数据融合模块如图2所示,以元数据技术为核心,采集数据湖中用户行为元数据及用户行为数据采集、算法加工过程元数据,并将其存储至融合库中,同时以元数据为基础,参考相关标准规范制定用户行为数据标准,并通过用户行为数据融合模块实现用户行为数据标准与用户行为元数据的关联,然后在二者基础上制定用户行为数据质量规则,从而构建用户行为数据标准体系及闭环质量管理体系,提升数据湖中用户行为数据的标准化程度及用户行为数据质量,有效降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。同时基于元数据技术,实现对用户行为数据采集及加工流转过程全链分析,当用户画像出现波动时,可通过全链分析清晰掌握用户画像数据从采集到算法加工全过程,实现问题定位。
1、采集用户行为元数据:采集数据湖中数据库信息,包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键等。
2、创建用户行为数据标准:根据用户行为元数据信息,参考相关标准,建立用户行为数据标准,标准纳入用户行为数据融合模块中管理,并将制定的标准与元数据关联,标准可参考以下模型创建:
3、在数据融合模块中,根据数据标准及元数据创建质量规则,质量规则定义了用户行为数据质量的检测范围、检测属性和检测规则,可设置任务执行质量规则,实现对用户行为数据质量的检测,并可将质量问题实时反馈给相关人员,及时发现用户行为数据质量问题,从而降低用户画像波动,保证了用户画像的准确性。
三、用户行为数据建模分析模块
用户行为数据建模分析模块如图3所示,创建用户行为标签模型,实现对用户行为数据的打标签操作,并将标签数值化(标签ID),然后采用机器学习中的聚类(无监督学习)技术实现对用户行为数据标签聚类,形成不同类型的用户标签,并将标签信息存入用户标签库。
首先,从数据湖选择要建立用户画像的数据,并根据这些数据的信息建立用户行为标签表,用户行为标签表结构如下所示:
序号 |
标签名 |
标签解释 |
1 |
标签ID |
标签的唯一标识 |
2 |
用户ID |
用户的唯一标识 |
3 |
标签名称 |
标签名称 |
4 |
用户行为次数 |
用户当日与该标签相关行为次数 |
5 |
用户行为类型 |
用户通过哪些行为带来的标签 |
6 |
标签类型 |
标签类型 |
7 |
日期 |
用户行为产生标签的日期 |
用户行为标签表创建代码如下(基于Hive工具):
在进行用户画像预测(打标签)的过程中,需要建立一系列的临时表,分别存储用户行为对象信息、用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,对于不同的类型的用户行为(如浏览、搜索、购买、评论,在实际应用场景中,用户行为不仅限于这三种,下面以浏览行为为例,其他行为实现方式一样),需要分别从对应的表中获取相关数据。
假设用户行为对象为A,存储用户行为对象信息表为A_table,用户行为日志表为B_table,页面浏览表为C_table。
表A_table中存储了对象A的相关信息,如编码、名称、类型等,在实践中可能需要和其他表关联获取对象A的完整信息。
表B_table中存储了用户针对对象A的每一次浏览行为发生的时间、日期、页面url、用户id、设备id、ip地址等数据,在页面url中包含了对象A的编码信息,因此通过正则表达式可以匹配出用户浏览对象A时页面url所对应的对象A的ID,从而实现将用户操作行为存储到临时表中。
1、用户行为对象信息临时表创建代码如下:
2、建立临时表从日志数据中提取用户浏览信息,临时表创建代码如下:
其中正则表达式需要根据实际情况编写。
1、将用户浏览对象A产生的标签插入到用户行为标签表中,代码如下:
以上完成了用户行为标签表的创建工作。
最后使用聚类算法如K-means实现标签聚类,并将结果保存入库。
四、用户画像产出模块
最后,用户画像产出模块根据用户画像标签库中的用户画像数据生成API接口,供第三方系统通过调用查询用户画像信息。
下面以某手机电商平台为例,说明本发明在的具体实施方式。
该手机电商平台拥有2000万左右的网购用户,销售的各类手机1万余种。用户在平台上的行为包括浏览、搜索、购买、收藏等。在本案例中,可以获取的数据分为业务类数据和用户行为数据,业务类数据包含用户在电商平台的购买、收藏、物流等与业务有关数据;用户行为数据包含用户搜索手机信息、浏览页面、点击按钮、提交等通过操作产生的数据。该电商平台采用Oracle数据库。
在本实施案例中,将以浏览行为作为示例,其他行为实现方式一样。
一、通过用户行为数据接引模块将所需数据接引至数据湖
用户行为数据接引模块有多源适配器支持本例中的Oracle数据库,只需在用户行为接引模块中配置好该手机电商平台Oralce数据库数据源及目标数据库信息,即可完成数据接引。
接引到数据湖中的表包括:用户信息表、手机信息表、手机类目表、日志表等,具体的表信息如下(本实施案例作为示例,只填写部分数据内容):
1、用户信息表(user_basic_info)
2、手机信息表(phone_base_basic_info)
3、手机类目表(phone_std_type_df)
4、WEB端日志表(beacon_phones_client_pv_log)
二、通过用户行为数据融合模块获取用户行为元数据,制定标准规范及质量检核规则
用户行为数据融合模块采集数据湖中用户行为元数据,并存储至融合库中,采集的元数据包括用户信息表、手机信息表、手机类目表、WEB端日志表的元数据信息,采集结果如下:
1、用户信息表(user_basic_info)
2、手机信息表(phone_base_basic_info)
字段 |
字段名 |
类型 |
备注 |
phone_id |
手机ID |
varchar2(50) |
|
phone_name |
手机名称 |
varchar2(50) |
|
system |
操作系统类型 |
varchar2(20) |
|
processor |
处理器类型 |
varchar2(20) |
|
price |
价格 |
number(5) |
|
list_date |
上市日期 |
date |
|
3、手机类目表(phone_std_type_df)
字段 |
字段名 |
类型 |
备注 |
phone_id |
手机ID |
varchar2(50) |
|
phone_name |
手机名称 |
varchar2(50) |
|
phone_type_tag |
手机类型编码 |
varchar2(50) |
|
phone_type_name |
手机类型名称 |
varchar2(50) |
|
create_time |
创建时间 |
date |
|
modify_time |
更新时间 |
date |
|
4、日志表(beacon_phones_client_pv_log)
字段 |
字段名 |
类型 |
备注 |
login_id |
设备登录名 |
varchar2(50) |
|
user_id |
用户ID |
varchar2(50) |
|
session_id |
设备ID |
varchar2(50) |
|
visit_time |
访问时间 |
date |
|
province |
用户所在省份 |
varchar2(50) |
|
city |
用户所在市 |
varchar2(50) |
|
url |
页面访问链接 |
varchar2(100) |
|
system1 |
操作系统 |
number(1) |
|
在实际应用中,元数据的管理范围不仅仅是用户行为表,还包含用户行为数据的加工过程元数据、计算过程元数据等信息,从而通过元数据技术可以清晰的掌控用户画像数据加工全过程链路。
本例中以用户信息表(user_basic_info)中的性别(gender)字段为例,参考《中华人民共和国国家标准:人的性别代码(GB 2261-1980)》,可见获取的元数据中人的性别并不符合标准,因此根据国标建立用户行为数据标准,梳理的数据标准如下:
该标准制定完成后纳入用户行为融合模块统一管理,并和信息表(user_basic_info)中的性别(gender)元数据关联,然后结合性别元数据及其标准可建立数据质量检核规则,如下:
最终数据融合模块通过定时任务执行质量规则,实现对用户行为数据质量的检测,并将检核出来的质量问题通过预置的流程实时反馈给相关人员,从而建立起用户行为质量问题闭环的处理机制,降低用户画像波动,保证了用户画像的准确性。
三、通过用户行为数据建模分析模块开发用户行为标签,并进行数据标签聚类
1、创建用户行为标签表,创建代码如下(基于Hive工具):
2、建立临时表获取手机及手机类型信息:
执行代码临时表中存储的手机信息如下:
2、建立临时表从日志数据中提取用户浏览手机信息,代码如下:
建立的临时表中存储的信息如下:
user_id |
visit_time |
phone_id |
cnt |
u01021231 |
2019-03-08 11:11:00 |
p02011231 |
1 |
u01021231 |
2019-03-23 14:11:00 |
p02011232 |
1 |
u01021231 |
2019-04-18 10:00:00 |
p02011233 |
1 |
u01021232 |
2019-05-12 13:21:00 |
p02011231 |
1 |
u01021235 |
2019-01-08 11:14:12 |
p02011234 |
1 |
u01021236 |
2019-02-18 09:32:12 |
p02011232 |
1 |
2、将用户浏览手机产生的标签插入到用户行为标签表中,代码如下:
以上完成了用户行为标签表的创建工作。
最终获得的用户行为标签表内容如下所示:
最后使用聚类算法K-means实现标签聚类,并将结果保存入库。
四、利用画像产出模块生产用户画像API
通过用户画像产出模块根据用户画像标签库中的用户画像数据生成API接口,供第三方系统通过调用查询用户画像信息。
采用了本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法,提供了基于大数据治理技术实现用户画像构建的系统及方法,在用户画像构建之前引入了大数据治理技术,实现了用户行为数据标准体系及闭环质量管理体系的建立,从而提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。另外,通过用户行为元数据技术,还能对用户画像数据问题进行追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。