CN110196849B - 基于大数据治理技术实现用户画像构建处理的系统及其方法 - Google Patents

基于大数据治理技术实现用户画像构建处理的系统及其方法 Download PDF

Info

Publication number
CN110196849B
CN110196849B CN201910487607.XA CN201910487607A CN110196849B CN 110196849 B CN110196849 B CN 110196849B CN 201910487607 A CN201910487607 A CN 201910487607A CN 110196849 B CN110196849 B CN 110196849B
Authority
CN
China
Prior art keywords
user behavior
data
user
behavior data
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910487607.XA
Other languages
English (en)
Other versions
CN110196849A (zh
Inventor
魏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Primeton Information Technology Co ltd
Original Assignee
Primeton Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Primeton Information Technology Co ltd filed Critical Primeton Information Technology Co ltd
Priority to CN201910487607.XA priority Critical patent/CN110196849B/zh
Publication of CN110196849A publication Critical patent/CN110196849A/zh
Application granted granted Critical
Publication of CN110196849B publication Critical patent/CN110196849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据治理技术实现用户画像构建处理的系统,包括用户行为数据接引模块,对数据进行实时清洗,去除冗余数据;用户行为数据融合模块,构建用户行为数据标准和用户行为数据质量检核规则;用户行为数据建模分析模块,用于创建用户行为标签模型,标签用户行为数据;用户画像产出模块,用于根据用户标签库数据生成用户画像API接口。本发明还涉及一种实现基于大数据治理技术的用户画像构建处理的方法。采用了本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法,实现了用户行为数据标准体系及闭环质量管理体系的建立,从而提升用户行为数据的标准化程度及用户行为数据质量,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。

Description

基于大数据治理技术实现用户画像构建处理的系统及其方法
技术领域
本发明涉及数据处理技术领域,尤其涉及用户画像构建领域,具体是指一种基于大数据治理技术实现用户画像构建处理的系统及其方法。
背景技术
在进入大数据时代,精细化运营成为企业重要的竞争力,而“用户画像”是实现企业精细化运营的有力手段。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。依托于企业多年积累的海量数据及强大的数据分析能力,将数据抽象成标签,并通过标签将用户形象具体化,以此形成用户画像,通过用户画像可帮助企业了解用户信息,实现目标用户精准筛选,提升企业在大数据时代的竞争力。
现有的用户画像构建方法,主要是通过对海量多源异构用户行为数据的收集、处理、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,形成用户画像,从而了解用户的信息。下面分别从用户行为数据的收集、处理和分析三个步骤说明现有的用户画像构建方法:
一、用户行为数据收集:
采用数据集成工具收集用户行为数据,如:年龄、性别、身高、体重、职业、收入、消费能力、兴趣爱好等数据,并将收集的用户行为数据集中存储。
二、用户行为数据处理:
使用大数据工具对用户行为数据进行清洗,去除冗余数据,在数据处理过程中会使用到交互计算和多种复杂算法,一定程度上保证数据的质量。
三、用户行为数据建模:
使用机器学习等技术,实现用户行为数据建模,模型实现对用户行为数据主动学习,进行用户行为判断,产出用户标签。
经过以上三步,形成了用户画像数据,基于用户画像可实现精准的内容推荐,实现千人千面运营。
现有的技术实现了用户画像的构建,满足了企业对于用户画像构建的需求。但是在实际的应用中,用户画像会产生一定的波动,现有的技术仅仅依靠单个或者几个大数据工具对用户行为数据进行清洗、处理,缺乏成体系的闭环的质量管控措施,并不能很好的控制用户画像的波动。
其次,对于用户行为数据的处理缺乏相关的依据,无法形成统一权威的标准,就这造成了产生的用户画像缺乏权威性,难以得到各方的认同。
最后,用户画像是经过很多步骤处理产生的,当用户画像出现波动时,现有的技术无法对用户画像产生过程进行追溯,要想查找用户画像波动根源费时费力。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种准确性高、操作简便、适用范围较为广泛的基于大数据治理技术实现用户画像构建处理的系统及其方法。
为了实现上述目的,本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法如下:
该基于大数据治理技术实现用户画像构建处理的系统,其主要特点是,所述的系统包括:
用户行为数据接引模块,用于接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
用户行为数据融合模块,与所述的用户行为数据接引模块相连接,用于获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
用户行为数据建模分析模块,与所述的用户行为数据接引模块和用户行为数据融合模块相连接,用于创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
用户画像产出模块,与所述的用户行为数据建模分析模块相连接,用于根据用户标签库数据生成用户画像API接口。
较佳地,所述的用户行为数据融合模块包括:
采集元数据单元,与所述的用户行为数据接引模块相连接,用于采集数据湖中数据库信息;
创建标准单元,与所述的采集元数据单元相连接,用于根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
创建质量规则单元,与所述的创建标准单元相连接,用于定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
较佳地,所述的采集元数据单元采集的数据库信息包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键。
较佳地,所述的用户行为数据接引模块包括多源适配器。
较佳地,所述的用户行为数据建模分析模块包括:
标签建模单元,与所述的融合库相连接,用于根据用户画像的数据建立用户行为标签表;
画像预测单元,与所述的标签建模单元相连接,用于建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
标签聚类单元,与所述的画像预测单元相连接,用于通过聚类计算实现标签聚类,将结果保存入库。
较佳地,所述的用户行为数据接引模块接引至数据湖中的数据包括用户信息表、手机信息表、手机类目表和日志表。
较佳地,所述的用户行为数据融合模块采集的元数据包括用户信息表、手机信息表、手机类目表和WEB端日志表的元数据信息。
较佳地,所述的用户行为数据融合模块采集的元数据还包括用户行为数据的加工过程元数据以及计算过程元数据信息。
较佳地,所述的标签聚类单元通过K-means聚类算法计算并实现标签聚类。
该利用上述系统实现基于大数据治理技术的用户画像构建处理的方法,其主要特点是,所述的方法包括以下步骤:
(1)所述的用户行为数据接引模块接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
(2)所述的用户行为数据融合模块获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
(3)所述的用户行为数据建模分析模块创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
(4)所述的用户画像产出模块根据用户标签库数据生成用户画像API接口。
较佳地,所述的用户行为数据融合模块包括采集元数据单元、创建标准单元和创建质量规则单元,所述的步骤(2)具体包括以下步骤:
(2.1)所述的采集元数据单元采集数据湖中数据库信息;
(2.2)所述的创建标准单元根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
(2.3)所述的创建质量规则单元定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
较佳地,所述的用户行为数据建模分析模块包括标签建模单元、画像预测单元和标签聚类单元,所述的步骤(3)具体包括以下步骤:
(3.1)所述的标签建模单元根据用户画像的数据建立用户行为标签表;
(3.2)所述的画像预测单元建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
(3.3)所述的标签聚类单元通过聚类计算实现标签聚类,将结果保存入库。
采用了本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法,提供了基于大数据治理技术实现用户画像构建的系统及方法,在用户画像构建之前引入了大数据治理技术,实现了用户行为数据标准体系及闭环质量管理体系的建立,从而提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。另外,通过用户行为元数据技术,还能对用户画像数据问题进行追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
附图说明
图1为本发明的基于大数据治理技术实现用户画像构建处理的系统的结构示意图。
图2为本发明的基于大数据治理技术实现用户画像构建处理的系统的用户行为数据融合模块的结构示意图。
图3为本发明的基于大数据治理技术实现用户画像构建处理的系统的用户行为数据建模分析模块的结构示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该基于大数据治理技术实现用户画像构建处理的系统,其中包括:
用户行为数据接引模块,用于接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
用户行为数据融合模块,与所述的用户行为数据接引模块相连接,用于获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
用户行为数据建模分析模块,与所述的用户行为数据接引模块和用户行为数据融合模块相连接,用于创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
用户画像产出模块,与所述的用户行为数据建模分析模块相连接,用于根据用户标签库数据生成用户画像API接口。
作为本发明的优选实施方式,所述的用户行为数据融合模块包括:
采集元数据单元,与所述的用户行为数据接引模块相连接,用于采集数据湖中数据库信息;
创建标准单元,与所述的采集元数据单元相连接,用于根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
创建质量规则单元,与所述的创建标准单元相连接,用于定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则。
作为本发明的优选实施方式,所述的采集元数据单元采集的数据库信息包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键。
作为本发明的优选实施方式,所述的用户行为数据接引模块包括多源适配器。
作为本发明的优选实施方式,所述的用户行为数据建模分析模块包括:
标签建模单元,与所述的融合库相连接,用于根据用户画像的数据建立用户行为标签表;
画像预测单元,与所述的标签建模单元相连接,用于建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
标签聚类单元,与所述的画像预测单元相连接,用于通过聚类计算实现标签聚类,将结果保存入库。
作为本发明的优选实施方式,所述的用户行为数据接引模块接引至数据湖中的数据包括用户信息表、手机信息表、手机类目表和日志表。
作为本发明的优选实施方式,所述的用户行为数据融合模块采集的元数据包括用户信息表、手机信息表、手机类目表和WEB端日志表的元数据信息。
作为本发明的优选实施方式,所述的用户行为数据融合模块采集的元数据还包括用户行为数据的加工过程元数据以及计算过程元数据信息。
作为本发明的优选实施方式,所述的标签聚类单元通过K-means聚类算法计算并实现标签聚类。
本发明的该利用上述系统实现基于大数据治理技术的用户画像构建处理的方法,其中包括以下步骤:
(1)所述的用户行为数据接引模块接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
(2)所述的用户行为数据融合模块获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
(2.1)所述的采集元数据单元采集数据湖中数据库信息;
(2.2)所述的创建标准单元根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
(2.3)所述的创建质量规则单元定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则;
(3)所述的用户行为数据建模分析模块创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
(3.1)所述的标签建模单元根据用户画像的数据建立用户行为标签表;
(3.2)所述的画像预测单元建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
(3.3)所述的标签聚类单元通过聚类计算实现标签聚类,将结果保存入库;
(4)所述的用户画像产出模块根据用户标签库数据生成用户画像API接口。
本发明的具体实施方式中,本发明提供基于大数据治理技术实现用户画像构建的系统及方法,包括用户行为数据接引模块、用户行为数据融合模块、用户行为数据建模分析模块及用户画像产出模块。
在大数据时代,通过对海量数据进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,形成用户画像。但是在处理海量多源异构数据时,仅仅依靠单个或者几个工具的能力去处理,往往造成用户画像波动,影响结果的准确性,同时出现用户画像波动时,查找原因较为困难。
本发明通过用户行为数据接引模块,实现海量多源异构的用户行为数据的接引,并对数据进行实时清洗,去除冗余数据,将接引数据存储到数据湖中。用户行为数据融合模块采用大数据治理技术获取数据湖中的用户行为元数据信息,并以此为核心构建用户行为数据标准及用户行为数据质量检核规则,以此提升数据湖中用户行为数据的标准化程度及数据质量,使得用户行为数据能够有机融合,并将元数据、数据标准、质量规则存入融合库中。用户行为数据建模分析模块创建用户行为标签模型并实现对用户行为数据打标签操作,采用机器学习中的聚类(无监督学习)技术实现对用户行为数据的标签聚类,形成不同类型的用户标签,并将标签信息存入用户标签库。最终用户画像产出模块根据用户标签库数据生成用户画像API接口,供第三方系统通过调用API接口查询用户画像信息。
本发明提供了基于大数据治理技术实现用户画像构建的系统及方法,核心在于通过大数据治理技术获取接引并存储于数据湖中的用户行为元数据信息,并以此为核心构建用户行为数据标准及用户行为数据质量检核规则,从而构建用户行为数据标准体系及闭环质量管理体系,提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。同时通过用户行为元数据,实现用户画像数据问题的追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
本技术方案提供基于大数据治理技术实现用户画像构建的系统及方法,包括用户行为数据接引模块、用户行为数据融合模块、用户行为数据建模分析模块及用户画像产出模块,如图1所示。
下面详细描述“用户行为数据接引模块”、“用户行为数据融合模块”、“用户行为数据建模分析模块”及“用户画像产出模块”的构成和原理。
一、用户行为数据接引模块
在实际应用中,用户行为数据的来源多样,数据库不尽相同。用户行为数据接引模块拥有多源适配器,可实现对Oracle、MySQL、Sqlserver、DB2等数据库及国产数据库(达梦数据库、南大通用、人大金仓)的支持,并实现对用户行为数据的实时清洗、转换和加工,去除冗余数据,按照要求的数据格式将用户行为数据存储到数据湖中。
二、用户行为数据融合模块
由于用户行为数据来源不同,数据采用的标准不统一同时数据质量也存在各种问题,数据无法完全融合。
用户行为数据融合模块如图2所示,以元数据技术为核心,采集数据湖中用户行为元数据及用户行为数据采集、算法加工过程元数据,并将其存储至融合库中,同时以元数据为基础,参考相关标准规范制定用户行为数据标准,并通过用户行为数据融合模块实现用户行为数据标准与用户行为元数据的关联,然后在二者基础上制定用户行为数据质量规则,从而构建用户行为数据标准体系及闭环质量管理体系,提升数据湖中用户行为数据的标准化程度及用户行为数据质量,有效降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。同时基于元数据技术,实现对用户行为数据采集及加工流转过程全链分析,当用户画像出现波动时,可通过全链分析清晰掌握用户画像数据从采集到算法加工全过程,实现问题定位。
1、采集用户行为元数据:采集数据湖中数据库信息,包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键等。
2、创建用户行为数据标准:根据用户行为元数据信息,参考相关标准,建立用户行为数据标准,标准纳入用户行为数据融合模块中管理,并将制定的标准与元数据关联,标准可参考以下模型创建:
Figure BDA0002085919890000081
3、在数据融合模块中,根据数据标准及元数据创建质量规则,质量规则定义了用户行为数据质量的检测范围、检测属性和检测规则,可设置任务执行质量规则,实现对用户行为数据质量的检测,并可将质量问题实时反馈给相关人员,及时发现用户行为数据质量问题,从而降低用户画像波动,保证了用户画像的准确性。
三、用户行为数据建模分析模块
用户行为数据建模分析模块如图3所示,创建用户行为标签模型,实现对用户行为数据的打标签操作,并将标签数值化(标签ID),然后采用机器学习中的聚类(无监督学习)技术实现对用户行为数据标签聚类,形成不同类型的用户标签,并将标签信息存入用户标签库。
首先,从数据湖选择要建立用户画像的数据,并根据这些数据的信息建立用户行为标签表,用户行为标签表结构如下所示:
序号 标签名 标签解释
1 标签ID 标签的唯一标识
2 用户ID 用户的唯一标识
3 标签名称 标签名称
4 用户行为次数 用户当日与该标签相关行为次数
5 用户行为类型 用户通过哪些行为带来的标签
6 标签类型 标签类型
7 日期 用户行为产生标签的日期
用户行为标签表创建代码如下(基于Hive工具):
Figure BDA0002085919890000091
在进行用户画像预测(打标签)的过程中,需要建立一系列的临时表,分别存储用户行为对象信息、用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,对于不同的类型的用户行为(如浏览、搜索、购买、评论,在实际应用场景中,用户行为不仅限于这三种,下面以浏览行为为例,其他行为实现方式一样),需要分别从对应的表中获取相关数据。
假设用户行为对象为A,存储用户行为对象信息表为A_table,用户行为日志表为B_table,页面浏览表为C_table。
表A_table中存储了对象A的相关信息,如编码、名称、类型等,在实践中可能需要和其他表关联获取对象A的完整信息。
表B_table中存储了用户针对对象A的每一次浏览行为发生的时间、日期、页面url、用户id、设备id、ip地址等数据,在页面url中包含了对象A的编码信息,因此通过正则表达式可以匹配出用户浏览对象A时页面url所对应的对象A的ID,从而实现将用户操作行为存储到临时表中。
1、用户行为对象信息临时表创建代码如下:
Figure BDA0002085919890000101
2、建立临时表从日志数据中提取用户浏览信息,临时表创建代码如下:
Figure BDA0002085919890000102
其中正则表达式需要根据实际情况编写。
1、将用户浏览对象A产生的标签插入到用户行为标签表中,代码如下:
Figure BDA0002085919890000103
以上完成了用户行为标签表的创建工作。
最后使用聚类算法如K-means实现标签聚类,并将结果保存入库。
四、用户画像产出模块
最后,用户画像产出模块根据用户画像标签库中的用户画像数据生成API接口,供第三方系统通过调用查询用户画像信息。
下面以某手机电商平台为例,说明本发明在的具体实施方式。
该手机电商平台拥有2000万左右的网购用户,销售的各类手机1万余种。用户在平台上的行为包括浏览、搜索、购买、收藏等。在本案例中,可以获取的数据分为业务类数据和用户行为数据,业务类数据包含用户在电商平台的购买、收藏、物流等与业务有关数据;用户行为数据包含用户搜索手机信息、浏览页面、点击按钮、提交等通过操作产生的数据。该电商平台采用Oracle数据库。
在本实施案例中,将以浏览行为作为示例,其他行为实现方式一样。
一、通过用户行为数据接引模块将所需数据接引至数据湖
用户行为数据接引模块有多源适配器支持本例中的Oracle数据库,只需在用户行为接引模块中配置好该手机电商平台Oralce数据库数据源及目标数据库信息,即可完成数据接引。
接引到数据湖中的表包括:用户信息表、手机信息表、手机类目表、日志表等,具体的表信息如下(本实施案例作为示例,只填写部分数据内容):
1、用户信息表(user_basic_info)
Figure BDA0002085919890000111
2、手机信息表(phone_base_basic_info)
Figure BDA0002085919890000112
Figure BDA0002085919890000121
3、手机类目表(phone_std_type_df)
Figure BDA0002085919890000122
4、WEB端日志表(beacon_phones_client_pv_log)
Figure BDA0002085919890000123
二、通过用户行为数据融合模块获取用户行为元数据,制定标准规范及质量检核规则
用户行为数据融合模块采集数据湖中用户行为元数据,并存储至融合库中,采集的元数据包括用户信息表、手机信息表、手机类目表、WEB端日志表的元数据信息,采集结果如下:
1、用户信息表(user_basic_info)
Figure BDA0002085919890000131
2、手机信息表(phone_base_basic_info)
字段 字段名 类型 备注
phone_id 手机ID varchar2(50)
phone_name 手机名称 varchar2(50)
system 操作系统类型 varchar2(20)
processor 处理器类型 varchar2(20)
price 价格 number(5)
list_date 上市日期 date  
3、手机类目表(phone_std_type_df)
字段 字段名 类型 备注
phone_id 手机ID varchar2(50)
phone_name 手机名称 varchar2(50)
phone_type_tag 手机类型编码 varchar2(50)
phone_type_name 手机类型名称 varchar2(50)
create_time 创建时间 date
modify_time 更新时间 date  
4、日志表(beacon_phones_client_pv_log)
字段 字段名 类型 备注
login_id 设备登录名 varchar2(50)
user_id 用户ID varchar2(50)
session_id 设备ID varchar2(50)
visit_time 访问时间 date
province 用户所在省份 varchar2(50)
city 用户所在市 varchar2(50)
url 页面访问链接 varchar2(100)
system1 操作系统 number(1)  
在实际应用中,元数据的管理范围不仅仅是用户行为表,还包含用户行为数据的加工过程元数据、计算过程元数据等信息,从而通过元数据技术可以清晰的掌控用户画像数据加工全过程链路。
本例中以用户信息表(user_basic_info)中的性别(gender)字段为例,参考《中华人民共和国国家标准:人的性别代码(GB 2261-1980)》,可见获取的元数据中人的性别并不符合标准,因此根据国标建立用户行为数据标准,梳理的数据标准如下:
Figure BDA0002085919890000141
该标准制定完成后纳入用户行为融合模块统一管理,并和信息表(user_basic_info)中的性别(gender)元数据关联,然后结合性别元数据及其标准可建立数据质量检核规则,如下:
Figure BDA0002085919890000142
最终数据融合模块通过定时任务执行质量规则,实现对用户行为数据质量的检测,并将检核出来的质量问题通过预置的流程实时反馈给相关人员,从而建立起用户行为质量问题闭环的处理机制,降低用户画像波动,保证了用户画像的准确性。
三、通过用户行为数据建模分析模块开发用户行为标签,并进行数据标签聚类
1、创建用户行为标签表,创建代码如下(基于Hive工具):
Figure BDA0002085919890000143
2、建立临时表获取手机及手机类型信息:
Figure BDA0002085919890000144
Figure BDA0002085919890000151
执行代码临时表中存储的手机信息如下:
Figure BDA0002085919890000152
2、建立临时表从日志数据中提取用户浏览手机信息,代码如下:
Figure BDA0002085919890000153
建立的临时表中存储的信息如下:
user_id visit_time phone_id cnt
u01021231 2019-03-08 11:11:00 p02011231 1
u01021231 2019-03-23 14:11:00 p02011232 1
u01021231 2019-04-18 10:00:00 p02011233 1
u01021232 2019-05-12 13:21:00 p02011231 1
u01021235 2019-01-08 11:14:12 p02011234 1
u01021236 2019-02-18 09:32:12 p02011232 1
2、将用户浏览手机产生的标签插入到用户行为标签表中,代码如下:
Figure BDA0002085919890000154
Figure BDA0002085919890000161
以上完成了用户行为标签表的创建工作。
最终获得的用户行为标签表内容如下所示:
Figure BDA0002085919890000162
最后使用聚类算法K-means实现标签聚类,并将结果保存入库。
四、利用画像产出模块生产用户画像API
通过用户画像产出模块根据用户画像标签库中的用户画像数据生成API接口,供第三方系统通过调用查询用户画像信息。
采用了本发明的基于大数据治理技术实现用户画像构建处理的系统及其方法,提供了基于大数据治理技术实现用户画像构建的系统及方法,在用户画像构建之前引入了大数据治理技术,实现了用户行为数据标准体系及闭环质量管理体系的建立,从而提升用户行为数据的标准化程度及用户行为数据质量,降低用户画像波动,解决目前用户画像技术中标准不统一、质量管理薄弱的问题。另外,通过用户行为元数据技术,还能对用户画像数据问题进行追溯定位,解决了目前用户画像技术中难以追溯造成用户画像波动原因的弊端。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (8)

1.一种基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的系统包括:
用户行为数据接引模块,用于接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
用户行为数据融合模块,与所述的用户行为数据接引模块相连接,用于获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
用户行为数据建模分析模块,与所述的用户行为数据接引模块和用户行为数据融合模块相连接,用于创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
用户画像产出模块,与所述的用户行为数据建模分析模块相连接,用于根据用户标签库数据生成用户画像API接口;
所述的用户行为数据融合模块包括:
采集元数据单元,与所述的用户行为数据接引模块相连接,用于采集数据湖中数据库信息;
创建标准单元,与所述的采集元数据单元相连接,用于根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
创建质量规则单元,与所述的创建标准单元相连接,用于定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则;
所述的用户行为数据建模分析模块包括:
标签建模单元,与所述的融合库相连接,用于根据用户画像的数据建立用户行为标签表;
画像预测单元,与所述的标签建模单元相连接,用于建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
标签聚类单元,与所述的画像预测单元相连接,用于通过聚类计算实现标签聚类,将结果保存入库。
2.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的采集元数据单元采集的数据库信息包括用户行为对象信息、用户行为日志信息的相关的表名、字段名、视图、关系、主键和外键。
3.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的用户行为数据接引模块包括多源适配器。
4.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的用户行为数据接引模块接引至数据湖中的数据包括用户信息表、手机信息表、手机类目表和日志表。
5.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的用户行为数据融合模块采集的元数据包括用户信息表、手机信息表、手机类目表和WEB端日志表的元数据信息。
6.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的用户行为数据融合模块采集的元数据还包括用户行为数据的加工过程元数据以及计算过程元数据信息。
7.根据权利要求1所述的基于大数据治理技术实现用户画像构建处理的系统,其特征在于,所述的标签聚类单元通过K-means聚类算法计算并实现标签聚类。
8.一种利用权利要求1所述的系统实现基于大数据治理技术的用户画像构建处理的方法,其特征在于,所述的方法包括以下步骤:
(1)所述的用户行为数据接引模块接引用户行为数据,对数据进行实时清洗,去除冗余数据,并将接引数据存储到数据湖中;
(2)所述的用户行为数据融合模块获取用户行为元数据信息,构建用户行为数据标准和用户行为数据质量检核规则,并将元数据、数据标准和质量规则存入融合库中;
(3)所述的用户行为数据建模分析模块创建用户行为标签模型,标签用户行为数据,并对用户行为数据的标签聚类和存储;
(4)所述的用户画像产出模块根据用户标签库数据生成用户画像API接口;
所述的用户行为数据融合模块包括采集元数据单元、创建标准单元和创建质量规则单元,所述的步骤(2)具体包括以下步骤:
(2.1)所述的采集元数据单元采集数据湖中数据库信息;
(2.2)所述的创建标准单元根据用户行为元数据信息,参考相关标准,建立用户行为数据标准;
(2.3)所述的创建质量规则单元定义用户行为数据质量的检测范围、检测属性和检测规则,并设置任务执行质量规则;
所述的用户行为数据建模分析模块包括标签建模单元、画像预测单元和标签聚类单元,所述的步骤(3)具体包括以下步骤:
(3.1)所述的标签建模单元根据用户画像的数据建立用户行为标签表;
(3.2)所述的画像预测单元建立临时表,存储用户行为对象信息和用户行为日志信息,并将用户行为产生的标签插入到用户行为表中,分别从对应的表中获取不同的类型的用户行为数据;
(3.3)所述的标签聚类单元通过聚类计算实现标签聚类,将结果保存入库。
CN201910487607.XA 2019-06-05 2019-06-05 基于大数据治理技术实现用户画像构建处理的系统及其方法 Active CN110196849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487607.XA CN110196849B (zh) 2019-06-05 2019-06-05 基于大数据治理技术实现用户画像构建处理的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487607.XA CN110196849B (zh) 2019-06-05 2019-06-05 基于大数据治理技术实现用户画像构建处理的系统及其方法

Publications (2)

Publication Number Publication Date
CN110196849A CN110196849A (zh) 2019-09-03
CN110196849B true CN110196849B (zh) 2023-04-18

Family

ID=67754067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487607.XA Active CN110196849B (zh) 2019-06-05 2019-06-05 基于大数据治理技术实现用户画像构建处理的系统及其方法

Country Status (1)

Country Link
CN (1) CN110196849B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444368B (zh) * 2020-03-25 2023-01-17 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN113672818B (zh) * 2020-05-13 2023-11-14 中南大学 一种获取社交媒体用户画像的方法及系统
CN116226894B (zh) * 2023-05-10 2023-08-04 杭州比智科技有限公司 一种基于元仓的数据安全治理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN105741134A (zh) * 2016-01-26 2016-07-06 北京百分点信息科技有限公司 跨数据源的营销人群在市场营销中应用的方法及装置
CN107016103A (zh) * 2017-04-12 2017-08-04 北京焦点新干线信息技术有限公司 一种构建用户画像的方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN105608171B (zh) * 2015-12-22 2018-12-11 青岛海贝易通信息技术有限公司 用户画像构建方法
CN110378731B (zh) * 2016-04-29 2021-04-20 腾讯科技(深圳)有限公司 获取用户画像的方法、装置、服务器及存储介质
CN106373026A (zh) * 2016-08-24 2017-02-01 国网冀北电力有限公司电力科学研究院 一种电力行业的用户画像构建方法
CN106446045B (zh) * 2016-08-31 2020-01-21 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN106980663A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏行为数据的用户画像方法
CN107229708B (zh) * 2017-05-27 2019-12-17 科技谷(厦门)信息技术有限公司 一种个性化出行服务大数据应用系统及方法
CN107341206B (zh) * 2017-06-23 2019-11-29 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统的方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法
CN108021929B (zh) * 2017-11-16 2023-01-10 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN108829721A (zh) * 2018-05-08 2018-11-16 浪潮软件集团有限公司 一种基于数据模型的科技用户画像构建方法及系统
CN109002490B (zh) * 2018-06-26 2020-09-04 腾讯科技(北京)有限公司 用户画像生成方法、装置、服务器及存储介质
CN109213802B (zh) * 2018-08-16 2020-12-22 北京百度网讯科技有限公司 用户画像构建方法、装置、终端和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN105741134A (zh) * 2016-01-26 2016-07-06 北京百分点信息科技有限公司 跨数据源的营销人群在市场营销中应用的方法及装置
CN107016103A (zh) * 2017-04-12 2017-08-04 北京焦点新干线信息技术有限公司 一种构建用户画像的方法及装置

Also Published As

Publication number Publication date
CN110196849A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110196849B (zh) 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN111831636B (zh) 一种数据处理方法、装置、计算机系统及可读存储介质
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN108491378B (zh) 电力信息运维智能应答系统
CN104090907A (zh) 一种用于特定应用领域的向用户提供信息的方法与装置
CN101789006A (zh) 基于智能搜索的电网企业信息集成系统的快速检索方法
CN102760058B (zh) 面向大规模协作开发的海量软件项目共享方法
US10924551B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
CN110515999A (zh) 通用记录处理方法、装置、电子设备及存储介质
CN105824872A (zh) 基于搜索的数据的检测、链接和获取的方法和系统
CN103399968B (zh) 一种微博信息采集方法及系统
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN107748748A (zh) 水利水电技术标准全文检索系统
CN110400101A (zh) 行业报告分析系统及方法
CN113722564A (zh) 基于空间图卷积能源物资供应链的可视化方法及装置
CN117236624A (zh) 一种基于动态图的Issue修复者推荐方法与装置
US20180150543A1 (en) Unified multiversioned processing of derived data
Kuhrmann et al. A mapping study on method engineering: first results
CN113344604B (zh) 一种基于用户行为数据及流计算的用户细分方法
CN114331566A (zh) 一种基于标签分群的推送方法、系统及装置
TW202305613A (zh) 資訊倉庫創建方法、電子設備及儲存介質
Xu The ever-changing face of Chinese interpreting studies: A social network analysis
CN108132940A (zh) 一种应用程序数据提取方法及装置
CN113282683A (zh) 设备画像的确定方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant