CN108021929B - 基于大数据的移动端电商用户画像建立与分析方法及系统 - Google Patents
基于大数据的移动端电商用户画像建立与分析方法及系统 Download PDFInfo
- Publication number
- CN108021929B CN108021929B CN201711136040.9A CN201711136040A CN108021929B CN 108021929 B CN108021929 B CN 108021929B CN 201711136040 A CN201711136040 A CN 201711136040A CN 108021929 B CN108021929 B CN 108021929B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- offline
- portrait
- mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000000275 quality assurance Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000005206 flow analysis Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000005111 flow chemistry technique Methods 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于大数据的移动端电商用户画像建立与分析方法,包括以下步骤:获取用户离线数据;根据识别码将不同数据源的数据融合形成离线知识库;对离线数据进行归一化、离散化及属性约简等预处理;根据定制的标签规则对离线数据进行特征提取,构建用户基础标签;对标签数据进行权重及时间衰减因子处理,建立基于质量保证集QPS聚类算法的用户画像离线预测模型;利用预测模型对离线知识库进行数据聚类挖掘,得到移动端的电商用户画像;对于在线行为数据进行分布式处理再和离线模型融合。本发明在大数据环境下分析移动端电商交易的海量数据,能够快速的分析实时用户行为并进行实时画像融合,构建出多维度用户画像,利于对电商用户全面分析。
Description
技术领域
本发明涉及数据处理与分析技术领域,特别涉及基于大数据的移动端电商用户画像建立与分析方法。
背景技术
用户画像又称为用户角色(Persona),即用户信息标签化,是一种勾画目标用户、联系用户诉求和设计方向的有效方式,其目标是在很多的维度上建立针对用户的描述性标签属性。它是通过收集与分析用户基本属性、社会属性、生活习惯、消费行为等信息的数据,抽象出一个用户全貌来挖掘用户需求和分析用户偏好,支撑个性化推荐、自动化营销等大数据应用的基本方式。举例来说,在产品开发时,可以分析用户画像,对产品进行定位与规划;在产品推广时,可以分析用户画像,挖掘潜在客户群体,进行有针对性的产品推荐。
大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,而用户画像是大数据技术的重要应用。随着信息技术的不断发展,目前用户画像已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验,成为了网络服务背后强大的后台支撑。
随着移动端技术、移动网络技术和互联网技术的飞速发展,信息获取已经由通过固定计算机有线上网的方式发展为各类智能移动终端互联的方式。然而相比PC时代,移动网络使用户不离线,移动时代下用户数据就像是散落的拼图,刻画一个移动端用户也变得更加困难。由于用户数据的碎片化,用户在不同时空设备获取信息并做决策,散落的拼图块不能代表一个人,将拼图块收集拼接才能完整刻画一个人。在移动画像中,由于受Android山寨机和刷机的影响,也让传统的设备号(如手机串号IMEI,CDMA手机的MEID,网络适配器地址MAC,CPU串号等)作为唯一性标识带来影响。对于多账号体系,各方数据持有者的用户数据基本都是封闭的,未能在全网层面打通共享的数据孤岛。这对数据使用者造成无法在全网范围内了解用户的行为偏好,并结合其行业需求对数据进行个性化的数据挖掘,对生成符合行业应用的用户画像造成一定困难。
目前的电商行业中,构建用户画像的方法一般是根据用户在站内的访问商品类目等行为的日志保存下来,然后在一定的时间窗口内,遍历所有的用户行为日志,按照某些权重衰减函数对其进行计算,得到当前最新用户画像。该方式存在的问题是获取的数据比较片面,仅有该站内的用户数据,对于用户在其他网站上的访问行为则一无所知;另一方面,当用户数据达到足够的密集程度之后,用户的描述性标签属性虽然表现为较高的稳定性,但是以上方法也存在灵活变化的适应能力不足的问题,特别是不能适应用户数据发生阶跃式突变的情况。
为了解决上述技术问题,国内孙东等学者提出了对互联网数据细分类别,然后进行标签自动归并,以此将类别进行统一的方法。吴震等学者则提出根据发生时间先后为用户数据分配权重的方法来缓解该问题,发生时间距离越近的用户数据在统计分布规律上具有的权重越大,这样能够加快将体现用户当前阶段真实特征的用户数据转化为描述性标签属性的进程。在构建用户画像算法方面,有一些基于聚类的用户画像的自动构建方法被很多学者相继提出,较多的已有研究采用了传统的K-Means算法,而该算法在聚类过程中存在一些致命的问题:一方面无法保证分组后类簇内的相似性质量指标QPS,另一方面需要人为的选定聚类数量和初始质心,存在一定的随机性,且通常画像类簇数无法在之前预知,让整个过程不可预测且不稳定。
为了克服K-Means算法需要在分类之前需要硬性指定分类数目的问题,通常需要选定不同的初始K值进行多组实验取最优的方法。Aquino等学者在做用户画像研究中就基于K-Means进行了多组实验对比。类似的,Weber和Jaimes等学者将此方法用于挖掘用户在使用搜索引擎时的检索关键词的语义关系,以此构建用户画像来定向广告营销。虽然近几年在构建用户画像已经开展了一些研究工作,但目前已有研究还具有一定的局限性,如数据片段化、数据封闭、算法效率低等原因造成用户画像不够精准的问题。离线训练效率低,同时还没有完善的机制配合对实时用户做出反馈,因此存在电商交易转化率低下等问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供基于大数据的移动端电商用户画像建立与分析方法,对于收集的信息进行移动统一识别码分类,将各账号体系互联起来,按照标签规则进行特征提取,得到用户画像标签,再对标签数据进行权重和时间衰减因子处理,建立用户画像离线预测模型,对离线测试样本进行数据聚类挖掘分析,得到移动端的电商用户画像,对于线上数据,则采集当前用户行为日志作标签,进行用户画像更新,与离线模型融合。
本发明的另一目的在于提供基于大数据的移动端电商用户画像建立与分析系统。
本发明的目的通过以下的技术方案实现:
基于大数据的移动端电商用户画像建立与分析方法,包括以下步骤:
S1、搜集移动端电商用户的数据,所述数据包括用户基础属性、移动设备属性、位置属性和历史交易行为数据;
S2、给每一个移动终端设备分配一个唯一的移动统一识别码MID,根据MID将各类数据融合,形成离线知识库;
S3、对离线数据进行归一化、离散化以及属性约简等预处理,得到离线测试样本;
S4、根据数据使用者需求定制标签规则,按照规则对预处理后的数据进行特征提取,构建用户画像的基础标签;
S5、对用户画像的基础标签数据进行权重及时间衰减因子处理,并通过训练样本方式建立基于质量保证集QPS的聚类算法的用户画像离线预测模型,确定用户画像分类类别的集合;
S6、将训练好的用户画像离线预测模型对离线测试样本进行数据聚类挖掘分析,得到移动端的电商用户画像;
S7、对于在线的用户行为数据进行实时采集,不断地经过分布式流处理得到最新的用户画像基础标签,并与离线预测模型数据融合。
所述步骤S1所述用户基础属性包含:用户性别、年龄、职业等个人信息和移动端不同数据源的不同账号体系;所述移动设备属性包含:所属运营商、网络类型、归属地、设备品牌型号、操作系统、屏幕分辨率、CPU和上市时间;所述位置属性包含线上即时位置和线下常用位置;所述历史交易行为数据包含:浏览、关注收藏、加入购物车、下单和购买。
所述步骤S2中的融合方法过程为,建立一个标准机型的机型配置库,将移动设备号统一标准化,再将各账号体系归并互联到一起,最后通过安全机制和一致性hash校验,按照移动设备号,确保MID能区分到每一部移动设备;
所述步骤S4中的定制标签规则的具体方法为:根据数据使用者需求准备基础数据和标签规则,标签规则为根据数据使用者需求配置与规则映射关系,构建规则库;然后利用规则库对基础数据进行处理,得到用户画像的标签;
所述步骤S7中,实时流分析结果与离线模型的融合具体方法为:实时采集当前用户在线上的行为日志,日志中包含用户标识、兴趣标识和行为类型标识,根据用户行为数据中携带的用户标识获取用户最近一次更新的用户画像,再根据兴趣标识、行为类型标识和用户画像中携带的第二兴趣标识对用户画像进行更新。
本发明的另一目的通过以下的技术方案实现:
基于大数据的移动端电商用户画像建立与分析系统,包括数据输入层、离线批处理层、实时处理层、和画像展示层;其中
数据输入层,从各类移动端电商用户的交易日志数据中,搜集移动端的电商用户数据并进行预处理;
离线批处理层,负责对预处理之后的数据进行离线的分析处理,基于Spark开源计算框架的映射化简模式对预处理后的数据进行特征提取,从而得到用户的属性特征;对标签数据进行权重及时间衰减因子处理,建立基于质量保证集QPS的聚类算法的用户画像离线预测模型;
实时处理层,通过Spark Streaming进行实时流计算,对当前用户行为数据进行标签分析并和离线模型融合起来;
画像展示层,最终不断更新和完善特征库,根据业务需求定义聚类质量指标,通过上述Spark聚类过程将用户的所有属性标签关联起来构成用户画像。
所述数据输入层对移动端的电商用户数据进行数据预处理后,形成规范的日志格式化,即将终端上报的日志数据按照统一规范形成后续数据分析所需要的基本信息;所述数据输入层采用Kafka高吞吐消息队列。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出根据MID将各类数据融合,实现全网层面数据共享,让数据使用者可以在全网范围内准确了解用户的行为偏好,并结合行业需求对数据进行人性化的数据挖掘;
2、本发明提出基于质量保证集QPS的聚类算法建立用户画像离线预测模型,保证类簇内的相似性质量指标为前提,使得分组结果的整体相似性指标达到最优,同时不需要事先指定类别数目,更符合用户画像的构建逻辑;
3、将线上实时流分析结果与离线模型的融合起来,为用户提供更新的用户画像属性,对用户做出实时反馈,提高用户推荐应用的满意度和电商交易转化率。
附图说明
图1为本发明所述基于大数据的移动端电商用户画像建立与分析方法的流程图。
图2为本发明所述基于大数据的移动端电商用户画像建立与分析系统的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,基于大数据的移动端电商用户画像建立与分析方法,包含以下步骤,
第一步,数据输入层从各类移动端电商用户的交易日志数据中,搜集移动端的电商用户数据;其中,数据输入层采用Kafka高吞吐消息队列,可以将预处理后的用户数据加载到批处理层的数据存储平台中,同时采用Spark Streaming作为流式数据源的API,用来整合Kafka,其中,Spark Streaming订阅Kafka中的话题,并将消息流转换为对Spark用户透明的离散流,只需要相应配置,Kafka即可作为Spark Streaming的可靠数据源;用户数据包含用户基本信息,设备属性,位置属性和历史交易行为数据。
第二步,建立一套标准机型配置库,将移动设备号统一标准化,分配一个唯一的移动统一识别码MID;将移动端的各个账号体系归并互联到一起,并通过多种安全机制和一致性校验确保MID区分到每一个移动设备,这时每个移动设备分配到全局唯一的移动统一识别码MID,根据MID码将用户数据融合,从而形成离线知识库;其中,分发到离线批处理层的数据被转存写入HDFS,作为历史用户数据集,等待批处理计算;分发到实时流处理层的数据被实时处理系统处理;
所述识别码MID包含用户的手机号码MSISDN、国际移动用户标识码IMSI(International Mobile Subscriber Identification Number)和移动设备国际身份码IMEI(International Mobile Equipment Identity)。
第三步,由于移动端与服务端的用户数据类型不同,且其网络通信协议种类也不同,导致噪声信息比较多,所以在数据输入层对离线数据进行归一化、离散化以及属性约简等预处理,形成规范的日志格式化;
所述对离线数据归一化过程如下:
其中,tij为样本i归一化后在第j维特征的特征值;xij为样本i归一化前在第j维特征的特征值;min(xj)为原始离线数据样本在第j维特征的最小值,max(xj)为原始离线数据样本i在第j维特征的最大值。
第四步,根据数据使用者的业务需要定制的标签规则,离线批处理层对预处理后的数据进行离线的分析处理,使用基于Spark开源计算框架的映射化简模式对预处理后的数据进行特征提取,从而得到用户的属性特征,构建用户基础标签;
所述定制标签规则方法为:根据数据使用者的业务需求准备基础数据和标签,再根据数据使用者的需求配置与规则的映射关系构建规则库,最终利用规则库对基础数据进行处理,得到用户画像的标签。当需要修改标签的判断条件时,只需对规则库进行重新配置就能实现,从而实现快速修改标签的判断条件,增强灵活性又易于扩展。
第五步,对标签数据进行权重及时间衰减因子处理,采用的权重及时间衰减函数公式计算如下:
Wi=∑wi*exp(-k*(d-ds));
其中,wi为行为权重,代表不同行为对于区分用户意向的重要性;k为衰减速率;d为当前时间,ds为用户行为发生时间,以(d-ds)表征用户行为发生时间到当前时间的时间跨度。
通过定义用户行为相似度如下:
即得到用户X、用户Y之间在第i项行为特征上的相似度Sim(Xi,Yi),其中,Xi代表用户X第i项行为特征的特征值;Yi代表用户Y第i项行为特征的特征值;max为该项特征值在样本空间中的最大值,min为该项特征值在样本空间中的最小值。
则用户整体相似度按权重大小计算如下:
建立基于质量保证集QPS的聚类算法的用户画像离线预测模型,从而确定用户画像的分类类别的集合,也验证了QSC算法不需要数据使用者事先指定类别数量的优点,此外,相比于其他传统聚类算法明显可以提高构建用户画像的精度和效率;
所述基于质量保证集QPS的聚类算法中,QPS中的类簇需满足以下定义:
RRS(o∈O)=Sim(oi,oj)≥Q,{oi,oi,...,oi}∈RS(O),1≤i≤n,1≤j≤n;
其中,RS(o∈O)为满足相似度质量指标Q的用户关系集,RRS(o∈O)表示类簇中任意元素两两之间都满足相似度质量指标Q的要求,QPS(Quality-Preserved Sets)则满足分类之后所有类簇的相似性指标达到最优。
Sim(o,p)为用户o和任意样本空间内用户p的整体相似度,Sim(oi,oj)为类簇中任意元素两两之间的相似度,质量保证集QPS则要求分类之后所有类簇的相似性指标达到最优。
基于质量保证集QPS的聚类算法QSC(Quality Similarity Clustering)在满足以上定义的同时,保证集合的元素数目最多,采用贪心算法实现,可用于自动定义合适的类簇数。
第六步,用训练好的预测模型对离线测试样本进行数据聚类挖掘分析,得到移动端的电商用户画像;
第七步,对于在线实时采集到的用户行为数据,实时处理层通过Spark Streaming进行实时流计算,不断经过分布式流处理得到最新用户标签信息,并和离线模型融合起来,最终,画像展示层不断更新和完善特征库,根据数据使用者业务需求定义聚类质量指标,通过Spark聚类过程将离线数据属性标签与实时数据关联起来,构成最终的用户画像。
其中,系统搜集移动端的电商用户数据,包括用户基本属性、设备属性、位置属性和历史交易行为数据;接着建立一套标准机型的机型配置库将设备号统一标准化,如下表1所示:
表1
再将各个账号体系归并互联到一起,最后通过多种安全机制和一致性校验确保MID能区分到每一部移动设备,此时每个移动终端设备分配到全局唯一的移动统一识别码MID,根据MID将各类数据融合打通形成海量离线知识库;示例如下表2所示:
表2
接着对离线数据进行归一化、离散化以及属性约简等预处理;根据业务需求定制的标签规则,按照规则对预处理后的数据进行特征提取,构建用户基础标签;对标签数据进行权重及时间衰减因子处理,并通过训练样本建立基于质量保证集QPS的聚类算法的用户画像离线预测模型,确定用户画像分类类别的集合;用训练好的预测模型对离线测试样本进行数据聚类挖掘分析,得到移动端的电商用户画像;对于在线实时采集到的用户行为数据,不断地经过分布式流处理得到最新用户标签信息,并和离线模型融合起来。
如图2,基于大数据技术的移动端电商用户画像建立与分析系统包括数据输入层、离线批处理层、实时处理层、和画像展示层;
数据输入层从各类移动端电商用户的交易日志数据中,搜集移动端的电商用户数据;从各类移动终端采集电商用户的交易日志数据,并根据上述数据融合方法,根据MID将各类数据融合打通形成海量离线知识库。
其中,进入系统的数据都将被分发到离线批处理层和实时流处理层,分别进行用户画像构建计算。其中,分发到离线批处理层的数据被转存写入HDFS,作为历史用户数据集,等待批处理计算;分发到实时流处理层的数据直接被实时处理系统处理。
由于用户数据类型种类各异,移动端和服务端间的网络通信协议种类也比较丰富,噪声信息较多。因此数据输入层需要对从移动端搜集来的数据进行数据预处理(清洗、归一化、整合等),形成规范的日志格式化,即将终端上报的日志数据按照统一规范形成后续数据分析所需要的基本信息。
为了让架构具有通用性、可扩展性、容错性等特点和要求,本发明实施例提供的数据输入层采用Kafka高吞吐消息队列,可以将预处理后的用户数据加载到批处理层的数据存储平台中。Apache Kafka是一个分布式的发布订阅消息系统,具有快速、可扩展、持久性等特点,它可以应对大规模的消息读写,也可以弹性地横向扩展而不需要系统当机离线,同时它支持将数据持久到硬盘并且在集群间拷贝以避免数据丢失。本发明实施中选用SparkStreaming来整合Kafka作为流式数据源的API,Spark Streaming订阅Kafka中的话题,并将消息流转换为离散流,这些对Spark用户是透明的,只需要相应配置,Kafka即可作为SparkStreaming的可靠数据源。在本发明实施中,通过离线批处理和在线实时处理相结合方式对预处理后电商用户交易日志进行特征提取,从而得到用户的属性标签。在线实时处理方式只能对当前发生的用户行为数据进行处理,而离线批处理方式可以结合历史存储数据进行分析处理,从而可以对在线处理方式没有提取用户属性特征进行补充和完善。在视图融合过程中,通过实时处理结果又可以根据行为类型和该用户画像中携带的兴趣标签对该用户画像进行及时地更新。
离线批处理层负责对预处理之后的数据进行离线的分析处理,基于Spark开源计算框架的映射化简模式对预处理后的数据进行特征提取,从而得到用户的属性特征。对标签数据进行权重及时间衰减因子处理,建立基于质量保证集QPS的聚类算法的用户画像离线预测模型。通过本发明实施例子也验证了QSC算法不需要数据使用者事先指定类别数量的优点,此外,相比于其他传统聚类算法明显可以提高构建用户画像的精度和效率。
实时处理层通过Spark Streaming进行实时流计算,对当前用户行为数据进行标签分析并和离线模型融合起来。最终,画像展示层不断更新和完善特征库,根据业务需求定义聚类质量指标,通过上述Spark聚类过程将用户的所有属性标签关联起来构成用户画像。
另外需要说明的是,本发明的用户属性标签提取的标签规则的任意组合,只要不违背本发明的思想,其同样应当视为本发明所公开的内容。此外,在上述具体实施方式中说描述的各种具体技术特征,在不予矛盾的情况下,可以通过任何方式进行组合,为了避免不必要的重复,本发明对各种可能对的组合方式不再另外说明。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.基于大数据的移动端电商用户画像建立与分析方法,其特征在于,包含以下步骤:
S1、搜集移动端电商用户的离线数据;
S2、给每一个移动终端设备分配一个唯一的移动统一识别码MID,根据移动统一识别码MID将离线数据融合,形成离线知识库;
S3、对离线数据进行预处理,得到离线测试样本;所述预处理包括归一化、离散化以及属性约简;
S4、根据数据使用者需求定制标签规则,按照标签规则对预处理后的数据进行特征提取,构建用户画像的基础标签;
S5、对用户画像的基础标签数据进行权重及时间衰减因子处理,并通过训练样本方式建立基于质量保证集QPS的聚类算法的用户画像离线预测模型,确定用户画像分类类别的集合;
所述对用户画像的基础标签数据进行权重及时间衰减因子处理,其采用的权重及时间衰减函数公式如下:
Wi=∑wi*exp(-k*(d-ds));
其中,wi为行为权重,代表不同行为对于区分用户意向的重要性;k为衰减速率;d为当前时间,ds为用户行为发生时间,以d-ds表征用户行为发生时间到当前时间的时间跨度;
通过定义用户间行为相似度如下:
即得到用户X、用户Y之间在第i项行为特征上的相似度Sim(Xi,Yi);
其中,Xi代表用户X第i项行为特征的特征值;Yi代表用户Y第i项行为特征的特征值;max为特征值在样本空间中的最大值,min为特征值在样本空间中的最小值;
则用户整体相似度按行为权重大小计算如下:
基于质量保证集QPS的聚类算法中,QPS中的类簇需满足如下定义:
RRS(o∈O)=Sim(oi,oj)≥Q,{oi,oi,...,oi}∈RS(O),1≤i≤n,1≤j≤n;
其中,RS(o∈O)为满足相似度质量指标Q的用户关系集,Sim(o,p)为用户o和任意样本空间内用户p的整体相似度,RRS(o∈O)表示类簇中任意元素两两之间都满足相似度质量指标Q的要求,Sim(oi,oj)为类簇中任意元素两两之间的相似度,质量保证集QPS则要求分类之后所有类簇的相似性指标达到最优;
S6、将训练好的用户画像离线预测模型对离线测试样本进行数据聚类挖掘分析,得到移动端的电商用户画像;
S7、对于在线的用户行为数据进行实时采集,不断地经过分布式流处理得到实时流分析结果,即最新的用户画像基础标签,并与离线预测模型数据融合,得到最终的电商用户画像。
2.根据权利要求1所述的基于大数据的移动端电商用户画像建立与分析方法,其特征在于,步骤S1中所述移动端电商用户的离线数据包含用户基础属性、移动设备属性、位置属性和历史交易行为数据;所述用户基本属性包含用户性别、用户年龄、用户职业、移动端不同数据源的不同账号体系、所属运营商、网络类型和归属地;所述移动设备属性包含设备品牌型号、操作系统、屏幕分辨率、CPU和上市时间;所述位置属性包括线上即时位置和线下常用位置;所述历史交易行为数据包括浏览、关注收藏、加入购物车、下单和购买付款。
3.根据权利要求1所述的基于大数据的移动端电商用户画像建立与分析方法,其特征在于,步骤S2中所述移动统一识别码MID为数据平台分配给每一台移动设备的唯一ID,融合了移动设备的标识信息;所述移动设备的标识信息包括用户的手机号码MSISDN、国际移动用户标识码IMSI和移动设备国际身份码IMEI。
4.根据权利要求1所述的基于大数据的移动端电商用户画像建立与分析方法,其特征在于,步骤S2中,所述将离线数据融合,具体如下:建立一套标准机型的机型配置库将移动端设备号统一标准化,再将移动端不同数据源的不同账号体系归并互联到一起,最后通过安全机制和一致性hash校验确保识别码MID能区分每一部移动设备。
6.根据权利要求1所述的基于大数据的移动端电商用户画像建立与分析方法,其特征在于,所述步骤S4,具体为:根据数据使用者的业务需求准备基础数据和标签,再根据数据使用者的需求配置和规则映射关系构建规则库,利用规则库对基础数据用标签进行标记处理,得到用户画像的标签。
7.根据权利要求1所述的基于大数据的移动端电商用户画像建立与分析方法,其特征在于,步骤S7中,所述的实时流分析结果与离线预测模型数据融合过程如下:实时采集线上的当前用户行为日志,所述当前用户行为日志包含用户标识、兴趣标识和行为类型标识,根据用户标识获取用户最近一次更新的用户画像,再根据兴趣标识、行为类型和用户画像中携带的第二兴趣标识对用户画像进行更新。
8.基于大数据的移动端电商用户画像建立与分析系统,其特征在于:包括数据输入层、离线批处理层、实时处理层、和画像展示层;其中
数据输入层,从各类移动端电商用户的交易日志数据中,搜集移动端的电商用户数据并进行预处理;
离线批处理层,负责对预处理之后的数据进行离线的分析处理,基于Spark开源计算框架的映射化简模式对预处理后的数据进行特征提取,从而得到用户的属性特征;对标签数据进行权重及时间衰减因子处理,建立基于质量保证集QPS的聚类算法的用户画像离线预测模型;
实时处理层,通过Spark Streaming进行实时流计算,对当前用户行为数据进行标签分析并和离线模型融合起来;
画像展示层,最终不断更新和完善特征库,根据业务需求定义聚类质量指标,通过上述Spark聚类过程将用户的所有属性标签关联起来构成用户画像。
9.根据权利要求8所述基于大数据的移动端电商用户画像建立与分析系统,其特征在于:所述数据输入层对移动端的电商用户数据进行数据预处理后,形成规范的日志格式化,即将终端上报的日志数据按照统一规范形成后续数据分析所需要的基本信息;所述数据输入层采用Kafka高吞吐消息队列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711136040.9A CN108021929B (zh) | 2017-11-16 | 2017-11-16 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711136040.9A CN108021929B (zh) | 2017-11-16 | 2017-11-16 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108021929A CN108021929A (zh) | 2018-05-11 |
CN108021929B true CN108021929B (zh) | 2023-01-10 |
Family
ID=62079999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711136040.9A Active CN108021929B (zh) | 2017-11-16 | 2017-11-16 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021929B (zh) |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764487B (zh) | 2018-05-29 | 2022-07-08 | 北京百度网讯科技有限公司 | 用于生成模型的方法和装置、用于识别信息的方法和装置 |
CN109086787B (zh) * | 2018-06-06 | 2023-07-25 | 平安科技(深圳)有限公司 | 用户画像获取方法、装置、计算机设备以及存储介质 |
CN108960975A (zh) * | 2018-06-15 | 2018-12-07 | 广州麦优网络科技有限公司 | 基于用户画像的个性化精准营销方法、服务器及存储介质 |
CN109034199B (zh) * | 2018-06-25 | 2022-02-01 | 泰康保险集团股份有限公司 | 数据处理方法及装置、存储介质和电子设备 |
CN110690984A (zh) * | 2018-07-05 | 2020-01-14 | 上海宝信软件股份有限公司 | 基于Spark的大数据网络日志采集分析和预警的方法、系统 |
CN109242523A (zh) * | 2018-07-06 | 2019-01-18 | 成都正合云智数据科技有限公司 | 一种专用于房产销售行业的购房人群画像方法及其实现装置 |
CN109003027A (zh) * | 2018-07-16 | 2018-12-14 | 江苏满运软件科技有限公司 | 一种画像标签的管理方法及系统 |
CN110826579A (zh) * | 2018-08-07 | 2020-02-21 | 北京京东尚科信息技术有限公司 | 一种商品分类的方法和装置 |
CN110020196B (zh) * | 2018-08-22 | 2021-08-06 | 龙凯 | 一种基于不同数据源的用户分析方法和装置及计算设备 |
CN109325781A (zh) * | 2018-09-04 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 客户品质分析方法、装置、计算机设备和存储介质 |
CN110968572B (zh) * | 2018-09-29 | 2022-11-18 | 北京小米移动软件有限公司 | 用户画像数据清洗方法及装置 |
CN110009438A (zh) * | 2018-11-07 | 2019-07-12 | 爱保科技(横琴)有限公司 | 基于车主社群的信息处理方法及装置 |
CN109615416A (zh) * | 2018-11-07 | 2019-04-12 | 爱保科技(横琴)有限公司 | 基于用户购买行为的商业服务推荐方法及系统 |
CN109522467A (zh) * | 2018-11-14 | 2019-03-26 | 江苏中威科技软件系统有限公司 | 一种基于大数据平台的标签时间的分析方法及装置 |
CN109766913A (zh) * | 2018-12-11 | 2019-05-17 | 东软集团股份有限公司 | 用户分群方法、装置、计算机可读存储介质及电子设备 |
CN109558468B (zh) * | 2018-12-13 | 2022-04-01 | 北京百度网讯科技有限公司 | 资源的处理方法、装置、设备和存储介质 |
CN109684330A (zh) * | 2018-12-17 | 2019-04-26 | 深圳市华云中盛科技有限公司 | 用户画像库构建方法、装置、计算机设备及存储介质 |
CN109784945A (zh) * | 2018-12-27 | 2019-05-21 | 广州安食通信息科技有限公司 | 基于大数据和区块链的食品溯源方法、系统及存储介质 |
CN109711733A (zh) * | 2018-12-28 | 2019-05-03 | 上海盛付通电子支付服务有限公司 | 用于生成聚类模型的方法、电子设备和计算机可读介质 |
CN109816441B (zh) * | 2018-12-29 | 2021-05-11 | 江苏云天励飞技术有限公司 | 策略推送方法、系统及相关装置 |
CN109815257A (zh) * | 2019-01-16 | 2019-05-28 | 四川驹马科技有限公司 | 可伸缩实时高可用画像算法服务方法及其系统 |
CN109635070B (zh) * | 2019-01-18 | 2020-11-17 | 上海迹寻科技有限公司 | 一种基于行动轨迹构建用户兴趣画像的方法及其数据更新方法 |
CN109903086B (zh) * | 2019-02-14 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 一种相似人群扩展方法、装置及电子设备 |
CN109977301A (zh) * | 2019-02-28 | 2019-07-05 | 贵阳学院 | 一种用户使用习惯挖掘方法 |
CN109933699A (zh) * | 2019-03-05 | 2019-06-25 | 中国科学院文献情报中心 | 一种学术画像模型的构建方法及装置 |
CN110060089A (zh) * | 2019-03-12 | 2019-07-26 | 北京品友互动信息技术股份公司 | 一种用户画像构建方法及装置 |
CN111724187A (zh) * | 2019-03-21 | 2020-09-29 | 上海晶赞融宣科技有限公司 | Dmp受众数据实时处理方法及装置、计算机可读存储介质 |
CN109992982A (zh) * | 2019-04-11 | 2019-07-09 | 北京信息科技大学 | 大数据访问授权方法、装置和大数据平台 |
CN109993507A (zh) * | 2019-04-17 | 2019-07-09 | 王亚萍 | 一种先导式纳税服务系统 |
CN110111143A (zh) * | 2019-04-28 | 2019-08-09 | 上海二三四五移动科技有限公司 | 一种建立移动端用户画像的控制方法以及控制装置 |
CN110196849B (zh) * | 2019-06-05 | 2023-04-18 | 普元信息技术股份有限公司 | 基于大数据治理技术实现用户画像构建处理的系统及其方法 |
CN113316778B (zh) * | 2019-06-24 | 2023-04-07 | 深圳市欢太科技有限公司 | 设备推荐方法及相关产品 |
CN110442572B (zh) * | 2019-06-28 | 2024-02-02 | 创新先进技术有限公司 | 用户特征值的确定方法及装置 |
CN110310163A (zh) * | 2019-07-11 | 2019-10-08 | 易联众民生(厦门)科技有限公司 | 一种精准制定营销策略的方法、设备及可读介质 |
CN110533515A (zh) * | 2019-09-04 | 2019-12-03 | 深圳创新奇智科技有限公司 | 一种高吞吐低延迟的电商个性化推荐方法及装置 |
CN110674410B (zh) * | 2019-10-08 | 2022-05-24 | 北京物灵科技有限公司 | 用户画像构建、内容推荐方法、装置及设备 |
CN111147664B (zh) * | 2019-12-18 | 2021-11-12 | 广东南方海岸科技服务有限公司 | 移动终端大数据处理方法、装置及存储介质 |
CN111159763B (zh) * | 2019-12-26 | 2022-05-31 | 银江技术股份有限公司 | 一种涉法人员群体画像分析系统及方法 |
CN111414557A (zh) * | 2020-03-11 | 2020-07-14 | 江苏车行天下网络科技有限公司 | 一种基于用户行为与资源特征的线路推荐方法 |
CN111444236B (zh) * | 2020-03-23 | 2023-04-28 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
CN111538751B (zh) * | 2020-03-23 | 2021-05-04 | 重庆特斯联智慧科技股份有限公司 | 物联网数据的标签化用户画像生成系统及方法 |
CN111461770B (zh) * | 2020-03-23 | 2023-06-02 | 汇通达网络股份有限公司 | 一种基于模型的用户画像系统 |
CN113554041B (zh) * | 2020-04-03 | 2023-09-26 | 北京京东振世信息技术有限公司 | 一种对用户标记标签的方法和装置 |
CN111506813A (zh) * | 2020-04-08 | 2020-08-07 | 中国电子科技集团公司第五十四研究所 | 一种基于用户画像的遥感信息精准推荐方法 |
CN111523929A (zh) * | 2020-04-15 | 2020-08-11 | 高邮市新世纪灯具城经营管理有限公司 | 一种商户信息管理方法及系统 |
CN113542880B (zh) * | 2020-04-20 | 2022-11-29 | 中国移动通信集团河北有限公司 | 一种短视频业务质量检测方法和装置 |
CN111625726A (zh) * | 2020-06-02 | 2020-09-04 | 小红书科技有限公司 | 一种用户画像的处理方法和装置 |
CN111737688B (zh) * | 2020-06-08 | 2023-10-20 | 上海交通大学 | 基于用户画像的攻击防御系统 |
CN111695941A (zh) * | 2020-06-15 | 2020-09-22 | 广州探途网络技术有限公司 | 商品交易网站数据分析方法、装置和电子设备 |
CN112561559A (zh) * | 2020-09-04 | 2021-03-26 | 上海东普信息科技有限公司 | 商户画像模型生成方法、装置、设备及存储介质 |
CN112131465A (zh) * | 2020-09-14 | 2020-12-25 | 绿瘦健康产业集团有限公司 | 一种活动资讯匹配方法、装置、介质及终端设备 |
CN112163897A (zh) * | 2020-10-19 | 2021-01-01 | 科技谷(厦门)信息技术有限公司 | 一种基于Flink的电商平台用户行为分析方法 |
CN112465565B (zh) * | 2020-12-11 | 2023-09-26 | 加和(北京)信息科技有限公司 | 一种基于机器学习的用户画像预测的方法及装置 |
CN112784070A (zh) * | 2020-12-31 | 2021-05-11 | 重庆空间视创科技有限公司 | 一种基于大数据的用户画像方法 |
CN113486238A (zh) * | 2021-06-29 | 2021-10-08 | 平安信托有限责任公司 | 基于用户画像的信息推送方法、装置、设备及存储介质 |
CN113486225B (zh) * | 2021-07-06 | 2023-10-31 | 北京国联视讯信息技术股份有限公司 | 一种基于大数据的企业画像展现方法及系统 |
CN113434770B (zh) * | 2021-07-08 | 2022-09-09 | 上海识致信息科技有限责任公司 | 电子商务与大数据结合的业务画像分析方法及系统 |
CN113361978A (zh) * | 2021-08-09 | 2021-09-07 | 湖南和信安华区块链科技有限公司 | 一种基于区块链的交易管理系统 |
CN114006865B (zh) * | 2021-12-28 | 2022-04-15 | 上海领健信息技术有限公司 | 基于多维度指标的用户流量控制系统、方法、终端及介质 |
CN117235586B (zh) * | 2023-11-16 | 2024-02-09 | 青岛小帅智能科技股份有限公司 | 酒店客户画像构建方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
WO2017071619A1 (en) * | 2015-10-27 | 2017-05-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for delivering a message |
CN107315810A (zh) * | 2017-06-27 | 2017-11-03 | 济南浪潮高新科技投资发展有限公司 | 一种物联网设备行为画像方法 |
-
2017
- 2017-11-16 CN CN201711136040.9A patent/CN108021929B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
WO2017071619A1 (en) * | 2015-10-27 | 2017-05-04 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for delivering a message |
CN107315810A (zh) * | 2017-06-27 | 2017-11-03 | 济南浪潮高新科技投资发展有限公司 | 一种物联网设备行为画像方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108021929A (zh) | 2018-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN110569377B (zh) | 一种媒体文件的处理方法和装置 | |
US10992609B2 (en) | Text-messaging based concierge services | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN109471978B (zh) | 一种电子资源推荐方法及装置 | |
US11741094B2 (en) | Method and system for identifying core product terms | |
CN110020162B (zh) | 用户识别方法和装置 | |
CN108959323B (zh) | 视频分类方法和装置 | |
CN113239275B (zh) | 信息推送方法、装置、电子设备和存储介质 | |
CN111339406A (zh) | 个性化推荐方法、装置、设备及存储介质 | |
CN111476595A (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN111429161A (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN110765301A (zh) | 图片处理方法、装置、设备及存储介质 | |
CN113111250A (zh) | 业务推荐方法、装置、相关设备及存储介质 | |
CN109819002B (zh) | 数据推送方法和装置、存储介质及电子装置 | |
CN112148952A (zh) | 一种任务执行方法、装置、设备及计算机可读存储介质 | |
CN108512674B (zh) | 用于输出信息的方法、装置和设备 | |
CN114371946B (zh) | 基于云计算和大数据的信息推送方法及信息推送服务器 | |
CN109829033B (zh) | 数据展示方法和终端设备 | |
CN112200602B (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
CN108520012A (zh) | 基于机器学习的移动互联网用户评论挖掘方法 | |
CN115098771A (zh) | 推荐模型更新方法、推荐模型训练方法及计算设备 | |
CN111615178B (zh) | 识别无线网络类型及模型训练的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231226 Address after: 510000 room 901, floor 9, No. 20, Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (office use only) Patentee after: GUANGDONG INFINITE INFORMATION TECHNOLOGY Co.,Ltd. Address before: 510006 South China University of Technology, Guangzhou University City, Panyu District, Guangzhou City, Guangdong Province Patentee before: SOUTH CHINA University OF TECHNOLOGY |
|
TR01 | Transfer of patent right |