CN109977301A - 一种用户使用习惯挖掘方法 - Google Patents
一种用户使用习惯挖掘方法 Download PDFInfo
- Publication number
- CN109977301A CN109977301A CN201910151399.6A CN201910151399A CN109977301A CN 109977301 A CN109977301 A CN 109977301A CN 201910151399 A CN201910151399 A CN 201910151399A CN 109977301 A CN109977301 A CN 109977301A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- content
- behavior
- behavior modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013480 data collection Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用户使用习惯挖掘方法,包括基础数据收集、行为建模、抽象角色构建、扩展应用四个步骤,通过收集用户的基本信、偏好内容以及操作方式等基本信息,结合科学统计方法进行用户使用行为建模,通过模型构建抽象的用户角色,进一步推算用户在其他领域的使用可能性以及使用习惯。
Description
技术领域
本发明涉及智能分析领域,特别涉及一种用户使用习惯挖掘方法。
背景技术
随着互联网的快速发展,各种电子终端设备逐渐进入人们日常生活工作的各个方面,更好的用户体验是各种电子终端设备以及软件应用获得用户的关键手段。
然而现有技术中大部分智能终端对于用户体验的提升方式主要是以用户主动设置为主,系统根据用户感兴趣的内容进行自动推送,对于用户未涉及的领域往往不会推送,因此导致了用户涉及信息覆盖面变窄,实际上没有给用户足够好的用户体验。
发明内容
为了解决现有技术中的问题,本发明提供一种用户使用习惯挖掘方法。所述技术方案如下:
一种用户使用习惯挖掘方法,包括以下步骤:基础数据收集、行为建模、抽象角色构建、扩展应用,其中各步骤具体如下:
基础数据收集,包括用户基本信息、用户偏好内容数据、操作行为数据;
行为建模,对上阶段收集到数据的处理,行为建模,注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为,包括数据标准化处理、特征提取处理、聚类分析;
抽象角色构建,根据行为建模所得到的模型进行用户对应抽象角色构建;
扩展应用,通过场景分析、推荐分析计算当前用户对应的抽象角色判断用户与应用场景和应用内容的关联性,并根据关联程度进行推荐。
所述基础数据收集步骤中,用户基本信息包括身份、性别、年龄;用户偏好内容数据包括浏览偏好内容、使用偏好内容、不感兴趣内容;操作行为数据包括使用终端类型及频率、应用使用频率、应用使用时间。
所述行为建模步骤中,数据标准化处理包括进行异常值处理、缺失数据补全、将用户标签进行数值化;特征提取处理包括采用关联原则将高度相关的特征进行去重,同时采用数学统计方法进行数据降维;聚类分析包括采用层次聚类初步聚类,进一步采用数学统计方法进行相似度对比,最后采用聚类算法进行类别确定。
所述扩展应用步骤中,采用特征分析模型,结合场景分析、推荐分析中的内容与抽象角色进行相似度计算,进行用户感兴趣内容推荐、行为习惯设置以及不感兴趣内容的删除。
本发明的有益效果是:
通过充分的数据采集和科学的数据挖掘,充分分析用户的使用习惯,进行感兴趣内容推荐以及操作习惯设置,推荐内容不在局限于用户最感兴趣的内容,而是在准确推荐最感兴趣内容的基础上,进行关联度高的内容推荐,同时屏蔽用户不感兴趣的内容,扩充用户涉及信息量。
附图说明
图1为方法总体流程示意图;
图2为分析流程示意图;
具体实施方式
以下结合具体实施方式对本发明作进一步详细的描述,但本发明的实施方式并不限于此。
实施例:
一种用户使用习惯挖掘方法,其特征在于,包括以下步骤:基础数据收集、行为建模、抽象角色构建、扩展应用,具体如附图1中所示方法整体流程,其中各步骤具体如下:
基础数据收集,包括用户基本信息、用户偏好内容数据、操作行为数据;
进一步的,以互联网访问为例,采集网站访问的用户身份、年龄、性别,偏好浏览内容通过搜索引擎以及访问记录进行归纳,包括根据网页访问次数、停留时间等数据,采集用户使用何种客户端进行网页浏览,如移动客户端、PC客户端、常变IP地址,或固定IP地址进行访问,同时进行用户匿名信息收集方式,对于可以确定用户具体身份信息的数据不进行公开,如姓名、身份证号、IP地址等。
行为建模,对上阶段收集到数据的处理,行为建模,注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为,包括数据标准化处理、特征提取处理、聚类分析;
具体如附图2中所示,抽象出用户的行为使用习惯数据,这个阶段应注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为,处理异常值,补全缺失值,具体的当用户的性别数据难以确认时则按照随机原则进行制定,或根据浏览内容进行推测,数值化用户画像中的所有标签;通过关联规则分析发现并排除高度相关的特征,也可以通过主成分分析(简称PCA)进行降维,并对选取的有效特征进行特征缩放,使各指标具有相同的数量级;首先通过层次聚类图像对用户相似性有直观理解,进一步采用轮廓系数法对某个对象与同类对象的相似度和与不同类对象的相似度做对比。轮廓系数取值在-1到1之间,轮廓系数越大时,表示对应簇的数量下,聚类效果越好;拟采用基于距离的K-means聚类算法,缺省使用欧氏距离来计算。
抽象角色构建,根据行为建模所得到的模型进行用户对应抽象角色构建;
具体的,通过获得的用户使用习惯标签数据抽象出用户具体角色,以互联网访问为例,用户购物习惯以居家为主,多采购家居用品,同时用户IP地址固定,不常发生变化,多采用移动终端进行网络访问,用户对于时政新闻全部屏蔽等。
扩展应用,通过场景分析、推荐分析计算当前用户对应的抽象角色判断用户与应用场景和应用内容的关联性,并根据关联程度进行推荐。
所述基础数据收集步骤中,用户基本信息包括身份、性别、年龄;用户偏好内容数据包括浏览偏好内容、使用偏好内容、不感兴趣内容;操作行为数据包括使用终端类型及频率、应用使用频率、应用使用时间。
具体的,利用场景引擎、推荐引擎、展示引擎等,计算使用习惯之间的相似度、实时偏好,判断用户处于哪个体验环节,有什么样的需求目标,结合用户、场景、算法匹配输出推荐内容和习惯设定。
所述行为建模步骤中,数据标准化处理包括进行异常值处理、缺失数据补全、将用户标签进行数值化;特征提取处理包括采用关联原则将高度相关的特征进行去重,同时采用数学统计方法进行数据降维;聚类分析包括采用层次聚类初步聚类,进一步采用数学统计方法进行相似度对比,最后采用聚类算法进行类别确定。
所述扩展应用步骤中,采用特征分析模型,结合场景分析、推荐分析中的内容与抽象角色进行相似度计算,进行用户感兴趣内容推荐、行为习惯设置以及不感兴趣内容的删除。
进一步的,采用大数据的分析手段,以用户信息作为样本进行分析通过使用频率计算离散特性,建立关联规则,掌握用户的使用习惯进行精准建模,结合模型进行用户使用习惯预测,其中使用习惯包括感兴趣内容以及操作行为,结合关联度分析进行使用习惯响应,同时扩展应用推荐。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种用户使用习惯挖掘方法,其特征在于,包括以下步骤:基础数据收集、行为建模、抽象角色构建、扩展应用,其中各步骤具体如下:
基础数据收集,包括用户基本信息、用户偏好内容数据、操作行为数据;
行为建模,对上阶段收集到数据的处理,行为建模,注重大概率事件,通过数学算法模型尽可能地排除用户的偶然行为,包括数据标准化处理、特征提取处理、聚类分析;
抽象角色构建,根据行为建模所得到的模型进行用户对应抽象角色构建;
扩展应用,通过场景分析、推荐分析计算当前用户对应的抽象角色判断用户与应用场景和应用内容的关联性,并根据关联程度进行推荐。
2.如权利要求1所述方法,其特征在于,所述基础数据收集步骤中,用户基本信息包括身份、性别、年龄;用户偏好内容数据包括浏览偏好内容、使用偏好内容、不感兴趣内容;操作行为数据包括使用终端类型及频率、应用使用频率、应用使用时间。
3.如权利要求1所述方法,其特征在于,所述行为建模步骤中,数据标准化处理包括进行异常值处理、缺失数据补全、将用户标签进行数值化;特征提取处理包括采用关联原则将高度相关的特征进行去重,同时采用数学统计方法进行数据降维;聚类分析包括采用层次聚类初步聚类,进一步采用数学统计方法进行相似度对比,最后采用聚类算法进行类别确定。
4.如权利要求1所述的方法,其特征在于,所述扩展应用步骤中,采用特征分析模型,结合场景分析、推荐分析中的内容与抽象角色进行相似度计算,进行用户感兴趣内容推荐、行为习惯设置以及不感兴趣内容的删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151399.6A CN109977301A (zh) | 2019-02-28 | 2019-02-28 | 一种用户使用习惯挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910151399.6A CN109977301A (zh) | 2019-02-28 | 2019-02-28 | 一种用户使用习惯挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109977301A true CN109977301A (zh) | 2019-07-05 |
Family
ID=67077623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910151399.6A Pending CN109977301A (zh) | 2019-02-28 | 2019-02-28 | 一种用户使用习惯挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977301A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310009A (zh) * | 2020-01-16 | 2020-06-19 | 珠海格力电器股份有限公司 | 用户分类方法、装置、存储介质、计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778555A (zh) * | 2014-01-21 | 2014-05-07 | 北京集奥聚合科技有限公司 | 基于用户标签的用户属性挖掘方法和系统 |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108038237A (zh) * | 2017-12-27 | 2018-05-15 | 广州市云润大数据服务有限公司 | 一种信息推荐方法与系统 |
US20190050487A1 (en) * | 2017-08-09 | 2019-02-14 | Alibaba Group Holding Limited | Search Method, Search Server and Search System |
-
2019
- 2019-02-28 CN CN201910151399.6A patent/CN109977301A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778555A (zh) * | 2014-01-21 | 2014-05-07 | 北京集奥聚合科技有限公司 | 基于用户标签的用户属性挖掘方法和系统 |
CN105389332A (zh) * | 2015-10-13 | 2016-03-09 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
US20190050487A1 (en) * | 2017-08-09 | 2019-02-14 | Alibaba Group Holding Limited | Search Method, Search Server and Search System |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108038237A (zh) * | 2017-12-27 | 2018-05-15 | 广州市云润大数据服务有限公司 | 一种信息推荐方法与系统 |
Non-Patent Citations (1)
Title |
---|
余孟杰: "产品研发中用户画像的数据模建――从具象到抽象", 《设计艺术研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310009A (zh) * | 2020-01-16 | 2020-06-19 | 珠海格力电器股份有限公司 | 用户分类方法、装置、存储介质、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423442B (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
WO2022041979A1 (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN105701191B (zh) | 一种推送信息点击率估计方法和装置 | |
US9256668B2 (en) | System and method of detecting common patterns within unstructured data elements retrieved from big data sources | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
EP3367676A1 (en) | Video content analysis for automatic demographics recognition of users and videos | |
CN110688549B (zh) | 一种基于知识体系图谱构建的人工智能分类方法与系统 | |
Silvestre et al. | Feature selection for clustering categorical data with an embedded modelling approach | |
KR101976081B1 (ko) | 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN111209469A (zh) | 一种个性化推荐方法、装置、计算机设备及存储介质 | |
CN110704738B (zh) | 基于法官画像的服务信息推送方法、装置、终端及存储介质 | |
Bouguila | On multivariate binary data clustering and feature weighting | |
CN108153818B (zh) | 一种基于大数据的聚类方法 | |
CN115222433A (zh) | 一种信息推荐方法、装置及存储介质 | |
CN109977301A (zh) | 一种用户使用习惯挖掘方法 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
US20160124971A1 (en) | System and method of detecting common patterns within unstructured data elements retrieved from big data sources | |
CN113407772B (zh) | 视频推荐模型的生成方法、视频推荐方法、装置 | |
CN113704617A (zh) | 物品推荐方法、系统、电子设备及存储介质 | |
CN114494809A (zh) | 特征提取模型优化方法、装置及电子设备 | |
CN108804492B (zh) | 用于多媒体对象推荐的方法及装置 | |
Matsubara et al. | Scalable algorithms for distribution search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190705 |