CN108510321A - 一种房产用户画像的构建方法及装置 - Google Patents
一种房产用户画像的构建方法及装置 Download PDFInfo
- Publication number
- CN108510321A CN108510321A CN201810244322.9A CN201810244322A CN108510321A CN 108510321 A CN108510321 A CN 108510321A CN 201810244322 A CN201810244322 A CN 201810244322A CN 108510321 A CN108510321 A CN 108510321A
- Authority
- CN
- China
- Prior art keywords
- data
- target user
- user
- period
- property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract 2
- 230000007774 longterm Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000003068 static effect Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000005192 partition Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 description 3
- 241000282813 Aepyceros melampus Species 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种房产用户画像的构建方法,包括:获取当前预设周期内目标用户相关的基础数据;对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。根据房产行业用户最为关心的特征数据来构建出适合房产行业的用户画像,有利于房产行业根据房产用户画像实现精准营销。
Description
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种房产用户画像的构建方法及装置。
背景技术
在互联网营销领域,如何精准高效的获取目标客户,一直是各个互联网企业关注的热点问题。
不同类别的人群他们的兴趣点和关注的商品类目肯定是不一样的,对于一个企业来讲,当然是更希望找到这样一类用户,他们的偏好的商品品类或者品牌是同行业的或是相近行业的,同时用户偏好商品的各项属性和企业自身的商品契合度尽可能的高,这样如何找到这样一类的人群就是其中的关键问题。目前通用的做法是从人的角度出发,采集或者购买相关用户的行为数据,把用户进行标签化,也就是转化为如何在互联网时代去描述一个人这样的问题,而用户画像是解决这样问题的一种很好的方法,目前一直是各大企业所关注的热点技术之一。
一般来讲目前各个企业在构建用户画像时,都会从人口属性,上网特征,等几个通用的维度出发,然后完成用户画像的生成。但是在房产领域,有些特征,特别是营销特征这块,它有着很强的行业属性,现有按照通用的方法去构建那种大而全的维度信息不能满足房产行业中构建用户画像的需求。
发明内容
有鉴于此,本发明提供了一种房产用户画像的构建方法及装置,根据房产行业用户最为关心的特征数据来构建出适合房产行业的用户画像。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种房产用户画像的构建方法,包括:
获取当前预设周期内目标用户相关的基础数据;
对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
优选的,所述获取当前预设周期内目标用户相关的基础数据,包括:
获取当前周期内目标用户的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
优选的,所述目标用户的上网特征数据包括:上网时段、上网时长、上网频次、上网的终端品牌和浏览器相关属性。
优选的,所述目标用户的房产营销特征数据包括:偏好房产面积、户型、区域、单价、总价、物业类型、朝向和楼层。
优选的,所述对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据,包括:
对所述目标用户相关的基础数据进行去噪处理;
对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
优选的,所述基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,计算所述目标用户的长短期兴趣偏好数据,包括:
基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;
根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;
根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
优选的,所述方法还包括:
接受用户发送的携带有目标用户标识的用户画像查询请求;
根据所述目标用户标识在所述分布式存储与查询引擎中进行查询,得到所述目标用户标识对应的用户画像数据;
将所述目标用户标识对应的用户画像数据反馈给所述用户。
一种房产用户画像的构建装置,包括:
获取单元,用于获取当前预设周期内目标用户相关的基础数据;
预处理单元,用于对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
导入单元,用于将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
优选的,所述获取单元包括:
第一获取子单元,用于获取当前周期内目标用户的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
第二获取子单元,用于获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
第三获取子单元,用于获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
优选的,所述预处理单元包括:
去噪处理子单元,用于对所述目标用户相关的基础数据进行去噪处理;
聚合处理子单元,用于对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
提取子单元,用于从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
计算子单元,用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
优选的,
所述计算子单元,具体用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种房产用户画像的构建方法及装置,获取当前预设周期内目标用户相关的基础数据;对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据,根据房产行业用户最为关心的特征数据来构建出适合房产行业的用户画像,有利于房产行业根据房产用户画像实现精准营销。并且,将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中,实现房产用户画像数据的高效实时的分布式存储及查询。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种房产用户画像的构建方法流程图;
图2为本发明实施例公开的一种获取当前预设周期内目标用户的基础数据的方法流程图;
图3为本发明实施例公开的一种基础数据的预处理方法流程图;
图4为本发明实施例公开的一种长短期兴趣偏好数据的计算方法流程图;
图5为本发明实施例公开的一种房产用户画像的构建装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例公开了一种房产用户画像的构建方法,具体包括以下步骤:
S101:获取当前预设周期内目标用户相关的基础数据;
具体的,周期性的获取目标用户相关的基础数据,目标用户相关的基础数据包括:目标用户的业务相关数据、目标用户浏览的房产静态数据和目标用户访问页面的日志数据。
目标用户为需要构建用户画像的房产用户。
请参阅图2,所述获取当前预设周期内目标用户相关的基础数据,包括:
S201:获取当前周期内目标用户相关的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
目标用户的业务相关数据包括目标用户个人注册信息、拨打楼盘400的电话记录、参与的各类楼盘活动的数据等。
在将业务相关数据导入分布式文件系统的过程中,由于用户个人注册等信息会不断更新,因此,只导入有更新部分的数据,这种数据导入方式为增量的方式。
优选的,将所述业务相关数据通过sqoop等工具以增量的方式导入分布式文件系统中。
S202:获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
目标用户浏览的房产静态数据包括:楼盘的区域、价格、开发商等相关信息。
优选的,将所述房产静态数据通过sqoop等工具以全量的方式导入impala数据仓库全量分区表中。
S203:获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
目标用户访问页面的日志数据为用户访问的全部类型页面的日志数据。
优选的,并将所述日志数据通过kafka+Storm的方式实时导入所述分布式文件系统中。
需要说明的是,以上三大类基础数据分别以不同的方式在不影响业务系统的前提下进行导入,且最终都会存储到基于impala构建的数据仓库中,便于在数据仓库中通过大数据处理方法进行处理。
S102:对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
所述目标用户的人口特征数据包括:年龄、性别、婚姻子女状态、城市所在地、学历、房产等相关信息。
优选的,所述目标用户的上网特征数据包括:上网时段、上网时长、上网频次、上网的终端品牌和浏览器相关属性等。
所述目标用户的房产营销特征数据包括:偏好房产面积、户型、区域、单价、总价、物业类型、朝向和楼层等。
所述目标用户的长短期兴趣偏好数据为目标用户对除房产之外的商品的偏好数据。
S103:将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
具体的,通过spark批量导入的方式将当前预设周期内的目标用户画像数据导入到基于ElasticSearch的分布式存储与查询引擎中。
为了数据的安全性,在分布式存储与查询引擎中加入ElasticSearch Shield插件,该插件能够保证数据的所有接口访问必须经过认证,以防止数据的泄露。
同时,ElasticSearch分布式存储与查询引擎采用分布式的方式部署,对数据采用分片及副本的方式保证了数据查询高效性及高可用性。
需要说明的是,在将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中之后,所述方法还包括:
接受用户发送的携带有目标用户标识的用户画像查询请求;根据所述目标用户标识在所述分布式存储与查询引擎中进行查询,得到所述目标用户标识对应的用户画像数据;将所述目标用户标识对应的用户画像数据反馈给所述用户。
还需要说明的是,所有用户画像数据都会对外提供相应的接口和前端页面调用,当用户发送的携带有目标用户标识的用户画像查询请求时,将相应的用户画像数据反馈到前端页面。
本实施例公开的一种房产用户画像的构建方法,获取当前预设周期内目标用户相关的基础数据;对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据,根据房产行业用户最为关心的特征数据来构建出适合房产行业的用户画像,有利于房产行业根据房产用户画像实现精准营销。并且,将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中,实现房产用户画像数据的高效实时的分布式存储及查询。
基于上述实施例公开的一种房产用户画像的构建方法,为了高效率的对所述目标用户的基础数据进行预处理,请参阅图3,本实施例公开了一种高效的对目标用户的基础数据进行预处理的方法,具体包括以下步骤:
S301:对所述目标用户相关的基础数据进行去噪处理;
这里的去噪处理主要是去除爬虫、垃圾、噪声等干扰数据。
S302:对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
聚合处理是指将原来分别存在不同表中的三类数据,通过表中相同的键值聚合到一张或少数几张表中,这样的有点是为了减少之后数据处理过程中数据读取的I/O开销。
S303:从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
S304:基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
本实施例引入牛顿冷却定律,并对牛顿冷却定律进行改良,基于权重衰减计算所述目标用户的长短期兴趣偏好数据,请参阅图4,具体包括以下步骤:
S401:基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;
S402:根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;
优选的,所述第一预设时间段为距离当前时间一个月以上3个月以内时间段。
S403:根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
优选的,所述第二预设时间段为距离当前时间6个月以上时间段。
具体的,所述目标用户的每个商品偏好类目的权重的计算方法如下:
其中,表示第x个商品类目,n为出现x商品类目的数量,importance(labelx)表示x商品类目的重要性比例,重要性比例是预先设定的,counti(labelx)表示x商品类目在同一时期的出现次数,tnow表示当前时间,ti表示商品类目出现的时间戳,α为衰减系数,可以根据实际应用情况进行动态调整。
本实施例公开的一种房产用户画像的构建方法,基于权重衰减计算出用户画像的长短期兴趣偏好数据,有效的给出了用户画像中兴趣转移及衰减的解决方法,保证了用户画像在实际动态变化中的精确性,特别是在用户兴趣推荐时,可以利用画像中长短期的兴趣偏好特征给出更为合理的结果。
基于上述实施例公开的一种房产用户画像的构建方法,请参阅图5,本实施例对应公开了一种房产用户画像的构建装置,包括:
获取单元501,用于获取当前预设周期内目标用户相关的基础数据;
预处理单元502,用于对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
导入单元503,用于将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
优选的,所述获取单元501包括:
第一获取子单元,用于获取当前周期内目标用户的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
第二获取子单元,用于获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
第三获取子单元,用于获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
优选的,所述预处理单元502包括:
去噪处理子单元,用于对所述目标用户相关的基础数据进行去噪处理;
聚合处理子单元,用于对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
提取子单元,用于从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
计算子单元,用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
优选的,
所述计算子单元,具体用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
本实施例公开的一种房产用户画像的构建装置,获取当前预设周期内目标用户相关的基础数据;对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据,根据房产行业用户最为关心的特征数据来构建出适合房产行业的用户画像,有利于房产行业根据房产用户画像实现精准营销。并且,将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中,实现房产用户画像数据的高效实时的分布式存储及查询。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种房产用户画像的构建方法,其特征在于,包括:
获取当前预设周期内目标用户相关的基础数据;
对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
2.根据权利要求1所述的方法,其特征在于,所述获取当前预设周期内目标用户相关的基础数据,包括:
获取当前周期内目标用户的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
3.根据权利要求1所述的方法,其特征在于,所述目标用户的上网特征数据包括:上网时段、上网时长、上网频次、上网的终端品牌和浏览器相关属性。
4.根据权利要求1所述的方法,其特征在于,所述目标用户的房产营销特征数据包括:偏好房产面积、户型、区域、单价、总价、物业类型、朝向和楼层。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据,包括:
对所述目标用户相关的基础数据进行去噪处理;
对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,计算所述目标用户的长短期兴趣偏好数据,包括:
基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;
根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;
根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接受用户发送的携带有目标用户标识的用户画像查询请求;
根据所述目标用户标识在所述分布式存储与查询引擎中进行查询,得到所述目标用户标识对应的用户画像数据;
将所述目标用户标识对应的用户画像数据反馈给所述用户。
8.一种房产用户画像的构建装置,其特征在于,包括:
获取单元,用于获取当前预设周期内目标用户相关的基础数据;
预处理单元,用于对所述目标用户相关的基础数据进行预处理,得到当前预设周期内包括人口特征数据、上网特征数据、房产营销特征数据和长短期兴趣偏好数据的目标用户画像数据;
导入单元,用于将当前预设周期内的目标用户画像数据导入分布式存储与查询引擎中。
9.根据权利要求8所述的装置,其特征在于,所述获取单元包括:
第一获取子单元,用于获取当前周期内目标用户的业务相关数据,并将所述业务相关数据以增量的方式导入分布式文件系统中;
第二获取子单元,用于获取当前周期内目标用户浏览的房产静态数据,并将所述房产静态数据以全量的方式导入数据仓库全量分区表中;
第三获取子单元,用于获取当前周期内目标用户访问页面的日志数据,并将所述日志数据导入所述分布式文件系统中。
10.根据权利要求8所述的装置,其特征在于,所述预处理单元包括:
去噪处理子单元,用于对所述目标用户相关的基础数据进行去噪处理;
聚合处理子单元,用于对经过去噪处理的所述目标用户相关的基础数据进行聚合处理,得到所述目标用户的多个包括房产类信息的聚合用户行为数据表;
提取子单元,用于从所述目标用户的多个包括房产类信息的聚合用户行为数据表中提取所述目标用户的人口特征数据;
计算子单元,用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表中的数据,分别计算所述目标用户的上网特征数据、房产营销特征数据和长短期兴趣偏好数据。
11.根据权利要求10所述的装置,其特征在于,
所述计算子单元,具体用于基于所述目标用户的多个包括房产类信息的聚合用户行为数据表,获取所述目标用户在当前预设周期内第一预设时间段和第二时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数;根据预设衰减系数、所述第一预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第一预设时间段内所述目标用户短期内每个商品偏好类目的权重,得到所述目标用户的短期兴趣偏好数据;根据预设衰减系数、所述第二预设时间段内除房产之外的商品偏好类目信息,以及每个商品偏好类目的重要性比例和同一时期的出现次数,计算在所述第二预设时间段内所述目标用户的每个商品偏好类目的权重,得到所述目标用户的长期兴趣偏好数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810244322.9A CN108510321A (zh) | 2018-03-23 | 2018-03-23 | 一种房产用户画像的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810244322.9A CN108510321A (zh) | 2018-03-23 | 2018-03-23 | 一种房产用户画像的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108510321A true CN108510321A (zh) | 2018-09-07 |
Family
ID=63378404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810244322.9A Pending CN108510321A (zh) | 2018-03-23 | 2018-03-23 | 一种房产用户画像的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108510321A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658192A (zh) * | 2018-12-20 | 2019-04-19 | 重庆锐云科技有限公司 | 一种房源推荐方法及服务器 |
CN109919437A (zh) * | 2019-01-29 | 2019-06-21 | 特斯联(北京)科技有限公司 | 一种基于大数据的智慧旅游目标匹配方法和系统 |
CN110348876A (zh) * | 2019-05-28 | 2019-10-18 | 成都美美臣科技有限公司 | 一种电子商务网站客户个性化数据建立方法 |
CN111190636A (zh) * | 2018-11-14 | 2020-05-22 | 上海哔哩哔哩科技有限公司 | 分支代码持续集成中的自动探测方法、装置及存储介质 |
CN111415199A (zh) * | 2020-03-20 | 2020-07-14 | 重庆锐云科技有限公司 | 一种基于大数据的客户预测更新方法、装置及存储介质 |
CN111639988A (zh) * | 2020-05-22 | 2020-09-08 | 贝壳技术有限公司 | 经纪人推荐方法、装置、电子设备和存储介质 |
CN111695015A (zh) * | 2020-06-04 | 2020-09-22 | 重庆锐云科技有限公司 | 客户行为分析方法、装置、计算机设备及存储介质 |
CN112001760A (zh) * | 2020-08-28 | 2020-11-27 | 贝壳技术有限公司 | 潜在用户挖掘方法、装置、电子设备和存储介质 |
CN112396428A (zh) * | 2020-11-05 | 2021-02-23 | 北京易观智库网络科技有限公司 | 一种基于用户画像数据的客群分类管理方法及装置 |
WO2021196097A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳市欢太科技有限公司 | 用户画像列表构建方法、装置、服务器以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053983A (zh) * | 2009-11-02 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种垂直搜索的查询方法、系统和装置 |
CN102819804A (zh) * | 2011-06-07 | 2012-12-12 | 阿里巴巴集团控股有限公司 | 一种商品信息的推送方法及设备 |
CN105827676A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团上海有限公司 | 一种用户画像信息获取系统、方法及装置 |
CN106547916A (zh) * | 2016-11-29 | 2017-03-29 | 中国农业银行股份有限公司 | 一种用户画像标签查询方法及装置 |
CN107341206A (zh) * | 2017-06-23 | 2017-11-10 | 南京甄视智能科技有限公司 | 基于多个数据源构建精准的用户画像系统及方法 |
CN107358459A (zh) * | 2017-06-15 | 2017-11-17 | 浙江启冠网络股份有限公司 | 基于定向房产兴趣人群的广告投放方法与系统 |
CN107705183A (zh) * | 2017-09-30 | 2018-02-16 | 深圳乐信软件技术有限公司 | 一种商品的推荐方法、装置、存储介质及服务器 |
-
2018
- 2018-03-23 CN CN201810244322.9A patent/CN108510321A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053983A (zh) * | 2009-11-02 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种垂直搜索的查询方法、系统和装置 |
CN102819804A (zh) * | 2011-06-07 | 2012-12-12 | 阿里巴巴集团控股有限公司 | 一种商品信息的推送方法及设备 |
CN105827676A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团上海有限公司 | 一种用户画像信息获取系统、方法及装置 |
CN106547916A (zh) * | 2016-11-29 | 2017-03-29 | 中国农业银行股份有限公司 | 一种用户画像标签查询方法及装置 |
CN107358459A (zh) * | 2017-06-15 | 2017-11-17 | 浙江启冠网络股份有限公司 | 基于定向房产兴趣人群的广告投放方法与系统 |
CN107341206A (zh) * | 2017-06-23 | 2017-11-10 | 南京甄视智能科技有限公司 | 基于多个数据源构建精准的用户画像系统及方法 |
CN107705183A (zh) * | 2017-09-30 | 2018-02-16 | 深圳乐信软件技术有限公司 | 一种商品的推荐方法、装置、存储介质及服务器 |
Non-Patent Citations (1)
Title |
---|
王旭: "《网格经营变革之道》", 31 March 2017 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190636A (zh) * | 2018-11-14 | 2020-05-22 | 上海哔哩哔哩科技有限公司 | 分支代码持续集成中的自动探测方法、装置及存储介质 |
CN109658192A (zh) * | 2018-12-20 | 2019-04-19 | 重庆锐云科技有限公司 | 一种房源推荐方法及服务器 |
CN109919437A (zh) * | 2019-01-29 | 2019-06-21 | 特斯联(北京)科技有限公司 | 一种基于大数据的智慧旅游目标匹配方法和系统 |
CN109919437B (zh) * | 2019-01-29 | 2020-01-31 | 特斯联(北京)科技有限公司 | 一种基于大数据的智慧旅游目标匹配方法和系统 |
CN110348876A (zh) * | 2019-05-28 | 2019-10-18 | 成都美美臣科技有限公司 | 一种电子商务网站客户个性化数据建立方法 |
CN111415199A (zh) * | 2020-03-20 | 2020-07-14 | 重庆锐云科技有限公司 | 一种基于大数据的客户预测更新方法、装置及存储介质 |
WO2021196097A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳市欢太科技有限公司 | 用户画像列表构建方法、装置、服务器以及存储介质 |
CN115004210A (zh) * | 2020-04-01 | 2022-09-02 | 深圳市欢太科技有限公司 | 用户画像列表构建方法、装置、服务器以及存储介质 |
CN111639988A (zh) * | 2020-05-22 | 2020-09-08 | 贝壳技术有限公司 | 经纪人推荐方法、装置、电子设备和存储介质 |
CN111639988B (zh) * | 2020-05-22 | 2024-01-12 | 贝壳技术有限公司 | 经纪人推荐方法、装置、电子设备和存储介质 |
CN111695015A (zh) * | 2020-06-04 | 2020-09-22 | 重庆锐云科技有限公司 | 客户行为分析方法、装置、计算机设备及存储介质 |
CN112001760A (zh) * | 2020-08-28 | 2020-11-27 | 贝壳技术有限公司 | 潜在用户挖掘方法、装置、电子设备和存储介质 |
CN112396428A (zh) * | 2020-11-05 | 2021-02-23 | 北京易观智库网络科技有限公司 | 一种基于用户画像数据的客群分类管理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510321A (zh) | 一种房产用户画像的构建方法及装置 | |
WO2020140400A1 (zh) | 基于用户行为的产品推荐方法、装置、设备及存储介质 | |
TWI539305B (zh) | Personalized information push method and device | |
US8549013B1 (en) | Systems and methods for determining interest in an item or category of items | |
US20100262692A1 (en) | Recommendation of network object information to user | |
US9213733B2 (en) | Computerized internet search system and method | |
CN106469382A (zh) | 闲置商品对象信息处理方法及装置 | |
US10438270B2 (en) | Apparatus and method for information processing and recording | |
CN103345695A (zh) | 一种商品推荐的方法和装置 | |
US20140214621A1 (en) | Method and device for pushing information | |
CN111242709A (zh) | 一种消息推送方法及其装置、设备、存储介质 | |
CN111104590A (zh) | 信息推荐方法、装置、介质及电子设备 | |
JP2018101260A (ja) | 情報処理システム、情報処理方法、および情報処理プログラム | |
CN107104875B (zh) | 信息推送的方法和装置 | |
CN107679916A (zh) | 用于获取用户兴趣度的方法及装置 | |
CN111612560A (zh) | 用于促销对象的推荐方法、系统、存储介质及电子设备 | |
CN110545233B (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN109450963B (zh) | 消息推送方法及终端设备 | |
US20140351043A1 (en) | System and Method to Build External Facing Information Platform to Generate Target List of Entities | |
CN112991033A (zh) | 一种确定物品价值属性的方法和装置 | |
CN111798282A (zh) | 一种信息处理方法、终端及存储介质 | |
CN115147196A (zh) | 一种招标信息推荐方法、装置、存储介质及电子设备 | |
CN114693245A (zh) | 用户画像生成方法及装置、电子设备、可读存储介质 | |
CN113902553A (zh) | 基于知识图谱的风险识别方法、装置、计算机设备及介质 | |
CN111125514B (zh) | 用户行为分析的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |