CN107885784A - 提取用户特征数据的方法和装置 - Google Patents

提取用户特征数据的方法和装置 Download PDF

Info

Publication number
CN107885784A
CN107885784A CN201710963029.3A CN201710963029A CN107885784A CN 107885784 A CN107885784 A CN 107885784A CN 201710963029 A CN201710963029 A CN 201710963029A CN 107885784 A CN107885784 A CN 107885784A
Authority
CN
China
Prior art keywords
user
preference value
data
characteristic item
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710963029.3A
Other languages
English (en)
Inventor
李树海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710963029.3A priority Critical patent/CN107885784A/zh
Publication of CN107885784A publication Critical patent/CN107885784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取用户特征数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据用户的行为数据确定用户对不同的特征标识的偏好值;根据用户对不同的特征标识的偏好值及预设的特征项集合计算用户对不同特征项的偏好值,并将特征项及用户对特征项的偏好值作为用户的特征数据。该实施方式能够将用户的行为数据与用户的性格特征联系起来,并对用户的每个性格特征进行量化,以更加立体和形象地描述用户的感性方面的特征,并能支撑丰富的商业应用场景,大大提高了营销措施的效果。

Description

提取用户特征数据的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取用户特征数据的方法和装置。
背景技术
随着互联网技术的快速发展,网上购物、网上学习、网上咨询等各种网络服务平台已深入人们的日常生活的每个角落。网络服务平台在为用户提供服务的同时,一般会对用户进行精准营销或广告投放等商业行为。以目前最常见的网上购物平台来说,通常是使用根据用户的购买记录进行分析刻画的“用户画像”来描述用户形象特征,并根据用户画像来为用户推荐产品,从而创造更大的收益。以网上学习平台为例,通常是使用根据用户的浏览学习记录进行分析刻画的“用户画像”来描述用户特征,并根据用户画像来为用户推荐书籍等学习资料,从而获取更大的收益。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
以电子商务平台为例,虽然现有的大数据用户画像标签已经较为丰富,例如用户的人口学特征(性别、年龄、家庭结构等)、社会学特征(学历、职业、收入等)、购买行为特征(浏览、搜索、订单数量、金额、评论等)、产品偏好特征(产品性能、价格、外观等),但是用户画像标签中还缺少对用户感性方面特征的描述。对用户感性方面的描述,又可以将其称为用户心智,如时尚、商务等等,可以更好地适应不同的应用场景。
目前尚无直接描述用户感性方面特征的方法,常用的技术是采用统计的方法计算用户的品牌或品类喜好,用于粗略描述用户对某些品牌或品类的偏好。例如:通过统计对于同一用户购买量或购买金额最大的几个品牌,用来表示用户的品牌偏好等等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、现有技术的分析维度单一,只分析用户的购买行为,导致用户品牌偏好结果局限性较大,覆盖用户范围较小;
2、通过纯粹统计罗列用户品牌偏好数据,不容易总结用户特点,无法形成系统的对用户感性方面的特征描述;
3、在使用品牌偏好作为用户特征刻画用户画像时,若需要对用户进行产品推荐或者广告推送,一般会推荐用户偏好的品牌,这样会对网络服务平台的营销措施造成极大的限制,使得营销措施达不到应有的效果。
发明内容
有鉴于此,本发明实施例提供一种提取用户特征数据的方法和装置,能够将用户的行为数据与用户的性格特征联系起来,并对用户的每个性格特征进行量化,以更加立体和形象地描述用户的感性方面的特征,并能支撑丰富的商业应用场景,大大提高了营销措施的效果。
为实现上述目的,根据本发明实施例的一个方面,提供了一种提取用户特征数据的方法。
一种提取用户特征数据的方法,包括:根据用户的行为数据确定用户对不同的特征标识的偏好值;根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值,并将所述特征项及所述用户对所述特征项的偏好值作为所述用户的特征数据。
可选地,根据用户的行为数据确定用户对不同的特征标识的偏好值的步骤包括:分别对用户的不同类型的行为数据进行归一化处理,以得到每个所述不同类型的行为数据对应的特征标识的偏好值;针对每个特征标识,将所述不同类型的行为数据对应的所述特征标识的偏好值进行加权求和,以得到所述用户对不同的特征标识的偏好值。
可选地,根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值的步骤包括:根据特征标识,从预设的特征项集合中获取所述特征标识对应的特征项;将所述用户对所述特征标识的偏好值作为所述用户对所述特征标识对应的特征项的偏好值;针对每个所述特征项,将用户对不同的特征标识对应的所述特征项的偏好值之和作为所述用户对所述特征项的偏好值。
可选地,所述行为数据包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。
可选地,所述特征标识为产品品牌,所述特征项为产品品牌形象词。
根据本发明实施例的另一个方面,提供了一种提取用户特征数据的装置。
一种提取用户特征数据的装置,包括:数据处理模块,用于根据用户的行为数据确定用户对不同的特征标识的偏好值;数据提取模块,用于根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值,并将所述特征项及所述用户对所述特征项的偏好值作为所述用户的特征数据。
可选地,所述数据处理模块还用于:分别对用户的不同类型的行为数据进行归一化处理,以得到每个所述不同类型的行为数据对应的特征标识的偏好值;针对每个特征标识,将所述不同类型的行为数据对应的所述特征标识的偏好值进行加权求和,以得到所述用户对不同的特征标识的偏好值。
可选地,所述数据提取模块还用于:根据特征标识,从预设的特征项集合中获取所述特征标识对应的特征项;将所述用户对所述特征标识的偏好值作为所述用户对所述特征标识对应的特征项的偏好值;针对每个所述特征项,将用户对不同的特征标识对应的所述特征项的偏好值之和作为所述用户对所述特征项的偏好值。
可选地,所述行为数据包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。
可选地,所述特征标识为产品品牌,所述特征项为产品品牌形象词。
根据本发明实施例的又一方面,提供了一种提取用户特征数据的电子设备。
一种提取用户特征数据的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的提取用户特征数据的方法。
根据本发明实施例的再一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的提取用户特征数据的方法。
上述发明中的一个实施例具有如下优点或有益效果:基于特征标识及特征项的对应关系,根据用户的行为数据获取用户对不同特征标识的偏好值,进而得到用户对不同特征项的偏好值,并使用特征项及用户对特征项的偏好值来对用户进行感性特征的描述,即用户心智描述,从而解决现有技术中提出的如何描述用户的感性特征的问题;另外,通过增加分析维度,综合考虑用户的购买、加入购物车、收藏、浏览等多种行为,更全面地体现用户对不同特征类型或特征标识的偏好度,以更全面地对用户的感性特征进行描述。通过将用户的行为数据与用户的性格特征联系起来,并使用巧妙、科学、完善的技术方案对用户的每个性格特征进行量化,可以更加立体和形象地描述用户,并能支撑丰富的商业应用场景,大大提高了营销措施的效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的提取用户特征数据的方法的主要流程的示意图;
图2是根据本发明实施例的提取用户特征数据的装置的主要模块的示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明通过结合不同特征类型或特征标识(例如:产品品牌、颜色、形状等)对应的特征项,根据用户体现出来的对不同特征类型或特征标识的行为与认知,将用户对不同特征类型或特征标识的偏好值转换成对用户的感性描述,即用户心智表述,从而解决现有技术中提出的如何描述用户的感性特征的问题;另外,通过增加分析维度,综合考虑用户的购买、加入购物车、收藏、浏览等多种行为,更全面地体现用户对不同特征类型或特征标识的偏好度,以更全面地对用户的感性特征进行描述。
图1是根据本发明实施例的提取用户特征数据的方法的主要流程的示意图。如图1所示,本发明实施例的提取用户特征数据的方法主要包括如下的步骤S101和步骤S102。
步骤S101:根据用户的行为数据确定用户对不同的特征标识的偏好值。
其中,在步骤S101之前,还可以包括:获取用户的行为数据,以便对获取的用户的行为数据进行处理。用户的行为数据例如可以通过用户的行为日志得到。
以电子商务平台为例,行为数据例如可以包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。预定时间段可以根据需要进行设定,一般地,对于用户的购买行为,可以对用户在一年内购买各品牌的频次与均价等数据进行处理;对于添加购物车和关注行为,可以对用户在一年内添加购物车或关注行为的频次等数据进行处理;对于浏览行为,可以对用户在最近三个月内的浏览频次数据进行处理,以便得到需要的预定时段内的用户行为数据。
以网上学习平台为例,行为数据例如可以包括用户在预定时间段内的浏览简介数据、阅读全文数据、关注行为数据、借阅行为数据和购买行为数据等。预定时间段例如为一年,通过分析最近一年内用户的各种行为数据可以获知用户最近是在考教师资格证或会计证,还是用户在进行参考复习等等信息,以用于描述用户的感性特征。
获取需要的用户行为数据之后,将根据用户的行为数据确定用户对不同的特征标识的偏好值。
其中,根据本发明的一个实施例,步骤S101在具体执行时可以按照如下步骤执行:
步骤S1011:分别对用户的不同类型的行为数据进行归一化处理,以得到每个不同类型的行为数据对应的特征标识的偏好值;
步骤S1012:针对每个特征标识,将不同类型的行为数据对应的该特征标识的偏好值进行加权求和,以得到用户对不同的特征标识的偏好值。
以电子商务平台为例,在根据行为数据计算用户对不同特征标识的偏好值时,例如以计算用户对不同产品品牌的偏好值为例,亦即:特征标识为产品品牌。行为数据例如可以包括:用户在一年内购买各品牌的频次与均价数据、用户在一年内添加购物车或关注行为的频次数据、用户在最近三个月内的浏览频次数据。
下面结合具体实施例介绍对行为数据进行归一化处理的过程。
假设获取的一年内用户购买各品牌的频次与均价数据如下:购买品牌A产品10次,均价100元(可能是电脑配件,如鼠标键盘等);购买品牌B产品2次,均价4000元;购买品牌C产品1次,均价6000元。那么,对频次和均价分别进行归一化后的数据如表1所示。其中,归一化的方法例如为极值标准化法(Min-max标准化方法)或者softmax回归算法等。极值标准化法即是通过将属性数据按照比例缩放,使之落入一个小的特定区间,如[-1,+1]、[0,1]等,以进一步分析数据的属性。同样地,通过softmax函数,也可以使得数据的范围在[0,1]之间。在本发明的实施例中,为了计算的简便,通过计算数据在同类数据中的占比的方法来进行数据的归一化处理。
表1
购买品牌 品牌A 品牌B 品牌C
频次 0.77 0.154 0.077
均价 0.01 0.396 0.594
品牌偏好值 0.39 0.275 0.336
其中,在对购买品牌的频次进行均一化处理时,某品牌归一化后的频次为该品牌归一化前的频次与归一化前所有购买品牌的频次之和相除得到。例如:品牌A产品的购买频次为10次,品牌A、品牌B与品牌C3个品牌产品总的购买频次为(10+2+1)=13次,那么,归一化处理后,品牌A产品的购买频次即为10/13≈0.77。使用同样的方法对其他购买品牌的频次进行归一化处理后的数据如表1中第二行所示。
在对购买品牌的均价进行归一化处理时,某品牌归一化后的均价为该品牌归一化前的均价与归一化前所有购买品牌的均价之和相除得到。例如:品牌A产品的购买均价为100,品牌A、品牌B与品牌C3个品牌产品总的购买均价为(100+4000+6000)=10100,那么,归一化处理后,品牌A产品的购买均价即为100/10100≈0.01。使用同样的方法对其他购买品牌的均价进行归一化处理后的数据如表1中第三行所示。
如表1中所示,在对购买品牌的频次和均价进行归一化处理后,通过对频次和均价分别设置对应的权重(本实施例中,两者的权重均为0.5),然后加权求和即可得到购买行为对应的用户对各品牌的偏好值。例如:均一化处理后,购买品牌A产品的频次为0.77,均价为0.01,对两者进行加权求和后即可得到用户购买品牌A产品的偏好值为:0.77*0.5+0.01*0.5=0.39。使用同样的方法对其他购买品牌的偏好值进行归一化处理后的数据如表1中最后一行所示。
如此,即可通过对用户的购买数据进行处理,得到用户对不同品牌的偏好值。
同样地,对一年内用户的关注和添加购物车的行为数据进行归一化处理的方式与购买行为数据进行归一化处理的方式类似。由于用户对产品的关注行为和添加购物车的行为,所引起的效果基本相同,因此可采用同样的方式进行处理,但根据需要,也可采用不同的方式分别进行处理。根据系统处理的需要,用户关注和添加购物车的行为数据可以考虑均价和频次两个参数,也可以不考虑均价,仅考虑频次。用户对产品的关注和添加购物车的行为数据可以一起统计并处理,也可以分别进行统计并处理。以将用户对产品的关注和添加购物车的行为数据分别进行统计并处理为例,对用户的关注和添加购物车的行为数据进行归一化处理后对应的品牌偏好值例如分别如表2和表3所示。
表2
关注品牌 品牌A 品牌B 品牌C
品牌偏好值 0.09 0.37 0.54
表3
添加购物车品牌 品牌A 品牌B 品牌C
品牌偏好值 0.24 0.55 0.21
最后,对用户的浏览行为数据进行归一化处理以得到用户对不同品牌的偏好值。
基于浏览行为本身的特点,离当前时间越近的浏览行为越能体现用户实际的关注点,而离当前时间越远的浏览行为表明用户对相应产品的关注度降低。故考虑在对用户的浏览行为进行处理时,对用户在不同时间对品牌的浏览次数乘以相应的时间衰减因子,以更科学地表示用户的实际浏览品牌偏好。
时间衰减因子指的是随着时间的增长,函数值会不断下降的函数,例如是指数下降函数(例如:e-2x/13或2/(1+e3x/13))或者线性下降函数(例如:y=-2x+1)等。为了使函数下降效果更为平缓,本发明中使用指数下降函数效果更好。其中,x表示浏览行为发生时距离当前时间的周数。
指数下降函数在选取系数值时,可根据需要进行调整。根据本发明的一个实施例,由于选取的是用户最近3个月的浏览行为数据,为了将用户的浏览行为数据归一化到区间[0,1]内,那么,可使距离当前时间最近的数据的时间衰减因子为1(即:基本不衰减),距离当前时间最远的数据的时间衰减因子约为0.1(即:衰减至10%)。由于3个月大约是13周,且为了使x=13时,y=0.1,故指数函数e-2x/13中选取的系数为-2/13。本领域技术人员应该知道,时间衰减因子函数不局限于本发明中所列举的指数函数,可以根据需要自行选取。
以计算用户浏览品牌A和品牌B两个品牌的产品为例:某用户7周前浏览品牌A产品15次,品牌B产品9次;2周前浏览品牌A产品6次,品牌B产品20次。那么,考虑时间衰减因子后,用户浏览品牌A产品的总次数为:e14/13*15+e4/13*6=9.52次;用户浏览品牌B产品的总次数为:e14/13*9+e4/13*20=17.77次。之后,再使用与购买行为数据进行归一化处理的方式类似的归一化方式,将进行了时间衰减计算之后的浏览频次进行归一化处理,以得到用户的浏览行为对应的品牌偏好值。对用户的浏览行为数据进行归一化处理后对应的品牌偏好值例如表4所示。
表4
浏览品牌 品牌A 品牌B 品牌C
品牌偏好值 0.32 0.59 0.09
根据以上内容,即实现了通过对行为数据进行归一化处理,得到用户的不同行为数据对应的特征标识(产品品牌)的偏好值。
之后,将根据特征标识,将同一特征标识的不同行为数据对应的特征标识的偏好值进行加权求和,然后,得到用户对不同的特征标识的偏好值。亦即,根据产品品牌,将用户对同一品牌的不同行为数据对应的品牌偏好值进行加权求和,得到用户对不同品牌的综合偏好值。其中,具体不同行为数据对应的权重可以根据需要进行灵活设定。假设4种用户行为数据对应的权重分别为:购买行为0.6,关注行为0.1,添加购物车行为0.1,和浏览行为0.2。那么,结合表1至表4中的数据,可得到该用户对品牌A、品牌B和品牌C3个品牌的偏好值如表5所示。
表5
产品品牌 品牌A 品牌B 品牌C
品牌偏好值 0.331 0.375 0.294
其中,用户对品牌A、品牌B和品牌C3个品牌的偏好值的计算过程如下:
品牌A:0.6*0.39+0.1*0.09+0.1*0.24+0.2*0.32=0.331;
品牌B:0.6*0.275+0.1*0.37+0.1*0.55+0.2*0.59=0.375;
品牌C:0.6*0.336+0.1*0.54+0.1*0.21+0.2*0.09=0.294。
根据上述介绍的方法,即可根据用户的行为数据确定用户对不同的特征标识的偏好值。
步骤S102:根据用户对不同的特征标识的偏好值及预设的特征项集合计算用户对不同特征项的偏好值,并将特征项及用户对特征项的偏好值作为用户的特征数据。
根据本发明的一个实施例,在计算用户对不同特征项的偏好值时,具体可以按照以下的步骤来执行:
步骤S1021:根据特征标识,从预设的特征项集合中获取特征标识对应的特征项;
步骤S1022:将用户对特征标识的偏好值作为用户对特征标识对应的特征项的偏好值;
步骤S1023:针对每个特征项,将用户对不同的特征标识对应的特征项的偏好值之和作为用户对该特征项的偏好值。
根据前面介绍的实施例,当特征标识为产品品牌时,特征项例如为产品品牌形象词,相应地,特征项的偏好值即为用户对产品的品牌形象词的偏好值。
产品的品牌形象是指某个品牌在市场上、在社会公众心中所表现出的个性特征,它体现公众特别是消费者对品牌的评价与认知,用户对品牌选择的偏好,从一定程度上是用户对品牌的认可和共鸣,能够映射出用户性格特征。
产品品牌形象词可以预先生成,并保存在系统数据库中,根据产品品牌(特征标识)即可获取对应的产品品牌形象词(特征项)。在生成产品品牌形象词时,可以首先选取一个或几个相关的代表性品类,根据该品类下不同品牌的销量或销售额选取若干主流品牌,通过品牌厂商专家或产品经理收集并整理相应主流品牌对应的产品品牌形象词,生成该品类下的产品品牌形象词典。这里的产品品牌形象词即用于描述用户感性特征的用户心智词,产品品牌形象词典亦可以称作心智词典。
下面简单介绍一下产品品牌形象词典。例如:选取某商品品类作为代表性品类,选取该品类下的品牌A、品牌B、品牌C3个品牌作为示例对象,品牌厂商专家或产品经理收集并整理后得到这三个品牌的产品品牌形象词典示例如下:
品牌A:黑科技、稳重、时尚;
品牌B:高大上、时尚、创新;
品牌C:稳重、实惠、国产情怀。
生成产品品牌形象词典后,即可作为不同特征标识(产品品牌)对应的特征项(产品品牌形象词)集合,保存在系统的数据库中,以便确定用户的性格特征描述时使用。
下面结合步骤S101中的实施例,介绍如何根据用户对不同的特征标识的偏好值及预设的特征项集合计算用户对不同特征项的偏好值。
首先,根据不同的产品品牌,从预设的产品品牌形象词集合中获取产品品牌对应的产品品牌形象词。例如品牌A的产品品牌形象词为黑科技、稳重、时尚。
之后,将用户对产品品牌的偏好值作为用户对产品品牌对应的产品品牌形象词的偏好值。如表5中所示,用户对品牌A的品牌偏好值为0.331,那么,该用户对黑科技、稳重、时尚这3个产品品牌形象词的偏好值也均为0.331;同理,用户对品牌B的品牌偏好值为0.375,那么,该用户对高大上、时尚、创新这3个产品品牌形象词的偏好值也均为0.375;用户对品牌C的品牌偏好值为0.294,那么,该用户对稳重、实惠、国产情怀这3个产品品牌形象词的偏好值也均为0.294。
然后,针对每个产品品牌形象词,将用户对不同的产品品牌对应的产品品牌形象词的偏好值之和作为该用户对该产品品牌形象词的偏好值。那么,用户对前面介绍的几个产品品牌形象词的偏好值分别如下:
黑科技:0.331;
稳重:0.331+0.294=0.625;
时尚:0.331+0.375=0.706;
高大上:0.375;
创新:0.375;
实惠:0.294;
国产情怀:0.294。
最后,将各个产品品牌形象词(即:用户心智词)及用户对各个对应的产品品牌形象词的偏好值作为用户的特征数据,即可用于描述用户的心智等感性特征。
一般地,可以将不同品类的用户心智数据整合,对于每个用户本身的用户心智词得分进行排序,获取得分最高的几个用于描述该用户。
另外,从产品品牌形象词(即:用户心智词)的角度来考虑,计算同一用户心智词在所有用户下的产品品牌偏好值得分的均值、中位数、标准差等统计量,可获取对产品品牌偏好值得分不同要求的用户集合,例如当需要获取“黑科技”偏好度高的用户时,可以采取获取偏好值得分大于均值加2倍标准差的用户的方法,以确定相应的用户群体。此外,通过比较目标用户在某个用户心智词下的偏好值得分与该心智词在所有用户中的统计量,可更准确地判断目标用户对于该用户心智词的表现程度。
本发明的技术方案,还可以用于通过产品的其他特征来对用户的感性特征进行描述。例如:假设特征标识为颜色,那么特征项可以为不同颜色代表的性格特征数据,如红色对应活力、健康、热情、希望;白色对应纯洁、神圣、清爽、洁净;紫色对应高贵、典型、华丽、优雅等等。根据用户的行为数据中的不同颜色特征,即可计算用户对不同颜色的偏好值,从而确定用户对应的用户心智词及其得分,并将用户心智词及其对应得分作为用户的感性特征数据。本领域技术人员应该知道,本发明的技术方案中的特征标识不局限于产品品牌、颜色、形状等,其他可以指代用户性格特征的特征标识也适用于本发明的技术方案。
根据如前面介绍的步骤S101和步骤S102以及具体的实施过程,可以实现基于特征标识及特征项的对应关系,通过对用户的行为数据的处理获取用户对不同特征标识的偏好值,进而得到用户对不同特征项的偏好值,并使用特征项及用户对特征项的偏好值来对用户进行感性特征的描述。通过将用户的行为数据与用户的性格特征联系起来,并使用巧妙、科学、完善的技术方案对用户的每个性格特征进行量化,可以更加立体和形象地描述用户,并能支撑丰富的商业应用场景。
对于电商领域来说,使用本发明技术方案所产生的用户心智结果数据可用于指导多种商业行为,例如:
1、增加基于态度的精准营销;
2、新品首发,精准定位人群;
3、跨品类拉新、跨品类关联销售;
4、丰富数据库的内容,更好地进行数据转换;
5、指导对不同性格特征的人群推送的广告渠道的确定。
图2是根据本发明实施例的提取用户特征数据的装置的主要模块的示意图。如图2所示,本发明实施例的提取用户特征数据的装置200主要包括数据处理模块201和数据提取模块202。
数据处理模块201用于根据用户的行为数据确定用户对不同的特征标识的偏好值;
数据提取模块202用于根据用户对不同的特征标识的偏好值及预设的特征项集合计算用户对不同特征项的偏好值,并将特征项及用户对特征项的偏好值作为用户的特征数据。
根据本发明的实施例,数据处理模块201还可以用于:
分别对用户的不同类型的行为数据进行归一化处理,以得到每个不同类型的行为数据对应的特征标识的偏好值;
针对每个特征标识,将不同类型的行为数据对应的该特征标识的偏好值进行加权求和,以得到用户对不同的特征标识的偏好值。
根据本发明的实施例,数据提取模块202还可以用于:
根据特征标识,从预设的特征项集合中获取特征标识对应的特征项;
将用户对特征标识的偏好值作为用户对特征标识对应的特征项的偏好值;
针对每个特征项,将用户对不同的特征标识对应的特征项的偏好值之和作为用户对该特征项的偏好值。
另外,本发明的实施例中,行为数据包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。
根据本发明的一个实施例,特征标识例如为产品品牌,特征项例如为产品品牌形象词。
根据本发明实施例的技术方案,基于特征标识及特征项的对应关系,根据用户的行为数据获取用户对不同特征标识的偏好值,进而得到用户对不同特征项的偏好值,并使用特征项及用户对特征项的偏好值来对用户进行感性特征的描述,即用户心智描述,从而解决现有技术中提出的如何描述用户的感性特征的问题;另外,通过增加分析维度,综合考虑用户的购买、加入购物车、收藏、浏览等多种行为,更全面地体现用户对不同特征类型或特征标识的偏好度,以更全面地对用户的感性特征进行描述。通过将用户的行为数据与用户的性格特征联系起来,并使用巧妙、科学、完善的技术方案对用户的每个性格特征进行量化,可以更加立体和形象地描述用户,并能支撑丰富的商业应用场景,大大提高了营销措施的效果。
图3示出了可以应用本发明实施例的提取用户特征数据的方法或提取用户特征数据的装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的提取用户特征数据的方法一般由服务器305执行,相应地,提取用户特征数据的装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据处理模块和数据提取模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,数据处理模块还可以被描述为“用于根据用户的行为数据确定用户对不同的特征标识的偏好值的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据用户的行为数据确定用户对不同的特征标识的偏好值;根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值,并将所述特征项及所述用户对所述特征项的偏好值作为所述用户的特征数据。
根据本发明实施例的技术方案,基于特征标识及特征项的对应关系,根据用户的行为数据获取用户对不同特征标识的偏好值,进而得到用户对不同特征项的偏好值,并使用特征项及用户对特征项的偏好值来对用户进行感性特征的描述,即用户心智描述,从而解决现有技术中提出的如何描述用户的感性特征的问题;另外,通过增加分析维度,综合考虑用户的购买、加入购物车、收藏、浏览等多种行为,更全面地体现用户对不同特征类型或特征标识的偏好度,以更全面地对用户的感性特征进行描述。通过将用户的行为数据与用户的性格特征联系起来,并使用巧妙、科学、完善的技术方案对用户的每个性格特征进行量化,可以更加立体和形象地描述用户,并能支撑丰富的商业应用场景,大大提高了营销措施的效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种提取用户特征数据的方法,其特征在于,包括:
根据用户的行为数据确定用户对不同的特征标识的偏好值;
根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值,并将所述特征项及所述用户对所述特征项的偏好值作为所述用户的特征数据。
2.根据权利要求1所述的方法,其特征在于,根据用户的行为数据确定用户对不同的特征标识的偏好值的步骤包括:
分别对用户的不同类型的行为数据进行归一化处理,以得到每个所述不同类型的行为数据对应的特征标识的偏好值;
针对每个特征标识,将所述不同类型的行为数据对应的所述特征标识的偏好值进行加权求和,以得到所述用户对不同的特征标识的偏好值。
3.根据权利要求1所述的方法,其特征在于,根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值的步骤包括:
根据特征标识,从预设的特征项集合中获取所述特征标识对应的特征项;
将所述用户对所述特征标识的偏好值作为所述用户对所述特征标识对应的特征项的偏好值;
针对每个所述特征项,将用户对不同的特征标识对应的所述特征项的偏好值之和作为所述用户对所述特征项的偏好值。
4.根据权利要求1所述的方法,其特征在于,所述行为数据包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述特征标识为产品品牌,所述特征项为产品品牌形象词。
6.一种提取用户特征数据的装置,其特征在于,包括:
数据处理模块,用于根据用户的行为数据确定用户对不同的特征标识的偏好值;
数据提取模块,用于根据所述用户对不同的特征标识的偏好值及预设的特征项集合计算所述用户对不同特征项的偏好值,并将所述特征项及所述用户对所述特征项的偏好值作为所述用户的特征数据。
7.根据权利要求6所述的装置,其特征在于,所述数据处理模块还用于:
分别对用户的不同类型的行为数据进行归一化处理,以得到每个所述不同类型的行为数据对应的特征标识的偏好值;
针对每个特征标识,将所述不同类型的行为数据对应的所述特征标识的偏好值进行加权求和,以得到所述用户对不同的特征标识的偏好值。
8.根据权利要求6所述的装置,其特征在于,所述数据提取模块还用于:
根据特征标识,从预设的特征项集合中获取所述特征标识对应的特征项;
将所述用户对所述特征标识的偏好值作为所述用户对所述特征标识对应的特征项的偏好值;
针对每个所述特征项,将用户对不同的特征标识对应的所述特征项的偏好值之和作为所述用户对所述特征项的偏好值。
9.根据权利要求6所述的装置,其特征在于,所述行为数据包括用户在预定时间段内的购买行为数据、关注和添加购物车行为数据,以及浏览行为数据。
10.根据权利要求6-9中任一所述的装置,其特征在于,所述特征标识为产品品牌,所述特征项为产品品牌形象词。
11.一种提取用户特征数据的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710963029.3A 2017-10-17 2017-10-17 提取用户特征数据的方法和装置 Pending CN107885784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710963029.3A CN107885784A (zh) 2017-10-17 2017-10-17 提取用户特征数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710963029.3A CN107885784A (zh) 2017-10-17 2017-10-17 提取用户特征数据的方法和装置

Publications (1)

Publication Number Publication Date
CN107885784A true CN107885784A (zh) 2018-04-06

Family

ID=61781552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710963029.3A Pending CN107885784A (zh) 2017-10-17 2017-10-17 提取用户特征数据的方法和装置

Country Status (1)

Country Link
CN (1) CN107885784A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN109544216A (zh) * 2018-11-02 2019-03-29 长春众鼎科技有限公司 基于视频监控的公交站台广告智能投放系统及其方法
CN110111227A (zh) * 2019-04-12 2019-08-09 广州图创计算机软件开发有限公司 一种基于物联网的数字化图书借阅平台
CN110442780A (zh) * 2019-06-21 2019-11-12 万翼科技有限公司 基于智慧园区的车主画像生成方法、装置和计算机设备
CN110532470A (zh) * 2019-08-23 2019-12-03 掌阅科技股份有限公司 图书推送方法、电子设备及计算机存储介质
CN110599240A (zh) * 2019-08-23 2019-12-20 腾讯科技(深圳)有限公司 应用的偏好值确定方法、装置和设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统
CN104699770A (zh) * 2015-03-02 2015-06-10 惠州Tcl移动通信有限公司 一种基于移动终端的分析获取用户性格特征的方法及系统
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
US20160147873A1 (en) * 2014-11-26 2016-05-26 Universal Entertainment Corporation Information providing system, information providing method, non-transitory recording medium, and data structure
CN106156270A (zh) * 2016-06-17 2016-11-23 北京小米移动软件有限公司 多媒体数据推送方法及装置
CN106294779A (zh) * 2016-08-12 2017-01-04 杭州来二去广告有限公司 一种个人品牌标签生成方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统
US20160147873A1 (en) * 2014-11-26 2016-05-26 Universal Entertainment Corporation Information providing system, information providing method, non-transitory recording medium, and data structure
CN104699770A (zh) * 2015-03-02 2015-06-10 惠州Tcl移动通信有限公司 一种基于移动终端的分析获取用户性格特征的方法及系统
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN106156270A (zh) * 2016-06-17 2016-11-23 北京小米移动软件有限公司 多媒体数据推送方法及装置
CN106294779A (zh) * 2016-08-12 2017-01-04 杭州来二去广告有限公司 一种个人品牌标签生成方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325186A (zh) * 2018-08-11 2019-02-12 桂林理工大学 一种用户偏好特征与地理特征融合的行为动机推断方法
CN109325186B (zh) * 2018-08-11 2021-08-17 桂林理工大学 一种用户偏好与地理特征融合的行为动机推断算法
CN109544216A (zh) * 2018-11-02 2019-03-29 长春众鼎科技有限公司 基于视频监控的公交站台广告智能投放系统及其方法
CN109544216B (zh) * 2018-11-02 2021-02-09 长春众鼎科技有限公司 基于视频监控的公交站台广告智能投放系统及其方法
CN110111227A (zh) * 2019-04-12 2019-08-09 广州图创计算机软件开发有限公司 一种基于物联网的数字化图书借阅平台
CN110442780A (zh) * 2019-06-21 2019-11-12 万翼科技有限公司 基于智慧园区的车主画像生成方法、装置和计算机设备
CN110442780B (zh) * 2019-06-21 2022-10-28 万翼科技有限公司 基于智慧园区的车主画像生成方法、装置和计算机设备
CN110532470A (zh) * 2019-08-23 2019-12-03 掌阅科技股份有限公司 图书推送方法、电子设备及计算机存储介质
CN110599240A (zh) * 2019-08-23 2019-12-20 腾讯科技(深圳)有限公司 应用的偏好值确定方法、装置和设备及存储介质

Similar Documents

Publication Publication Date Title
CN107885784A (zh) 提取用户特征数据的方法和装置
US11836780B2 (en) Recommendations based upon explicit user similarity
Sohail et al. Feature extraction and analysis of online reviews for the recommendation of books using opinion mining technique
CN107273436A (zh) 一种推荐模型的训练方法和训练装置
US20230306491A1 (en) User feature-based page displaying method and apparatus, medium, and electronic device
CN107391680A (zh) 内容推荐方法、装置和设备
CN107220852A (zh) 用于确定目标推荐用户的方法、装置和服务器
KR102297669B1 (ko) 제조사 및 유통사 간 연결을 위한 매칭 서비스 제공 시스템
CN104281962B (zh) 用于在线系统中的广告和内容的统一市场
CN108154401A (zh) 用户画像刻画方法、装置、介质和计算设备
CN109447713A (zh) 一种基于知识图谱的推荐方法及装置
CN107507041A (zh) 用户模型的构建方法和构建装置
KR20190142500A (ko) 화장품 추천 서비스 제공 방법 및 이를 실행하기 위한 시스템
CN107301592A (zh) 用于商品替代品发掘的方法及装置
CN107870984A (zh) 识别搜索词的意图的方法和装置
WO2013119280A1 (en) Tools and methods for determining relationship values
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107292648A (zh) 一种用户行为分析方法及装置
CN107992500A (zh) 一种信息处理方法及服务器
CN107832338A (zh) 一种识别核心产品词的方法和系统
KR102651407B1 (ko) 빅데이터를 활용한 시장성 분석 및 사업화방법론 분석 시스템
CN107741967A (zh) 用于行为数据处理的方法、装置以及电子设备
CN110599291A (zh) 商家买家多种市场高效精准融合智能电商运营系统和方法
US10803481B2 (en) Automated generation of personalized mail
KR101026544B1 (ko) 인공지능에 기반한 랭킹 분석 방법, 이를 기록한 기록 매체, 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406