CN111400587B - 用户分类方法、装置、电子设备和存储介质 - Google Patents

用户分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111400587B
CN111400587B CN202010140222.9A CN202010140222A CN111400587B CN 111400587 B CN111400587 B CN 111400587B CN 202010140222 A CN202010140222 A CN 202010140222A CN 111400587 B CN111400587 B CN 111400587B
Authority
CN
China
Prior art keywords
user
evaluation element
characteristic value
evaluation
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010140222.9A
Other languages
English (en)
Other versions
CN111400587A (zh
Inventor
乐明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010140222.9A priority Critical patent/CN111400587B/zh
Publication of CN111400587A publication Critical patent/CN111400587A/zh
Application granted granted Critical
Publication of CN111400587B publication Critical patent/CN111400587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了用户分类方法、装置、电子设备和存储介质,涉及电子信息技术领域。本申请提供的用户分类方法,首先根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;而后,针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;最后,根据每个用户的所述目标特征值,对用户进行分类。由此可见,本申请所提供的方法在利用用户的目标特征值对用户进行分类前,使用评价元素的热度影响了目标特征值的大小,从而使得在对用户进行分类的时候,不再只是利用历史操作信息来计算用户的相似度,而是利用了评价元素的热度进行了调控,一定程度上,提高了计算的准确性。

Description

用户分类方法、装置、电子设备和存储介质
技术领域
本申请涉及电子信息技术领域,具体而言,涉及用户分类方法、装置、电子设备和存储介质。
背景技术
随着网络技术的发展,通过网络进行消息推送技术层出不穷。这些消息推送技术大致可以分为两类,分别是定向推送技术和不定向推送技术。
不定向推送技术指的是,在推送消息的时候不对用户进行区分,对所有用户都推送相同的消息。这种消息推送技术通常是针对一个地区,或者是通过某个特定的渠道进行消息推送。如在发生灾难的时候,就会向某个城市的全体用户都推送相同的消息;又如,通过某个电视频道播放广告,则全体用户看到的广告内容都是相同的。
定向推送技术指的是,在消息推送的时候,考虑用户的类型,对于不同类型的用户推送不同的消息。比如,对于学生类型的用户,更多的推送和学习有关的消息,对于运动员类型的用户,更多的推送和运动有关的消息。
上述两种推送技术相比,不定向推送技术更注重推送的全面性,定向推送技术更注重推送的准去度。但定向推送技术在推送前需要先对用户进行分类,如果分类结果的准确度不够,则推送的准确度也会受到影响。
发明内容
本申请的目的在于提供用户分类方法、装置、电子设备和存储介质。
在一些实施例中,用户分类方法,包括:
根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;
根据每个用户的所述目标特征值,对用户进行分类。
在一些实施例中,所述评价元素的目标特征值与该评价元素的热度呈负相关性。
在一些实施例中,所述历史操作信息包括以下的任意一种或多种:
购买信息、浏览信息、查询信息。
在一些实施例中,所述针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值,包括:
针对每个评价元素,根据该评价元素的热度,确定该评价元素的缩放系数;
针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值;该用户关于每个评价元素的初始特征值是根据该用户关于每个评价元素的历史操作信息确定的。
在一些实施例中,所述缩放系数是通过如下方式确定的:
根据每个评价元素的热度,对评价元素进行排名,以确定每个评价元素的序位;
针对每个评价元素,根据该评价元素的序位,确定该评价元素的缩放系数。
在一些实施例中,针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值,包括:
针对每个用户,根据该用户与每个评价元素的历史操作信息,生成该用户关于每个评价元素的初始特征值;
针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值。
在一些实施例中,根据每个用户的所述目标特征值,对用户进行分类,包括:
根据第一用户的所述目标特征值和第二用户的所述目标特征值,计算第一用户与第二用户的用户相似度;
若用户相似度超过预设数值,则确定第一用户和第二用户为相同类别。
在一些实施例中,根据每个用户的所述目标特征值,对用户进行分类,包括:
根据每个用户的目标特征值,对用户进行聚类,以确定每个用户的类别。
在一些实施例中,用户分类装置,包括:
第一确定模块,用于根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
第一生成模块,用于针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;
分类模块,用于根据每个用户的所述目标特征值,对用户进行分类。
在一些实施例中,一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如用户分类方法的步骤。
在一些实施例中,一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如用户分类方法的步骤。
本申请实施例提供的用户分类方法,首先根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;而后,针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;最后,根据每个用户的所述目标特征值,对用户进行分类。由此可见,本申请所提供的方法在利用用户的目标特征值对用户进行分类前,使用评价元素的热度影响了目标特征值的大小,从而使得在对用户进行分类的时候,不再只是利用历史操作信息来计算用户的相似度,而是利用了评价元素的热度进行了调控,一定程度上,提高了计算的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的用户分类方法的基本流程图;
图2示出了本申请实施例所提供的用户分类方法中,一种缩放系数的确定流程的示意图;
图3示出了本申请实施例所提供的用户分类方法中,一种目标特征值的确定流程的示意图;
图4示出了本申请实施例所提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
定向推送技术在实现前需要对用户进行分类,分类通常是依据如下两方面的属性信息进行的:第一方面的信息主要是用户主动录入的属性信息,如个人喜好、希望收到的信息种类、职业、家庭情况、收入情况等等;第二方面的信息主要是系统自动获取到的一些属性信息,比如用户的购买历史、浏览信息的历史等用户进行网络操作的历史行为信息。
在拿到上述两方面的属性信息之后,系统就可以根据不同用户之间的属性信息相似度,来将用户进行分类了。在完成分类之后,就可以按照一般的定向推送技术的实现方式来进行消息推送了。
在依据历史行为信息对用户进行分类的时候,通常是依据历史行为信息来计算不同用户之间的相似度,而后将相似度较高的用户分到同一个类别中。具体来说,如两个用户的历史行为信息反映这两个用户90%以上的历史行为都是相同的,那么就可以确定这两个用户的相似度足够高,进而就可以将这两个用户分到同一类中。对应的,如果如两个用户的历史行为信息反映这两个用户只有20%的历史行为都是相同的,那么就可以确定这两个用户的相似度不够高,那么这两个用户就不应当分到同一类中。
但本申请发明人认为此种依据用户相似度对用户进行分类的方式并不够理想,主要是这种计算方式没有考虑到不同热度的历史行为信息有着不同的区分度,进而,本身请提供了一种用户分类方法,如图1所示,包括如下步骤:
S101,根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
S102,针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;
S103,根据每个用户的目标特征值,对用户进行分类。
步骤S101中,评价元素指的是可以由用户进行操作的元素,一般情况下,这些历史操作信息通常是电子信息(如通过对用户的网络操作或日志进行监控,进而确定的信息)。这些评价元素可以是商品(如网店中售卖的电子商品、实体商品)、网络信息(如新闻、广告、产品介绍)等。当然,历史操作信息也可以是非电子信息,如用户在线下的实体店中购买的商品,又如用户所浏览的报刊、杂志的内容等,这些非电子信息作为历史操作信息的时候,通常需要由专门的人员来记录用户与评价元素的交互情况,或者是用户与评价元素的交互情况是由用户主动上报的。
也就是,历史操作信息通常有两种获取方式,第一种:对用户的互联网行为进行监控(如读取用户的日志,获取网络交易平台的交易数据)或对用户的线下操作行为进行监控,来得到历史操作信息;第二种:用户主动上报其对评价元素进行操作的历史操作信息。
历史操作信息可以有很多的种类,比如历史操作信息可以包括以下的任意一种或多种:购买信息、浏览信息、查询信息。
其中,购买信息主要是用来表征用户购买评价元素情况的信息。具体来说,购买信息可以由如下多种操作属性信息中的任意至少一种来表征:购买时间(下单时间)、购买次数、购买频率等。
浏览信息主要是用来表征用户浏览评价元素情况的信息。具体来说,浏览信息可以由如下多种操作属性信息中的任意至少一种来表征:浏览开始时间、浏览结束时间、浏览页面停留时间长度、浏览次数、浏览频率等。
查询信息主要是用来表征用户查询评价元素情况的信息。具体来说,查询信息可以由如下多种操作属性信息中的任意至少一种来表征:查询时间、对某个评价元素进行查询的次数,预定时间段内进行查询的次数、连续查询的次数(打开一次查询界面后,进行查询的次数),在一次连续查询过程中,不同评价元素的查询先后顺序、查询频率等。
通过上述内容可以看出,这些历史操作信息能够表征出用户对评价元素的偏好程度,一般来说,用户对某个评价元素的购买/查询/浏览次数越多则用户对该评价元素的偏好程度越高,用户对某个评价元素的购买频率越高、浏览时间越长,则用户对该评价元素的偏好程度越高。在一次连续查询过程中,查询顺序靠后的评价元素要比查询顺序前后的评价元素的偏好程度更高。
也就是,通过历史操作信息可以反映出每个用户的对评价元素的偏好程度,通过每个用户对评价元素的偏好程度就可以确定出该评价元素的热度了,该热度也可以理解为评价元素的受欢迎程度、评价元素的受关注度。通常情况下,评价元素的偏好程度越高,则其热度就越高。
进而,在步骤S102中,就可以同时根据历史操作信息和每个评价元素的热度来生成每个用户关于每个评价元素的目标特征值了。具体来说,传统方案中,通常只是根据历史操作信息来作为评价用户的特征值(用户的特征值通常是以特征向量的形式体现,特征向量中的每个元素都分别用来表示用户相对于不同评价元素的操作情况),如可以直接将用户购买各个商品的数量作为用户的特征值,也可以是将用户是否有购买各个商品的情况作为用户的特征值(购买商品则特征值为1,没有购买则特征值为0)。但传统方案的这种生成特征值的方式没有考虑到高热度的评价元素对区分用户类别是没有正面作用的(高热度的商品所有人都会偏好,因此,不应当使用高热度的商品来识别不同用户是否是同一类别),因此,本申请所提供的方案中,在生成用户特征值的时候,是根据评价元素的热度对用户关于每个评价元素的特征值进行了调整。将热度较高的评价元素的特征值调小,也就使得冷门的评价元素的特征值更能够影响用户的特征值,或者说是冷门的评价元素的特征值更能够影响到不同用户是否是同一类别的判断过程中。
具体的,假设评价元素共有5个,分别是A-E这5种品牌的手机,用户X购买过A手机2次,B手机2次,C手机0次,D手机1次,E手机5次,那么按照传统方案中所形成的用户X关于每个评价元素的目标特征值(按照传统方案所确定的特征值)就是2,2,0,1,5,进而,用户X的特征向量就是(2,2,0,1,5)。但如果相对于其他4个手机来说,手机E的销量特别好,属于全民都会使用的手机,那么在按照本申请所提供的方案来确定用户X关于手机E的目标特征值的时候,就不能直接将5作为其目标特征值了,而是应当更多的降低用户X关于手机E的特征值。具体来说,降低的比例可以是根据手机E的热度来确定。如对于手机E,全部用户中有90%的用户都有该买该手机,手机E的热度就是90%,那么该手机的特征值就可以下调90%,对应的,如果手机A-D的热度均为50%。进而根据热度对初始特征值进行调整后所得到的目标特征值就是1,1,0,0.5,0.5,进而,按照本申请所提供的方案所确定的用户X的特征向量也就是(1,1,0,0.5,0.5)。由此,可以看出,手机A-D所对应的特征值均缩小了一半(初始特征值与热度相乘,进而得到的目标特征值是初始特征值的一半);手机E所对应的特征值缩小了90%。
由此,步骤S102可以认为是通过如下步骤完成的:
步骤1021,针对每个评价元素,根据该评价元素的热度,确定该评价元素的缩放系数;
步骤1022,针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值;该用户关于每个评价元素的初始特征值是根据该用户关于每个评价元素的历史操作信息确定的。
具体实现时,可以根据用户购买、浏览、查询这些行为,确定每个用户关于每个评价元素的初始特征值(如前面所说的例子中,2,2,0,1,5就是初始特征值),并根据每个评价元素的热度,确定该评价元素的缩放系数,而后,在步骤1022中,分别利用每个评价元素的缩放系数对每个用户的关于每个评价元素的初始特征值进行调整,进而就生成了用户关于每个评价元素的目标特征值。
步骤1022中,根据每个评价元素的缩放系数分别对该用户关于每个评价元素的初始特征值进行调整时,可以是直接将热度直接作为缩放系数,或者将根据热度确定的缩放系数(该缩放系数可以是使用热度进行查表得到的,或者是计算出来的)对初始特征值进行缩放,进而生成评价元素的目标特征值。当通过查表的方式来得到缩放系数,并通过缩放系数来对初始特征值进行缩放的时候,可以预先在数据库中建立一个兑换表,该兑换表中应当记录了不同的热度所对应的缩放系数。
如果是缩放系数是计算出来的,则应当在数据库中预存一个计算公式,以使用初始特征值和缩放系数来计算出目标特征值。
如前文中的说明,确定评价元素的特征值时,主要是依据购买信息、浏览信息、查询信息这些历史操作信息来确定的。具体来说,可以预先确定每种操作属性信息对特征值的影响权重,并最后,按照加权计算的方式来进行计算,也就是根据每种操作属性信息和对应的计算权重来确定初始特征值。
当然,热度的确定方式和根据热度调整特征值的方式并不只限于上述例子中所描述的方式。只要保证热度较高的评价元素所对应的初始特征值被缩小的幅度更大即符合本申请所提供方案的思想,或者是热度较高的评价元素所对应的初始特征值被放大的幅度更小即符合本申请所提供方案的思想。换句话说,本方案的核心思想在于:热度较高的评价元素所对应的初始特征值的缩小幅度比热度较低的评价元素所对应的特征值的缩小幅度更大;或者是,热度较高的评价元素所对应的初始特征值的放大幅度比热度较低的评价元素所对应的特征值的放大幅度更小。也就是,评价元素的目标特征值与该评价元素的热度呈负相关性。更具体来说,就是热度较高的评价元素对计算不同用户相似度的决定权要相对缩小。
最终,在步骤S103中,可以直接依据用户的目标特征值对用户进行分类,一般来说,特征值越相近,则越应当分到同一个类别中。
具体来说,如用户A-C的特征向量(由三个目标特征值组成)分别是(12,11,5)、(15,12,1)、(1,0,1);那么,就可以使用余弦相似度的计算方式,两两计算相似度,最后可以确定用户A和用户B的相似度最高,并且相似度超过了预设的数值,那么用户A和B应当分为一类,用户C应当自己分为一类。当然,如果只有两个用户也同样可以进行分类,只要比较着两个用户的相似度是否超过了预设数值,如果超过了预设数值,则可以将这两个用户分为一类,否则就不分为一类。
本申请所提供的方法,步骤S102中,在对用户关于每个评价元素的特征值使用评价元素的热度进行调整之后,使得冷门评价元素对用户相似度的决定权更大(相对于调整前),或者说,使得热门评价元素对用户相似度的决定权缩小(相对于调整前),进而,在对用户进行分类的时候,即计算不同用户相似度的时候,冷门评价元素所起到的作用更大,从而提高了对用户进行分类的准确度。
前文中的步骤1021和步骤1022介绍了生成目标特征值的方式,如前文中的说明,可以直接将热度作为缩放系数,可以是使用某个固定的计算式,并依据热度来计算出缩放系数。但实际使用中,发明人发现,除了采用这种方式外,还可以进一步依据热度的排名来确定缩放系数,这样更有利于后续的计算。具体的,如图2所示,缩放系数可以是通过如下方式确定的:
S201,根据每个评价元素的热度,对评价元素进行排名,以确定每个评价元素的序位;
S202,针对每个评价元素,根据该评价元素的序位,确定该评价元素的缩放系数。
其中,步骤S201中,需要先对评价元素进行排名,而后在步骤S202中,依据评价元素的序位来确定评价元素的缩放系数。
具体来说,步骤S201中,可以是按照热度由小到大的顺序将评价元素进行排序(当然,也可以是按照由大到小进行排序),而后在步骤S202中将序位在前N个的评价元素,其缩放系数可以使用第一确定策略来生成,对于虚拟不是在前N个的评价元素,其缩放系数可以使用第二确定策略来生成。当然,热度的确定策略可以设置的更复杂一些,比如,可以按照评价元素的热度序位,将评价元素进行分组,同一组中的评价元素的序位都是连续的,并且,任意相邻的两组评价元素没有重复。并分别为每组评价元素设置对应的缩放系数确定策略。不论采用何种方式,都应当保证热度较大的评价元素对用户相似度计算的决定权被缩小的更多。
具体的,如果是按照由小到大的顺序来进行排名的话,那么前N个评价元素就是热度较低的评价元素,前N个评价元素的放大系数应当比非前N个评价元素的放大系数的数值更大,以使得前N个评价元素使用其对应的缩放系数对初始特征值进行缩放后,所得到的目标特征值能够更多的影响用户相似度的计算结果。或者是说,前N个评价元素的缩小系数应当比非前N个评价元素的缩小系数的数值更小。
更具体的,对于前N个评价元素,可以直接使用其热度作为缩放系数,对于非前N个评价元素,其缩放系数可以直接设置为0,即非前N个评价元素无法影响用户相似度的计算结果。
比如,评价元素共有100个,在对这100个评价元素进行由小到大的排名后,对于排名前70的评价元素,可以直接将其热度,或者是热度的转换值(通过公式计算得到的,或者是通过查表确定的)作为其缩放系数;对于排名71-100的评价元素,其缩放系数为0,也就是不论其热度有多少,排名71-100的评价元素的目标特征值都是0,进而排名71-100的评价元素就不会影响用户相似度的计算了。
具体实现时,初始特征值可以是直接根据用户对评价元素的历史操作信息确定的,比如,可以直接将操作次数作为初始特征值,或者是将是否有操作行为初始特征值(有操作行为则初始特征值为1,没有则为0)。进而,在计算的时候可以直接将历史操作信息所对应的数值和缩放系数带入到某个预定的计算公式中,以求得目标特征值。但具体实现的时候,可以是先依据历史操作信息确定出初始特征值,而后,在将初始特征值和缩放系数带入到计算公式中,以求得目标特征值。
也就是,如图3所示,步骤1022可以按照如下方式实现:
S301,针对每个用户,根据该用户与每个评价元素的历史操作信息,生成该用户关于每个评价元素的初始特征值;
S302,针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值。
步骤S301中反映了依据历史操作信息来生成初始特征值的过程,步骤S302的实现方式可以参考步骤1022的实现方式,此处不过多说明。
如前文中的说明,由于历史操作信息可能有很多种,比如购买、查询、浏览等。每种操作方式对初始特征值的影响可以是相同也可以是不同的。进而,S301在具体实现时,可以是根据历史操作信息所反映的每种操作的操作属性信息和每种操作所对应的权值,进行加权运算,以求得初始特征值。
操作属性信息的具体内容已经在前文中进行了介绍,此处不再重复说明,此处需要对每种操作所对应的权值进行介绍。此处的权值主要是用来区分不同种类操作对初始特征值的影响程度,进而达到影响用户相似程度的计算结果。具体来说,购买操作要比浏览操作和查询操作更能表征用户对某个评价元素的喜好;某些情况下,浏览操作比查询操作更能表征用户对某个评价元素的喜好(如果该浏览操作是主动进行的)。
具体的,购买次数、购买频率、浏览页面停留时间长度、浏览次数、浏览频率、查询次数、查询频率这些和数量有关的操作次数信息,与初始特征值的大小呈正相关性,也就是这些信息越大,则初始特征值越大。购买时间、浏览时间(什么时间浏览的)、查询时间这些操作时间距离当前时间(计算用户在某个时间点的相似度时,该时间点就应当认为是当前时间)越近,则初始特征值越大(距离当前时间越近说明信息时效性越好)。类似的,查询顺序靠后的,要比查询顺序靠前的更能影响初始特征值(查询顺序靠后的通常是用户经过对比认为更符合自己需求的)。进而,在确定某个评价元素的初始特征值的时候,应当根据该评价元素所对应的每种操作的操作属性信息和每种操作所对应的权值,来综合计算出其初始特征值。
通过上一段的说明,可以了解到操作属性信息可以影响初始特征值,进而,操作属性信息也可以进一步影响到目标特征值,也就是操作次数和操作时间也能够影响到目标特征值;具体来说,目标特征值与操作次数呈正相关性(操作次数越多,则目标特征值越大),目标特征值与操作时间呈正相关性(操作时间越晚,或者说,操作时间距离当前时间越近,则目标特征值越大,目标特征值越大,则越能影响其决策用户相似度的权利)。
步骤S103中主要完成的是对用户进行分类,具体的,分类通常有两种方式,第一种方式是计算两个用户的相似度,进而分类的方式;第二种是采用聚类的方式来完成分类。
对于第一种方式而言,步骤S103可以按照如下方式进行:
步骤1031,根据第一用户的所述目标特征值和第二用户的所述目标特征值,计算第一用户与第二用户的用户相似度;
步骤1032,若用户相似度超过预设数值,则确定第一用户和第二用户为相同类别。
步骤1031中,第一用户的目标特征值和第二用户的目标特征值已经在步骤S102中完成了计算,此处只需要根据目标特征值直接计算两个用户的相似度即可。步骤1032中,如果相似度过高,则可以认为这两个用户的相同的类别。
具体的,由于评价元素是有多个,因此,用户的目标特征值通常是以向量的方式表达的特征向量。如对于第一用户而言,其特征向量可以是(1,2,3,4),其中,1-4分别表示第一用户对于4种不同的评价元素的目标特征值。类似的,第二用户的目标特征值也可以使用类似的方式进行表达。由于这两个用户都是以特征向量的方式表达其对于每个评价元素的关系,因此,可以直接使用余弦相似度的计算公式来计算这两个用户的之间的相似度。
当然,在具体实现的时候,步骤1031也可以按照如下方式来实现:
步骤10311,针对每个评价元素,根据第一用户关于该评价元素的目标特征值和第二用户关于该评价元素的目标特征值,计算第一用户与第二用户关于该评价元素的参考相似度;
步骤10312,根据第一用户和第二用户关于每个评级元素的参考相似度,计算第一用户与第二用户的用户相似度;
也就是,先分别计算这两个用户关于每个评价元素的参考相似度,而后,将每个评价元素的参考相似度进行汇总,使用某个预定的公式来合成用户相似度。
在确定第二用户和第一用户的类别相同之后,本申请所提供的方案中,还可以进一步包括如下步骤:
根据第二用户的对评价元素进行操作的历史操作信息,生成用于向第一用户进行推送的推送消息。
也就是,如果第二用户与第一用户是相同的类别,则可以根据第二用户对评价元素的交互历史来生成如广告推送消息、新闻推送消息这类推送消息,并向第一用户进行推送。由于第一用户与第二用户的类别是相同的,因此,采用第二用户的历史操作信息所确定的推送信息的内容肯定是更为准确的。
具体实现时,该生成推送消息的步骤还可以按照如下方式来实现:
根据第二用户的对评价元素进行操作的历史操作信息和第一用户的对评价元素进行操作的历史操作信息,确定第一用户未进行操作过的评价元素;
根据第一用户未进行操作过的评价元素,生成用于向第一用户进行推送的推送消息。
也就是,可以根据两个用户的历史操作信息,分析出第一用户没有进行过操作(如没有购买过,没有浏览过)的某个商品,并将该商品所对应的推送消息发送给第一用户。此种确定推送消息的方式考虑到了两个用户的购买历史差别,使得可以向第一用户推送其之前没有关注过(没有操作过)的评价元素,因此,此种确定推送消息的方式更加准确。
对于第二种方式而言,步骤S103可以按照如下方式进行:
根据每个用户的目标特征值,对用户进行聚类,以确定每个用户的类别。
如前文中的说明,目标特征值通常是以向量的方式进行表达,进而可以直接对每个用户的目标特征值使用如K-means、Mean-Shift等聚类算法,以将用户分成多个类别,而后,就可以确定出那些用户是在同一个类别中了。
与前一种分类方式相似的,在确定了用户的分类之后,也可以向用户推送其所需要的消息,比如,本申请所提供的方法还可以包括如下步骤:
根据与目标用户类别相同的其他用户对评价元素进行操作的历史操作信息,生成用于向目标用户进行推送的推送消息。
具体的,该生成推送消息的步骤还可以按照如下方式实现:
根据其他用户的对评价元素进行操作的历史操作信息和目标用户的对评价元素进行操作的历史操作信息,确定目标用户未进行操作过的评价元素;其中,其他用户与目标用户的类别是相同的;
根据目标用户未进行操作过的评价元素,生成用于向目标用户进行推送的推送消息。
下面,以一个具体的实例来说明本申请所提供的方案:
当前已获取到用户A~F对商品1~4的操作记录,如表1所示,表1中,1表示用户对该商品进行过购买,0表示用户对该商品没有进行过购买。
通过表1可以确定出用户A的初始特征向量userA=(0,1,0,1),该初始特向量中,第一个0表示用户A没有购买过商品1(即用户A关于商品1的初始特征值);第一个1表示用户购买过商品2;第二个0表示用户A没有购买过商品3;第二个1表示用户购买过商品4;同理,用户B的初始特征向量userB=(0,1,0,0),同理可以得到用户C、D、E的初始特征向量,用户F的初始特征向量为userF=(0,0,0,1)。也就是初始特征向量是由用户关于每一个商品(评价元素)的操作记录确定的。
表1
步骤1,根据商品的操作记录,可以计算出每个商品的热度(IDF值),对于商品1,用户总数是6,有交互行为的用户数是1,进而,使用与蛇的计算公式进行计算可以得到同理可以计算出/>
步骤2:通过用户初始特征向量和商品的热度计算出用户目标特征向量,用户A的特征向量是同理/>
步骤3:基于用户目标特征向量,使用余弦相似度的计算方式计算用户间的相似度,用户A和用户B的相似度为:
用户A和用户F的相似度为:
可见用户A和用户F的相似度比用户A和用户B的相似度更大。但是按照通常的计算方式,这是因为本发明考虑了商品的权重,热门商品2的权重被降低,有效的避免了热门商品对计算用户相似度的影响。
与上述用户分类方法相对应的,本申请还提供了用户分类装置,该装置包括:
第一确定模块,用于根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
第一生成模块,用于针对每个用户,根据该用户与每个评价元素的历史操作信息和每个评价元素的热度,生成该用户关于每个评价元素的目标特征值;
分类模块,用于根据每个用户的所述目标特征值,对用户进行分类。
在一些实施例中,所述评价元素的目标特征值与该评价元素的热度呈负相关性。
在一些实施例中,所述历史操作信息包括以下的任意一种或多种:
购买信息、浏览信息、查询信息。
在一些实施例中,第一生成模块,包括:
第一确定单元,用于针对每个评价元素,根据该评价元素的热度,确定该评价元素的缩放系数;
第二确定单元,用于针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值;该用户关于每个评价元素的初始特征值是根据该用户关于每个评价元素的历史操作信息确定的。
在一些实施例中,所述缩放系数是通过如下模块确定的:
第二确定模块,用于根据每个评价元素的热度,对评价元素进行排名,以确定每个评价元素的序位;
第三确定模块,用于针对每个评价元素,根据该评价元素的序位,确定该评价元素的缩放系数。
在一些实施例中,第二确定单元,包括:
第一生成子单元,用于针对每个用户,根据该用户与每个评价元素的历史操作信息,生成该用户关于每个评价元素的初始特征值;
第一确定子单元,用于针对每个用户,根据该用户关于每个评价元素的初始特征值和每个评价元素的缩放系数,确定该用户关于每个评价元素的目标特征值。
在一些实施例中,分类模块,包括:
第一计算单元,用于根据第一用户的所述目标特征值和第二用户的所述目标特征值,计算第一用户与第二用户的用户相似度;
第三确定单元,若用户相似度超过预设数值,则用于确定第一用户和第二用户为相同类别。
在一些实施例中,分类模块,包括:
聚类单元,用于根据每个用户的目标特征值,对用户进行聚类,以确定每个用户的类别。
与上述方法相对应的,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如用户分类方法的步骤。
如图4所示,为本申请实施例所提供的电子设备示意图,该电子设备1000包括:处理器1001、存储器1002和总线1003,存储器1002存储有执行指令,当电子设备运行时,处理器1001与存储器1002之间通过总线1003通信,处理器1001执行存储器1002中存储的用户分类方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.用户分类方法,其特征在于,包括:
根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
针对每个用户,根据每个评价元素的热度,对该用户关于每个评价元素的初始特征值进行调整,生成该用户关于每个评价元素的目标特征值;其中,该用户关于每个评价元素的初始特征值是根据该用户关于每个评价元素的历史操作信息确定的;所述评价元素的目标特征值与该评价元素的热度呈负相关性;
根据每个用户的所述目标特征值,对用户进行分类;
其中,所述针对每个用户,根据每个评价元素的热度,对该用户关于每个评价元素的初始特征值进行调整,生成该用户关于每个评价元素的目标特征值,包括:
针对每个评价元素,根据该评价元素的热度,确定该评价元素的缩放系数;其中,确定该评价元素的缩放系数的方式至少包括:将该评价元素的热度作为该评价元素的缩放系数;
针对每个用户,根据每个评价元素的缩放系数,分别对该用户关于每个评价元素的初始特征值进行调整,得到该用户关于每个评价元素的目标特征值。
2.根据权利要求1所述的方法,其特征在于,所述历史操作信息包括以下的任意一种或多种:
购买信息、浏览信息、查询信息。
3.根据权利要求1所述的方法,其特征在于,所述缩放系数是通过如下方式确定的:
根据每个评价元素的热度,对评价元素进行排名,以确定每个评价元素的序位;
针对每个评价元素,根据该评价元素的序位,确定该评价元素的缩放系数。
4.根据权利要求1所述的方法,其特征在于,根据每个用户的所述目标特征值,对用户进行分类,包括:
根据第一用户的所述目标特征值和第二用户的所述目标特征值,计算第一用户与第二用户的用户相似度;
若用户相似度超过预设数值,则确定第一用户和第二用户为相同类别。
5.根据权利要求1所述的方法,其特征在于,根据每个用户的所述目标特征值,对用户进行分类,包括:
根据每个用户的目标特征值,对用户进行聚类,以确定每个用户的类别。
6.用户分类装置,其特征在于,包括:
第一确定模块,用于根据用户对评价元素进行操作的历史操作信息,确定每个评价元素的热度;
第一生成模块,用于针对每个用户,根据每个评价元素的热度,对该用户关于每个评价元素的初始特征值进行调整,生成该用户关于每个评价元素的目标特征值;其中,该用户关于每个评价元素的初始特征值是根据该用户关于每个评价元素的历史操作信息确定的;所述评价元素的目标特征值与该评价元素的热度呈负相关性;
分类模块,用于根据每个用户的所述目标特征值,对用户进行分类;
其中,在所述针对每个用户,根据每个评价元素的热度,对该用户关于每个评价元素的初始特征值进行调整,生成该用户关于每个评价元素的目标特征值时,所述第一生成模块,用于:
针对每个评价元素,根据该评价元素的热度,确定该评价元素的缩放系数;其中,确定该评价元素的缩放系数的方式至少包括:将该评价元素的热度作为该评价元素的缩放系数;
针对每个用户,根据每个评价元素的缩放系数,分别对该用户关于每个评价元素的初始特征值进行调整,得到该用户关于每个评价元素的目标特征值。
7.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至5任一所述的用户分类方法的步骤。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的用户分类方法的步骤。
CN202010140222.9A 2020-03-03 2020-03-03 用户分类方法、装置、电子设备和存储介质 Active CN111400587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140222.9A CN111400587B (zh) 2020-03-03 2020-03-03 用户分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140222.9A CN111400587B (zh) 2020-03-03 2020-03-03 用户分类方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111400587A CN111400587A (zh) 2020-07-10
CN111400587B true CN111400587B (zh) 2024-01-30

Family

ID=71428431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140222.9A Active CN111400587B (zh) 2020-03-03 2020-03-03 用户分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111400587B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003122A (zh) * 2018-06-28 2018-12-14 四川斐讯信息技术有限公司 一种基于广告投放的用户分类方法及服务器
CN109582876A (zh) * 2018-12-19 2019-04-05 广州易起行信息技术有限公司 旅游行业用户画像构造方法、装置和计算机设备
CN110046965A (zh) * 2019-04-18 2019-07-23 北京百度网讯科技有限公司 信息推荐方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003122A (zh) * 2018-06-28 2018-12-14 四川斐讯信息技术有限公司 一种基于广告投放的用户分类方法及服务器
CN109582876A (zh) * 2018-12-19 2019-04-05 广州易起行信息技术有限公司 旅游行业用户画像构造方法、装置和计算机设备
CN110046965A (zh) * 2019-04-18 2019-07-23 北京百度网讯科技有限公司 信息推荐方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111400587A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US10846775B1 (en) Identifying item recommendations through recognized navigational patterns
CN106651546B (zh) 一种面向智慧社区的电子商务信息推荐方法
KR100883463B1 (ko) 검색을 점수화하기 위한 방법 및 장치
Wang et al. A personalized recommender system for the cosmetic business
Sarwar et al. Analysis of recommendation algorithms for e-commerce
US7720720B1 (en) System and method for generating effective recommendations
US9208202B1 (en) Systems and methods for determining interest in an item or category of items
JP2020177670A (ja) 情報推奨方法、情報推奨装置、機器および媒体
US7908184B2 (en) Method of providing customized information of commodity for on-line shopping mall users
US20150186938A1 (en) Search service advertisement selection
NO335884B1 (no) Fremgangsmåter og system for å forstå meningen av en kunnskapsenhet ved bruk av informasjon tilknyttet kunnskapsenheten
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN111695023A (zh) 信息推荐方法、装置、存储介质及设备
US20190228451A1 (en) Method, system, and computer-readable medium for product and vendor selection
JP2020047156A (ja) 商品推薦装置及びプログラム
CN109299426A (zh) 一种精确头条信息的推荐方法及装置
WO2016157427A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN114820123A (zh) 团购商品推荐方法、装置、设备及存储介质
Xie et al. A probabilistic recommendation method inspired by latent Dirichlet allocation model
Borges et al. A survey on recommender systems for news data
CN112036987B (zh) 确定推荐商品的方法和装置
JP4829789B2 (ja) キーワードの翻訳方法及びコンピュータ読取可能媒体
CN110321490B (zh) 推荐方法、装置、设备及计算机可读存储介质
CN111400587B (zh) 用户分类方法、装置、电子设备和存储介质
He et al. Understanding Users' Coupon Usage Behaviors in E-Commerce Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant