CN107451140A - 一种用户偏好程度的确定方法及装置 - Google Patents

一种用户偏好程度的确定方法及装置 Download PDF

Info

Publication number
CN107451140A
CN107451140A CN201610371567.9A CN201610371567A CN107451140A CN 107451140 A CN107451140 A CN 107451140A CN 201610371567 A CN201610371567 A CN 201610371567A CN 107451140 A CN107451140 A CN 107451140A
Authority
CN
China
Prior art keywords
preference
probability
data
user
happening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610371567.9A
Other languages
English (en)
Other versions
CN107451140B (zh
Inventor
贾冰鑫
毛仁歆
刘鸿鹏飞
王凯
杨品
杨一品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610371567.9A priority Critical patent/CN107451140B/zh
Publication of CN107451140A publication Critical patent/CN107451140A/zh
Application granted granted Critical
Publication of CN107451140B publication Critical patent/CN107451140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种用户偏好程度的确定方法及装置,在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。所述方法包括:提取用户的历史行为数据以及条件数据;根据所述历史行为数据和所述条件数据,确定所述偏好特征的第一发生概率;以及根据所述条件数据确定第二发生概率;所述第一发生概率为在所述条件数据影响下所述偏好特征在所述历史行为数据中发生的概率,所述第二发生概率为在用户无偏好时所述偏好特征发生的概率;确定所述第一发生概率与第二发生概率之间的距离;根据所述第一发生概率以及所述距离,确定用户对于所述偏好特征的偏好值。

Description

一种用户偏好程度的确定方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种用户偏好程度的确定方法及装置。
背景技术
互联网时代,用户在互联网上的所有行为数据都可能是该用户在自己某种偏好地驱使下完成的行为生成的,所以这些行为数据往往能够反映用户的偏好,而偏好程度可以用于反映用户对偏好的强烈程度。
现有技术在确定用户的偏好程度时往往是有目的性地针对某个偏好,并且采集与这个偏好相关的历史行为数据,通过预设的权重比例根据各种历史行为数据确定用户对这种偏好的偏好程度。比如在确定用户对某种偏好的偏好程度时,会先采集该用户与这种偏好存在相关性的如浏览次数、观看时长、下单次数等历史行为数据,再通过预定的权重比例,利用浏览次数、观看时长、下单次数等历史行为数据确定该用户对这种偏好的偏好程度。
但是,现有技术在确定用户的偏好程度时,针对每一种偏好程度的确定方法不尽相同。比如,对于不同类型的历史行为数据会预设不同的权重比例也就是不同类型的历史行为数据都可能会对用户的偏好程度有着不同的贡献,所以一个偏好程度的确定方法,不一定适用于确定另一个偏好程度,因此在根据用户的历史行为数据确定用户的偏好程度时,不同偏好之间存在较强的特殊性,普遍性较弱。也就不利于横向比较用户对不同偏好的偏好程度。
发明内容
本申请实施例提供一种用户偏好程度的确定方法,在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。
本申请实施例提供一种用户偏好程度的确定装置,在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。
本申请实施例采用下述技术方案:
一种用户偏好程度的确定方法,包括:
提取用户的历史行为数据以及条件数据,所述历史行为数据中包含需要确定偏好程度的偏好特征,所述条件数据中包含影响偏好特征发生的数据;
根据所述历史行为数据和所述条件数据,确定所述偏好特征的第一发生概率;以及根据所述条件数据确定第二发生概率;所述第一发生概率为在所述条件数据影响下所述偏好特征在所述历史行为数据中发生的概率,所述第二发生概率为在用户无偏好时所述偏好特征发生的概率;
确定所述第一发生概率与第二发生概率之间的距离;
根据所述第一发生概率以及所述距离,确定用户对于所述偏好特征的偏好值。
优选地,所述历史行为数据中包含需要确定偏好程度的至少两个偏好特征,所述条件数据中包含影响所述至少两个偏好特征发生的数据,
则所述方法具体包括:
根据所述历史行为数据和所述条件数据,确定所述至少两个偏好特征组合的第一发生概率;以及根据所述条件数据确定第二发生概率;
确定所述第一发生概率与第二发生概率之间的距离;
根据所述第一发生概率以及所述距离,确定用户对于所述至少两个偏好特征组合的偏好值。
优选地,提取用户的历史行为数据以及条件数据,包括:
获取用户的原始历史行为数据以及原始条件数据,并对所述原始历史行为数据以及原始条件数据进行格式化处理;
从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。
优选地,提取用户的历史行为数据以及条件数据,包括:
提取指定时间段内用户的历史行为数据以及条件数据。
优选地,确定所述第一发生概率与第二发生概率之间的距离,包括:
确定所述第一发生概率与第二发生概率之间的相对熵。
一种用户偏好程度的确定装置,包括:数据提取单元、概率确定单元、距离确定单元以及偏好值确定单元,其中,
所述数据提取单元,用于提取用户的历史行为数据以及条件数据,所述历史行为数据中包含需要确定偏好程度的偏好特征,所述条件数据中包含影响偏好特征发生的数据;
所述概率确定单元,用于根据所述历史行为数据和所述条件数据,确定所述偏好特征的第一发生概率;以及根据所述条件数据确定第二发生概率;所述第一发生概率为在所述条件数据影响下所述偏好特征在所述历史行为数据中发生的概率,所述第二发生概率为在用户无偏好时所述偏好特征发生的概率;
所述距离确定单元,用于确定所述第一发生概率与第二发生概率之间的距离;
所述偏好值确定单元,用于根据所述第一发生概率以及所述距离,确定用户对于所述偏好特征的偏好值。
优选地,所述历史行为数据中包含需要确定偏好程度的至少两个偏好特征,所述条件数据中包含影响所述至少两个偏好特征发生的数据,
则所述概率确定单元,具体用于:
根据所述历史行为数据和所述条件数据,确定所述至少两个偏好特征组合的第一发生概率;以及根据所述条件数据确定第二发生概率;
所述偏好值确定单元,具体用于:
根据所述第一发生概率以及所述距离,确定用户对于所述至少两个偏好特征组合的偏好值。
优选地,所述数据提取单元,具体用于:
获取用户的原始历史行为数据以及原始条件数据,并对所述原始历史行为数据以及原始条件数据进行格式化处理;
从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。
优选地,所述数据提取单元,具体用于:
提取指定时间段内用户的历史行为数据以及条件数据。
优选地,所述距离确定单元,具体用于:
确定所述第一发生概率与第二发生概率之间的相对熵。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:提取出包含需要确定偏好程度的偏好特征的用户历史行为数据以及包含影响偏好特征发生的条件数据,并根据历史行为数据以及条件数据,确定出偏好特征的第一发生和第一发生概率,再确定出两概率间的距离,最终根据第一发生概率以及距离确定出用于表征用户对偏好特征的偏好程度的偏好值,由于本方法在确定用户的偏好特征时,重点关注偏好特征是否发生过,而非具体发生了什么行为,所以即使是不同的偏好,只要发生过,那么对偏好程度的贡献就是相同的,所以就适用于不同偏好,从而在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。此外,也有利于横向比较用户对不同偏好的偏好程度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1提供的用户偏好程度的确定方法的流程示意图;
图2为本申请实施例2提供的用户偏好程度的确定装置的结构框图;
图3为本申请实施例2提供的用户在雨天订外卖的偏好程度的确定方法的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
如前所述,目前在确定用户的偏好程度时,针对每一种偏好程度的确定方法不尽相同,比如,确定用户对于篮球的偏好程度,需要获取到用户历史行为中浏览篮球新闻的次数、观看篮球视频的次数和时长、还可能关注对篮球游戏的在线时长等,在处理这些历史行为数据时,会通过预定的权重比例确定对于篮球的偏好程度,具体比如篮球视频权重最高、篮球新闻次之,篮球游戏最次。但是,确定用户对于台球的偏好程度时,可能就需要获取到用户历史行为中浏览新闻的时长,预计台球游戏的在线时长等,并且会用另一套预定的权重比例(比如台球游戏时长权重最高),确定对于台球的偏好程度。所以,就会出现一个偏好程度的确定方法,不一定适用于确定另一个偏好程度。也就是,不同类型的历史行为数据都可能会对用户的偏好程度有着不同的贡献,如上所述,确定篮球偏好程度的方法就不适用于确定台球的偏好程度,因为浏览篮球新闻的行为对篮球偏好的贡献与浏览台球新闻的行为对台球偏好的贡献并不相同。所以,在根据用户的历史行为数据确定用户的偏好程度时,不同偏好之间就会存在较强的特殊性,普遍性较弱。此外,还会由此导致不利于横向比较用户对不同偏好的偏好程度的后果。比如,用户针对篮球可以有一个表征偏好程度的偏好值,用户针对台球也可以有一个表征偏好程度的偏好值,由于根据各自预设的权重比例利用历史行为数据确定两个偏好值时历史行为数据的类型和权重比例各不相同,所以也就缺乏可比性,说明不了到底更偏好于哪个。基于现有技术特殊性较强,普遍性较弱这个缺陷,本申请实施例就提供了一种用户偏好程度的确定方法,在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。该方法的流程示意图如图1所示,包括下述步骤:
步骤11:提取用户的历史行为数据以及条件数据。
随着互联网、个人计算机、便携计算机、移动终端等的发展,用户会通过各种终端在互联网上进行各种操作,每种操作都会留下历史行为数据(浏览数据、订单数据、交易数据、出行数据、游戏数据等),这些历史行为数据或多或少反应了用户的偏好,比如浏览新闻、购买产品,就可以反应出用户的偏好。所以,在确定偏好程度时,就可以提取用户的历史行为数据,提取的历史行为数据中,可以包含需要确定偏好程度的偏好特征。偏好特征可以是指在用户的历史行为数据中,反应了用户某种偏好的特征,并且能够证明用户的历史行为中,偏好特征发生过。比如,需要确定用户对篮球的偏好程度,那么用户观看篮球视频,获取篮球新闻,都可以是确定对篮球的偏好程度的偏好特征,因为观看篮球视频或者获取篮球新闻,均可以表征篮球偏好的发生;又如,需要确定用户对台球的偏好程度,那么用户的关注行为,购物行为,游戏数据等就都可以是确定对台球偏好程度的偏好特征。
用户在互联网上进行某种操作时,除了在自身偏好的驱使下,还有可能是在某些条件下,这里所指的条件就可以是影响偏好特征发生的条件,比如,天气、工作日与非工作日,工作时间和休息时间,这些都可以影响偏好特征的发生;又如,订餐时的菜系,口味,也可以影响偏好特征的发生。所以,本步骤除了提取用户的历史行为数据,还需要提取条件数据,其中条件数据就可以包含影响偏好特性发生的数据。比如,如果需要确定工作时间和休息时间时的篮球偏好,就可以提取包含与篮球相关的历史行为数据以及作息时间数据。
在实际应用中,用户在互联网上操作时,可能会留下个性化的原始数据,比如会在备注中填写一些代表个人偏好的信息(颜色、要求包装完好、快递送达时间等),或者原始的历史行为数据的格式也不便于确定偏好程度时使用。如果根据原始数据确定偏好程度,会导致影响确定偏好程度的效率。类似地,条件数据也可能存在原始的条件数据的格式不便于确定偏好程度时使用的问题(类似于银行报文,需要将业务请求格式化为银行可认的格式)。所以在一种实施方式中,本步骤可以包括:获取用户的原始历史行为数据以及原始条件数据,并对原始历史行为数据以及原始条件数据进行格式化处理;从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。格式化处理后的历史行为数据,保留对确定偏好程度必要的数据,也便于对需要确定偏好程度的偏好特征的用户历史行为数据和条件数据进行提取。
虽然用户的所有历史行为数据均能够反映用户的偏好,但在实际中,往往离当前时间越近的历史行为数据越能准确地反映用户的偏好程度,所以在一种实施方式中,可以提取指定时间段内用户的历史行为数据以及条件数据,比如15天内、一个月内或一个季度内。
上文所举的“确定用户对篮球的偏好程度”的例子,只是针对一个偏好特征而言,但在实际应用中,用户还可能存在偏好特征的组合,比如,用户不仅对篮球有所偏好,还重点喜好某支球队,用户不仅对美食有所偏好,还独爱某个菜系,所以在一种实施方式中,历史行为数据中可以包含需要确定偏好程度的至少两个偏好特征,那么相应的,条件数据中也可以包含影响上述至少两个偏好特征发生的数据。比如,可以提取用户在一个季度内获取篮球新闻的历史行为数据,并且提取用户在该季度内获取台球新闻的历史行为数据。这样在确定用户的偏好程度时,就可以确定出用户同时对篮球和台球的偏好程度,也就是,用户在获取篮球新闻时,也希望顺便获取台球新闻,可以假如需要确定工作日和非工作日对获取新闻的影响,那么条件数据就可以是工作日和非工作日。又如可以确定出用户对美食中北京菜的偏好程度,由于美食中包含很多菜系,所以条件数据就可以是菜系数据。
步骤12:根据历史行为数据和条件数据,确定该偏好特征的第一发生概率以及根据条件数据确定第二发生概率。
上一步骤已经提取到了包含需要确定偏好程度的偏好特征的用户历史行为数据,这些数据反映了用户的偏好并且证明了偏好特征的发生,还提取了包含影响偏好特征发生的条件数据,所以在本步骤中,可以根据这些历史行为数据和条件数据,确定出在条件数据的影响下这个偏好特征的发生概率,以及只根据条件数据,确定在用户无偏好时偏好特征发生的概率,其中,第一发生概率就可以是指在条件数据的影响下该偏好特征在历史行为数据中发生的概率;第二发生概率就可以是指在用户无偏好时偏好特征发生的概率。比如,历史行为数据是一个季度内用户获取篮球新闻的数据,条件数据为工作日和非工作日的数据,那么在条件数据的影响下偏好特征在历史行为数据中发生的概率就可以是指工作日中和非工作日中“获取篮球新闻”发生的概率,比如用户在一个季度内有60天都有获取篮球新闻的行为,并且有40天是在非工作日中发生的,只有20天是在工作日发生的,那么第一发生概率就可以是2/3=0.667和0.333。在用户无偏好时偏好特征发生的概率,也可以理解为,在没有偏好的驱使下,偏好特征发生的概率。比如,假如工作日和非工作日“获取篮球新闻”发生的概率均等,那么第二发生概率就可以是5/7=0.714和2/7=0.286。
在步骤11中,可以提取包含需要确定偏好程度的至少两个偏好特征的用户历史行为数据,那么在本步骤中,也就可以根据历史行为数据和条件数据,确定该至少两个偏好特征组合的第一发生概率以及根据条件数据第二发生概率。比如,提取出的用户在一个季度内获取篮球和台球的新闻的数据中,有30天同时获取了篮球和台球的新闻,假如,依旧确定工作日与非工作日对偏好特征的影响,那么条件数据中包含影响获取篮球和台球的新闻偏好特征发生的数据就依旧可以是工作日和非工作日的数据。如果“同时获取篮球和台球新闻”这个偏好特征有20天在非工作日发生,有10天在工作日发生,那么在工作日发生“同时获取了篮球和台球的新闻”的概率为1/3,在非工作日发生“同时获取了篮球和台球的新闻”的概率为2/3。
假如用户对“获取篮球新闻”和“获取台球新闻”在工作日和非工作日均无偏好程度,那么,在工作日“获取篮球的新闻”的概率、在工作日“获取台球的新闻”的概率均为5/7、在非工作日“获取篮球的新闻”的概率、在非工作日“获取台球的新闻”的概率均为2/7,在非工作日“同时获取篮球和台球新闻”的概率即为2/7×2/7,在工作日“同时获取篮球和台球新闻”的概率即为5/7×5/7。
步骤13:确定第一发生概率与第二发生概率之间的距离。
在概率学中有一种相对熵,又称KL散度(Kullback–Leibler divergence,简称KLD),公式如下:
是描述两个概率分布p和q之间的距离的方法,其中,p就是实际概率,q就是理论概率。
在本申请中,可以将第一发生概率定义为实际概率,讲第二发生概率定义为理论概率。
在确定工作日和非工作日“获取篮球新闻”偏好程度时,KLD=0.667×log(0.667/0.286)+0.333×log(0.333/0.714)=1.304。
在实际应用中,对于上述公式,还可以根据需求加入修正系数,衍变为下述公式:
其中,α即为修生系数,比如,在实际应用中,相对熵在体现两概率之间的距离时,结果偏大,此时就可以将α设定为小于1的常数,对相对熵进行微调。
步骤14:根据第一发生概率以及第一发生概率与第二发生概率之间的距离,确定用户对于偏好特征的偏好值。
步骤12中已经确定出了第一发生概率,步骤13中已经确定出第一发生概率与第二发生概率之间的距离,在本步骤中,就可以根据这两个值,确定出用户对于偏好特征的偏好值,这个偏好值可以用于表征用户对偏好特征的偏好程度。
具体地,可以按照下述公式确定:
P(xi)=KLD×p(xi)
对于工作日和非工作日“获取篮球新闻”这个偏好程度,
P(非工作日获取篮球新闻)=1.304×0.667=0.870;
P(工作日获取篮球新闻)=1.304×0.333=0.435。
或者,还可以按照下述公式确定:
P(xi)=KLD×p(xi)2
则,对于“获取篮球新闻”这个偏好程度,
P(获取篮球新闻)=1.304×0.667×0.667=0.580;
P(不获取篮球新闻)=1.304×0.333×0.667=0.145。
在步骤11中,可以提取包含需要确定偏好程度的至少两个偏好特征的用户历史行为数据,那么在本步骤中,也就可以第一发生概率以及第一发生概率与第二发生概率之间的距离,确定用户对于至少两个偏好特征组合的偏好值。
在用户的历史行为数据中,还可以确定出对于其他偏好的偏好程度,由于均是以表征偏好特征发生的用户历史行为数据为基础确定偏好程度,所以也就有了横向的可比性,也就是,只要偏好特征发生过,不管发生了具体的(浏览、或关注、或观看、或评论等)什么行为,对于偏好程度的贡献均是相同的。在实际应用中,也就可以将用户的偏好进行比较,从发挖掘出用户的最高偏好,次高偏好等。
采用实施例1提供的该方法,提取出包含需要确定偏好程度的偏好特征的用户历史行为数据以及包含影响偏好特征发生的条件数据,并根据历史行为数据以及条件数据,确定出偏好特征的第一发生和第一发生概率,再确定出两概率间的距离,最终根据第一发生概率以及距离确定出用于表征用户对偏好特征的偏好程度的偏好值,由于本方法在确定用户的偏好特征时,重点关注偏好特征是否发生过,而非具体发生了什么行为,所以即使是不同的偏好,只要发生过,那么对偏好程度的贡献就是相同的,所以就适用于不同偏好,从而在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。此外,也有利于横向比较用户对不同偏好的偏好程度。
实施例2
基于相同的发明构思,实施例2提供了一种偏好程度的确定装置,用于提高根据用户历史行为数据确定用户偏好程度时的普遍性。图2为该装置的结构框图,该装置包括:数据提取单元21、概率确定单元22、距离确定单元23以及偏好值确定单元24,其中:
数据提取单元21,可以用于提取户的历史行为数据以及条件数据,该历史行为数据中包含需要确定偏好程度的偏好特征,该条件数据中包含影响偏好特征发生的数据;
概率确定单元22,可以用于根据历史行为数据和条件数据,确定偏好特征的第一发生概率;以及根据条件数据确定第二发生概率;其中,第一发生概率为在条件数据影响下偏好特征在历史行为数据中发生的概率,第二发生概率为在用户无偏好时偏好特征发生的概率;
距离确定单元23,可以用于确定第一发生概率与第二发生概率之间的距离;
偏好值确定单元24,可以用于根据实际概率以及相对熵,确定用户对于偏好特征的偏好值。
在一种实施方式中,历史行为数据中包含需要确定偏好程度的至少两个偏好特征,条件数据中包含影响所述至少两个偏好特征发生的数据,
则概率确定单元22,可以用于:
根据历史行为数据和条件数据,确定至少两个偏好特征组合的第一发生概率;以及根据条件数据确定第二发生概率;
偏好值确定单元24,可以用于:
根据第一发生概率以及第一发生概率与第二发生概率之间的距离,确定用户对于至少两个偏好特征组合的偏好值。
在一种实施方式中,数据提取单元21,可以用于:
获取用户的原始历史行为数据以及原始条件数据,并对原始历史行为数据以及原始条件数据进行格式化处理;
从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。
在一种实施方式中,数据提取单元21,可以用于:
提取指定时间段内用户的历史行为数据以及条件数据。
在一种实施方式中,距离确定单元23,可以用于:
确定第一发生概率与第二发生概率之间的相对熵。
采用实施例2提供的该装置,提取出包含需要确定偏好程度的偏好特征的用户历史行为数据以及包含影响偏好特征发生的条件数据,并根据历史行为数据以及条件数据,确定出偏好特征的第一发生和第一发生概率,再确定出两概率间的距离,最终根据第一发生概率以及距离确定出用于表征用户对偏好特征的偏好程度的偏好值,由于本方法在确定用户的偏好特征时,重点关注偏好特征是否发生过,而非具体发生了什么行为,所以即使是不同的偏好,只要发生过,那么对偏好程度的贡献就是相同的,所以就适用于不同偏好,从而在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。此外,也有利于横向比较用户对不同偏好的偏好程度。
实施例3
基于相同的发明思路。本申请实施例就提供了一种用户在雨天订外卖的偏好程度的确定方法,在根据用户历史行为数据确定用户偏好程度时,降低不同偏好之间的特殊性,提高普遍性。该方法的流程示意图如图3所示,包括下述步骤:
步骤31:获取一个月内的原始用户历史行为数据,以及一个月内原始天气数据。
可以从外卖应用程序中获取用户的原始订单数据,并且可以从与天气相关的网站中获取原始天气数据。
步骤32:对原始用户历史行为数据,以及原始天气数据进行格式化。
可以去除原始订单数据中的备注信息、口味选项、送达时间等;可以去除原始天气数据中夜间温度、风量等。并且可以将这些数据整合到预定格式的数据库中,便于后续对数据进行提取。比如将用户名与外卖订单的时间整合到一个数据表中,又如将日期以及对应的天气情况按照是否雨天整合到另一个或同一个数据表中。
步骤33:从格式化后的历史行为数据、以及格式化后的天气数据中,提取用户的外卖订单数据以及天气数据。
本步骤就可以提取出用户在一个月内外卖订单的日期,以及一个月内每一天的天气数据。
步骤34:根据外卖订单数据以及天气数据,确定雨天订外卖的实际概率以及理论概率。
由于一个月(30天)内,有10天下雨,20天不下雨,在无偏好程度情况下,是不是雨天订外卖的概率都是相同的,所以q(雨)=0.333,q(非雨)=0.667。
而获取到的实际情况是雨天订外卖有8天,非雨天订外卖有3天,所以,p(雨)=8/11=0.727,p(非雨)=3/11=0.273。
本实施例中,可以认为实际概率即为第一发生概率,理论概率即为第二发生概率。
步骤35:确定实际概率以及理论概率间的相对熵。
可以按照下述公式确定:
则KDL=0.727×log(0.727/0.333)+0.273×log(0.273/0.667)=1.085
步骤36:根据实际概率以及相对熵,确定用户在雨天和非雨天订外卖的偏好程度。
本步骤可以按照下述公式确定偏好特征与客观偏好特征组合的偏好值:
P(xi)=KLD×p(xi)
则P(雨)=1.085×0.727=0.789;
P(非雨)=1.085×0.273=0.574。
所以可以得出,该用户在下雨时订外卖的可能性比在不下雨时订外卖的可能性要高出至少20%的概率。在实际应用当中,就可以在雨天为该用户推荐外卖信息,方便用户的生活。
采用实施例3提供的该方法,在对于不同领域均通过相同的偏好程度确定方法来确定用户的偏好程度,适用于不同领域,在根据用户历史行为数据以及条件数据确定用户偏好程度时,也具有了较高的普遍性。此外,也有利于横向比较用户对不同领域中偏好的偏好程度。比如,还可以加上工作日与非工作日,雨天和非雨天对不同菜系的偏好,等等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种用户偏好程度的确定方法,其特征在于,包括:
提取用户的历史行为数据以及条件数据,所述历史行为数据中包含需要确定偏好程度的偏好特征,所述条件数据中包含影响偏好特征发生的数据;
根据所述历史行为数据和所述条件数据,确定所述偏好特征的第一发生概率;以及根据所述条件数据确定第二发生概率;所述第一发生概率为在所述条件数据影响下所述偏好特征在所述历史行为数据中发生的概率,所述第二发生概率为在用户无偏好时所述偏好特征发生的概率;
确定所述第一发生概率与第二发生概率之间的距离;
根据所述第一发生概率以及所述距离,确定用户对于所述偏好特征的偏好值。
2.如权利要求1所述的方法,其特征在于,所述历史行为数据中包含需要确定偏好程度的至少两个偏好特征,所述条件数据中包含影响所述至少两个偏好特征发生的数据,
则所述方法具体包括:
根据所述历史行为数据和所述条件数据,确定所述至少两个偏好特征组合的第一发生概率;以及根据所述条件数据确定第二发生概率;
确定所述第一发生概率与第二发生概率之间的距离;
根据所述第一发生概率以及所述距离,确定用户对于所述至少两个偏好特征组合的偏好值。
3.如权利要求1所述的方法,其特征在于,提取用户的历史行为数据以及条件数据,包括:
获取用户的原始历史行为数据以及原始条件数据,并对所述原始历史行为数据以及原始条件数据进行格式化处理;
从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。
4.如权利要求1所述的方法,其特征在于,提取用户的历史行为数据以及条件数据,包括:
提取指定时间段内用户的历史行为数据以及条件数据。
5.如权利要求1所述的方法,其特征在于,确定所述第一发生概率与第二发生概率之间的距离,包括:
确定所述第一发生概率与第二发生概率之间的相对熵。
6.一种用户偏好程度的确定装置,其特征在于,包括:数据提取单元、概率确定单元、距离确定单元以及偏好值确定单元,其中,
所述数据提取单元,用于提取用户的历史行为数据以及条件数据,所述历史行为数据中包含需要确定偏好程度的偏好特征,所述条件数据中包含影响偏好特征发生的数据;
所述概率确定单元,用于根据所述历史行为数据和所述条件数据,确定所述偏好特征的第一发生概率;以及根据所述条件数据确定第二发生概率;所述第一发生概率为在所述条件数据影响下所述偏好特征在所述历史行为数据中发生的概率,所述第二发生概率为在用户无偏好时所述偏好特征发生的概率;
所述距离确定单元,用于确定所述第一发生概率与第二发生概率之间的距离;
所述偏好值确定单元,用于根据所述第一发生概率以及所述距离,确定用户对于所述偏好特征的偏好值。
7.如权利要求6所述的装置,其特征在于,所述历史行为数据中包含需要确定偏好程度的至少两个偏好特征,所述条件数据中包含影响所述至少两个偏好特征发生的数据,
则所述概率确定单元,具体用于:
根据所述历史行为数据和所述条件数据,确定所述至少两个偏好特征组合的第一发生概率;以及根据所述条件数据确定第二发生概率;
所述偏好值确定单元,具体用于:
根据所述第一发生概率以及所述距离,确定用户对于所述至少两个偏好特征组合的偏好值。
8.如权利要求6所述的装置,其特征在于,所述数据提取单元,具体用于:
获取用户的原始历史行为数据以及原始条件数据,并对所述原始历史行为数据以及原始条件数据进行格式化处理;
从格式化后的历史行为数据以及条件数据中,提取用户的历史行为数据以及条件数据。
9.如权利要求6所述的装置,其特征在于,所述数据提取单元,具体用于:
提取指定时间段内用户的历史行为数据以及条件数据。
10.如权利要求6所述的装置,其特征在于,所述距离确定单元,具体用于:
确定所述第一发生概率与第二发生概率之间的相对熵。
CN201610371567.9A 2016-05-30 2016-05-30 一种用户偏好程度的确定方法及装置 Active CN107451140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610371567.9A CN107451140B (zh) 2016-05-30 2016-05-30 一种用户偏好程度的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610371567.9A CN107451140B (zh) 2016-05-30 2016-05-30 一种用户偏好程度的确定方法及装置

Publications (2)

Publication Number Publication Date
CN107451140A true CN107451140A (zh) 2017-12-08
CN107451140B CN107451140B (zh) 2020-08-25

Family

ID=60485829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610371567.9A Active CN107451140B (zh) 2016-05-30 2016-05-30 一种用户偏好程度的确定方法及装置

Country Status (1)

Country Link
CN (1) CN107451140B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362266A (zh) * 2019-07-19 2019-10-22 北京字节跳动网络技术有限公司 提示信息显示方法、系统、电子设备和计算机可读介质
CN113239091A (zh) * 2021-05-14 2021-08-10 杭州志卓科技股份有限公司 一种人工智能b2b网站用户的智能评价系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983952B1 (en) * 2005-06-03 2011-07-19 Versata Development Group, Inc. Scoring recommendations and explanations with a probabilistic user model
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN104679743A (zh) * 2013-11-26 2015-06-03 阿里巴巴集团控股有限公司 一种确定用户的偏好模式的方法及装置
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN105022729A (zh) * 2014-04-15 2015-11-04 中国移动通信集团河北有限公司 一种用户偏好确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983952B1 (en) * 2005-06-03 2011-07-19 Versata Development Group, Inc. Scoring recommendations and explanations with a probabilistic user model
CN104679743A (zh) * 2013-11-26 2015-06-03 阿里巴巴集团控股有限公司 一种确定用户的偏好模式的方法及装置
CN105022729A (zh) * 2014-04-15 2015-11-04 中国移动通信集团河北有限公司 一种用户偏好确定方法及装置
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362266A (zh) * 2019-07-19 2019-10-22 北京字节跳动网络技术有限公司 提示信息显示方法、系统、电子设备和计算机可读介质
CN110362266B (zh) * 2019-07-19 2020-12-18 北京字节跳动网络技术有限公司 提示信息显示方法、系统、电子设备和计算机可读介质
CN113239091A (zh) * 2021-05-14 2021-08-10 杭州志卓科技股份有限公司 一种人工智能b2b网站用户的智能评价系统

Also Published As

Publication number Publication date
CN107451140B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
US9978093B2 (en) Method and system for pushing mobile application
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
US9727927B2 (en) Prediction of user response to invitations in a social networking system based on keywords in the user's profile
US9361373B1 (en) Content aggregation and presentation
CN103164804B (zh) 一种个性化的信息推送方法及装置
US9348898B2 (en) Recommendation system with dual collaborative filter usage matrix
US20070219994A1 (en) Methods and systems for displaying media utilizing user-generated data
US10789634B2 (en) Personalized recommendation method and system, and computer-readable record medium
US20160241894A1 (en) Recommending media items based on take rate signals
US9990436B2 (en) Personal trends module
US20160055541A1 (en) Personalized recommendation system and methods using automatic identification of user preferences
US10445421B2 (en) Optimizing rendering of data tables
CN106997347A (zh) 信息推荐方法及服务器
CN106803197A (zh) 拼单方法和设备
US20130138429A1 (en) Method and Apparatus for Information Searching
CN103714063A (zh) 数据分析方法及其系统
CN105391594A (zh) 识别特征账号的方法及装置
CN104699696A (zh) 文件推荐方法和装置
US10789606B1 (en) Generation of an advertisement
CN112132606B (zh) 一种基于图注意力算法的动态调价方法及系统
CN106485566A (zh) 一种信息推荐方法及装置
CN107451140A (zh) 一种用户偏好程度的确定方法及装置
CN112423134A (zh) 视频内容推荐方法、装置及计算机设备
US10068006B1 (en) Generating trend-based item recommendations
US20190236091A1 (en) Media content recommendation method and apparatus and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.