CN111291904A - 偏好预测方法、装置及计算机设备 - Google Patents

偏好预测方法、装置及计算机设备 Download PDF

Info

Publication number
CN111291904A
CN111291904A CN202010081907.0A CN202010081907A CN111291904A CN 111291904 A CN111291904 A CN 111291904A CN 202010081907 A CN202010081907 A CN 202010081907A CN 111291904 A CN111291904 A CN 111291904A
Authority
CN
China
Prior art keywords
preference
combination
network
combined
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010081907.0A
Other languages
English (en)
Other versions
CN111291904B (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010081907.0A priority Critical patent/CN111291904B/zh
Publication of CN111291904A publication Critical patent/CN111291904A/zh
Application granted granted Critical
Publication of CN111291904B publication Critical patent/CN111291904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种偏好预测方法、装置及计算机设备。该方法包括:获取包括组合节点和边的网络图;所述组合节点,用于表征用户和对象的组合;所述组合节点中的一部分组合节点,携带所表征组合中用户对所述组合中的对象的偏好度;根据所述网络图中建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一类的组合节点;从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度。本申请方案能够节省成本。

Description

偏好预测方法、装置及计算机设备
技术领域
本发明涉及计算机技术和机器学习技术领域,特别是涉及一种偏好预测方 法、装置及计算机设备。
背景技术
随着科学技术的飞速发展,机器学习技术越来越受到重视。机器学习技术 被应用的场景越来越多,比如,通过机器学习技术来预测用户的偏好。
传统方法中,在通过机器学习技术预测用户偏好时,需要准备大量具有真 实偏好分值的样本数据,进行有监督地机器学习训练,生成机器学习模型。进 而基于该机器学习模型,来预测用户偏好。这样一来,大量的偏好分值作为样 本数据,就需要耗费较多的成本。
发明内容
基于此,有必要针对传统方法成本比较高的问题,提供一种偏好预测方法、 装置、计算机设备及存储介质。
一种偏好预测方法,方法包括:
获取包括组合节点和边的网络图;组合节点,用于表征用户和对象的组合; 所述组合节点中的一部分组合节点,携带所表征组合中用户对组合中的对象的 偏好度;
根据网络图中建边的组合节点之间的组合相似度,对网络图进行划分,得 到至少一个子网络;同一子网络中包括聚为一类的组合节点;
从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节 点对应的目标偏好度。
在一个实施例中,获取包括组合节点和边的网络图包括:
获取至少两个组合特征;组合特征,是组合的特征;组合为用户和对象的 组合;
将组合特征映射为空间中的组合节点,并根据组合特征,确定两两组合节 点之间的组合相似度;
在组合相似度大于或等于相似度阈值的组合节点之间建边,生成网络图。
在一个实施例中,获取至少两个组合特征包括:
获取至少两组数据;同组数据中包括用户数据和对象数据;用户数据所对 应的用户和对象数据所对应的对象,属于同一组合;
从用户数据中提取用户特征,以及从对象数据中提取对象特征;
将对应于同组数据的用户特征和对象特征进行组合,生成组合特征。
在一个实施例中,根据网络图中建边的组合节点之间的组合相似度,对网 络图进行划分,得到至少一个子网络包括:
根据网络图中各边对应的组合节点之间的组合相似度,确定组合节点之间 的转移概率;转移概率与组合相似度正相关;
按照转移概率在网络图中进行随机游走,确定随机游走过程中各组合节点 的第一出现概率和聚类类别的第二出现概率;
根据第一出现概率和第二出现概率,确定对随机游走的结果进行编码所生 成的序列的最短平均编码长度;
通过最小化最短平均编码长度,将网络图中各组合节点进行聚类,得到至 少一个子网络。
在一个实施例中,根据第一出现概率和第二出现概率,确定对随机游走的 结果进行编码所生成的序列的最短平均编码长度包括:
根据第一出现概率,确定对随机游走的结果进行编码所生成的序列中同一 聚类类别内的组合节点的第一最短平均编码长度;
根据第二出现概率,确定序列中聚类类别的第二最短平均编码长度;
根据第一最短平均编码长度和第二最短平均编码长度,确定序列的最短平 均编码长度。
在一个实施例中,在网络图中,组合相似度大于或等于相似度阈值的组合 节点之间建边;在从同一子网络中组合节点携带的各偏好度中,选取所述子网 络中的组合节点对应的目标偏好度之前,方法还包括:
步进地调整相似度阈值,并根据每次步进调整后的相似度阈值,更新网络 图中的边;
针对每次更新后的网络图,执行根据网络图中建边的组合节点之间的组合 相似度,对网络图进行划分,得到至少一个子网络的步骤,直至满足步进停止 条件;
从各次划分得到的子网络划分结果中,选取目标子网络划分结果,得到最 终的至少一个子网络;在目标子网络划分结果的每个子网络中包含至少一个携 带偏好度的组合节点。
在一个实施例中,从同一子网络中组合节点携带的各偏好度中,选取所述 子网络中的组合节点对应的目标偏好度包括:
根据同一子网络中组合节点携带的各偏好度的占比,从各所述偏好度中, 选取所述子网络中的组合节点对应的目标偏好度;
其中,所述目标偏好度的所述占比高于非目标偏好度的所述占比。
在一个实施例中,根据同一子网络中组合节点携带的各偏好度的占比,从 各偏好度中,选取子网络中的组合节点对应的目标偏好度包括:
针对每个子网络,确定子网络中组合节点携带的各偏好度的占比;
确定子网络中未携带偏好度的组合节点,得到待预测组合节点;
从子网络的各偏好度中,选取占比最高的偏好度作为待预测组合节点对应 的目标偏好度。
在一个实施例中,从同一子网络中组合节点携带的各偏好度中,选取所述 子网络中的组合节点对应的目标偏好度包括:
确定同一子网络中组合节点的聚类中心;
根据各组合节点距所述聚类中心的距离大小,从所述子网络中组合节点所 携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度;
其中,所述目标偏好度对应的组合节点距所述聚类中心的距离,小于所述 各偏好度中非目标偏好度距所述聚类中心的距离。
在一个实施例中,所述组合节点中的一部分组合节点具有对应的历史行为 数据;历史行为数据,用于描述相应组合节点所表征组合中用户针对组合中对 象产生的历史行为;
方法还包括:
针对该一部分组合节点中每个组合节点,根据组合节点对应的历史行为数 据,确定组合节点所表征组合中用户对组合中的对象的偏好度;
对应于组合节点标记偏好度。
在一个实施例中,历史行为数据包括至少两种行为的历史行为数据;
根据组合节点对应的历史行为数据,确定组合节点所表征组合中用户对组 合中的对象的偏好度包括:
确定各行为的历史行为数据所对应的行为偏好分值;
获取各行为对应的行为权重;
对各行为偏好分值按照相应权重进行加权平均处理,得到组合节点所表征 组合中用户对组合中的对象的偏好度。
在一个实施例中,确定各行为的历史行为数据所对应的行为偏好分值包括:
针对每种行为,根据行为的历史行为数据,分别确定行为对应的第一分值、 第二分值和第三分值;第一分值,用于表征距最近一次产生行为的间隔时长; 第二分值,用于表征行为在预设时间段内产生的次数;第三分值,用于表征行 为产生的价值表征值;
根据第一分值、第二分值和第三分值,确定行为对应的行为偏好分值。
在一个实施例中,偏好度为偏好等级;对各行为偏好分值按照相应权重进 行加权平均处理,得到组合节点所表征组合中用户对组合中的对象的偏好度包 括:
将各行为偏好分值按照相应权重进行加权平均处理,得到组合节点所对应 的偏好分值;
根据该一部分组合节点中各组合节点所对应的偏好分值中的最大值和最小 值,确定偏好分值总区间;
将偏好分值总区间划分为与各预设的偏好等级对应的偏好等级区间;
将该一部分组合节点中各组合节点所对应的偏好分值映射到对应的偏好等 级区间,得到组合节点所对应的偏好等级。
在一个实施例中,方法还包括:
根据网络图中各组合节点对应的目标偏好度,确定目标用户所偏好的对象; 生成针对所偏好的对象的第一推荐信息,并向目标用户所对应终端发送第一推 荐信息;或,
根据网络图中各组合节点对应的目标偏好度,确定偏好目标对象的用户; 生成针对目标对象的第二推荐信息,并向偏好目标对象的用户所对应终端发送 第二推荐信息。
一种偏好预测装置,所述装置包括:
获取模块,用于获取包括组合节点和边的网络图;所述组合节点,用于表 征用户和对象的组合;组合节点中的一部分组合节点,携带所表征组合中用户 对所述组合中的对象的偏好度;
子网络划分模块,用于根据所述网络图中建边的组合节点之间的组合相似 度,对所述网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一 类的组合节点;
偏好度预测模块,用于从同一子网络中组合节点携带的各偏好度中,选取 所述子网络中的组合节点对应的目标偏好度。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序, 所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所 述的偏好预测方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序, 所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的 偏好预测方法中的步骤。
上述偏好预测方法、装置、计算机设备及存储介质,获取包括组合节点和 边的网络图;根据所述网络图中建边的组合节点之间的组合相似度,对所述网 络图进行划分,得到至少一个子网络。那么,同一个子网络中的组合节点则具 有共同特性。进而,从同一子网络中组合节点携带的各偏好度的占中,选取所 述子网络中的组合节点对应的目标偏好度。由于网络图中的一部分组合节点携 带用户对对象的偏好度,而同一个子网络中的组合节点则具有共同特性,所以, 同一子网络中携带的偏好度能够表征具有共同特性的子网络中各组合的偏好 度,因此,从中选取目标偏好度能够实现对该子网络中组合的偏好预测。从而, 仅用少量的携带偏好度的组合节点作为样本,结合网络图的聚类处理,能够准 确地确定出属于同一子网络的具有共性的其他组合节点对应的偏好度,相当于 确定出了其他组合中用户对对象的偏好度。相较于传统方法需要大量的偏好分 值作为样本数据而言,减少了偏好分值的标注数量,节省了成本。
附图说明
图1为一个实施例中偏好预测方法的应用场景图;
图2为一个实施例中偏好预测方法的流程示意图;
图3为一个实施例中网络图的聚类结果示意图;
图4为另一个实施例中网络图的聚类结果示意图;
图5至图7为一个实施例中步进调整结果示意图;
图8为一个实施例中偏好预测方法的流程简示图;
图9为一个实施例中偏好预测装置的框图;
图10为另一个实施例中偏好预测装置的框图;
图11为一个实施例中计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中偏好预测方法的应用场景图。参照图1,该应用场景中 包括网络连接的服务器110和终端120。终端120是台式计算机或移动终端,移 动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等 中的至少一种。服务器110可以用独立的服务器或者是多个物理服务器组成的 服务器集群来实现。可以理解,在其他实施例中,服务器110也可以用具备执 行本申请各实施例中的偏好预测方法能力的终端替换。
服务器110可以获取包括组合节点和边的网络图;组合节点,用于表征用 户和对象的组合;组合节点中的一部分组合节点携带所表征组合中用户对组合 中的对象的偏好度。服务器110可以根据网络图中建边的组合节点之间的组合 相似度,对网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一 类的组合节点。服务器110可以从同一子网络中组合节点携带的各偏好度中, 选取子网络中的组合节点对应的目标偏好度。进一步地,服务器110可以将目 标偏好度发送至终端120。这样一来,用户就可以通过终端120获知目标偏好度。
可以理解,本申请各实施例中的偏好预测方法,相当于使用人工智能技术 来自动分析确定出目标偏好度。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算 机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获 得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科 学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能 相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原 理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。
可以理解,本申请各实施例中的偏好预测方法相当于使用了无监督的机器 学习处理。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概 率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算 机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的 知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机 具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习 通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学 习等技术。
图2为一个实施例中偏好预测方法的流程示意图。本实施例中的该偏好预 测方法可以应用于计算机设备,现主要以计算机设备为图1中的服务器110进 行举例说明。参照图2,该方法具体包括如下步骤:
S202,获取包括组合节点和边的网络图;组合节点,用于表征用户和对象 的组合;组合节点中的一部分组合节点,携带所表征组合中用户对组合中的对 象的偏好度。
其中,网络图,是用于表征组合之间关系的图。网络图中包括组合节点和 边。组合节点,用于表征组合。可以理解,组合节点用于表征用户和对象的组 合。即,组合中的成员包括用户和对象。不同组合节点代表不同的组合。对象, 是需要预测用户对其偏好度的对象。
在一个实施例中,组合节点,由组合所对应的组合特征映射得到。组合特 征,是指组合的特征。
需要说明的是,这里用户和对象的组合,仅用于说明用户和对象属于一个 组合。从计算机角度而言,用户可以通过用户标识表征,而对象可以通过对象 标识表征,所以,用户和对象的组合,可以通过用户标识和对象标识的组合的 方式进行体现。比如,用户A的标识为Pid_001,物品a的标识为Gid_001,那 么,用户和物品的组合,则可以通过(Pid_001,Gid_001)的方式进行体现。
在一个实施例中,对象可以包括物品、内容和资源推广信息等中的至少一 种。其中,物品,可以包括虚拟物品和真实物品。在一个实施例中,物品,包 括能够通过资源转移方式进行交易的对象。内容,用于传递或表达信息量。内 容可以包括媒体内容和文学作品等中的至少一种。资源推广信息,是用于推广 资源的信息。比如,广告信息即属于资源推广信息。
可以理解,网络图中的一部分组合节点携带偏好度这一数值。其中,偏好 度,是指组合节点所表征组合中的用户对该组合中的对象的偏好度。比如,用 户A和对象a属于一个组合T,那么,组合T所对应的组合节点则携带用户A对 对象a的偏好度。
需要说明的是,偏好度,用于表征用户对同组合中的对象的偏好强烈程度。 在一个实施例中,偏好度可以通过偏好等级或偏好分值来表征。
组合节点中的一部分组合节点携带偏好度,即指,网络图中仅有一部分组 合节点携带偏好度,剩余的组合节点则不携带偏好度。可以按照本申请实施例 中的组合选择方法,在只知晓一部分的组合节点携带偏好度的情况下,判断其 余组合节点所表征组合中用户对对象的偏好度。
可以理解,针对携带偏好度的组合节点,说明在该组合节点所表征组合中 的用户在之前已经对该组合中的对象产生了一定的行为。这些行为能够体现用 户对对象的偏好度。比如,假设对象是物品a,用户A在之前对物品产生了浏览 行为、收藏行为或者购买行为等,那么,用户A和物品a这一组合的组合节点 则可以携带用户A对物品a的偏好度。该偏好度可以根据用户A已经对物品a 做出的浏览行为、收藏行为或者购买行为等确定。可以理解,用户对物品的偏 好度,一定情况下可以体现用户对物品的消费偏好度,即,用户购买该物品的 偏好度。
在一个实施例中,在网络图中,可以将组合相似度大于或等于预设的相似 度阈值的组合节点之间建边。即,当两个组合节点对应的组合相似度小于预设 的相似度阈值时,则不对这两个组合节点进行建边。组合相似度,是指组合节 点所表征的组合之间的相似程度。比如,一共有30个组合节点,其中组合节点 X与10个组合节点之间的组合相似度大于相似度阈值,而与其余20个组合节点 之间的组合相似度小于相似度阈值,则可以将组合节点X与这10个组合节点之 间建边,而与其余的20个组合节点之间不建边。
在其他实施例中,在网络图中,也可以是将组合节点两两之间建边,或者, 将满足其他条件的组合节点之间建边。
需要说明的是,计算机设备可以直接获取已经构建完毕的网络图,也可以 构建网络图。
S204,根据网络图中建边的组合节点之间的组合相似度,对网络图进行划 分,得到至少一个子网络。
子网络,是一个子图(即属于整个网络图中的一部分),包括顶点和边。 同一子网络内的组合节点之间的连接很紧密(即关系强度比较强),而子网络 与子网络之间的连接比较稀疏(即,不同子网络中的组合节点之间的关系强度 比较弱)。
可以理解,边,用于表示组合与组合之间的关系。边对应的组合节点之间 的组合相似度,用于表示组合与组合之间的关系强度。
具体地,计算机设备可以根据各边对应的组合节点之间的组合相似度(即, 根据组合与组合之间的关系强度),对所述网络图进行聚类划分,以将组合节 点进行聚类,得到至少一个子网络。
在一个实施例中,计算机设备可以对网络图进行社区发现处理,以将组合 节点进行社区划分,得到至少一个子网络。可以理解,一个子网络,即相当于 一个社区。
其中,社区发现(Community Detection)处理,是指发现网络图中的社区 结构的处理过程。可以理解,社区发现处理的过程,相当于聚类过程。同一个 社区包括聚为一类的组合节点,即为一个子网络。
S206,从同一子网络中组合节点携带的各偏好度中,选取该子网络中的组 合节点对应的目标偏好度。
可以理解,一个子网络中包括已经携带偏好度的组合节点。
在一个实施例中,计算机设备可以从同一子网络中组合节点携带的各偏好 度中,随机选取一个偏好度,作为子网络中的组合节点对应的目标偏好度。因 为,子网络内的组合节点之间具有共性,所以,子网络中各组合节点所对应的 偏好度的差异相较于其他子网络的偏好度要小,所以,将子网络中已有的偏好 度作为该子网络中其他组合节点的目标偏好度,一定程度上能够较为准确地确 定未知偏好度的组合中用户对对象的偏好度。
在另一个实施例中,计算机设备也可以从同一子网络中组合节点携带的各 偏好度中,选取更能够表征子网络偏好情况的偏好度作为子网络中的组合节点 对应的目标偏好度。即,目标偏好度相较于该子网络中其他的非目标偏好度而 言,更能够反映该子网络的偏好情况。非目标偏好度,是指同一子网络对应的 各偏好度中除目标偏好度以外的偏好度。
需要说明的是,目标偏好度可以为一个或多个。当目标偏好度为多个时, 则可以将多个目标偏好度向相应子网络中各组合节点随机分配,或者,根据组 合节点之间的组合相似度,将多个目标偏好度所对应的目标组合节点的组合特 征,分别与该子网络中各未携带偏好度的组合节点的组合特征进行组合相似度 比对,从而将组合相似度最高的目标组合节点所对应的目标偏好度,作为该子 网络中未携带偏好度的组合节点的相似度。对此不作限定。
可以理解,计算机设备可以从同一子网络中各偏好度的占比来选取更能表 征子网络偏好的目标偏好度。计算机设备也可以根据同一子网络中组合节点距 该子网络的聚类中心的距离大小,从同一子网络中各偏好度的占比来选取更能 表征子网络偏好的目标偏好度。
在一个实施例中,步骤S206包括:根据同一子网络中组合节点携带的各偏 好度的占比,从各所述偏好度中,选取所述子网络中的组合节点对应的目标偏 好度;其中,所述目标偏好度的所述占比高于非目标偏好度的所述占比。
偏好度的占比,是指同一子网络中携带该偏好度的组合节点的数量与组合 节点总数量的比值。组合节点总数量,是指该子网络中全部组合节点的数量。 目标偏好度,是子网络中组合节点最终对应的偏好度。
可以理解,目标偏好度的所述占比高于非目标偏好度的所述占比,说明目 标偏好度更能表征子网络的偏好情况。
具体地,针对每个子网络,计算机设备可以确定该子网络中携带偏好度的 组合节点。进一步地,计算机设备可以确定各组合节点所携带的各偏好度。针 对每个偏好度,计算机设备可以确定在该子网络中携带该偏好度的组合节点的 数量,计算机设备可以确定该子网络中的组合节点总数量,进而确定携带该偏 好度的组合节点的数量与组合节点总数量的比值,得到该偏好度在该子网络中 的占比。进一步地,计算机设备可以根据该子网络中各偏好度的占比,从该子 网络的偏好度中,选取目标偏好度,作为该子网络中的组合节点对应的最终的 偏好度。
在一个实施例中,计算机设备可以按照占比由大到小的顺序对偏好度进行 排名,选取排名在前预设位次的偏好度作为目标偏好度。预设位次为大于或等 于一的任意数量。
在一个实施例中,计算机设备可以将选取的目标偏好度作为该子网络中全 部组合节点对应的目标偏好度。在另一个实施例中,计算机设备也可以将选取 的目标偏好度,作为该子网络中未携带偏好度的组合节点所对应的目标偏好度。
可以理解,由于组合节点对应的偏好度,属于该组合节点所表征组合中用 户对对象的偏好度,所以,从各偏好度中,选取子网络中的组合节点对应的目 标偏好度,相当于预测出该子网络的各组合中用户对对象的偏好程度。
比如,某个子网络中一共有20个组合节点,其中,有10个组合节点携带 偏好度。这10个组合节点中,6个组合节点携带偏好度1,2个组合节点携带偏 好度2,另外2个组合节点携带偏好度3。那么,偏好度1的占比是6/20,偏好 度2的占比是2/20,偏好度3的占比是2/20。那么,计算机设备可以根据这3 种偏好度的占比,从这3种偏好度中,选取目标偏好度,作为该子网络中20个 组合节点,或者,作为子网络中其余未携带偏好度的10个组合节点的目标偏好 度。
在另一个实施例中,步骤S206包括:确定同一子网络中组合节点的聚类中 心;根据各组合节点距聚类中心的距离大小,从子网络中组合节点所携带的各 偏好度中,选取子网络中的组合节点对应的目标偏好度;其中,目标偏好度对 应的组合节点距聚类中心的距离,小于各偏好度中非目标偏好度距聚类中心的 距离。
具体地,计算机设备可以计算同一子网络中组合节点的聚类中心,并确定 该子网络中各组合节点距该聚类中心的距离,根据距聚类中心的距离大小,从 子网络中组合节点所携带的各偏好度中,选取子网络中的组合节点对应的目标 偏好度。
可以理解,目标偏好度为一个或多个。距聚类中心越近,说明该组合节点 越能反映该子网络的特性,因此,目标偏好度对应的组合节点距聚类中心的距 离,小于各偏好度中非目标偏好度距聚类中心的距离,能够说明目标偏好度相 较于非目标偏好度更反映子网络的偏好情况。
在一个实施例中,计算机设备可以选取距聚类中心的距离最小的组合节点 所对应的偏好度,作为该子网络中组合节点对应的目标偏好度。计算机设备也 可以按照距聚类中心的距离由小到大的顺序,对同一子网络的组合节点进行排 序,选取排名在前预设位次的组合节点,并将选取的组合节点所对应的偏好度 作为目标偏好度。
上述偏好预测方法,获取包括组合节点和边的网络图;根据所述网络图中 建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子 网络。那么,同一个子网络中的组合节点则具有共同特性。进而,从同一子网 络中组合节点携带的各偏好度的占中,选取所述子网络中的组合节点对应的目 标偏好度。由于网络图中的一部分组合节点携带用户对对象的偏好度,而同一 个子网络中的组合节点则具有共同特性,所以,同一子网络中携带的偏好度能 够表征具有共同特性的子网络中各组合的偏好度,因此,从中选取目标偏好度 能够实现对该子网络中组合的偏好预测。从而,仅用少量的携带偏好度的组合节点作为样本,结合网络图的聚类处理,能够准确地确定出属于同一子网络的 具有共性的其他组合节点对应的偏好度,相当于确定出了其他组合中用户对对 象的偏好度。相较于传统方法需要大量的偏好分值作为样本数据而言,减少了 偏好分值的标注数量,节省了成本。
在一个实施例中,步骤S202获取包括组合节点和边的网络图包括:获取至 少两个组合特征;将所述组合特征映射为空间中的组合节点,并根据所述组合 特征,确定两两组合节点之间的组合相似度;在组合相似度大于或等于相似度 阈值的组合节点之间建边,生成网络图。
其中,组合特征,是组合的特征。组合,为用户和对象的组合。
在一个实施例中,组合特征可以为组合特征向量。组合特征向量,是组合 特征的向量化表示。
组合节点,是组合特征在空间中的可视化表示,用于表征组合。组合相似 度,是指组合节点所表征的组合之间的相似程度。相似度阈值,是预先设置的 组合相似度的阈值。
具体地,计算机设备可以直接获取各组合的组合特征,也可以获取各组合 不同维度的特征,将获取的特征进行融合,得到该组合的组合特征。
计算机设备可以将组合特征映射为空间中的组合节点。每个组合节点与该 组合特征所对应的组合一一对应。计算机设备可以计算两两组合节点所对应的 组合特征之间的相似度,作为两两组合节点之间的组合相似度。计算机设备可 以将两两组合节点之间的组合相似度与预先设置的相似度阈值进行比对,在组 合相似度大于或等于相似度阈值的组合节点之间建边,即,将组合相似度大于 或等于相似度阈值的组合节点连接,生成边。进而,根据组合节点和连接的边, 生成网络图。
可以理解,网络图可以为有向图。每个组合在网络图中对应一个组合节点。 网络图中的边,用于表征两个组合节点之间的组合相似度。边的权重,与组合 节点之间的组合相似度正相关。
上述实施例中,通过将用户和对象作为组合,将其组合特征映射为空间中 的组合节点,继而根据组合节点之间的相似度建边生成网络图,后续能够基于 网络图,对组合进行聚类。相当于将用户和对象作为组合,与图网络结合,建 立网络图,实现了无监督的聚类处理,不需要大量携带标签的样本数据,即可 以实现对组合的聚类,节省了成本,且提高了聚类的便捷性。进而,基于网络 图的聚类处理,能够提高偏好预测的效率、以及减少偏好预测的成本。
此外,在相似度大于预设相似度阈值的组合节点之间建边,能够降低聚类 的干扰,提高了子网络聚类的准确性和效率。
在一个实施例中,所述获取至少两个组合特征包括:获取至少两组数据; 同组数据中包括用户数据和对象数据;所述用户数据所对应的用户和所述对象 数据所对应的对象,属于同一组合;从所述用户数据中提取用户特征,以及从 所述对象数据中提取对象特征;将对应于同组数据的用户特征和对象特征进行 组合,生成组合特征。
其中,用户数据,是与用户相关的数据。对象数据,是与对象相关的数据。
在一个实施例中,用户数据包括用户基础属性数据、用户消费数据和用户 行为数据等中的至少一种。其中,用户基础属性数据,是指用户自身具备的属 性信息。用户消费数据,是用户产生消费行为的数据。用户行为数据,用于描 述用户对对象所产生的行为。
在一个实施例中,用户基础属性数据,包括用户的年龄、性别、学历和所 处城市等级等中的至少一种属性数据。
在一个实施例中,用户消费数据,可以包括用户产生资源转移行为的总数 量(即支付总笔数)、总资源转移数值(即总金额)、预设时间段内进行资源 转移的次数分布(即预设时间段内支付笔数分布)、资源转移数值分布(即支 付金额分布)和单笔资源转移数值(即单笔支付的平均金额)等中的至少一种。 预设时间段内,可以指预设单位时间内。比如,一周内、一个月内、半年内或 24小时内等。可以理解,用户特征中则可以包括用户消费特征。用户消费特征, 即为上述用户消费数据所表征的特征。
在一个实施例中,用户行为数据包括用户针对对象的购买行为、收藏行为、 评论行为、搜索行为、预添加行为以及浏览行为中至少一种行为所产生的数据。 那么,用户特征则可以包括用户行为特征。用户行为特征即为根据用户行为数 据生成的特征。在一个实施例中,用户行为特征可以包括用户浏览对象的时长、 以及用户点击用于展示对象的页面的次数等中的至少一种。
在一个实施例中,对象数据包括对象基础属性数据和对象消费数据等中的 至少一种。其中,对象基础属性数据,是指对象自身具备的属性信息。对象消 费数据,是与消费该对象相关的数据。
在一个实施例中,对象基础属性数据包括对象类别、对象价格、对象品牌、 对象购买评分、对象评论情感信息等中的至少一种。可以理解,对象特征中则 可以包括对象基础属性特征。对象基础属性特征,即为上述对象基础属性数据 所表征的特征。
在一个实施例中,对象消费数据可以包括对象被购买次数、被点击浏览次 数、添加购物车次数、同类对象被购买次数等中的至少一种。对象特征中则还 可以包括对象消费特征。对象消费特征,即为上述对象消费数据所表征的特征。
具体地,计算机设备可以将对应于同组数据的用户特征和对象特征进行组 合,生成该组数据对应的组合特征。可以理解,该组合特征即指该组数据中用 户数据所对应的用户和对象数据所对应的对象的组合的特征。
在一个实施例中,用户特征可以为用户特征向量,对象特征可以为对象特 征向量。计算机设备可以将对应于同一组数据的用户特征向量和对象特征向量 进行拼接组合,得到组合特征向量。
上述实施例中,组合用户特征和对象特征,并基于组合特征映射生成网络 图进行聚类,进而通过携带少量的偏好度,即实现用户对对象的偏好度的预测, 大大节省了成本,且提高了偏好预测效率。
在一个实施例中,所述根据所述网络图中建边的组合节点之间的组合相似 度,对所述网络图进行划分,得到至少一个子网络包括:根据所述网络图中各 边对应的组合节点之间的组合相似度,确定所述组合节点之间的转移概率;所 述转移概率与所述组合相似度正相关;按照所述转移概率在所述网络图中进行 随机游走,确定随机游走过程中各组合节点的第一出现概率和聚类类别的第二 出现概率;根据所述第一出现概率和所述第二出现概率,确定对随机游走的结 果进行编码所生成的序列的最短平均编码长度;通过最小化所述最短平均编码 长度,将所述网络图中各组合节点进行聚类,得到至少一个子网络。
其中,转移概率,是指网络图中从一个组合节点跳转到另一个组合节点的 概率。转移概率与组合相似度正相关。组合节点之间的组合相似度越大,则这 两个组合节点之间的转移概率越大,反之,组合节点之间的组合相似度越小, 则这两个组合节点之间的转移概率越小。可以理解,边用于表征组合节点之间 的组合相似度,转移概率相当于边的权重。聚类类别,即为聚类划分的类别。 可以理解,不同聚类结果所属的聚类类别不同。不同子网络即为不同的聚类结 果,所以,不同子网络所属的聚类类别也不同。
在一个实施例中,当通过社区发现处理,将网络图划分为子网络时,那么, 划分得到的子网络就属于划分成的社区,子网络所属的聚类类别,则属于社区 类别。
可以理解,计算机设备可以计算网络图中的每个组合节点分别与其他组合 节点之间的组合相似度。计算机设备可以获取预先设定的相似度阈值,将组合 相似度大于或等于该相似度阈值的组合节点之间连成边。计算机设备也可以根 据其他条件,将需要连边的组合节点之间建边。
在一个实施例中,计算机设备可以直接将各边对应的组合节点之间的组合 相似度,作为组合节点之间的转移概率。在其他实施例中,也可以将组合相似 度做归一化处理,得到转移概率。
其中,随机游走,是指按照边所对应的转移概率,在网络图中的组合节点 中跳转的过程。
具体地,计算机设备可以按照转移概率在网络图中进行随机游走,即,从 网络图中的起始组合节点开始,依照该起始点所对应的边的转移概率,跳转到 下一个组合节点,再从所跳转至的组合节点出发,根据其对应的边的转移概率, 继续跳转到下一个组合节点,重复此过程,即实现在网络图中进行随机游走。
可以理解,在网络图中进行随机游走的过程中,会在组合节点中进行跳转, 所以,会在随机游走的过程中出现组合节点,那么,在随机游走过程中组合节 点具有相应的出现概率。而且,随机游走过程中的跳转的组合节点,可能会属 于不同的聚类类别,所以,在随机游走的过程中聚类类别具有相应的出现概率。 因此,计算机设备可以根据转移概率,确定随机游走过程中各组合节点的第一 出现概率和聚类类别的第二出现概率。
可以理解,可以根据随机游走过程中的概率,对随机游走的结果进行编码 来生成序列,并对序列做层次编码。具体地,层次编码的步骤包括:在同一个 聚类类别的组合节点前插入一个聚类类别标记,在聚类类别结束处插入一个终 止标记,其中聚类类别标记用单独一套编码(如,用000、001、002来表示), 该聚类类别内的组合节点以及终止标记用另一套编码来表示,由于考虑了聚类 类别标记,因此不同聚类类别内的组合节点也可以用同一套编码(如,都可以 用000、001、010、011、100来表示)。
计算机设备可以根据第一出现概率和第二出现概率,确定对随机游走的结 果进行编码所生成的序列的最短平均编码长度。计算机设备可以通过最小化序 列的最短平均编码长度,将网络图中各组合节点进行聚类,得到至少一个子网 络。
可以理解,信息论中,编码的最短平均长度就是信息熵。信息熵就等价于 最短编码长度,而一个好的分类方案,应该是满足最小熵原理的,它能够使得 系统的信息熵降低。这便是网络图本质的优化目标,通过最小化信息熵来寻求 最优的聚类方案。
因此,计算机设备可以通过最小化序列的最短平均编码长度,将网络图中 各组合节点进行聚类,得到至少一个子网络。
可以理解,最小化序列的最短平均编码长度的处理过程,相当于,一种迭 代过程。具体包括以下处理步骤:初始化时,对每个组合节点都视作独立的子 网络;对网络图里的组合节点按照随机游走的方式,随机采样出一个序列,按 顺序依次尝试将每个组合节点赋给邻居组合节点所在的子网络,取平均比特下 降最大时的子网络赋给该组合节点,如果平均比特没有下降,该组合节点的子 网络不变。如此迭代的处理,直至使得序列的最短平均编码长度最小化,这种 情况下,则可以得到最终聚类划分的子网络划分结果。
图3和图4分别为不同实施例中网络图的聚类结果示意图。参照图 3,302~306则为划分得到的3个子网络,参照图4,划分得到9个子网络。图3 和图4中,每个子网络中包括聚为一类的组合节点。组合节点之间连接的线即 为边。
在一个实施例中,预设的相似度阈值为S,计算机设备可以将高于该阈值S 的组合节点之间连成边,针对组合节点a和组合节点β,这两个组合节点之间的 边的权重归一化为转移概率Pα→β。计算机设备可以根据转移概率,确定随机游 走过程中各组合节点的第一出现概率。
在一个实施例中,假设,组合节点a的第一出现概率为pα,组合节点β的第 一出现概率为pβ,以及转移概率Pα→β,穿越概率为τ。其中,穿越概率τ,是 一个超参数,是为了避免随机游走的结果依赖于迭代的初始值这一不合理的情 况而提出的,用于避免随机游走进孤立的组合节点而无法走出的情况。
那么,可以按照以下公式确定随机游走过程中各组合节点的第一出现概率:
Figure BDA0002380600340000191
可以理解,若不考虑穿越概率则
Figure BDA0002380600340000192
其中,Pα→β表示由组合节点a跳转到组合节点β的转移概率;
Figure BDA0002380600340000193
表示以1-τ的概率按照Pα→β的转移概率来随机游走,以 τ的概率随机选择网络图上任意一个点跳转,n为网络图中的组合节点数量。
在一个实施例中,可以按照以下公式确定聚类类别的第二出现概率:
Figure BDA0002380600340000194
其中,qiD为第i个聚类类别的第二出现概率;pα为组合节点a的第一出现 概率;Pα→β表示由组合节点a跳转到组合节点β的转移概率。
在一个实施例中,所述根据所述第一出现概率和所述第二出现概率,确定 对随机游走的结果进行编码所生成的序列的最短平均编码长度包括:根据所述 第一出现概率,确定对随机游走的结果进行编码所生成的序列中同一聚类类别 内的组合节点的第一最短平均编码长度;根据第二出现概率,确定所述序列中 聚类类别的第二最短平均编码长度;根据所述第一最短平均编码长度和所述第 二最短平均编码长度,确定所述序列的最短平均编码长度。需要说明的是,同 一聚类类别内的组合节点,即为同一子网络中的组合节点。
可以理解,网络图中聚类类别和同一聚类类别内的组合节点使用两套不同 的编码。所以,分别计算同一聚类类别内的组合节点的第一最短平均编码长度 和聚类类别的第二最短平均编码长度,根据第一最短平均编码长度和第二最短 平均编码长度,确定该序列总的平均编码长度。
在一个实施例中,可以按照以下公式确定同一聚类类别内的组合节点的第 一最短平均编码长度:
Figure BDA0002380600340000201
其中,
Figure BDA0002380600340000202
可以理解,其中,i为第i个聚类类别;H(Pi)为第i个聚类类别内的组合 节点的第一最短平均编码长度;qiD为第i个聚类类别的第二出现概率;pα为 组合节点a的第一出现概率。
在一个实施例中,可以按照以下公式确定聚类类别的第二最短平均编码长 度:
Figure BDA0002380600340000203
其中,
Figure BDA0002380600340000204
可以理解,其中,i为第i个聚类类别;H(Q)为聚类类别的第二最短平均 编码长度;qiD为第i个聚类类别的第二出现概率;qD为各聚类类别的第二出现 概率的总和。
在一个实施例中,可以按照以下公式,确定序列的最短平均编码长度:
Figure BDA0002380600340000205
其中,
Figure BDA0002380600340000206
可以理解,H(Q)为聚类类别的第二最短平均编码长度;qD为各聚类类别 的第二出现概率的总和;i为第i个聚类类别;qiD为第i个聚类类别的第二出 现概率;H(Pi)为第i个聚类类别内的组合节点的第一最短平均编码长度。
可以理解,上述实施例,相当于使用InfoMap算法(是一种基于映射方程 的网络聚类算法),基于网络图进行对组合节点进行聚类,而不需要预先使用 大量样本和标签来进行机器学习训练,节省了成本。此外,在对网络图进行聚 类时,考虑了不同组合之间存在的地域差异特性,相较于传统方法而言,进一 步地提高了聚类准确性。而且,考虑不同组合之间地域差异特性进行聚类,能 够泛化实现对所有组合的聚类处理,提高了适用性。
在一个实施例中,在所述网络图中,组合相似度大于或等于相似度阈值的 组合节点之间建边。本实施例中,在从同一子网络中组合节点携带的各偏好度 中,选取子网络中的组合节点对应的目标偏好度之前,该方法还包括:步进地 调整所述相似度阈值,并根据每次步进调整后的相似度阈值,更新所述网络图 中的边;针对每次更新后的网络图,执行所述根据所述网络图中建边的组合节 点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络的步骤, 直至满足步进停止条件;从各次划分得到的子网络划分结果中,选取目标子网 络划分结果,得到最终的至少一个子网络;在所述目标子网络划分结果的每个 子网络中包含至少一个携带偏好度的组合节点。
可以理解,不需要事先指定类别个数,可以通过步进调整相似度阈值的方 法来调整聚类结果。
其中,步进,是按照预设幅度一步一步地向前或向后运动。步进地调整相 似度阈值,是指按照预设调整幅度,一步一步地调整相似度阈值。可以理解, 可以按照S±预设调整幅度数值(比如,0.05),来调整相似度阈值。
可以理解,在网络图中,由于是将组合相似度大于或等于相似度阈值的组 合节点之间建边,所以,当相似度阈值调整后,网络图中的连边关系也发生了 变化,即在步进调整相似度阈值之后,网络图也会随之发生更新。那么,计算 机设备可以针对每次更新后的网络图,执行步骤S204根据所述网络图中建边的 组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络, 直至满足步进停止条件。
可以理解,每次步进调整相似度阈值,则会划分得到一个子网络划分结果, 每次子网络划分结果中包括划分得到的至少一个子网络。
步进停止条件,是指停止步进调整的条件。
在一个实施例中,步进停止条件,可以包括步进调整次数达到预设次数阈 值。
在另一个实施例中,步进停止条件,可以包括划分的子网络划分结果中每 个子网络中至少包括一个携带偏好度的组合节点。即,子网络划分结果中可以 包括多个子网络,每个子网络中需包括至少一个携带偏好度的组合节点。可以 理解,当每个子网络至少包括一个携带偏好度的组合节点,说明该子网络中知 晓已知的偏好度,从而可以根据已知的偏好度,对该子网络中未携带偏好度的 组合节点进行偏好预测。
进一步地,计算机设备可以从各次划分得到的子网络划分结果中,选取目 标子网络划分结果,得到最终的至少一个子网络;在目标子网络划分结果中, 在所述目标子网络划分结果的每个子网络中包含至少一个携带偏好度的组合节 点。
具体地,计算机设备可以针对每次划分得到的子网络划分结果,选取每个 子网络包括至少一个携带偏好度的组合节点的子网络划分结果,作为目标子网 络划分结果。
进一步地,计算机设备可以针对最终的子网络划分结果中的各子网络,执 行步骤S206,以从各所述偏好度中,选取所述子网络中的组合节点对应的目标 偏好度。
图5至图7为一个实施例中步进调整结果示意图。参照图5至图7为3次 划分得到的不同的子网络划分结果。图6是在图5的相似度阈值S1的基础上, 步进调整了预设幅度后重新划分得到的子网络划分结果。图7是在图6的相似 度阈值S2的基础上,步进调整了预设幅度后重新划分得到的子网络划分结果。 需要说明的是,图5至图7中,黑色点用于示意携带偏好度的组合节点,白色 点用于示意未携带偏好度的组合节点。从图5至图7可知,图6的子网络划分 结果中,每个子网络都包括携带偏好度的组合节点。所以,可以选图6的子网 络划分结果作为最终的子网络划分结果。
上述实施例中,对子网络划分结果进行步进调整,使划分的子网络中包括 至少一个携带偏好度的组合节点,从而能够根据各子网络所携带的偏好度占比, 预测出该子网络的组合节点所表征组合中用户对对象的偏好度,提高了偏好预 测的成功率和有效性。从而避免无效的预测导致的系统资源的浪费。
在一个实施例中,所述根据同一子网络中组合节点携带的各偏好度的占比, 从各所述偏好度中,选取所述子网络中的组合节点对应的目标偏好度包括:针 对每个子网络,确定所述子网络中组合节点携带的各偏好度的占比;确定所述 子网络中未携带偏好度的组合节点,得到待预测组合节点;从所述子网络的各 所述偏好度中,选取占比最高的偏好度作为所述待预测组合节点对应的目标偏 好度。
其中,偏好度的占比,是指同一子网络中携带该偏好度的组合节点的数量 与组合节点总数量的比值。组合节点总数量,是指该子网络中全部组合节点的 数量。目标偏好度,是子网络中组合节点最终对应的偏好度。待预测组合节点, 是待预测偏好度的组合节点。即,待预测组合节点的偏好度尚未可知,需要对 其偏好度进行预测。
具体地,针对每个子网络,计算机设备可以确定该子网络中携带偏好度的 组合节点。进一步地,计算机设备可以确定各组合节点所携带的各偏好度。针 对每个偏好度,计算机设备可以确定在该子网络中携带该偏好度的组合节点的 数量,计算机设备可以确定该子网络中的组合节点总数量,进而确定携带该偏 好度的组合节点的数量与组合节点总数量的比值,得到该偏好度在该子网络中 的占比。
可以理解,同一子网络中可能包括携带偏好度的组合节点和未携带偏好度 的组合节点。计算机设备可以确定所述子网络中未携带偏好度的组合节点,得 到待预测组合节点。计算机设备可以从该子网络的各组合节点所携带的各偏好 度中,选取占比最高的偏好度作为待预测组合节点对应的目标偏好度。
比如,某个子网络中一共有20个组合节点,其中,有10个组合节点携带 偏好度,另外10个未携带偏好度。这10个组合节点中,6个组合节点携带偏好 度1,2个组合节点携带偏好度2,另外2个组合节点携带偏好度3。那么,偏好 度1的占比是6/20,偏好度2的占比是2/20,偏好度3的占比是2/20。那么, 计算机设备可以根据这3种偏好度的占比,从这3种偏好度中,选取占比最高 的偏好度1作为该子网络中10个未携带偏好度的组合节点的目标偏好度。
上述实施例中,从子网络的各偏好度中,将占比最高的偏好度作为该子网 络中未携带偏好度的组合节点所对应的偏好度。由于,在一个子网络中,占比 最高的偏好度,说明该子网络中的组合对该偏好度更有共性,因此,针对未知 用户对对象的偏好度的组合,可以将该占比最高的偏好度预测为该组合中用户 对对象的偏好度。
在一个实施例中,所述组合节点中的一部分组合节点具有对应的历史行为 数据。该方法还包括:针对该一部分组合节点中每个组合节点,根据组合节点 对应的历史行为数据,确定组合节点所表征组合中用户对组合中的对象的偏好 度;对应于组合节点标记偏好度。
其中,历史行为数据,用于描述相应组合节点所表征组合中用户针对组合 中对象产生的历史行为。比如,组合节点表征<用户A,对象a>这一组合,那么, 与该组合节点对应的历史行为数据,即为描述用户A对对象a的历史行为的数 据。
可以理解,网络图中只有一部分的组合节点所表针的组合中用户对对象产 生过历史行为,而其余组合节点所表征的组合中用户与对象之间尚未产生过相 关关系或行为,所以,网络图中一部分组合节点具有对应的历史行为数据。
具体地,针对具有对应历史行为数据的的一部分的组合节点中每个组合节 点,计算机设备可以根据该组合节点对应的历史行为数据,确定该组合节点所 表征组合中用户对该组合中的对象的偏好度。进一步地,计算机设备可以对应 于该组合节点标记该偏好度。
需要说明的是,用户对对象的历史行为,能够一定程度上体现用户对对象 的喜好,所以,根据该组合节点对应的历史行为数据,能够确定该组合节点所 表征组合中用户对该组合中的对象的偏好度。
比如,子网络中的20个组合节点中有10个组合节点具有对应的历史行为 数据。假设这10个组合节点为组合节点1~10,组合节点1所表征组合为<用户 A,对象a>,那么,可以根据组合节点1的历史行为数据,确定该组合节点1所 表征组合<用户A,对象a>中,用户A对对象a的偏好度1。进一步地,可以对 应于组合节点1标记该偏好度1,这样一来,组合节点1则携带偏好度1。同理, 可以分别确定组合节点2~10所对应的偏好度,进而分别对应于组合节点2~10 标记相应的偏好度。
可以理解,历史行为数据可以为至少一种行为的历史行为数据。当历史行 为数据为一种行为的历史行为数据时,则可以根据该单一行为的历史行为数据, 确定该组合节点所表征组合中用户对该组合中的对象的偏好度。当历史行为数 据为至少两种行为的历史行为数据时,则可以综合各种行为的历史行为数据, 确定该组合节点所表征组合中用户对该组合中的对象的偏好度。
上述实施例中,可以根据用户针对对象的历史行为,分析出用户对对象的 偏好度,能够所标记的偏好度的准确性。
在一个实施例中,历史行为数据包括至少两种行为的历史行为数据。根据 组合节点对应的历史行为数据,确定组合节点所表征组合中用户对该组合中的 对象的偏好度包括:确定各行为的历史行为数据所对应的行为偏好分值;获取 各行为对应的行为权重;对各行为偏好分值按照相应权重进行加权平均处理, 得到组合节点所表征组合中用户对组合中的对象的偏好度。
其中,行为偏好分值,用于表征历史行为所体现的用户对对象的偏好程度。 行为权重,用于表征相应行为对偏好度的体现程度。可以理解,行为权重的大 小,行为对偏好度的体现程度正相关。行为的行为权重越大,该行为对偏好度 的体现程度也就越大,反之,行为的行为权重越小,该行为对偏好度的体现程 度也就越小。比如,购买行为的行为权重则会大于浏览行为的行为权重,因为, 购买行为相较于浏览行为更能够反映用户对对象的偏好程度,所以,购买行为 对偏好度的体现程度更大,行为权重也就更大。
在一个实施例中,用户对对象的行为可以包括购买行为、预添加行为、收 藏行为、评论行为、搜索行为和浏览行为等中的至少一种。因此,历史行为数 据可以包括购买行为、预添加行为、收藏行为、评论行为、搜索行为和浏览行 为等中的至少两种行为的历史行为数据。可以理解,预添加行为,是在购买前 预先添加对象的行为。比如,添加购物车的行为则属于预添加行为。
具体地,计算机设备可以确定各行为的历史行为数据所对应的行为偏好分 值,即,确定各行为所体现的用户对对象的偏好程度。计算机设备可以获取预 先设置的各行为对应的行为权重,对各行为偏好分值按照相应权重进行加权平 均处理,得到组合节点所表征组合中用户对组合中的对象的偏好度。
比如,组合节点对应有购买行为历史数据、收藏行为历史数据和浏览行为 历史数据这3种历史行为数据,相应行为权重分别为w1、w2和w3。那么,根据 购买行为历史数据可以得到相应的行为偏好分值S1、根据收藏行为历史数据可 以得到相应的行为偏好分值S2、以及根据浏览行为历史数据可以得到相应的行 为偏好分值S3。那么,该组合节点所表征组合中用户对对象的偏好度则可以为 S1*w1+S2*w2+S3*w3。
上述实施例中,综合考虑分析多种历史行为所体现的用户对对象的偏好情 况,进行加权平均处理,得到用户对对象最终的偏好度,提高了偏好度的准确 性。
在一个实施例中,确定各行为的历史行为数据所对应的行为偏好分值包括: 针对每种行为,根据行为的历史行为数据,分别确定行为对应的第一分值、第 二分值和第三分值;第一分值,用于表征距最近一次产生所述行为的间隔时长; 第二分值,用于表征行为在预设时间段内产生的次数;第三分值,用于表征行 为产生的价值表征值;根据第一分值、第二分值和第三分值,确定行为对应的 行为偏好分值。
具体地,当历史行为数据包括多个行为的历史行为数据时,那么,针对每 种行为,计算机设备可以根据该行为的历史行为数据,确定该行为对应的最近 一次产生的时间,进而,根据当前时间与最近一次产生该行为的时间之间的间 隔时长,确定第一分值。可以理解,第一分值的大小与间隔时长正相关。第一 分值越大表示用户针对该对象在该行为上间隔时间越久。可以理解,第一分值, 即为R(Recency)值。
计算机设备还可以根据该行为的历史行为数据,确定该行为在预设时间段 内产生的次数,根据所确定的次数得到第二分值。计算机设备可以直接将确定 的次数作为第二分值,也可以将产生的次数映射转换为第二分值。可以理解, 第二分值即为F(Frenquency)值。
在一个实施例中,预设时间段内可以包括预设单位时间内。比如,可以是 一个月内、一周内或24小时内等。可以理解,第二分值的大小,与产生该行为 的次数多少正相关。第二分值越大,表示用户针对对象产生该行为越频繁。
计算机设备还可以根据该行为的历史行为数据,确定该行为产生的价值表 征值,根据该价值表征值得到第三分值。计算机设备可以直接将价值表征值作 为第三分值,也可以将产生的价值表征值映射转换为第三分值。可以理解,第 三分值即为M(Monetary)值。
其中,价值表征值,是用于表征价值的指标数值。价值,是指通过用户对 对象的行为,为系统平台带来的价值(比如,收益等能够体现价值的指标)。 行为产生的价值表征值,是用于表征通过用户对对象的行为为系统平台带来的 价值的指标数值。
可以理解,不同行为所能够带来的价值表征类型可以不同。
在一个实施例中,当历史行为数据对应购买行为时,该购买行为产生的价 值表征值,则为用户在预设时间段内对对象产生的交易数值。
在一个实施例中,当历史行为数据对应除购买行为以外的行为时,则行为 产生的价值表征值,为该行为的购买转化率。购买转化率,是转化为购买行为 的比率。即,从用户对对象产生该行为到用户对该对象产生购买行为的转化率。 可以理解,行为的购买转化率,是指在指定时间段内用户对对象产生该行为的 次数,与在该时间段内用户对对象产生购买行为的次数的比值。
在一个实施例中,当历史行为数据对应预添加行为时,该预添加行为产生 的价值表征值,则可以为预添加行为的购买转化率。具体地,计算机设备可以 确定用户在指定时间段内预添加该对象的次数,以及确定用户在该指定时间段 内购买该对象的次数。进一步地,计算机设备可以根据在指定时间段内预添加 该对象的次数,与在该指定时间段内购买该对象的次数的比值,得到预添加行 为的购买转化率。
在一个实施例中,当历史行为数据对应浏览行为时,该浏览行为产生的价 值表征值,则可以为浏览行为的购买转化率。具体地,计算机设备可以确定用 户在指定时间段内浏览该对象的次数,以及确定用户在该指定时间段内购买该 对象的次数。进一步地,计算机设备可以根据在指定时间段内浏览该对象的次 数,与在该指定时间段内购买该对象的次数的比值,得到浏览行为的购买转化 率。
在一个实施例中,对象可以是物品,预添加行为可以是添加物品至购物车 的行为,那么,添加至购物车行为的购买转化率可以按照以下公式计算:
Figure BDA0002380600340000281
可以理解,当用户在指定时间段内购买该物品的次数为0时,添加至购物 车行为的购买转化率也为0。当用户在指定时间段内购买该物品的次数大于0时, 添加至购物车行为的购买转化率,则为用户在指定时间段内添加物品至购物车 的次数,与用户在指定时间段内购买该物品的次数的比值。
在一个实施例中,对象可以是物品,浏览行为可以是浏览物品的行为,那 么,浏览行为的购买转化率可以按照以下公式计算:
Figure BDA0002380600340000282
可以理解,当用户在指定时间段内购买该物品的次数为0时,浏览行为的 购买转化率也为0。当用户在指定时间段内购买该物品的次数大于0时,浏览行 为的购买转化率,则为用户在指定时间段内浏览该物品的次数,与用户在指定 时间段内购买该物品的次数的比值。
进一步地,针对每种行为,计算机设备可以根据该行为对应的第一分值、 第二分值和第三分值,确定行为对应的行为偏好分值。
具体地,计算机设备可以根据第一分值、第二分值和第三分值的乘积,确 定该行为对应的行为偏好分值。计算机设备也可以根据第一分值、第二分值和 第三分值的和,确定该行为对应的行为偏好分值。
上述实施例中,针对每种行为,从用户对对象最近一次产生该行为的情况、 用户对对象产生该行为的频次以及用户对对象产生该行为所带来的价值等多维 度信息,来确定每种行为所能够体现的用户对对象的偏好情况,提高了所确定 的偏好度的准确性。
在一个实施例中,偏好度为偏好等级。对各行为偏好分值按照相应权重进 行加权平均处理,得到组合节点所表征组合中用户对组合中的对象的偏好度包 括:将各行为偏好分值按照相应权重进行加权平均处理,得到组合节点所对应 的偏好分值;根据一部分组合节点中各组合节点所对应的偏好分值中的最大值 和最小值,确定偏好分值总区间;将偏好分值总区间划分为与各预设的偏好等 级对应的偏好等级区间;将一部分组合节点中各组合节点所对应的偏好分值映 射到对应的偏好等级区间,得到组合节点所对应的偏好等级。
其中,偏好分值总区间,是从偏好分值中的最小值到最大值所形成的区间。 可以理解,各组合节点的偏好分值皆位于该偏好分值总区间中。
具体地,计算机设备可以将各行为偏好分值按照相应权重进行加权平均处 理,得到组合节点所对应的偏好分值。进一步地,计算机设备可以根据偏好分 值的分布划分偏好等级。
可以理解,计算机设备可以从各组合节点所对应的偏好分值中,取最大值 和最小值,根据该最大值和最小值确定偏好总区间。计算机设备可以按照预设 的偏好等级,将偏好分值总区间划分为对应的偏好等级区间。每个偏好等级区 间分别唯一对应一个偏好等级。可以理解,偏好等级区间,是由对应于偏好等 级的偏好分值所构成的区间。
比如,预设的偏好等级为极高、高、中、低和极低这5种不同的偏好等级。 假设,偏好分值总区间为20~98。那么,则可以将偏好分值总区间划分为这5种 不同的偏好等级区间。比如,偏好等级区间20~25,对应极低的偏好等级;偏好 等级区间26~45,对应低的偏好等级;偏好等级区间46~70对应中的偏好等级; 偏好等级区间71~85对应高的偏好等级;偏好等级区间86~98对应极高的偏好 等级。
进一步地,计算机设备可以将一部分组合节点中各组合节点所对应的偏好 分值映射到对应的偏好等级区间,即,确定各组合节点对应的偏好分值所位于 的偏好等级区间,将该偏好等级区间所对应的偏好等级,确定为该组合节点所 对应的偏好等级。
可以理解,在确定各组合节点对应的偏好等级后,计算机设备可以将组合 和相应偏好等级作为一组数据进行对应存储,以构建评分库。即,构建<用户_ 对象,偏好等级>评分库。可以理解,在网络图中,一部分组合节点所携带的偏 好等级,即通过从评分库中查找该组合节点所表征的组合,进而查找与该组合 对应存储的偏好等级,将查找的偏好等级对应于该组合节点进行标记,从而使 得该组合节点携带偏好等级。
上述实施例中,将多种行为所体现的用户对对象的偏好情况进行综合考虑, 确定最终的偏好等级,为偏好预测提供较为准确的基础数据,进而提高了偏好 预测的准确性。此外,通过偏好等级来表征用户对对象的偏好情况,避免了过 于复杂的偏好标记,因而避免存储过于繁多复杂的偏好标记,从而节省了系统 的存储资源。
图8为一个实施例中偏好预测方法的流程简示图。参照图8,可以构建用户 特征和物品特征,进而融合生成<用户_物品>组合的组合特征。针对具有历史行 为数据的组合,根据历史行为数据计算并划分该组合所对应的偏好等级,进而 构建<用户_物品,偏好等级>评分库,即将该组合与对应的的偏好等级进行对应 存储。将组合特征映射为组合节点,从而以<用户_物品>组合为节点构建网络图, 并基于网络聚类算法InfoMap对网络图进行聚类。进而,根据同一子网络中各 偏好度的占比,为子网络中各<用户_物品>组合划分对应的偏好等级。
可以理解,按照本申请各实施例中的偏好预测方法有应用于电商平台、推 荐系统、推广信息投放等领域中。而,按照本申请各实施例中的偏好预测方法 选取出的目标偏好度,相当于偏好预测结果。该偏好预测结果,可以应用于上 述领域中的信息推荐场景和信息投放场景中。
在一个实施例中,该方法还包括:根据网络图中各组合节点对应的目标偏 好度,确定目标用户所偏好的对象;生成针对所偏好的对象的第一推荐信息, 并向目标用户所对应终端发送第一推荐信息。
可以理解,每个组合节点表征一组用户和对象的组合。那么,每个组合节 点所对应的目标偏好度,则为其所表征组合中用户对对象的偏好度。
其中,目标用户,是待接收推荐信息的用户。
那么,针对目标用户,计算机设备则可以根据组合节点所对应的目标偏好 度,确定目标用户对各对象的偏好度。计算机设备可以根据目标用户对不同对 象的偏好度的高低,确定目标对象所偏好的对象。
在一个实施例中,计算机设备可以按照目标用户对不同对象的偏好度按照 由高到低的顺序,对对象进行排序,计算机设备可以按照排序位次由高到低的 顺序选取前预设位次的对象,作为目标用户所偏好的对象。
在另一个实施例中,计算机设备可以将目标用户对不同对象的偏好度,分 别与预设的偏好度阈值进行比对,将偏好度大于或等于偏好度阈值的对象确定 为目标用户所偏好的对象。
进一步地,计算机可以生成针对所偏好的对象的第一推荐信息,并向目标 用户所对应终端发送第一推荐信息。可以理解,第一推荐信息,是用于推荐目 标对象所偏好对象的信息。
比如,在电商平台,可以根据电商平台中各用户的消费历史和用户属性等 用户数据,以及物品属性等物品数据,来按照本申请各实施例中的方法,确定 网络图中各组合节点对应的目标偏好度。这样一来,就可以得到各用户对各物 品的偏好度。然后,计算机设备可以以用户为单位,将各用户分别确定为目标 用户,确定各用户所偏好的物品。从而向用户使用终端推送针对所述所偏好的 对象的第一推荐信息。即,给用户进行个性化推荐其所偏好的物品。可以理解, 这种情况下,能够提高信息推荐的准确性,从而避免不必要的信息推荐所造成 的系统资源浪费的问题,而且,也能够节省推荐成本。此外,通过准确地推荐信息,能够提高平台收益转化率,促进平台提高交易额等方面的收益转化。
在一个实施例中,该方法还包括:根据网络图中各组合节点对应的目标偏 好度,确定偏好目标对象的用户;生成针对目标对象的第二推荐信息,并向偏 好目标对象的用户所对应终端发送第二推荐信息。
其中,目标对象,是待推荐或待投放的对象。即,需要推荐或投放目标对 象。
那么,针对目标对,计算机设备则可以根据组合节点所对应的目标偏好度, 确定各用户对目标对象的偏好度。计算机设备可以根据不同用户对目标对象的 偏好度的高低,确定偏好目标对象的用户。
在一个实施例中,计算机设备可以按照不同用户对目标对象的偏好度按照 由高到低的顺序,对用户进行排序,计算机设备可以按照排序位次由高到低的 顺序选取前预设位次的用户,作为偏好目标对象的用户。
在另一个实施例中,计算机设备可以将不同用户对目标对象的偏好度,分 别与预设的偏好度阈值进行比对,将偏好度大于或等于偏好度阈值的用户确定 为偏好目标对象的用户。
进一步地,计算机可以生成针对目标对象的第二推荐信息,并向偏好目标 对象的用户所对应终端发送该第二推荐信息。可以理解,第二推荐信息,是用 于推荐目标对象的信息。
比如,在推广信息(比如广告)投放场景中,推广信息即为目标对象,那 么,可以向对该推广信息偏好度高的用户(即偏好该推广信息的用户)进行定 向投放推送。
上述实施例中,这种情况下,能够提高信息投放的准确性,从而避免不必 要的信息发送所造成的系统资源浪费的问题,而且,也能够节省成本。
如图9所示,在一个实施例中,提供了一种偏好预测装置900,设置于计算 机设备。该计算机设备可以为终端或服务器。该装置900包括:获取模块902、 子网络划分模块904以及偏好度预测模块906,其中:
获取模块902,用于获取包括组合节点和边的网络图;组合节点,用于表征 用户和对象的组合;组合节点中的一部分组合节点,携带所表征组合中用户对 组合中的对象的偏好度。
子网络划分模块904,用于根据网络图中建边的组合节点之间的组合相似 度,对网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一类的 组合节点。
偏好度预测模块906,用于从同一子网络中组合节点携带的各偏好度中,选 取子网络中的组合节点对应的目标偏好度。
在一个实施例中,获取模块902还用于获取至少两个组合特征;组合特征, 是组合的特征;组合为用户和对象的组合;将组合特征映射为空间中的组合节 点,并根据组合特征,确定两两组合节点之间的组合相似度;在组合相似度大 于或等于相似度阈值的组合节点之间建边,生成网络图。
在一个实施例中,获取模块902还用于获取至少两组数据;同组数据中包 括用户数据和对象数据;用户数据所对应的用户和对象数据所对应的对象,属 于同一组合;从用户数据中提取用户特征,以及从对象数据中提取对象特征; 将对应于同组数据的用户特征和对象特征进行组合,生成组合特征。
在一个实施例中,子网络划分模块904还用于根据网络图中各边对应的组 合节点之间的组合相似度,确定组合节点之间的转移概率;转移概率与组合相 似度正相关;按照转移概率在网络图中进行随机游走,确定随机游走过程中各 组合节点的第一出现概率和聚类类别的第二出现概率;根据第一出现概率和第 二出现概率,确定对随机游走的结果进行编码所生成的序列的最短平均编码长 度;通过最小化最短平均编码长度,将网络图中各组合节点进行聚类,得到至 少一个子网络。
在一个实施例中,子网络划分模块904还用于根据第一出现概率,确定对 随机游走的结果进行编码所生成的序列中同一聚类类别内的组合节点的第一最 短平均编码长度;根据第二出现概率,确定序列中聚类类别的第二最短平均编 码长度;根据第一最短平均编码长度和第二最短平均编码长度,确定序列的最 短平均编码长度。
在一个实施例中,在网络图中,组合相似度大于或等于相似度阈值的组合 节点之间建边。该装置900还包括:
步进调整模块905,用于步进地调整相似度阈值,并根据每次步进调整后的 相似度阈值,更新网络图中的边;针对每次更新后的网络图,通知子网络划分 模块904执行根据网络图中建边的组合节点之间的组合相似度,对网络图进行 划分,得到至少一个子网络的步骤,直至满足步进停止条件。
偏好度预测模块906还用于从各次划分得到的子网络划分结果中,选取目 标子网络划分结果,得到最终的至少一个子网络;在目标子网络划分结果的每 个子网络中包含至少一个携带偏好度的组合节点。
在一个实施例中,偏好度预测模块906还用于根据同一子网络中组合节点 携带的各偏好度的占比,从各所述偏好度中,选取所述子网络中的组合节点对 应的目标偏好度;其中,所述目标偏好度的所述占比高于非目标偏好度的所述 占比。
在一个实施例中,偏好度预测模块906还用于针对每个子网络,确定子网 络中组合节点携带的各偏好度的占比;确定子网络中未携带偏好度的组合节点, 得到待预测组合节点;从子网络的各偏好度中,选取占比最高的偏好度作为待 预测组合节点对应的目标偏好度。
在一个实施例中,偏好度预测模块906还用于确定同一子网络中组合节点 的聚类中心;根据各所述组合节点距所述聚类中心的距离大小,从所述子网络 中组合节点所携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏 好度;其中,所述目标偏好度对应的组合节点距所述聚类中心的距离,小于所 述各偏好度中非目标偏好度距所述聚类中心的距离。
在一个实施例中,所述组合节点中的一部分组合节点具有对应的历史行为 数据;历史行为数据,用于描述相应组合节点所表征组合中用户针对组合中对 象产生的历史行为;偏好度预测模块906还用于针对该一部分组合节点中每个 组合节点,根据组合节点对应的历史行为数据,确定组合节点所表征组合中用 户对组合中的对象的偏好度;对应于组合节点标记偏好度。
在一个实施例中,历史行为数据包括至少两种行为的历史行为数据。偏好 度预测模块906还用于确定各行为的历史行为数据所对应的行为偏好分值;获 取各行为对应的行为权重;对各行为偏好分值按照相应权重进行加权平均处理, 得到组合节点所表征组合中用户对组合中的对象的偏好度。
在一个实施例中,偏好度预测模块906还用于针对每种行为,根据行为的 历史行为数据,分别确定行为对应的第一分值、第二分值和第三分值;第一分 值,用于表征距最近一次产生行为的间隔时长;第二分值,用于表征行为在预 设时间段内产生的次数;第三分值,用于表征行为产生的价值表征值;根据第 一分值、第二分值和第三分值,确定行为对应的行为偏好分值。
在一个实施例中,偏好度为偏好等级。偏好度预测模块906还用于将各行 为偏好分值按照相应权重进行加权平均处理,得到组合节点所对应的偏好分值; 根据该一部分组合节点中各组合节点所对应的偏好分值中的最大值和最小值, 确定偏好分值总区间;将偏好分值总区间划分为与各预设的偏好等级对应的偏 好等级区间;将该一部分组合节点中各组合节点所对应的偏好分值映射到对应 的偏好等级区间,得到组合节点所对应的偏好等级。
如图10所示,在一个实施例中,该装置900还包括:步进调整模块905和 推荐模块908,其中:
推荐模块908,用于根据网络图中各组合节点对应的目标偏好度,确定目标 用户所偏好的对象;生成针对所偏好的对象的第一推荐信息,并向目标用户所 对应终端发送第一推荐信息;或,根据网络图中各组合节点对应的目标偏好度, 确定偏好目标对象的用户;生成针对目标对象的第二推荐信息,并向偏好目标 对象的用户所对应终端发送第二推荐信息。
图11为一个实施例中计算机设备的框图。参照图11,该计算机设备可以为 终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络 接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易 失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得 处理器执行一种偏好预测方法。该计算机设备的处理器用于提供计算和控制能 力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算 机程序被处理器执行时,可使得处理器执行一种偏好预测方法。计算机设备的 网络接口用于进行网络通信。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,本申请提供的偏好预测装置可以实现为一种计算机程序 的形式,计算机程序可在如图11所示的计算机设备上运行,计算机设备的非易 失性存储介质可存储组成该偏好预测装置的各个程序模块。比如,图9所示的 获取模块902、子网络划分模块904以及偏好度预测模块906。各个程序模块所 组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施 例的偏好预测方法中的步骤。
例如,计算机设备可以通过如图9所示的偏好预测装置900中的获取模块 902获取包括组合节点和边的网络图;组合节点,用于表征用户和对象的组合; 所述组合节点中的一部分组合节点,携带所表征组合中用户对组合中的对象的 偏好度。计算机设备可以通过子网络划分模块904根据网络图中建边的组合节 点之间的组合相似度,对网络图进行划分,得到至少一个子网络;同一子网络 中包括聚为一类的组合节点。计算机设备可以通过偏好度预测模块906从同一 子网络中组合节点携带的各偏好度中,选取子网络中的组合节点对应的目标偏 好度。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述偏好预 测方法的步骤。此处偏好预测方法的步骤可以是上述各个实施例的偏好预测方 法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序, 计算机程序被处理器执行时,使得处理器执行上述偏好预测方法的步骤。此处 偏好预测方法的步骤可以是上述各个实施例的偏好预测方法中的步骤。
需要说明的是,本申请各实施例中的“第一”和“第二”等仅用作区分, 而并不用于大小、先后、从属等方面的限定。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按步骤标号 指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格 的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分 步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同 一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺 序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段 的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据 库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存 储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、 电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器 (RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得, 诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、 存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、 以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。

Claims (15)

1.一种偏好预测方法,所述方法包括:
获取包括组合节点和边的网络图;所述组合节点,用于表征用户和对象的组合;所述组合节点中的一部分组合节点,携带所表征组合中用户对所述组合中的对象的偏好度;
根据所述网络图中建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一类的组合节点;
从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度。
2.根据权利要求1所述的方法,其特征在于,所述获取包括组合节点和边的网络图包括:
获取至少两个组合特征;所述组合特征,是组合的特征;所述组合为用户和对象的组合;
将所述组合特征映射为空间中的组合节点,并根据所述组合特征,确定两两组合节点之间的组合相似度;
在组合相似度大于或等于相似度阈值的组合节点之间建边,生成网络图。
3.根据权利要求2所述的方法,其特征在于,所述获取至少两个组合特征包括:
获取至少两组数据;同组数据中包括用户数据和对象数据;所述用户数据所对应的用户和所述对象数据所对应的对象,属于同一组合;
从所述用户数据中提取用户特征,以及从所述对象数据中提取对象特征;
将对应于同组数据的用户特征和对象特征进行组合,生成组合特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述网络图中建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络包括:
根据所述网络图中各边对应的组合节点之间的组合相似度,确定所述组合节点之间的转移概率;所述转移概率与所述组合相似度正相关;
按照所述转移概率在所述网络图中进行随机游走,确定随机游走过程中各组合节点的第一出现概率和聚类类别的第二出现概率;
根据所述第一出现概率和所述第二出现概率,确定对随机游走的结果进行编码所生成的序列的最短平均编码长度;
通过最小化所述最短平均编码长度,将所述网络图中各组合节点进行聚类,得到至少一个子网络。
5.根据权利要求1所述的方法,其特征在于,在所述网络图中,组合相似度大于或等于相似度阈值的组合节点之间建边;
在所述从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度之前,所述方法还包括:
步进地调整所述相似度阈值,并根据每次步进调整后的相似度阈值,更新所述网络图中的边;
针对每次更新后的网络图,执行所述根据所述网络图中建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络的步骤,直至满足步进停止条件;
从各次划分得到的子网络划分结果中,选取目标子网络划分结果,得到最终的至少一个子网络;在所述目标子网络划分结果的每个子网络中包含至少一个携带偏好度的组合节点。
6.根据权利要求1所述的方法,其特征在于,所述从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度包括:
根据同一子网络中组合节点携带的各偏好度的占比,从各所述偏好度中,选取所述子网络中的组合节点对应的目标偏好度;
其中,所述目标偏好度的所述占比高于非目标偏好度的所述占比。
7.根据权利要求6所述的方法,其特征在于,所述根据同一子网络中组合节点携带的各偏好度的占比,从各所述偏好度中,选取所述子网络中的组合节点对应的目标偏好度包括:
针对每个子网络,确定所述子网络中组合节点携带的各偏好度的占比;
确定所述子网络中未携带偏好度的组合节点,得到待预测组合节点;
从所述子网络的各所述偏好度中,选取占比最高的偏好度作为所述待预测组合节点对应的目标偏好度。
8.根据权利要求1所述的方法,其特征在于,所述从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度包括:
确定同一子网络中组合节点的聚类中心;
根据各所述组合节点距所述聚类中心的距离大小,从所述子网络中组合节点所携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度;
其中,所述目标偏好度对应的组合节点距所述聚类中心的距离,小于所述各偏好度中非目标偏好度距所述聚类中心的距离。
9.根据权利要求1所述的方法,其特征在于,所述组合节点中的一部分组合节点具有对应的历史行为数据;所述历史行为数据,用于描述相应组合节点所表征组合中用户针对所述组合中对象产生的历史行为;
所述方法还包括:
针对所述一部分组合节点中每个组合节点,根据所述组合节点对应的历史行为数据,确定所述组合节点所表征组合中用户对所述组合中的对象的偏好度;
对应于所述组合节点标记所述偏好度。
10.根据权利要求9所述的方法,其特征在于,所述历史行为数据包括至少两种行为的历史行为数据;
所述根据所述组合节点对应的历史行为数据,确定所述组合节点所表征组合中用户对所述组合中的对象的偏好度包括:
确定各所述行为的历史行为数据所对应的行为偏好分值;
获取各所述行为对应的行为权重;
对各所述行为偏好分值按照相应权重进行加权平均处理,得到所述组合节点所表征组合中用户对所述组合中的对象的偏好度。
11.根据权利要求10所述的方法,其特征在于,所述确定各所述行为的历史行为数据所对应的行为偏好分值包括:
针对每种所述行为,根据所述行为的历史行为数据,分别确定所述行为对应的第一分值、第二分值和第三分值;所述第一分值,用于表征距最近一次产生所述行为的间隔时长;所述第二分值,用于表征所述行为在预设时间段内产生的次数;所述第三分值,用于表征所述行为产生的价值表征值;
根据所述第一分值、所述第二分值和所述第三分值,确定所述行为对应的行为偏好分值。
12.根据权利要求10所述的方法,其特征在于,所述偏好度为偏好等级;所述对各所述行为偏好分值按照相应权重进行加权平均处理,得到所述组合节点所表征组合中用户对所述组合中的对象的偏好度包括:
将各所述行为偏好分值按照相应权重进行加权平均处理,得到所述组合节点所对应的偏好分值;
根据所述一部分组合节点中各组合节点所对应的偏好分值中的最大值和最小值,确定偏好分值总区间;
将所述偏好分值总区间划分为与各预设的偏好等级对应的偏好等级区间;
将所述一部分组合节点中各组合节点所对应的偏好分值映射到对应的偏好等级区间,得到所述组合节点所对应的偏好等级。
13.根据权利要求1至12中任一项所述的方法,其特征在于,所述方法还包括:
根据所述网络图中各组合节点对应的目标偏好度,确定目标用户所偏好的对象;生成针对所述所偏好的对象的第一推荐信息,并向所述目标用户所对应终端发送所述第一推荐信息;或,
根据所述网络图中各组合节点对应的目标偏好度,确定偏好目标对象的用户;生成针对所述目标对象的第二推荐信息,并向偏好目标对象的用户所对应终端发送所述第二推荐信息。
14.一种偏好预测装置,其特征在于,所述装置包括:
获取模块,用于获取包括组合节点和边的网络图;所述组合节点,用于表征用户和对象的组合;所述组合节点中的一部分组合节点,携带所表征组合中用户对所述组合中的对象的偏好度;
子网络划分模块,用于根据所述网络图中建边的组合节点之间的组合相似度,对所述网络图进行划分,得到至少一个子网络;同一子网络中包括聚为一类的组合节点;
偏好度预测模块,用于从同一子网络中组合节点携带的各偏好度中,选取所述子网络中的组合节点对应的目标偏好度。
15.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至13中任一项所述方法的步骤。
CN202010081907.0A 2020-02-06 2020-02-06 偏好预测方法、装置及计算机设备 Active CN111291904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010081907.0A CN111291904B (zh) 2020-02-06 2020-02-06 偏好预测方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010081907.0A CN111291904B (zh) 2020-02-06 2020-02-06 偏好预测方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111291904A true CN111291904A (zh) 2020-06-16
CN111291904B CN111291904B (zh) 2023-04-18

Family

ID=71021314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010081907.0A Active CN111291904B (zh) 2020-02-06 2020-02-06 偏好预测方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111291904B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793180A (zh) * 2021-09-15 2021-12-14 北京沃东天骏信息技术有限公司 一种用户偏好分析方法、装置、设备和计算机存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254028A (zh) * 2011-07-22 2011-11-23 青岛理工大学 一种集成属性和结构相似性的个性化商品推荐方法和系统
CN103778145A (zh) * 2012-10-22 2014-05-07 中国移动通信集团广东有限公司 一种信息推荐方法和系统
CN103793476A (zh) * 2014-01-08 2014-05-14 西安电子科技大学 基于网络社区的协同过滤推荐方法
EP2876598A1 (en) * 2013-11-22 2015-05-27 HERE Global B.V. Graph-based recommendations service systems and methods
CN105117422A (zh) * 2015-07-30 2015-12-02 中国传媒大学 智能社交网络推荐系统
US9286391B1 (en) * 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
CN106708953A (zh) * 2016-11-28 2017-05-24 西安电子科技大学 基于离散粒子群优化的局部社区检测协同过滤推荐方法
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置
CN108921221A (zh) * 2018-07-04 2018-11-30 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109783730A (zh) * 2019-01-03 2019-05-21 深圳壹账通智能科技有限公司 产品推荐方法、装置、计算机设备和存储介质
CN110503506A (zh) * 2019-07-05 2019-11-26 平安科技(深圳)有限公司 基于评分数据的物品推荐方法、装置及介质
CN110727863A (zh) * 2019-09-27 2020-01-24 东北大学 一种基于复杂网络协同过滤的项目推荐方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254028A (zh) * 2011-07-22 2011-11-23 青岛理工大学 一种集成属性和结构相似性的个性化商品推荐方法和系统
US9286391B1 (en) * 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
CN103778145A (zh) * 2012-10-22 2014-05-07 中国移动通信集团广东有限公司 一种信息推荐方法和系统
EP2876598A1 (en) * 2013-11-22 2015-05-27 HERE Global B.V. Graph-based recommendations service systems and methods
CN103793476A (zh) * 2014-01-08 2014-05-14 西安电子科技大学 基于网络社区的协同过滤推荐方法
CN105117422A (zh) * 2015-07-30 2015-12-02 中国传媒大学 智能社交网络推荐系统
CN106708953A (zh) * 2016-11-28 2017-05-24 西安电子科技大学 基于离散粒子群优化的局部社区检测协同过滤推荐方法
CN108805642A (zh) * 2017-05-02 2018-11-13 合信息技术(北京)有限公司 推荐方法及装置
CN108921221A (zh) * 2018-07-04 2018-11-30 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109783730A (zh) * 2019-01-03 2019-05-21 深圳壹账通智能科技有限公司 产品推荐方法、装置、计算机设备和存储介质
CN110503506A (zh) * 2019-07-05 2019-11-26 平安科技(深圳)有限公司 基于评分数据的物品推荐方法、装置及介质
CN110727863A (zh) * 2019-09-27 2020-01-24 东北大学 一种基于复杂网络协同过滤的项目推荐方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
FRANCOIS FOUSS 等: "Random-Walk Computation of Similarities between Nodes of a Graph with Application to Collaborative Recommendation" *
PAUL WAGENSELLER III 等: "Community Detection Algorithm Evaluation using Size and Hashtags" *
SATYA KEERTHI GORRIPATI 等: "Community-Based Collaborative Filtering to Alleviate the Cold-Start and Sparsity Problems" *
XIAOFENG LI 等: "An Improved Collaborative Filtering Recommendation Algorithm and Recommendation Strategy" *
叶红云 等: "一种检测兴趣漂移的图结构推荐系统" *
李霞 等: "面向个性化推荐系统的二分网络协同过滤算法研究" *
王卫平 等: "基于AntStream用户聚类的协同过滤推荐系统" *
胡吉明: "社会化推荐中基于对分网络的用户偏好预测" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793180A (zh) * 2021-09-15 2021-12-14 北京沃东天骏信息技术有限公司 一种用户偏好分析方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
CN111291904B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
Ouadah et al. SEFAP: an efficient approach for ranking skyline web services
CN104679743A (zh) 一种确定用户的偏好模式的方法及装置
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN112667877A (zh) 一种基于旅游知识图谱的景点推荐方法及设备
CN112989169B (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN111581516A (zh) 投资产品的推荐方法及相关装置
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN113343091A (zh) 面向产业和企业的科技服务推荐计算方法、介质及程序
CN111291904B (zh) 偏好预测方法、装置及计算机设备
Özsoy et al. Multi-objective optimization based location and social network aware recommendation
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
Liraki et al. Predicting the Users' Navigation Patterns in Web, using Weighted Association Rules and Users' Navigation Information
CN113327154A (zh) 基于大数据的电商用户讯息推送方法及系统
CN113392289A (zh) 搜索推荐方法、装置、电子设备
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置
CN115700550A (zh) 标签分类模型训练和对象筛选方法、设备及存储介质
CN111460300A (zh) 网络内容推送方法、装置及存储介质
CN112307343A (zh) 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法
CN111651456A (zh) 潜在用户确定方法、业务推送方法及装置
CN111125541A (zh) 面向多用户的可持续多云服务组合的获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024885

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant