CN111667096B - 一种人格特质引导的新用户行为反馈预测方法 - Google Patents

一种人格特质引导的新用户行为反馈预测方法 Download PDF

Info

Publication number
CN111667096B
CN111667096B CN202010399855.1A CN202010399855A CN111667096B CN 111667096 B CN111667096 B CN 111667096B CN 202010399855 A CN202010399855 A CN 202010399855A CN 111667096 B CN111667096 B CN 111667096B
Authority
CN
China
Prior art keywords
personality
matrix
new user
old
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010399855.1A
Other languages
English (en)
Other versions
CN111667096A (zh
Inventor
郑麟
郭乃诚
姜大志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shantou University
Original Assignee
Shantou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shantou University filed Critical Shantou University
Priority to CN202010399855.1A priority Critical patent/CN111667096B/zh
Publication of CN111667096A publication Critical patent/CN111667096A/zh
Application granted granted Critical
Publication of CN111667096B publication Critical patent/CN111667096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种人格特质引导的新用户行为反馈预测方法,首先,将人格特质与用户行为反馈联合编码来增强人格特质的表现力;然后,通过建立人格邻居集成的框架,充分利用老用户的丰富人格特质和行为反馈;最后,在新用户人格特质的引导下,完成对新用户行为反馈的预测。采用本发明,充分利用了老用户的人格特质与其丰富的行为反馈信息,且用人格特质作为桥梁有助于构建稳定的映射机制,提高新用户行为预测的准确率,此外,可以灵活地包容三种主流的技术,从而可以在不同的新用户行为预测场景使用不同的技术。

Description

一种人格特质引导的新用户行为反馈预测方法
技术领域
本发明涉及用户数据挖掘领域,尤其涉及一种人格特质引导的新用户行为反馈预测方法。
背景技术
与本发明最相近似的实现方案包括:1.人格特质的研究与技术、2.新用户行为反馈预测的现有方案、3.集成学习与编码器技术,以下分别介绍。
1.人格特质的研究与技术
心理学对人格(Personality)的定义是:个体在先天生物遗传素质的基础上,通过与后天社会环境的相互作用而形成起来的相对稳定的和独特的心理行为模式。特别地,人格特质(Personality Traits)可以被用来解释不同个体在行为和偏好上的差异,即人格是行为与偏好差异的稳定原因。因此,人格计算(Personality Computing),被广泛应用于各个与人类行为建模相关的研究领域中。例如,通过在计算机游戏中的人类行为来预测其人格,将用户喜爱的图片映射并转换成他们的人格评分,通过提取人格特性为求职面试提供建议等。这些研究倾向于通过用户行为或环境来提取或预测他们的人格。与这些技术相比,我们的方法是通过人格特质引导其他因素来预测用户的行为反馈。
人格的五因子模型(the Five-Factor Mode l,FFM)在人格计算中被广泛采用[2],[3]因为它具有易用性和良好的解释性等特点。五因子模型又称为“大五模型”(TheBig Five Model),包括开放性(Openness,O)、尽责性(Conscientiousness,C)、外倾性(extraversion,E)、随和性(Agreeableness,A)、神经质或情绪稳定性(Neuroticism,N),每种因子都被表达为一个在一定范围内(例如0-5)连续的分数。FFM在推荐系统中被广泛使用,大五人格特质(Big Five Personality Traits)在推荐研究中被当作一种特殊的用户档案来辅助推荐。例如现有技术调研了用户人格与行为之间的区别与联系,他们得出的结论是基于人格的协同过滤模型(Personality-Based Collaborative Filtering)可以改进基于评分的协同过滤方法(Rating-Based Collaborative Filtering)的性能。进一步地,研究人员分析出不同个体之间的人格相似性度量,既可以用来为普通推荐任务服务,又可以专门用于解决新用户问题。例如,从人格信息中进行评分抽取来预测型用户的行为反馈。因此,这些方案充分论证了个体人格与行为反馈之间的强关联性,而且,也论证了将人格特征用来引导行为反馈预测的可行性。
2.新用户行为反馈预测的现有方案
对于新用户,许多文献已进行了规范的定义:在推荐系统中只产生了少量行为反馈、或没有任何行为反馈的用户。行为反馈的例子包括点击、购买、评分、顶、踩等。新用户行为反馈预测的关键点在于如何通过已有的有限的信息预测其未来的行为反馈。由于新用户只有少量或没有任何行为反馈,我们需要通过其他途径去搜集额外的新用户信息,搜集的途径包括进行用户问卷调查或访谈,利用用户档案与物品属性,或进行评分抽取等。
基于额外信息,矩阵填充(Matrix Completion)或矩阵近似(MatrixApproximation)在完成新用户行为反馈预测时效果良好。这些单模型方法已经被证明在解决新用户行为反馈预测时是有效的。与这些单模型相比,集成模型可以充分集中单个模型的优势;而且,随着深度学习的发展,一些技术例如自动编码器与分解模型的结合能更好地捕捉邻居之间的关联;以下详细介绍这两类技术。
3.集成学习与编码器技术
从邻域的角度来看,集成学习技术反映了局部建模的概念,它以低秩近似为理论支持来捕获子矩阵的局部信息。例如,用户和物品的邻居都可以在一般集成框架下被扩展为各种局部低秩矩阵。这种集成局部方法的能力使得集成学习间接地成为一种邻域分解方法。一个高效的方法是局部低秩矩阵近似技术LLORMA,它从邻居的角度出发,通过将原始评分复制到N个邻居子空间来有效地实现新用户行为预测。
集成学习侧重于如何有效地组合多个轻量级模型,而深度学习则考虑如何有效地增加单个模型的深度。一种重要的无监督深度学习方法是自动编码器(Auto-Encoder,AE)。AE的特点是通过编码与解码的过程自动学习输入数据的一种近似表征,具体地,自动编码器框架旨在通过构建从编码器到解码器的流水线来最小化输入和输出之间的差异。各种版本的自动编码器应用广泛,比如去噪自动编码器(Denoising AE)和变分自动编码器(Variationa lAE)。在推荐系统中,研究人员更喜欢使用去噪自动编码器(DAE)来生成用户和物品的潜在因子(LatentFactors),因为DAE可以将输入数据进行重构来学习一些鲁棒性更高的特征。DAE和VAE都被证明可以基于大规模的辅助信息来完成新用户行为反馈预测。然而,与年龄,性别,社交网络等常见的社交数据相比,人格的信息很少。在这种情况下,必须使用自动编码器将有用的额外信息注入到现有的人格数据中,而不是提取人格数据的主要成分。因此,在本方案中,我们更倾向于使用线性自动编码器(AutoRec)技术来提出我们自己的人格预测方法方案。
以上现有技术中存在的主要缺陷有:
1)流行的FFM人格特质模型使用五个维度来表示人格特质,这种表示方法能有效表示人格的特征,但是无法表征人格与行为反馈之间的隐含联系。其具体原因在于没有建立人格特质与行为反馈的桥梁,而且没有利用行为反馈来增强人格特质的表达能力。
2)现有的新用户行为反馈预测方法通过建立用户档案-行为反馈的映射完成新用户行为反馈的预测,这种映射在预测时难以充分利用老用户丰富的信息,其中一个重要的原因在于这些方法没有间接地利用老用户的信息完成新用户行为反馈预测。
3)现有的新用户行为反馈预测模型使用邻居相似度来寻找邻居,并通过叠加邻居来完成邻域建模。这种方式无法发挥每个邻居的独立作用。关键原因在于这些方法没有使用人格特质引导来寻找邻居,从而使每个邻居的人格特质对新用户行为反馈预测做出贡献。
4)先进的编码器能够产生良好的性能,但是,它们与模型的耦合程度过高,并且无法直接用于人格特质的建模。其原因在于编码器模型是一种通用的方法,不是专门为人格特质而设计。
发明内容
本发明实施例所要解决的技术问题在于,提供一种人格特质引导的新用户行为反馈预测方法。可使用人格特质数据引导新用户的行为反馈预测。
为了解决上述技术问题,本发明实施例提供了一种人格特质引导的新用户行为反馈预测方法,包括以下步骤:
S1:对老用户的行为反馈离散后与一位有效编码进行串联,并存储于老用户人格特质矩阵Po中;
S2:将所述老用户人格特质矩阵Po与老用户行为反馈矩阵Ro进行横向级联并使用人格特质编码方案得到已编码的人格特质;
S3:使用与当前用户人格相似度最高的前N个老用户之间的人格特质相似度
Figure BDA0002487245390000041
从老用户人格特质分值/>
Figure BDA0002487245390000042
中选出前N个相似的老邻居;
S4:根据
Figure BDA0002487245390000043
横向级联所述老用户人格特质矩阵Po与已编码的人格特质/>
Figure BDA0002487245390000044
得到N个老用户邻居的级联人格矩阵/>
Figure BDA0002487245390000045
S5:以所述老用户行为反馈矩阵Ro和N个老用户邻居的级联人格矩阵
Figure BDA0002487245390000046
为基础,并行学习N个子模型中的人格-行为反馈矩阵W(n)
S6:使用新用户人格特质分值
Figure BDA0002487245390000047
和所述老用户人格特质分值/>
Figure BDA0002487245390000048
得到当前新用户与所有老用户之间的人格相似度/>
Figure BDA0002487245390000049
S7:将所述新用户人格特质分值
Figure BDA00024872453900000410
转化为一位有效编码并存储在新用户人格特质矩阵Pnew中;
S8:根据所述当前新用户与所有老用户之间的人格相似度
Figure BDA00024872453900000411
横向级联所述新用户人格特质矩阵Pnew与所述已编码的人格特质/>
Figure BDA00024872453900000412
得到N个新用户邻居的级联人格矩阵/>
Figure BDA00024872453900000413
S9:对每个新用户,使用所述当前新用户与所有老用户之间的人格相似度
Figure BDA00024872453900000414
约束所述N个新用户邻居的级联人格矩阵/>
Figure BDA00024872453900000415
和N个子模型的人格-行为反馈矩阵W(n)的乘积得到局部的新用户行为反馈;
S10:将局部的新用户行为反馈集成为全局,将预测结果存放在新用户行为反馈矩阵Rnew中。
进一步地,所述一位有效编码通过以下方法生成:
对每种人格特质的分数进行归一化并舍入到小数点后两位,使用分箱方法按照箱子的大小对每个人格特质的值确定在箱子中的位置,将所有位置离散化。
进一步地,还包括对所述所有位置散化后的一位有效编码的0值进行填充,对所述0值进行填充的方法包括:
对人格特质与行为反馈被横向串联之后输入到一个编码器中进行联合编码,经过编码后的信息输入到解码器中,所述编码器和解码器设置为对称的结构,经过编码和解码,使人格特质与行为反馈充分融合。
进一步地,所述步骤S3还包括以下步骤:
设有N个人格邻居,按照人格邻居集成策略将所有邻居分成个N个子模型并行训练,定义第n个子模型的目标函数如下:
Figure BDA0002487245390000051
其中,W(n)为N个子模型的人格-行为反馈矩阵,Ro为老用户行为反馈矩阵,
Figure BDA0002487245390000052
为N个老用户邻居的级联人格矩阵;
求解所述目标函数可得到以下闭合形式的解:
Figure BDA0002487245390000053
其中,
Figure BDA0002487245390000054
是单位矩阵,设置A=1+αRo,/>
Figure BDA0002487245390000055
中的每个元素都等于1;
解析表达式求解如公式为
Figure BDA0002487245390000056
实施本发明实施例,具有如下有益效果:
(1)本发明充分考虑到新老用户之间的信息不对称的问题,以人格特质作为新老用户之间的桥梁,来引导并完成新用户行为反馈的预测。这个过程充分利用了老用户的人格特质与其丰富的行为反馈信息,这种机制是现有同类技术所不具备的;而且,用人格特质作为桥梁有助于构建稳定的映射机制,提高新用户行为预测的准确率。
(2)本发明可以灵活地包容三种主流的技术,从而可以在不同的新用户行为预测场景使用不同的技术。与以往先进的技术不同,这种方法与被嵌入模型的耦合度较低,因此在更换模型时可以做较小的调整即可以取得较高的性能。
附图说明
图1是本发明的总体方法流程;
图2是老用户的行为反馈可以被离散化后和一位有效编码串联起来的结构示意图;
图3是以2个邻居为例的人格集成策略的示意。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明的总体目的是:使用人格特质数据引导新用户的行为反馈预测。在现实场景中,人格数据可以通过直接的问卷调查或间接的抽取(例如用户的观点)来得到。无论使用直接方法还是间接方法,我们得到的人格数据都是非常有限的,而推荐系统中有用的信息主要来自老用户。具体地,老用户与新用户的最大区别是老用户有丰富的行为反馈数据,这些数据可以与老用户的人格特质关联,从而挖掘出更有用的信息。所以,本发明的总体目的又可以分为以下四个子目的。
1)把老用户的人格特质与其行为反馈融合成为一致的信息。
人格特质体现的是用户的内在而稳定的偏好,而行为反馈是用户外在的表现,这两者的格式是完全不同的。本发明的目标是采用线性的自动编码器来对大五人格特质与行为反馈进行编码,通过编码与解码的过程,让原有的人格特质融入行为反馈特征,使其隐含了预测新行为反馈的能力。
2)基于人格特质挖掘新用户和老用户的联系。
新用户和老用户之间的直接联系是人格特质,通过人格特质可以找出与当前新用户相似的老用户。本发明的目的是设计“人格邻居”来辅助预测新用户的行为反馈,因为人格特质是内在的稳定的因素,具有相似人格的人被认为在情绪、态度、动机、行为等方面具有一致性。因此,人格邻居是表达新老用户联系的合适工具。
3)建立从老用户信息到新用户人格特质的映射。
新老用户的联系可以用人格邻居来表示,然而,新老用户之间的信息是不对称的。新用户只有人格特质,老用户拥有丰富的人格特质与行为反馈。因此,本发明的目标是使用先进的编码器对老用户信息进行编码,以人格相似度作为引导,在各个子空间中独立地学习每个老用户邻居与新用户的映射关系,每个映射关系由一个局部的人格-行为反馈矩阵表示出来。
4)基于以上的联系与映射建模,预测新用户的行为反馈。
基于老用户邻居与新用户的映射关系,本发明的目的是采用集成学习来有条件地集合所有人格邻居,形成增强的人格-行为反馈矩阵,该矩阵即可直接用于新用户的行为反馈预测。
具体的实施方案包括:1.人格特质编码方案;2.人格邻居集成策略;3.新用户行为反馈预测方法。
1.人格特质编码方案
在现有技术中,FFM使用5个维度来描述人格特质,每个维度是一个连续的值。这种传统的表示方法不利于与行为反馈进行融合,因为行为反馈是高维的,而且包含连续值或布尔值。为此,已有研究将5维的人格特质离散化为25维的0-1向量,即每个维度的分值用一个5维的向量来表示。这种表示方法将5种人格特质等同对待,显然是不合适的,因为5种特质每种都有它的表达作用。
本实施例中,采用更加灵活的编码方式,对每种特质独立编码。一位有效编码策略具有鲁棒性,因为老用户的行为反馈可以被离散化后和一位有效编码串联起来,如图2所示。
首先,对每种人格特质的分数进行归一化并舍入到小数点后两位,例如openness=0.43和extraversion=0.35。然后,基于分箱(binning)技术,将每种特质包含的不同分值放入不同的箱子中;这样,每种特质对应的箱子里的分值数目是不同的。最后,按照箱子的大小可以对每个人格特质的值确定它在箱子中的位置,将这些位置离散化即可得到唯一的一位有效编码(one-hotencoding)。
使用分箱方法是将连续的人格特质分数离散化的过程。以TripAdvisor数据集为例,首先将其人格特质按种类独立分成5个箱子,每个箱子大小为:{O-14,C-17,E-10,A-13,N-14}。例如O类人格特质包含14个连续值,则将这14个连续值从小到大排序,放入O箱得到它的大小为14。然后,某个连续值就对应着箱子的某个位置,用1表示。最后,某个连续值就可以用它所在位置为1,其他位置为0的向量表示,也称为一位有效编码。
将老用户的行为反馈离散化后和一位有效编码串联起来的方法如下:
使用向量的拼接(concatenation)操作,为横向拼接。
如图2所示,转化为一位有效编码后的人格特质稀疏性非常高,即每种特质都有许多个0,而这些0通常代表的是无效信息。图2所示的人格特质编码方案能够将这些无效的0值进行填充,变成有意义的信息。具体步骤如下:
首先,人格特质与行为反馈被横向串联之后输入到一个编码器中,该编码器由若干隐藏层构成,将这两种信息进行联合编码。
然后,经过编码后的信息输入到解码器中,解码的要求是尽可能接近原来的人格特质与行为反馈向量。
人格特质编码方案包括编码器与解码器两个部分,将编码器和解码器设置为对称的结构。以编码器为例,使用一个具有两个隐藏层的线性自动编码器进行编码,如公式(1)所示:
Figure BDA0002487245390000071
这里
Figure BDA0002487245390000072
是输入矩阵/>
Figure BDA0002487245390000073
的重构矩阵,是对人格特质进行一位有效编码后得到的矩阵,J表示用户的数量而d代表输入的维度,即人格特质与行为反馈向量串联之后的长度。/>
Figure BDA0002487245390000081
和/>
Figure BDA0002487245390000082
是激活函数,在本方案中将其设置为sigmoid函数:σ(x)=1/(1+exp(-x))。W1和b1分别表示第一个隐藏层的权重与偏移,同样地,W2和b2分别表示第二个隐藏层的权重与偏移。
编码器和解码器的权重是对称的,对于编码器:
Figure BDA0002487245390000083
对于解码器:
Figure BDA0002487245390000084
经过编码和解码的过程,输出矩阵/>
Figure BDA0002487245390000085
包含了已编码的人格特质/>
Figure BDA0002487245390000086
即/>
Figure BDA0002487245390000087
是/>
Figure BDA0002487245390000088
的p前列。使用下标o表示该人格特质是老用户的,因为只有老用户的才有行为反馈,能与其人格特质联合编码。编码的人格特质/>
Figure BDA0002487245390000089
贯穿于整个方案,引导了新用户行为反馈预测。人格特质编码方案为行为预测打下基础,目的是利用行为反馈的丰富信息来融合与弥补人格特质。
最后,经过编码和解码,人格特质与行为反馈充分融合,图2下部分解码后的向量中,人格特质部分已经在原来0的位置填充了有意义的信息。
2.人格邻居集成策略
在用户行为反馈缺失的情况下,基于人格特质的邻居已被证明能提供比基于行为反馈的邻居更多更有效的信息。我们首先给出人格邻居的定义:
在推荐系统中,与当前用户具有相似FFM人格分值的某个用户。
对于没有包含FFM人格特质分值的用户数据,进行用户调研并搜集部分用户的人格特质。
具有类似人格分值的用户倾向于产生相似的行为反馈。新用户由于只有人格特质的信息,它们和老用户的直接联系也就是通过人格邻居来实现。由于人格特质编码方案已经充分挖掘出人格与行为反馈的联系,基于这种联系,人格邻居可以被用来预测新用户的行为反馈。设已得到某个用户的top-N个人格邻居,top-N是与当前用户人格相似度最高的前N个邻居,相似度采用余弦相似度(cos)来计算。
本方案使用基于人格邻居的局部低秩集成策略,而且以人格相似度作为每个邻居的约束,这样保证了即使某个邻居在没有发生行为反馈的情况下,仍然能够体现出该邻居的重要性,具体如图3所示。
图3以两个邻居为例。其中,u1和u2分别为用户1和用户2,他们的人格邻居集合分别为
Figure BDA0002487245390000091
和/>
Figure BDA0002487245390000092
Pu是当前用户(u1和u2)的人格特质矩阵。/>
Figure BDA0002487245390000093
和/>
Figure BDA0002487245390000094
是已编码的邻居人格矩阵(在人格特质编码方案中得到),分别对应第一个邻居和第二个邻居。使用S表示当前用户与其人格邻居的相似度,S(1)和S(2)表示第一和第二个人格邻居与当前用户的相似度,采用余弦相似度(cos)来计算。公式/>
Figure BDA0002487245390000095
的作用是规范化S(1),公式/>
Figure BDA0002487245390000096
的作用是规范化S(2)
与传统的邻居堆叠方法不同,人格邻居集成策略将N个邻居设计成为N个局部模型。
例如,已编码的邻居人格
Figure BDA0002487245390000097
和/>
Figure BDA0002487245390000098
被分别分派到第一和第二个子模型中,而且,分别与用户的人格Pu进行交互。这里采用横向级联完成交互,这种每个邻居的单独交互就像用户可以单独听取每个邻居的意见一样,使得每个邻居的重要程度得以体现。更重要地是,这种局部邻居的集成策略可以使邻居之间不相互干扰,并且不会由于邻居数量的增加而降低计算效率,因为N个局部模型可以进行并行计算。在规范化的人格相似度约束下,局部模型学习得到的所有局部人格-行为反馈矩阵被集成为全局的人格-行为反馈矩阵。该矩阵同样包含着用户的人格Pu和邻居的人格/>
Figure BDA0002487245390000099
而此时,邻居的人格已被集成完整。并且,人格邻居集成策略已经建立起人格到行为反馈的映射,存放在集成的人格-行为反馈矩阵中,准备完成新用户行为预测。
3.新用户行为反馈预测方案
以前两个方案为基础,新用户行为预测是对前两个策略的梳理与整合,最后给出新用户行为的预测值。为了方便说明,首先将需要用到的符号列在表1中。
表1新用户行为反馈预测相关符号
Figure BDA0002487245390000101
使用以上符号,采用以下完整的方案进行新用户行为反馈预测:
1)将
Figure BDA0002487245390000102
转化为一位有效编码并存储在Po中;
2)将Po与Ro进行横向级联并使用人格特质编码方案得到已编码的人格特质
Figure BDA0002487245390000103
3)借助
Figure BDA0002487245390000104
从/>
Figure BDA0002487245390000105
中选出前N个(top-N)相似的老邻居;
4)对于老用户,根据
Figure BDA0002487245390000106
横向级联Po与/>
Figure BDA0002487245390000107
得到/>
Figure BDA0002487245390000108
5)以Ro
Figure BDA0002487245390000109
为基础,并行学习N个子模型中的人格-行为反馈矩阵W(n)
6)对人格-行为反馈矩阵W(n)的学习可以分为MF,WRMF,SLIM三种方案来进行;
7)使用
Figure BDA00024872453900001010
和/>
Figure BDA00024872453900001011
得到当前新用户与所有老用户之间的人格相似度/>
Figure BDA00024872453900001012
8)将
Figure BDA00024872453900001013
转化为一位有效编码并存储在Pnew中;
9)对于新用户,根据
Figure BDA00024872453900001014
横向级联Pnew与/>
Figure BDA00024872453900001015
得到/>
Figure BDA00024872453900001016
10)对每个新用户,使用
Figure BDA00024872453900001017
约束/>
Figure BDA00024872453900001018
和W(n)的乘积得到局部的新用户行为反馈;
11)将局部的新用户行为反馈集成为全局的,把预测结果存放在Rnew中;
最后,Rnew中存放的就是新用户行为反馈的预测值。
在上述流程中,已编码的人格特质
Figure BDA00024872453900001019
在学习局部的人格-行为反馈矩阵W(n)时起到关键作用。而且,/>
Figure BDA00024872453900001020
搭起了人格特质与行为反馈之间的桥梁,而/>
Figure BDA00024872453900001021
又搭起了新老用户之间的桥梁,最后又约束Rnew完成了新用户的行为反馈预测。具体的方法如下:
设有N个人格邻居,则按照人格邻居集成策略把这些邻居分成个N个子模型并行训练。以第n个子模型为例,定义目标函数如下:
Figure BDA0002487245390000111
/>
该目标函数的目的是训练局部的人格-行为反馈矩阵W(n)
其中,‖…‖代表的是规范化项,下缀F和上标2一起表示L-2规范化项
Figure BDA0002487245390000112
λ代表规范化项的系数,A表示的是加权规范化矩阵。
下标o表示老用户,
Figure BDA0002487245390000113
是老用户行为反馈矩阵。其中,Jo表示用户的数量,I是物品的数量,Ro表示的是老用户的行为反馈矩阵。设人格编码的向量长度为p,/>
Figure BDA0002487245390000114
是由Po与/>
Figure BDA0002487245390000115
横向级联得到,因此/>
Figure BDA0002487245390000116
表示的是新用户与第n个老用户级联的人格特质矩阵。公式(2)的核心部分是/>
Figure BDA0002487245390000117
由于本发明目标是设计一个通用的,可扩展的框架,所以需要增加一些可调节的参数。具体地,使用/>
Figure BDA0002487245390000118
指代加权规范化矩阵,用λ1‖W(n)1作为L-1规范化项,/>
Figure BDA0002487245390000119
则是L-2规范化项。
公式(2)提供的框架考虑了不同的情况,是一个可以包含多种实例化方法的容器。首先,考虑去掉加权规范化矩阵和L-1规范化项,则该目标函数退化为标准的L-2规范化的矩阵分解(Matrix Factorization,MF),求解该函数可得到以下闭合形式的解:
Figure BDA00024872453900001110
其中,
Figure BDA00024872453900001111
是单位矩阵,闭合的解可以保证W(n)更稳定地收敛。如果将加权规范化矩阵A考虑进来,则得到第二种实例化的方法:加权规范化矩阵分解(WeightedRegularization Matrix Factorization,WRMF)。在该方法中一般设置A=1+αRo,/>
Figure BDA00024872453900001112
中的每个元素都等于1。基于这些设定,W(n)的第k列可以被坐标下降法高效地更新,具体的解析表达式求解如公式(4)所示:
Figure BDA00024872453900001113
此处用下标k表示矩阵的第k列,例如Rok是Ro的第k列。特别地,
Figure BDA00024872453900001114
是一个使用A的第k列元素作为其对角元素的对角矩阵。
除了MF和WRMF,第三种情况可以考虑稀疏线性方法(Sparse Linear Method,SLIM),可以通过在框架中去掉A并加入L-1规范化项λ1‖W(n)1实现。由于同时具备L-1规范化项和L-2规范化项,SLIM一般采用弹性网络(Elastic Net)的方式优化目标函数,这实际上是稀疏线性回归的一种特例。
综上所示,本发明实施例可以兼容三种主流的技术,可以在实际中根据不同的场景嵌入不同的技术来预测新用户的行为反馈。
本发明使用公开的包含人格特质的数据集TripAdvisor进行技术与实验比较。因为实验分析数据首先要包含人格特质的数据,其次要符合新用户没有行为反馈记录的要求。TripAdvisor数据集包含了1,098个用户的FFM人格特质,每类特质的取值范围是(0,1)。同时,该数据集提供了32,580条评分与评论记录,这些记录中的物品包含三类,分别是:Hotel,Restaurant和Attraction。通过抽取具有人格特质但没有行为反馈的用户作为新用户,该数据集满足了实验数据的两方面要求,适用于本发明的技术比对。
在实验预处理中,我们将数据进行新老用户的划分。具体地,随机抽取50%的用户作为老用户完成训练,剩下的50%的用户作为新用户,隐去其行为反馈作为测试。这种划分方法使新老用户的实际行为反馈数量接近一致,可以验证新用户问题的解决效果。在评测指标方面,拟采用推荐研究领域流行的Precision(精度)、Recal l(召回率)、MAP(平均准确率)、AUC(ROC曲线下面积)等指标来评估模型的性能。训练模型时采用10-折交叉验证,并拟选取一些流行的方法如MF、WRMF、SLIM来比较和验证本研究方法的性能和通用性。具体地,首先测试这三种方法在新用户行为反馈预测上的性能;然后改进局部低秩矩阵近似框架LLORMA,将这三种方法嵌入到该框架中考察其性能;最后,在本研究提出的人格特质引导的框架中,同样地嵌入这三种方法并进行性能评估,完成比较实验。这样设计的实验方案有助于比较流行方法的性能,进一步地,可以比较本方案的框架与现有先进框架的异同,并说明本发明的灵活性与优势。以下是所有进行比较的技术方法(包括本发明,用人格引导的新用户行为预测方法(Personality-guided New user behavior Prediction,PNP)表示):
□CoMF-用于新用户行为反馈预测的MF技术;
□CoWRMF-用于新用户行为反馈预测的WRMF技术;
□CoSLIM-用于新用户行为反馈预测的SLIM技术;
□LoCo-M-基于LLORMA的MF新用户行为反馈预测方法;
□LoCo-W-基于LLORMA的WRMF新用户行为反馈预测方法;
□LoCo-S-基于LLORMA的SLIM新用户行为反馈预测方法;
□PNP-M-嵌入MF技术的人格引导的新用户行为预测方法;
□PNP-W-嵌入WRMF技术的人格引导的新用户行为预测方法;
□PNP-S-嵌入SLIM技术的人格引导的新用户行为预测方法;
在参数设置部分,人格引导的新用户行为预测方法(PNP)的第一个隐藏层和第二个隐藏层的维度分别设置为160和128,学习速率为0.012;其他方法采用网格查找参数来得到模型的最优参数,具体地,L-2规范化项的系数λ2的参数查找范围是{0.02,0.04,0.06,0.08,0.1};L-1规范化项的系数λ1的参数查找范围是{0.002,0.004,0.006,0.008,0.01};参数为α的查找范围是{0.01,0.1,1.0,10.0}。经过调优,MF系列的方法统一设置L-2规范化项的系数λ2为0.1;WRMF系列的方法统一设置L-2规范化项的系数λ2为0.02,并设置参数为α为0.1;SLIM系列的方法分别将L-2规范化项的系数λ2和L-1规范化项的系数λ1统一设置为0.02和0.006。各种方法在不同指标上对比的实验结果如表2和表3所示:
表2本发明(PNP)与现有技术在Precision和Recall指标上的性能比较
Figure BDA0002487245390000131
表3本发明(PNP)与现有技术在MAP和AUC指标上的性能比较
Figure BDA0002487245390000141
PREC表示的是Precision(精度),REC表示的是Recal l(召回率);另外,这些指标后面的@N表示预测新用户的N个行为。可以观察到,本发明的所有系列(PNP-M,PNP-W,PNP-S)的性能均比其他方法占优。原因在于本发明设计的人格特质编码器不仅能够将用户的人格特质进行有效编码,而且还能充分利用老用户的行为来扩充与丰富老用户的人格特质,使人格能引导所有有用的信息完成新用户行为反馈预测任务。从具体的指标上来看,PNP-W在PREC@5和REC@5上表现最好,而PNP-S在其他指标上性能优越。采用PNP为框架在更换模型时与嵌入模型的耦合度低,而且做较小的调整即可以取得较高的性能,这也体现出PNP的灵活特点。综上所述,本发明比现有技术方案更有优势。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (3)

1.一种人格特质引导的新用户行为反馈预测方法,其特征在于,包括以下步骤:
S1:对老用户的行为反馈离散后与一位有效编码进行串联,并存储于老用户人格特质 矩阵
Figure 562012DEST_PATH_IMAGE001
中,所述行为反馈包括点击、购买、评分、顶、踩;
S2:将所述老用户人格特质矩阵
Figure 236095DEST_PATH_IMAGE001
与老用户行为反馈矩阵
Figure 534221DEST_PATH_IMAGE002
进行横向级联并使用 人格特质编码方案得到已编码的人格特质;
S3:使用与当前用户人格相似度最高的前N个老用户之间的人格特质相似度
Figure 607219DEST_PATH_IMAGE003
从老 用户人格特质分值
Figure 575175DEST_PATH_IMAGE004
中选出前N个相似的老邻居;
S4:根据
Figure 733624DEST_PATH_IMAGE003
横向级联所述老用户人格特质矩阵
Figure 507545DEST_PATH_IMAGE001
与已编码的人格特质
Figure 372733DEST_PATH_IMAGE005
得到N个 老用户邻居的级联人格矩阵
Figure 573907DEST_PATH_IMAGE006
S5:以所述老用户行为反馈矩阵
Figure 157335DEST_PATH_IMAGE007
N个老用户邻居的级联人格矩阵
Figure 469368DEST_PATH_IMAGE006
为基础,并 行学习N个子模型中的人格-行为反馈矩阵
Figure 514028DEST_PATH_IMAGE008
设有N个人格邻居,按照人格邻居集成策略将所有邻居分成个N个子模型并行训练,定义第n个子模型的目标函数如下:
Figure 823787DEST_PATH_IMAGE009
其中,
Figure 956828DEST_PATH_IMAGE010
代表优化矩阵
Figure 10235DEST_PATH_IMAGE011
得到的某个值,使整个表达式的值最小,
Figure 912332DEST_PATH_IMAGE011
N个子 模型的人格-行为反馈矩阵,
Figure 455308DEST_PATH_IMAGE002
为老用户行为反馈矩阵,
Figure 810066DEST_PATH_IMAGE006
N个老用户邻居的级联人 格矩阵,
Figure 729481DEST_PATH_IMAGE012
为范式符号,其中F表示范式,2代表范式的值,
Figure 486084DEST_PATH_IMAGE013
代表范式数值为1,o代表老用 户,
Figure 137645DEST_PATH_IMAGE014
代表规范化系数;
求解所述目标函数可得到以下闭合形式的解:
Figure 245279DEST_PATH_IMAGE015
其中,
Figure 705734DEST_PATH_IMAGE016
是单位矩阵,p是人格特质的维度,
Figure 254528DEST_PATH_IMAGE017
是实数域,设置
Figure 404886DEST_PATH_IMAGE018
Figure 734236DEST_PATH_IMAGE019
中的每个元素都等于1,T代表矩阵转置操作,
Figure 995453DEST_PATH_IMAGE020
是评分系数,
Figure 398753DEST_PATH_IMAGE021
是老用户的个数;
解析表达式求解如公式为
Figure 720013DEST_PATH_IMAGE022
其中,
Figure 536659DEST_PATH_IMAGE023
为A矩阵的K秩矩阵,
Figure 273671DEST_PATH_IMAGE024
Figure 859373DEST_PATH_IMAGE025
的k秩矩阵,k表示秩的值;
S6:使用新用户人格特质分值
Figure 351534DEST_PATH_IMAGE026
和所述老用户人格特质分值
Figure 386968DEST_PATH_IMAGE027
得到当前新用户与所 有老用户之间的人格相似度
Figure 927670DEST_PATH_IMAGE028
S7:将所述新用户人格特质分值
Figure 633458DEST_PATH_IMAGE026
转化为一位有效编码并存储在新用户人格特质矩 阵
Figure 30942DEST_PATH_IMAGE029
中;
S8:根据所述当前新用户与所有老用户之间的人格相似度
Figure 759863DEST_PATH_IMAGE028
横向级联所述新用户人 格特质矩阵
Figure 900995DEST_PATH_IMAGE029
与所述已编码的人格特质
Figure 461289DEST_PATH_IMAGE030
得到N个新用户邻居的级联人格矩阵
Figure 29673DEST_PATH_IMAGE031
S9:对每个新用户,使用所述当前新用户与所有老用户之间的人格相似度
Figure 245891DEST_PATH_IMAGE028
约束所述N个新用户邻居的级联人格矩阵
Figure 190713DEST_PATH_IMAGE031
N个子模型的人格-行为反馈矩阵
Figure 605514DEST_PATH_IMAGE032
的乘积得到局 部的新用户行为反馈;
S10:将局部的新用户行为反馈集成为全局,将预测结果存放在新用户行为反馈矩阵
Figure 548062DEST_PATH_IMAGE033
中。
2.根据权利要求1所述的人格特质引导的新用户行为反馈预测方法,其特征在于,
所述一位有效编码通过以下方法生成:
对每种人格特质的分数进行归一化并舍入到小数点后两位,使用分箱方法按照箱子的大小对每个人格特质的值确定在箱子中的位置,将所有位置离散化。
3.根据权利要求2所述的人格特质引导的新用户行为反馈预测方法,其特征在于,还包括对所述所有位置散化后的一位有效编码的0值进行填充,对所述0值进行填充的方法包括:
对人格特质与行为反馈被横向串联之后输入到一个编码器中进行联合编码,经过编码后的信息输入到解码器中,所述编码器和解码器设置为对称的结构,经过编码和解码,使人格特质与行为反馈充分融合。
CN202010399855.1A 2020-05-12 2020-05-12 一种人格特质引导的新用户行为反馈预测方法 Active CN111667096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010399855.1A CN111667096B (zh) 2020-05-12 2020-05-12 一种人格特质引导的新用户行为反馈预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010399855.1A CN111667096B (zh) 2020-05-12 2020-05-12 一种人格特质引导的新用户行为反馈预测方法

Publications (2)

Publication Number Publication Date
CN111667096A CN111667096A (zh) 2020-09-15
CN111667096B true CN111667096B (zh) 2023-03-28

Family

ID=72383435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010399855.1A Active CN111667096B (zh) 2020-05-12 2020-05-12 一种人格特质引导的新用户行为反馈预测方法

Country Status (1)

Country Link
CN (1) CN111667096B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107348962A (zh) * 2017-06-01 2017-11-17 清华大学 一种基于脑机接口技术的人格特质测量方法及设备
CN108109058A (zh) * 2018-01-11 2018-06-01 合肥工业大学 一种融合人格特质和物品标签的单分类协同过滤方法
CN108364131A (zh) * 2018-02-09 2018-08-03 合不合(厦门)网络科技有限公司 利用类神经网络进行人格类型的自动识别与分群的方法
CN109635753A (zh) * 2018-12-14 2019-04-16 深圳壹账通智能科技有限公司 基于神经网络模型的应聘者评估方法及装置
CN110119849A (zh) * 2019-05-21 2019-08-13 山东大学 一种基于网络行为的人格特质预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107348962A (zh) * 2017-06-01 2017-11-17 清华大学 一种基于脑机接口技术的人格特质测量方法及设备
CN108109058A (zh) * 2018-01-11 2018-06-01 合肥工业大学 一种融合人格特质和物品标签的单分类协同过滤方法
CN108364131A (zh) * 2018-02-09 2018-08-03 合不合(厦门)网络科技有限公司 利用类神经网络进行人格类型的自动识别与分群的方法
CN109635753A (zh) * 2018-12-14 2019-04-16 深圳壹账通智能科技有限公司 基于神经网络模型的应聘者评估方法及装置
CN110119849A (zh) * 2019-05-21 2019-08-13 山东大学 一种基于网络行为的人格特质预测方法及系统

Also Published As

Publication number Publication date
CN111667096A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN109241424B (zh) 一种推荐方法
Huang et al. Csan: Contextual self-attention network for user sequential recommendation
CN108304556B (zh) 基于内容与协同过滤相结合的个性化推荐方法
CN113254803A (zh) 一种基于多特征异质图神经网络的社交推荐方法
CN111127146B (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
CN101916334B (zh) 一种皮肤状况预测方法及其预测系统
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN112138403B (zh) 交互行为的识别方法和装置、存储介质及电子设备
Liu et al. Winning solutions and post-challenge analyses of the ChaLearn AutoDL challenge 2019
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN112597302B (zh) 基于多维评论表示的虚假评论检测方法
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN111488460B (zh) 数据处理方法、装置和计算机可读存储介质
CN112085158A (zh) 一种基于堆栈降噪自编码器的图书推荐方法
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
CN111667096B (zh) 一种人格特质引导的新用户行为反馈预测方法
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN116595222A (zh) 基于多模态知识蒸馏的短视频多标签分类方法及装置
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN115422369A (zh) 基于改进TextRank的知识图谱补全方法和装置
CN113111257A (zh) 一种基于协同过滤的融合多源异构信息的推荐方法
CN114579734A (zh) 基于gcn网络融合要素关联图的汉越新闻抽取式摘要方法
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
CN113407704A (zh) 文本匹配方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant