CN112765453A - 内容推荐方法、装置、计算机设备和存储介质 - Google Patents
内容推荐方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112765453A CN112765453A CN202011632716.5A CN202011632716A CN112765453A CN 112765453 A CN112765453 A CN 112765453A CN 202011632716 A CN202011632716 A CN 202011632716A CN 112765453 A CN112765453 A CN 112765453A
- Authority
- CN
- China
- Prior art keywords
- click
- contents
- distance
- content
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,提供一种内容推荐方法、装置、计算机设备和存储介质。通过获取预先利用特征提取模型计算候选内容和点击内容的特征向量,计算候选内容和点击内容的特征向量的相似距离,取相似距离最小的M个候选内容作为推荐内容进行推荐。一方面,特征提取模型是根据点击距离和内容特征训练得到的,不需要搜集用户信息,能够降低合规风险。另一方面,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大,因而能够为用户推荐点击距离近且内容相似的推荐内容,使推荐内容符合大部分用户的浏览特征,提高用户对推荐内容的点击率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种内容推荐方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术以及智能移动终端技术的发展,人们的生活越来越离不开互联网产品。为提高用户对产品的粘性,通过分析用户喜好对用户进行内容推荐。内容推荐的精准性越高,越能够提高用户粘性。
传统的内容推荐方法,通过搜集用户信息,如用户的观看记录,购买记录等,对用户进行用户画像,得到用户标签。进而根据用户标签推荐相关内容。如一个用户的标签为乒乓球,则推荐内容包括了乒乓球新闻。而传统的对用户画像,需要搜集用户信息,涉及用户隐私。用户隐私属于敏感问题,容易产生合规风险。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低合规风险的内容推荐方法、装置、计算机设备和存储介质。
一种内容推荐方法,所述方法包括:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
在其中一个实施例中,训练特征提取模型的方式,包括:
根据用户对内容的点击顺序,确定任意两个内容的点击距离;
根据所述点击距离,得到内容间的距离矩阵;
根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
在其中一个实施例中,根据内容特征和所述距离矩阵,训练特征提取模型,包括:
从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本;
利用根据所述内容特征和所述距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
在其中一个实施例中,根据用户对内容的点击顺序,确定任意两个内容的点击距离,包括:
根据用户对内容的点击顺序获得用户点击链;
根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
在其中一个实施例中,根据所述点击距离,得到内容间的距离矩阵,包括:
针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;
取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;
根据平均点击距离,构建内容间的距离矩阵。
在其中一个实施例中,所述根据用户对内容的点击顺序获得用户点击链,包括:
获取用户对内容的点击顺序;
根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
在其中一个实施例中,所述根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离,包括:
若两个内容在所述用户点击链中直接连接,则两个内容的点击距离为1;
若两个内容在所述用户点击链中间接连接,则两个内容的点击距离为间隔内容数量+1。
一种内容推荐装置,所述装置包括:
点击内容获取模块,用于获取用户的点击内容;
候选内容获取模块,用于从数据库中选取候选内容;
特征向量获取模块,用于获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
推荐模块,用于计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
上述内容推荐方法、装置、计算机设备和存储介质,通过获取预先利用特征提取模型计算候选内容和点击内容的特征向量,计算候选内容和点击内容的特征向量的相似距离,取相似距离最小的M个候选内容作为推荐内容进行推荐。一方面,特征提取模型是根据点击距离和内容特征训练得到的,不需要搜集用户信息,能够降低合规风险。另一方面,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大,因而能够为用户推荐点击距离近且内容相似的推荐内容,即不仅仅从内容相似性这一维度为用户进行推荐,还结合大部分用户的历史浏览所得到的点击距离,使推荐内容符合大部分用户的浏览特征,提高用户对推荐内容的点击率。
附图说明
图1为一个实施例中内容推荐方法的应用场景图;
图2为一个实施例中内容推荐方法的流程示意图;
图3为一个实施例中训练特征提取模型训练步骤的流程示意图;
图4为一个实施例中内容推荐装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的内容推荐方法,可以应用于如图1所示的应用环境中。其中,多个终端102通过网络与服务器104通过网络进行通信。各个终端102响应用户对内容的点击操作,并向服务器104上报。服务器104搜集上报的点击内容信息,分析用户对内容的点击顺序获得用户点击链,根据点击链,确定任意两个内容的点击距离,利用内容之间的点击距离以及内容特征训练特征提取模型,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大。在训练得到特征提取模型后,预先利用训练好的特征提取模型计算各内容的特征向量。当在推荐应用场景中,终端102上报点击内容后,服务器从数据库中选取候选内容,根据预先利用特征提取模型预先计算好的点击内容和候选内容的特征向量的相似距离,取相似距离最小的M个候选内容作为推荐内容进行推荐。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种内容点击方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取用户的点击内容。
内容是指以一定载体记录的信息,载体形式包括但不限于文字、语音、视频等。因此,内容可以为文章、语音、图片和视频。点击内容具体是指用户当前的点击内容,根据用户当前的点击内容进行推荐。
步骤204,从数据库中选取候选内容。
数据库可以是单一类型的内容数据库,如新闻数据库,也可以是混合数据库,包括文章、图片、语音、广告和视频。一种实施方式中,从数据库中随机选择预设数量的内容作为候选内容。具体的预设数量可以根据数据库内容数量以及应用需求确定,如选择1000个候选内容。另一种实施方式中,从数据库中根据点击内容,随机选择预设数量内容作为候选内容。具体可根据点击内容的类型或内容特征进行选择选取。选取策略可以是选取与点击内容相同类型或相似内容特征的候选内容。
候选内容是随机从数据库中抽取的一定数据的内容,候选内容的数量可结合实际需求定,如用户每次点击一个新闻时,都从数据库中随机采样出M(如M等于1000)篇文章,作为候选内容。
步骤206,获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大。
其中,特征提取模型是预先根据内容之间的点击距离和内容特征进行训练得到的。点击距离是指用户在日常查看内容时,对内容进行点击操作所间隔的点击操作距离。点击距离与点击顺序相关。点击顺序间隔越短,点击距离也越短。反之,点击顺序间隔越远,点击距离也越远。点击距离是综合所有用户在日常查看时对内容的点击顺序得到的,通过两个内容间点击距离,能够反应用户在查看一个内容后,点击另一个内容的倾向。通常而言,两个内容间A与B的点击距离越小,说明大部分用户在查看了前一个内容A后,点击查看了内容B。
内容特征是内容自身属性的特征,与其它因素无关,包括但不限于内容类别、词频特征、作者和时间等。
特征提取模型预先根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大。由于特征提取模型的训练目标,使得特征提取模型在训练时学习时增加两个点击距离近的内容的相似距离,增大两个点击距离远的内容的相似距离,从而使点击距离近的两个内容更容易相似。
特征提取模型训练好之后,利用训练好的特征提取模型对数据库中全部内容计算特征向量,并存储,直接存储为{内容ID:特征向量score}。具体地,在内容推荐应用场景,根据点击内容ID和候选内容ID,获取预先计算的特征向量。由于特征提取模型之后,内容的特征向量直接入库,即不需要实时计算特征向量,使得内容推荐的延迟小负载小。
步骤208,计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
由于候选内容和点击内容的特征向量是预先利用特征提取模型计算的,而特征提取模型的训练目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大。因此,特征提取模型在计算特征向量时,能够使点击距离近的两个内容更容易相似。
取相似距离最小的M个候选内容作为推荐内容进行推荐,从而能够为用户推荐点击距离近且内容相似的推荐内容,即不仅仅从内容相似性这一维度为用户进行推荐,还结合大部分用户的历史浏览所得到的点击距离,使推荐内容符合大部分用户的浏览特征,提高用户对推荐内容的点击率。
上述的内容推荐方法,通过获取预先利用特征提取模型计算候选内容和点击内容的特征向量,计算候选内容和点击内容的特征向量的相似距离,取相似距离最小的M个候选内容作为推荐内容进行推荐。一方面,特征提取模型是根据点击距离和内容特征训练得到的,不需要搜集用户信息,能够降低合规风险。另一方面,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大,因而能够为用户推荐点击距离近且内容相似的推荐内容,即不仅仅从内容相似性这一维度为用户进行推荐,还结合大部分用户的历史浏览所得到的点击距离,使推荐内容符合大部分用户的浏览特征,提高用户对推荐内容的点击率。
在另一个实施例中,如图3所示,训练特征提取模型的方式,包括:
S302,根据用户对内容的点击顺序,确定任意两个内容的点击距离。
其中,点击顺序是指用户对内容的点击先后顺序。点击距离与点击顺序相关。点击顺序间隔越短,点击距离也越短。反之,点击顺序间隔越远,点击距离也越远。
具体地,收集现有推荐系统(可以是简单的协同过滤推荐系统,topk推荐系统或者机器学习推荐系统)上的用户对内容的点击顺序。需要注意的是,此处搜集的是对内容的点击顺序,无需收集用户ID,点击时间,地点,因此不涉及到收集隐私。
具体地,根据用户对内容的点击顺序,确定任意两个内容的点击距离,包括:根据用户对内容的点击顺序获得用户点击链;根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
其中,用户点击链是指根据用户在一段时间内点击的内容的顺序,生成以内容ID为节点的链路。内容ID用户点击链上的位置及连接关系,与用户对内容的点击顺序有关。例如,用户点击了A之后,又先后点击了B和C,则生成的用户点击链为A→B→C。
具体地,所述根据用户对内容的点击顺序获得用户点击链,包括:获取用户对内容的点击顺序;根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
通常而言,在一定时间内点击的内容才能反映用户对内容之间的喜好关联。因此,用户点击链是获取用户在一定时间跨度内的点击内容得到的。如有ABCD四个新闻,间隔时间为1小时,用户先点击A后,间隔15分钟后点击了B,间隔45分钟后点击了C,间隔65分钟后点击了D。若预设时间为一个小时,由于内容D的点击时间与内容A的点击时间跨度超过了一个小时,则不将D纳入用户点击链,则该用户点击链为A→B→C。
两个内容之间的点击距离与内容在用户点击链的连接关系和距离间隔相关。其中,连接关系包括直接连接和间接连接。若两个内容在用户点击链中是直接连接,则两个内容的点击距离为1,若两个内容在用户点击链中是间接连接,则两个内容在用户点击链的点击距离为间隔内容数量+1。以用户点击链为A→B→C为例,A与B直接连接,则点击距离为1,A与C的点击距离为2,A与D因为不直接也不间接相连,点击距离为正无穷(计算上记为99),B到A也不直接相连,但是A与B直接相连,因此定义B到A的点击距离等于A到B的点击距离,即1。
S304,根据所述点击距离,得到内容间的距离矩阵。
距离矩阵用于表示任意两个内容间的点击距离。收集到若干用户点击链后,获得任意两内容的多个点击距离,由于每个人习惯不同,任意两内容点击距离有多个。
具体地,根据所述点击距离,得到内容间的距离矩阵,包括:针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;根据平均点击距离,构建内容间的距离矩阵。
在具体地应用场景中,可以取包括两个内容前20个最小的点击距离,计算其平均值,得到N*N点击距离矩阵,为对称阵。
S306,根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
具体地,特征提取模型可采用backbone为xgboost或者FM模型,损失函数为三元损失函数,三元损失函数的目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
具体地,从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本;利用根据内容特征和距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
其中,三元损失函数如下所示:
l(A,P,N)=max(|f(A)-f(P)||2-||f(A)-f(N)||2+α,0)
其中A、P、N为三个内容的内容特征,任取一个内容作为样本A,P代表正样本,为与A点击距离更小的内容,N代表负样本,代表与A点击距离更大的文章,f代表模型的输出变换,该输出为一个D维的向量(如100维),alpha为参数,可以设为0.5。
特征提取模型训练时,每次从数据库里随机抽取三个内容,其中一篇设置为样本A,另外两篇根据与A的点击距离,距离小的设置为正样本P,距离大的设置为负样本N,通过该模型的训练,模型输出会最小化样本A与正样本P的相似距离,最大化样本A与负样本N的相似度距离。
本实施例中,特征提取模型的训练不需要提取用户的敏感信息,只需提取点击顺序,根据点击距离和内容特征进行训练,不涉及用户隐私,降低了合规风险。
特征提取模型训练完成后,利用特征提取模型计算数据库中所有内容的f(A)输出,记为特征向量score,直接存储为{内容ID:特征向量score}。
在实际应用时,用户每次点击一个内容时,都从数据库中随机采样出K(如M等于1000)个内容,计算K个内容的特征向量与该点击内容的特征向量的相似距离,取前M(如20)个相似距离(||f(A)-f(P)||2)最小的文章推荐即可。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供一种内容推荐装置,包括:
点击内容获取模块402,用于获取用户的点击内容。
候选内容获取模块404,用于从数据库中选取候选内容。
特征向量获取模块406,用于获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大。
推荐模块408,用于计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
上述内容推荐装置,通过获取预先利用特征提取模型计算候选内容和点击内容的特征向量,计算候选内容和点击内容的特征向量的相似距离,取相似距离最小的M个候选内容作为推荐内容进行推荐。一方面,特征提取模型是根据点击距离和内容特征训练得到的,不需要搜集用户信息,能够降低合规风险。另一方面,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大,因而能够为用户推荐点击距离近且内容相似的推荐内容,即不仅仅从内容相似性这一维度为用户进行推荐,还结合大部分用户的历史浏览所得到的点击距离,使推荐内容符合大部分用户的浏览特征,提高用户对推荐内容的点击率。
在另一个实施例中,内容推荐装置还包括:
点击距离确定模块,用于根据用户对内容的点击顺序,确定任意两个内容的点击距离。
距离矩阵获取模块,用于根据所述点击距离,得到内容间的距离矩阵;
训练模块,用于根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
在另一个实施例中,训练模块,包括:
三元组构建模块,用于从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本。
模型训练模块,用于利用根据所述内容特征和所述距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
在另一个实施例中,点击距离确定模块,包括:
用户点击链确定模块,用于根据用户对内容的点击顺序获得用户点击链。
距离获取模块,用于根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
在另一个实施例中,距离矩阵获取模块,用于针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;根据平均点击距离,构建内容间的距离矩阵。
在另一个实施例中,用户点击链确定模块,用于获取用户对内容的点击顺序;根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
在另一个实施例中,距离获取模块,用于若两个内容在所述用户点击链中直接连接,则两个内容的点击距离为1;若两个内容在所述用户点击链中间接连接,则两个内容的点击距离为间隔内容数量+1。关于内容推荐装置的具体限定可以参见上文中对于内容推荐方法的限定,在此不再赘述。上述内容推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容以及内容的特征向量数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容推荐方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
在其中一个实施例中,训练特征提取模型的方式,包括:
根据用户对内容的点击顺序,确定任意两个内容的点击距离;
根据所述点击距离,得到内容间的距离矩阵;
根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
在其中一个实施例中,根据内容特征和所述距离矩阵,训练特征提取模型,包括:
从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本;
利用根据所述内容特征和所述距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
在其中一个实施例中,根据用户对内容的点击顺序,确定任意两个内容的点击距离,包括:
根据用户对内容的点击顺序获得用户点击链;
根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
在其中一个实施例中,根据所述点击距离,得到内容间的距离矩阵,包括:
针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;
取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;
根据平均点击距离,构建内容间的距离矩阵。
在其中一个实施例中,所述根据用户对内容的点击顺序获得用户点击链,包括:
获取用户对内容的点击顺序;
根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
在其中一个实施例中,所述根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离,包括:
若两个内容在所述用户点击链中直接连接,则两个内容的点击距离为1;
若两个内容在所述用户点击链中间接连接,则两个内容的点击距离为间隔内容数量+1。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
在其中一个实施例中,训练特征提取模型的方式,包括:
根据用户对内容的点击顺序,确定任意两个内容的点击距离;
根据所述点击距离,得到内容间的距离矩阵;
根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
在其中一个实施例中,根据内容特征和所述距离矩阵,训练特征提取模型,包括:
从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本;
利用根据所述内容特征和所述距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
在其中一个实施例中,根据用户对内容的点击顺序,确定任意两个内容的点击距离,包括:
根据用户对内容的点击顺序获得用户点击链;
根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
在其中一个实施例中,根据所述点击距离,得到内容间的距离矩阵,包括:
针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;
取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;
根据平均点击距离,构建内容间的距离矩阵。
在其中一个实施例中,所述根据用户对内容的点击顺序获得用户点击链,包括:
获取用户对内容的点击顺序;
根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
在其中一个实施例中,所述根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离,包括:
若两个内容在所述用户点击链中直接连接,则两个内容的点击距离为1;
若两个内容在所述用户点击链中间接连接,则两个内容的点击距离为间隔内容数量+1。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种内容推荐方法,所述方法包括:
获取用户的点击内容;
从数据库中选取候选内容;
获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
2.根据权利要求1所述的方法,其特征在于,训练特征提取模型的方式,包括:
根据用户对内容的点击顺序,确定任意两个内容的点击距离;
根据所述点击距离,得到内容间的距离矩阵;
根据内容特征和所述距离矩阵,训练特征提取模型;其中,所述特征提取模型的训练目标是使点击距离近的内容间的内容特征的相似距离最小化,点击距离远的内容间的内容特征的相似距离最大化。
3.根据权利要求2所述的方法,其特征在于,根据内容特征和所述距离矩阵,训练特征提取模型,包括:
从数据库中随机取三个内容构建三元组,以任一个内容作为样本,与样本点击距离更近的内容作为正样本,与样本点击距离更远的内容作为负样本;
利用根据所述内容特征和所述距离矩阵构建的三元组损失函数训练特征提取模型,其中,三元组损失函数的目标是使样本与正样本的相似距离最小化,样本与负样本的相似距离最大化。
4.根据权利要求2所述的方法,其特征在于,根据用户对内容的点击顺序,确定任意两个内容的点击距离,包括:
根据用户对内容的点击顺序获得用户点击链;
根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离。
5.根据权利要求2所述的方法,其特征在于,根据所述点击距离,得到内容间的距离矩阵,包括:
针对任意两个内容,获取包括这两个内容的用户点击链对应的点击距离;
取前N个最小的点击距离,计算平均值,得到两个内容的平均点击距离;
根据平均点击距离,构建内容间的距离矩阵。
6.根据权利要求4所述的方法,其特征在于,所述根据用户对内容的点击顺序获得用户点击链,包括:
获取用户对内容的点击顺序;
根据时间跨度在预设时间内的内容的点击顺序,获得用户点击链。
7.根据权利要求4所述的方法,其特征在于,所述根据所述内容在所述用户点击链的连接关系和距离间隔,确定任意两个内容的点击距离,包括:
若两个内容在所述用户点击链中直接连接,则两个内容的点击距离为1;
若两个内容在所述用户点击链中间接连接,则两个内容的点击距离为间隔内容数量+1。
8.一种内容推荐装置,其特征在于,所述装置包括:
点击内容获取模块,用于获取用户的点击内容;
候选内容获取模块,用于从数据库中选取候选内容;
特征向量获取模块,用于获取预先利用特征提取模型计算的所述候选内容和点击内容的特征向量;其中,所述特征提取模型根据内容之间的点击距离和内容特征进行训练,训练的目标使点击距离近的两个内容的内容特征的相似距离最小,使点击距离远的两个内容特征的相似距离最大;
推荐模块,用于计算所述候选内容和所述点击内容的特征向量的相似距离,取相似距离最小的M个所述候选内容作为推荐内容进行推荐。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632716.5A CN112765453A (zh) | 2020-12-31 | 2020-12-31 | 内容推荐方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632716.5A CN112765453A (zh) | 2020-12-31 | 2020-12-31 | 内容推荐方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765453A true CN112765453A (zh) | 2021-05-07 |
Family
ID=75699670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011632716.5A Pending CN112765453A (zh) | 2020-12-31 | 2020-12-31 | 内容推荐方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765453A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722601A (zh) * | 2021-09-07 | 2021-11-30 | 南方电网数字电网研究院有限公司 | 电力量测信息推荐方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829116A (zh) * | 2019-02-14 | 2019-05-31 | 北京达佳互联信息技术有限公司 | 一种内容推荐方法、装置、服务器及计算机可读存储介质 |
CN111681107A (zh) * | 2020-06-11 | 2020-09-18 | 黄锐 | 一种基于Embedding的实时个性化金融产品推荐算法 |
CN111708964A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 多媒体资源的推荐方法、装置、电子设备和存储介质 |
CN112102002A (zh) * | 2020-09-16 | 2020-12-18 | 珠海格力电器股份有限公司 | 基于知识图谱的商品推荐方法、装置、计算机和存储介质 |
CN112149604A (zh) * | 2020-09-30 | 2020-12-29 | 网易传媒科技(北京)有限公司 | 视频特征提取模型的训练方法、视频推荐方法及装置 |
-
2020
- 2020-12-31 CN CN202011632716.5A patent/CN112765453A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829116A (zh) * | 2019-02-14 | 2019-05-31 | 北京达佳互联信息技术有限公司 | 一种内容推荐方法、装置、服务器及计算机可读存储介质 |
CN111708964A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 多媒体资源的推荐方法、装置、电子设备和存储介质 |
CN111681107A (zh) * | 2020-06-11 | 2020-09-18 | 黄锐 | 一种基于Embedding的实时个性化金融产品推荐算法 |
CN112102002A (zh) * | 2020-09-16 | 2020-12-18 | 珠海格力电器股份有限公司 | 基于知识图谱的商品推荐方法、装置、计算机和存储介质 |
CN112149604A (zh) * | 2020-09-30 | 2020-12-29 | 网易传媒科技(北京)有限公司 | 视频特征提取模型的训练方法、视频推荐方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722601A (zh) * | 2021-09-07 | 2021-11-30 | 南方电网数字电网研究院有限公司 | 电力量测信息推荐方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
CN109446302B (zh) | 基于机器学习的问答数据处理方法、装置和计算机设备 | |
CN107590224B (zh) | 基于大数据的用户偏好分析方法与装置 | |
CN109783730A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN111311107B (zh) | 基于用户关系的风险评估方法、装置和计算机设备 | |
CN110751533B (zh) | 产品画像生成方法、装置、计算机设备和存储介质 | |
CN109376237A (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
CN113157863A (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN110782318A (zh) | 基于音频交互的营销方法、装置以及存储介质 | |
CN112035611B (zh) | 目标用户推荐方法、装置、计算机设备和存储介质 | |
CN110457361B (zh) | 特征数据获取方法、装置、计算机设备和存储介质 | |
CN108334625B (zh) | 用户信息的处理方法、装置、计算机设备和存储介质 | |
CN112104505B (zh) | 应用推荐方法、装置、服务器和计算机可读存储介质 | |
CN108182633B (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
CN111400126B (zh) | 网络服务异常数据检测方法、装置、设备和介质 | |
CN109245996A (zh) | 邮件推送方法、装置、计算机设备和存储介质 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN110750523A (zh) | 数据标注方法、系统、计算机设备和存储介质 | |
CN109461043A (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN112949297A (zh) | 意图识别方法、装置、计算机设备和计算机可读存储介质 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN112905876A (zh) | 基于深度学习的信息推送方法、装置和计算机设备 | |
CN113592535A (zh) | 一种广告推荐方法、装置、电子设备和存储介质 | |
CN112685639A (zh) | 活动推荐方法、装置、计算机设备和存储介质 | |
WO2022001233A1 (zh) | 基于层次化迁移学习的预标注方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210507 |
|
WD01 | Invention patent application deemed withdrawn after publication |