CN111651704A - 一种内容推荐方法、计算设备以及存储介质 - Google Patents
一种内容推荐方法、计算设备以及存储介质 Download PDFInfo
- Publication number
- CN111651704A CN111651704A CN202010291499.1A CN202010291499A CN111651704A CN 111651704 A CN111651704 A CN 111651704A CN 202010291499 A CN202010291499 A CN 202010291499A CN 111651704 A CN111651704 A CN 111651704A
- Authority
- CN
- China
- Prior art keywords
- content
- statistical value
- value
- historical
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容推荐方法、计算设备以及存储介质。方法包括:获取内容集合中每个内容的当前和历史点击次数、当前和历史展示次数,将当前点击次数与历史点击次数求和,得到第一统计值,将当前展示次数与历史展示次数求和后再减去第一统计值,得到第二统计值;基于第一统计值和第二统计值生成贝塔分布,基于贝塔分布生成随机数,作为内容的第一分值;接收到请求时,按照预定召回策略从内容集合中获取候选集合;对于候选内容集合中的每个内容,基于用户特征与内容特征估计用户对内容的点击概率,作为内容的第二分值;将内容的第一分值与第二分值进行加权求和,得到内容的推荐分值,基于推荐分值从候选集合中选出预定数目个内容,作为推荐内容。
Description
技术领域
本发明涉及互联网领域,具体涉及一种内容推荐方法、计算设备以及存储介质。
背景技术
随着信息技术和互联网技术的飞速发展,越来越多的用户通过各种计算机设备(例如phone、pad、pc等)获取网络咨讯,另外网络上的各种信息资源也呈爆炸式地增长,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。
鉴于此,推荐系统(Recommender System),尤其是个性化推荐应运而生。它可以根据用户的兴趣特点和行为,向用户推荐用户感兴趣的信息和商品。但是,每时每刻都有大量的新的信息资源产生,如何将新的资源推荐给可能对它感兴趣的用户成为了推荐系统的一个重点面对的问题,即所谓的资源冷启动(cold start)问题。
一个好的推荐系统,不仅要解决上面提到的新资源的冷启动问题,而且要考虑老用户的满意度(即推荐的内容包含用户真正感兴趣的内容),这就是推荐系统所面临的两难问题,利用与探索(Exploitation&Exploration,EE)策略正是解决此两难问题的应对策略。Exploitation,指的是利用历史数据作出最佳决策,考虑的是短期利益;Exploration,指的是探索未知的领域,兼顾长期利益。
推荐系统中,上置信界(Upper Confidence Bound,UCB)方法是一种经典的EE策略,其使用概率分布(仅置信区间上界)来量化不确定性,是一种确定性的选择策略,具体地,是以资源的点击率(Click-Through-Rate,CTR)的置信上限作为其CTR的预估值。主要思想是:当我们对某个资源尝试的次数越多,对该资源CTR预估的置信区间越窄,所以其估计的不确定性降低,这样均值越大的资源越优先被选择,这达到了“利用(Exploitation)”的作用;当对我们对某个资源的尝试次数越少,对该资源CTR预估的置信区间就越宽,所以其估计的不确定性较高,这样置信区间较宽的资源有可能被多次选择,这达到了“探索(Exploration)”的作用。
但是,UCB是一种确定性的选择策略,有可能会导致每次返回给用户的资源相同,用户满意度可能较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的内容推荐方法、计算设备以及存储介质。
根据本发明的一个方面,提供一种内容推荐方法,在计算设备中执行,所述方法包括:
获取内容集合中每个内容在当前投放过程中的当前点击次数和当前展示次数,以及在历史投放过程中的历史点击次数和历史展示次数,并将每个内容的当前点击次数与历史点击次数求和,得到第一统计值,将每个内容的当前展示次数与历史展示次数求和后再减去第一统计值,得到第二统计值;
至少基于内容的第一统计值和第二统计值生成贝塔分布,并基于所述贝塔分布生成随机数,作为所述内容的第一分值;
接收到用户操作客户端所发送的网络请求时,按照预定召回策略从所述内容集合中获取多个内容作为候选集合;
对于候选内容集合中的每个内容,基于用户的用户特征与内容的内容特征,估计所述用户对所述内容的点击概率,作为所述内容的第二分值;
将内容的第一分值与第二分值进行加权求和,得到所述内容的推荐分值,并按照推荐分值从大到小的顺序,从所述候选集合中选出预定数目个内容,作为推荐内容。
可选地,在根据本发明的内容推荐方法中,所述至少基于内容的第一统计值和第二统计值生成贝塔分布,包括:若所述第二统计值不大于预定阈值,则将所述第一统计值和第二统计值作为两个形状参数,生成贝塔分布;若所述第二统计值大于预定阈值,则将所述第二统计值缩小到所述预定阈值,将所述第二统计值按照相同的比例进行缩小,并将缩小后的第一统计值和缩小后的第二统计值作为两个形状参数,生成贝塔分布。
可选地,根据本发明的内容推荐方法,还包括,获取内容集合中每种内容类型所包括的多个内容在历史投放过程中的历史平均点击次数和历史平均展示次数,将历史平均点击次数作为第三统计值,将历史平均展示次数与历史点击次数之差作为第四统计值;所述至少基于内容的第一统计值和第二统计值生成贝塔分布,包括:将所述第一统计值和第三统计值进行求和,得到第一和值;将所述第二统计值和第三统计值进行求和,得到第二和值;将所述第一和值和第二和值作为两个形状参数,生成贝塔分布。
可选地,在根据本发明的内容推荐方法中,若所述第二统计值大于预定阈值,则将所述第二统计值缩小到所述预定阈值再进行求和,并将所述第二统计值按照相同的比例进行缩小后再进行求和。
可选地,在根据本发明的内容推荐方法中,所述内容类型包括如下的至少一个:长文、短文、视频和游记。
可选地,在根据本发明的内容推荐方法中,所述估计所述用户对所述内容的点击概率,包括:将所述用户特征和所述内容特征输入到预设的点击率预估模型进行处理,输出所述用户对所述内容的点击概率。
可选地,在根据本发明的内容推荐方法中,所述点击率预估模型采用DeepFM模型。
可选地,根据本发明的内容推荐方法,还包括:将所述推荐内容发送至客户端显示。
根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行上述方法的指令。
根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述的方法。
根据本发明的内容推荐方案,每次选择推荐内容的方式是:用Beta分布,对每个内容产生一个随机数p,按照内容产生的随机数p排序,随机数p越大,被选中的概率越大,从而将新的资源推荐给可能对它感兴趣的用户,有效的解决了资源的冷启动问题,提升内容的整体CTR。相比于UCB,本发明的推荐方案中算法参数少,计算量少,实现简单。
进一步,本发明采用基于数据衰减来更新Beta分布的参数(α,β),即,当β达到一定阈值保持不变,α基于β的数据缩放比例进行同比例缩放,这样可以有效避免历史资源由于被选择的次数少导致其参数(α,β)置信度不高的问题。
进一步,基于内容的业务特性(内容有不同的类别,如长文、短文、视频、游记等),Beta分布计算各类型内容的概率时增加一项先验参数(α0,β0),能够提高资源的冷启动效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的内容推荐系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的内容推荐方法中离线处理方法300的流程图;
图4示出了根据本发明一个实施例的内容推荐方法中在线处理方法400的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的内容推荐系统100的示意图。如图1所示,内容推荐系统100包括用户终端110和计算设备200。
用户终端110即用户所使用的终端设备,其具体可以是桌面电脑、笔记本电脑等个人计算机,也可以是手机、平板电脑、多媒体设备、智能可穿戴设备等,但不限于此。用户终端110中驻留有浏览器或者页面应用(webapp),通过浏览器或者页面应用访问互联网中的计算设备200,在下文中,将浏览器和页面应用统称为客户端,相应地,计算设备200则为服务端。计算设备200用于向用户终端110提供服务,其可以实现为服务器,例如应用服务器、Web服务器等;也可以实现为桌面电脑、笔记本电脑、处理器芯片、平板电脑等,但不限于此。
根据一种实施例,计算设备200可以向用户终端110提供内容服务,用户在用户终端110中打开客户端时,用户终端110会向计算设备200发送网络请求,计算设备200通常会向客户端返回一个或多个推荐内容,客户端在显示首页内容之前,会先显示计算设备200返回的推荐内容,这个功能通常称为首页推荐。其中,一个或多个推荐内容是由计算设备200自动生成的。而计算设备自动生成推荐内容的过程大体上可以分为两个阶段,召回阶段和排序阶段。召回阶段根据用户的兴趣和历史行为,在资源池(内容集合)中挑选出一个小的用户感兴趣的候选集合(几百到几千个)。排序阶段在此基础上进行更精准的计算,对每一个内容计算点击概率,进一步从候选集合选出用户最感兴趣的少量高质量内容(例如十几个内容)。
在一个实施例中,内容推荐系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如MySQL、ACCESS等,也可以是非关系型数据库例如NoSQL等;可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如HBase等设置于多个地理位置处,总之,数据存储装置120用于存储数据,本发明对数据存储装置120的具体部署、配置情况不做限制。计算设备200可以与数据存储装置120连接,并获取数据存储装置120中所存储的数据。例如,计算设备200可以直接读取数据存储装置120中的数据(在数据存储装置120为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取数据存储装置120中的数据。
在本发明的实施例中,数据存储装置120适于存储内容信息,包括:资源池(海量内容构成的内容集合),内容在投放过程中的点击信息和展示信息(当前投放过程中的点击和展示次数,以及历史投放过程中的点击信息和展示信息)。数据存储装置120还适于存储召回阶段和排序阶段中用到的各种策略和模型。
如前所述,每时每刻都有大量的新的内容产生,如何将新的内容推荐给可能对它感兴趣的用户成为了推荐系统的一个重点面对的问题,即所谓的资源冷启动问题。而UCB是一种确定性的选择策略,有可能会导致每次返回给用户的资源相同,用户满意度可能较差。
于是,在本发明的内容推荐方案中,提出了一种新的资源冷启动方法,该方法基于贝叶斯思想,用概率分布(Beta分布)来表达不确定性,是一种随机性的选择策略。Beta分布(贝塔分布)是指一组定义在[0,1]区间的连续概率分布,有两个正值参数,称为形状参数,一般用α和β表示。它可以看作是一个概率的分布,可以理解为概率的概率分布。其主要思想是:假设每个内容有一个真实的CTR,我们通过不断试验来预估一个置信度较高的CTR的概率分布。
内容被点击的次数分布是二项分布,基于共轭分布,我们可以假设内容的CTR的概率分布符合Beta分布,它有两个参数:α,β。每个内容都维护一个Beta分布的参数(α,β)。每次展示的内容被点击一次,则该内容的α增加1,否则β增加1。
每次选择推荐内容的方式是:用Beta分布,对每个内容产生一个随机数p,按照内容产生的随机数p排序;随机数p越大,被选中的概率越大,例如,选中p最大的那个资源。
Beta分布生成随机数p的公式如下:p=random.betavariate(α,β),需要说明的是,如何根据Beta分布生成随机数为现有技术,在需要时调用相关函数即可,例如上述的random.betavariate(α,β)函数。在一种实现方式中,α与β的数据更新,按照时间衰减的方式进行,α的数据更新公式如下(β的数据更新公式与α一样,将公式中的α替换为β即可):
αn=n-1*γ+N
其中,αn是α历史n天的最终值,αn-1是α历史n-1天的最终值,N是α第n天当天的新增值,γ是时间衰减系数。
从上面的公式可以看出,该方案虽然解决了UCB方案存在的问题,但也存在不足:由于指数衰减的速度是非常快的,针对一些新资源,如果每天被选中的次数比较小,则随着时间的推移,该资源下的(α,β)不能达到一个比较大的置信值,其预估的CTR就不能达到其真实的CTR,这样就使得“探索(Exploration)”的效果不是太理想。
于是,在另一种实现方式中,采用基于数据衰减来更新Beta分布的参数(α,β),即,当β达到一定阈值保持不变,α基于β的数据缩放比例进行同比例缩放),这样可以有效避免历史内容由于被选择的次数少导致其参数(α,β)置信度不高的问题。
本发明的内容推荐方法可以在计算设备中执行。图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括执行方法300或方法400的多条程序指令。本发明的内容推荐方法包括离线阶段的处理(对应于方法300)和在线阶段的处理(对应于方法400),以下分别介绍之。
图3示出了根据本发明一个实施例的内容推荐方法中离线处理方法300的流程图。方法300适于在计算设备(例如前述计算设备200)中执行。
如图3所示,方法300始于步骤S302,在步骤S302中,获取内容集合中每个内容在当前投放过程中的当前点击次数和当前展示次数,这样,每个内容都分别对应一个当前点击次数和当前展示次数。内容集合包括多个内容,本发明实施例不限制内容的具体形式,内容例如可以为网站中的视频、文章、商品信息等,这些内容均为待投放的内容。
可以通过离线分析程序,每隔预定时间(例如5分钟或者10分钟),从存储设备(例如日志服务器)中收集各个内容在该段时间内的点击次数和展示次数。本发明实施例中,将最近的时间段对应于当前投放过程,相应地,在最近时间段采集到的点击次数和展示次数称为当前点击次数和当前展示次数。所谓展示,就是将内容发送到用户的客户端,在客户端的屏幕上显示给用户,所谓点击,就是用户在客户端对展示的内容进行点击操作。
在步骤S304中,获取内容集合中每个内容在历史投放过程中的历史点击次数和历史展示次数,这样,每个内容都分别对应一个历史点击次数和历史展示次数。历史投放过程,是指在当前投放过程之前的所有投放过程,或者,是指在当前投放过程之前的预定周期(例如为6个月)的投放过程。同样,可以从存储设备(例如日志服务器)中收集各个内容在历史投放过程中的点击次数和展示次数,分别称为历史点击次数和历史展示次数。
在步骤S306中,将每个内容的当前点击次数与历史点击次数求和,得到第一统计值α,将每个内容的当前展示次数与历史展示次数求和后再减去第一统计值,得到第二统计值β。在基于第一统计值α和第二统计值β生成Beta分布之前,还可以按照预定方法对第一统计值α和第二统计值β进行更新,然后,基于更新后的(α,β)来生成Beta分布。
在一种实现方式中,可以使用基于时间衰减的方法来更新各个内容的(α,β),具体请参见上文。
在另一种实现方式中,还可以使用基于数据衰减的方法来更新各个内容的(α,β)。数据衰减的主要思想是,当β达到一定阈值保持不变,α基于β的数据缩放比例进行同比例缩放。即,若β不大于预定阈值,则(α,β)均保持不变;若β大于预定阈值,则将β缩小到预定阈值,计算出此时的缩小比例(即预定阈值除以β),然后将α按照相同的比例进行缩小,即将α乘以上述的缩小比例。
例如,预定阈值设定为10000,内容A的历史数据为(1000,9000),资源A的当前数据为(400,7000),则使用数据衰减的方法得到内容A的最终结果是(875,10000),其中,875=(1000+400)*10000/(9000+7000)。
在步骤S308中,对于内容集合中的每个内容,基于内容的第一统计值和第二统计值生成贝塔分布,并基于贝塔分布生成随机数,作为内容的第一分值。具体,是将第一统计值α和第二统计值β作为两个形状参数生成贝塔分布betavariate(α,β),然后按照如下的公式生成随机数p:p=random.betavariate(α,β),需要说明的是,如何根据Beta分布生成随机数为现有技术,在需要时调用相关函数即可,例如上述的random.betavariate(α,β)函数。
这样,内容集合中的每个内容就分别与一个第一分值(随机数p)相关联,将这种关联关系存储到数据存储设备,例如存储到redis中,以便在内容推荐方法的线处理过程中使用。
在另一种实现方式中,还基于内容的业务特性(内容有不同的类别,如长文、短文、视频、游记等),Beta分布计算各类型内容的概率时增加一项先验参数(α0,β0),以便能够提高资源的冷启动效果。
具体地,方法300还可以包括:获取内容集合中每种内容类型所包括的多个内容在历史投放过程中的历史平均点击次数和历史平均展示次数,即,对于每种内容类型,先统计其包括的多个内容在历史投放过程中的点击次数之和以及展示次数之和,然后,将点击次数之和除以该种内容类型所包括的内容数目,得到该内容类型的历史平均点击次数,将展示次数之和除以该种内容类型所包括的内容数目,得到该内容类型的历史平均展示次数;然后,将历史平均点击次数作为第三统计值α0,将历史平均展示次数与历史点击次数之差作为第四统计值β0。
相应地,在步骤S308中,是分别将第一统计值和第三统计值的第一和值,以及第二统计值和第三统计值的第二和值,作为两个形状参数来生成贝塔分布,并基于贝塔分布来生成内容对应的第一分值p,具体公式如下:
p=random.betavariate(α+α0,β+β0)
图4示出了根据本发明一个实施例的内容推荐方法中在线处理方法400的流程图。方法400适于在计算设备(例如前述计算设备200)中执行。
如图4所示,方法400始于步骤S402,在步骤S402中,接收到用户操作客户端所发送的网络请求时,按照预定召回策略从内容集合中获取多个内容作为候选内容集合(或者称为候选集合)。
召回在技术实现上可以分为主要的两类:基于内容的召回、基于行为的召回。基于内容召回的基本思路:1)基于用户历史行为计算各维度用户画像,刻画用户兴趣偏好(如汽车品牌偏好、车型/车系偏好、国别偏好等);2)对每一类画像维度建立内容的倒排索引,方便快速召回相关内容的内容;3)当用户请求推荐时,基于用户画像在倒排索引中召回用户潜在感兴趣内容。
基于行为召回的基本思路:1)基于协同过滤技术,构建用户-内容评分矩阵,在此基础上进行用户相似度计算、内容相似度计算,进而推荐相似用户的偏好内容或用户兴趣内容的相似内容;2)基于深度学习技术,充分整合用户画像信息和内容信息,基于深度神经网络算法实现用户内容匹配。
通常,内容推荐系统可以包括多条召回路径(即多种召回策略),例如对于车商平台,可以包括兴趣车系召回、兴趣品牌召回、协同过滤召回、热度召回等等,对于各路召回策略粗排的内容数据进行合并,去重后得到一个候选集合。具体采用何种召回策略进行召回,本领域技术人员可以根据具体需要进行合理选择,本发明实施例对此不做赘述。
在步骤S404中,对于候选内容集合中的每个内容,基于用户的用户特征与内容的内容特征,估计用户对内容的点击概率,作为内容的第二分值。这样,每个内容就分别关联一个第二分值。具体地,将用户特征和内容特征输入到预设的点击率预估模型进行处理,输出用户对内容的点击概率。具体采用何种点击率预估模型,本领域技术人员可以根据具体需要进行合理选择,本发明实施例对此不做赘述。例如,点击率预估模型例如可以采用DeepFM模型。
在步骤S406中,对于候选内容集合中的每个内容,将内容的第一分值与第二分值进行加权求和,得到内容的推荐分值,并按照推荐分值从大到小的顺序,从候选集合中选出预定数目个内容,作为推荐内容,并将所确定的一个或多个推荐内容发送至客户端显示。这里,第一分值和第二分值加权求和的权值,本领域技术人员可以根据实验或经验来确定。例如,将权值设置为相等,即直接将第一分值和第二分值相加,得到内容的推荐分值。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种内容推荐方法,在计算设备中执行,所述方法包括:
获取内容集合中每个内容在当前投放过程中的当前点击次数和当前展示次数,以及在历史投放过程中的历史点击次数和历史展示次数,并将每个内容的当前点击次数与历史点击次数求和,得到第一统计值,将每个内容的当前展示次数与历史展示次数求和后再减去第一统计值,得到第二统计值;
至少基于内容的第一统计值和第二统计值生成贝塔分布,并基于所述贝塔分布生成随机数,作为所述内容的第一分值;
接收到用户操作客户端所发送的网络请求时,按照预定召回策略从所述内容集合中获取多个内容作为候选集合;
对于候选内容集合中的每个内容,基于用户的用户特征与内容的内容特征,估计所述用户对所述内容的点击概率,作为所述内容的第二分值;
将内容的第一分值与第二分值进行加权求和,得到所述内容的推荐分值,并按照推荐分值从大到小的顺序,从所述候选集合中选出预定数目个内容,作为推荐内容。
2.如权利要求1所述的方法,其中,所述至少基于内容的第一统计值和第二统计值生成贝塔分布,包括:
若所述第二统计值不大于预定阈值,则将所述第一统计值和第二统计值作为两个形状参数,生成贝塔分布;
若所述第二统计值大于预定阈值,则将所述第二统计值缩小到所述预定阈值,将所述第二统计值按照相同的比例进行缩小,并将缩小后的第一统计值和缩小后的第二统计值作为两个形状参数,生成贝塔分布。
3.如权利要求1所述的方法,还包括,获取内容集合中每种内容类型所包括的多个内容在历史投放过程中的历史平均点击次数和历史平均展示次数,将历史平均点击次数作为第三统计值,将历史平均展示次数与历史点击次数之差作为第四统计值;
所述至少基于内容的第一统计值和第二统计值生成贝塔分布,包括:
将所述第一统计值和第三统计值进行求和,得到第一和值;
将所述第二统计值和第三统计值进行求和,得到第二和值;
将所述第一和值和第二和值作为两个形状参数,生成贝塔分布。
4.如权利要求3所述的方法,其中,若所述第二统计值大于预定阈值,则将所述第二统计值缩小到所述预定阈值再进行求和,并将所述第二统计值按照相同的比例进行缩小后再进行求和。
5.如权利要求3或4所述的方法,其中,所述内容类型包括如下的至少一个:长文、短文、视频和游记。
6.如权利要求1至5中任一项所述的方法,其中,所述估计所述用户对所述内容的点击概率,包括:
将所述用户特征和所述内容特征输入到预设的点击率预估模型进行处理,输出所述用户对所述内容的点击概率。
7.如权利要求6所述的方法,其中,所述点击率预估模型采用DeepFM模型。
8.如权利要求1至7中任一项所述的方法,还包括:
将所述推荐内容发送至客户端显示。
9.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291499.1A CN111651704B (zh) | 2020-04-14 | 2020-04-14 | 一种内容推荐方法、计算设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291499.1A CN111651704B (zh) | 2020-04-14 | 2020-04-14 | 一种内容推荐方法、计算设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651704A true CN111651704A (zh) | 2020-09-11 |
CN111651704B CN111651704B (zh) | 2024-01-12 |
Family
ID=72352117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010291499.1A Active CN111651704B (zh) | 2020-04-14 | 2020-04-14 | 一种内容推荐方法、计算设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651704B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328906A (zh) * | 2020-11-04 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 内容项推荐方法、装置、设备及存储介质 |
CN112685521A (zh) * | 2020-12-25 | 2021-04-20 | 上海掌门科技有限公司 | 常住地预测方法、设备以及存储介质 |
CN112836085A (zh) * | 2021-02-08 | 2021-05-25 | 深圳市欢太科技有限公司 | 一种权重调整方法及装置、存储介质 |
CN113158026A (zh) * | 2021-03-08 | 2021-07-23 | 咪咕文化科技有限公司 | 物品分发方法、电子设备和存储介质 |
CN113379482A (zh) * | 2021-05-28 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种物品推荐方法、计算设备以及存储介质 |
CN113626712A (zh) * | 2021-08-19 | 2021-11-09 | 云南腾云信息产业有限公司 | 一种基于用户互动行为的内容确定方法及装置 |
CN113672801A (zh) * | 2021-07-30 | 2021-11-19 | 北京三快在线科技有限公司 | 信息的处理方法、装置、存储介质和电子设备 |
CN114449315A (zh) * | 2021-11-23 | 2022-05-06 | 优地网络有限公司 | 推送数字内容的方法及装置 |
CN115474070A (zh) * | 2022-08-10 | 2022-12-13 | 武汉斗鱼鱼乐网络科技有限公司 | 一种展示新内容的方法、装置、介质及设备 |
CN116304128A (zh) * | 2023-03-01 | 2023-06-23 | 广西泛华于成信息科技有限公司 | 基于大数据的多媒体资讯推荐系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240030A1 (en) * | 2016-03-18 | 2018-08-23 | Youku Internet Technology (Beijing) Co., Ltd. | Content recommendation method, apparatus and system |
CN109918570A (zh) * | 2019-03-18 | 2019-06-21 | 智者四海(北京)技术有限公司 | 内容推荐方法、装置、存储介质及内容处理方法 |
CN110020173A (zh) * | 2017-12-29 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 用于优化搜索排序的方法、装置及电子设备 |
CN110532468A (zh) * | 2019-08-26 | 2019-12-03 | 北京齐尔布莱特科技有限公司 | 一种网站资源的推荐方法、装置和计算设备 |
CN110532479A (zh) * | 2019-09-05 | 2019-12-03 | 北京思维造物信息科技股份有限公司 | 一种信息推荐方法、装置及设备 |
-
2020
- 2020-04-14 CN CN202010291499.1A patent/CN111651704B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240030A1 (en) * | 2016-03-18 | 2018-08-23 | Youku Internet Technology (Beijing) Co., Ltd. | Content recommendation method, apparatus and system |
CN110020173A (zh) * | 2017-12-29 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 用于优化搜索排序的方法、装置及电子设备 |
CN109918570A (zh) * | 2019-03-18 | 2019-06-21 | 智者四海(北京)技术有限公司 | 内容推荐方法、装置、存储介质及内容处理方法 |
CN110532468A (zh) * | 2019-08-26 | 2019-12-03 | 北京齐尔布莱特科技有限公司 | 一种网站资源的推荐方法、装置和计算设备 |
CN110532479A (zh) * | 2019-09-05 | 2019-12-03 | 北京思维造物信息科技股份有限公司 | 一种信息推荐方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
于波;杨红立;冷淼;: "基于用户兴趣模型的推荐算法", 计算机系统应用, no. 09 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328906A (zh) * | 2020-11-04 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 内容项推荐方法、装置、设备及存储介质 |
CN112685521B (zh) * | 2020-12-25 | 2023-02-17 | 上海掌门科技有限公司 | 常住地预测方法、设备以及存储介质 |
CN112685521A (zh) * | 2020-12-25 | 2021-04-20 | 上海掌门科技有限公司 | 常住地预测方法、设备以及存储介质 |
CN112836085A (zh) * | 2021-02-08 | 2021-05-25 | 深圳市欢太科技有限公司 | 一种权重调整方法及装置、存储介质 |
CN113158026A (zh) * | 2021-03-08 | 2021-07-23 | 咪咕文化科技有限公司 | 物品分发方法、电子设备和存储介质 |
CN113158026B (zh) * | 2021-03-08 | 2024-03-15 | 咪咕文化科技有限公司 | 物品分发方法、电子设备和存储介质 |
CN113379482A (zh) * | 2021-05-28 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种物品推荐方法、计算设备以及存储介质 |
CN113379482B (zh) * | 2021-05-28 | 2023-12-01 | 车智互联(北京)科技有限公司 | 一种物品推荐方法、计算设备以及存储介质 |
CN113672801A (zh) * | 2021-07-30 | 2021-11-19 | 北京三快在线科技有限公司 | 信息的处理方法、装置、存储介质和电子设备 |
CN113626712A (zh) * | 2021-08-19 | 2021-11-09 | 云南腾云信息产业有限公司 | 一种基于用户互动行为的内容确定方法及装置 |
CN114449315A (zh) * | 2021-11-23 | 2022-05-06 | 优地网络有限公司 | 推送数字内容的方法及装置 |
CN115474070A (zh) * | 2022-08-10 | 2022-12-13 | 武汉斗鱼鱼乐网络科技有限公司 | 一种展示新内容的方法、装置、介质及设备 |
CN116304128A (zh) * | 2023-03-01 | 2023-06-23 | 广西泛华于成信息科技有限公司 | 基于大数据的多媒体资讯推荐系统 |
CN116304128B (zh) * | 2023-03-01 | 2023-12-15 | 微众梦想科技(北京)有限公司 | 基于大数据的多媒体资讯推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111651704B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651704B (zh) | 一种内容推荐方法、计算设备以及存储介质 | |
US20200134300A1 (en) | Predictive analysis of target behaviors utilizing rnn-based user embeddings | |
US11593860B2 (en) | Method, medium, and system for utilizing item-level importance sampling models for digital content selection policies | |
CN112231584B (zh) | 基于小样本迁移学习的数据推送方法、装置及计算机设备 | |
US11288709B2 (en) | Training and utilizing multi-phase learning models to provide digital content to client devices in a real-time digital bidding environment | |
CN112163963B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN113254679B (zh) | 多媒体资源推荐方法、装置、电子设备以及存储介质 | |
US20220138537A1 (en) | Probabilistic nonlinear relationships cross-multi time series and external factors for improved multivariate time series modeling and forecasting | |
CN113051480A (zh) | 资源推送方法、装置、电子设备及存储介质 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN111210255A (zh) | 广告推送方法、装置及电子设备 | |
WO2024199243A1 (zh) | 数据处理方法及装置 | |
WO2023029350A1 (zh) | 基于点击行为预测的信息推送方法及装置 | |
CN112055038A (zh) | 生成点击率预估模型的方法及预测点击概率的方法 | |
CN118035876A (zh) | 推荐信息生成方法、装置、设备及介质 | |
WO2018090788A1 (zh) | 租赁对象属性值调整方法、装置及服务器 | |
CN113822734A (zh) | 用于生成信息的方法和装置 | |
CN111199454A (zh) | 实时用户转化评估方法、装置及电子设备 | |
CN116956204A (zh) | 多任务模型的网络结构确定方法、数据预测方法及装置 | |
CN112925982B (zh) | 用户重定向方法及装置、存储介质、计算机设备 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN112950003A (zh) | 用户资源配额调整方法、装置及电子设备 | |
CN112307334A (zh) | 信息推荐方法、信息推荐装置、存储介质与电子设备 | |
CN111178535A (zh) | 实现自动机器学习的方法和装置 | |
CN109684549A (zh) | 目标数据预测方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |