CN110532468A - 一种网站资源的推荐方法、装置和计算设备 - Google Patents

一种网站资源的推荐方法、装置和计算设备 Download PDF

Info

Publication number
CN110532468A
CN110532468A CN201910790978.5A CN201910790978A CN110532468A CN 110532468 A CN110532468 A CN 110532468A CN 201910790978 A CN201910790978 A CN 201910790978A CN 110532468 A CN110532468 A CN 110532468A
Authority
CN
China
Prior art keywords
resource
new resources
clicking rate
quality
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910790978.5A
Other languages
English (en)
Other versions
CN110532468B (zh
Inventor
王晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheerbright Technologies Co Ltd
Original Assignee
Beijing Cheerbright Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheerbright Technologies Co Ltd filed Critical Beijing Cheerbright Technologies Co Ltd
Priority to CN201910790978.5A priority Critical patent/CN110532468B/zh
Publication of CN110532468A publication Critical patent/CN110532468A/zh
Application granted granted Critical
Publication of CN110532468B publication Critical patent/CN110532468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站资源的推荐方法,适于在计算设备中执行,该计算设备中预先训练有点击率预估模型,该方法包括步骤:当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,该新资源包括观察期新资源和筛选期新资源;根据点击率预估模型计算非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源;以及调整优质资源和低质资源在本次资源推荐的曝光占比,并确定观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。本发明还一并公开了对应的网站资源的推荐装置和计算设备。

Description

一种网站资源的推荐方法、装置和计算设备
技术领域
本发明涉及图像识别领域,尤其涉及一种网站资源的推荐方法、装置和计算设备。
背景技术
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。该系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
个性化推荐系统一般采用基于内容的推荐和基于协同过滤的推荐等方法。其中,基于内容的推荐主要基于用户的历史浏览数据来向用户推荐其可能感兴趣的内容。基于协同过滤的算法主要是找到与此用户有相似兴趣的其他用户,然后将这些相似用户所感兴趣的内容推荐给此用户。但这些推荐方法都未考虑资源本身的属性问题,有时推荐给用户的资源可能含有较多的低质资源,影响整体资源的点击率(CTR,Click-Through-Rate)。因此需要一种能够尽可能多为用户提供优质资源的推荐方法。
发明内容
鉴于上述问题,本发明提出了一种网站资源的推荐方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。
根据本发明的一个方面,提供了一种网站资源的推荐方法,适于在计算设备中执行,该计算设备中预先训练有点击率预估模型,该方法包括步骤:当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,所述新资源包括观察期新资源和筛选期新资源;根据点击率预估模型计算非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源;以及调整优质资源和低质资源在本次资源推荐的曝光占比,并确定观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。
可选地,在根据本发明的方法中,非新资源指加入资源池超过预定时间的资源,新资源指加入资源池未超过预定时间的资源,筛选期新资源指已达到预定投放效果的新资源,观察期新资源指未达到预定投放效果的新资源。
可选地,在根据本发明的方法中,优质资源指点击率预估值大于等于第一数值的资源;预定投放效果指曝光量大于等于第二数值且实际点击率大于等于第三数值。
可选地,在根据本发明的方法中,从资源池中采用第一召回器中召回观察期新资源、采用第二召回器召回筛选期新资源,采用第三召回器中召回非新资源;结合每种资源的曝光占比,采用综合排序算法对所召回的多个资源进行综合排序,并根据综合排序结果对该多个资源进行资源推荐,其中排序靠前的资源优先推荐且曝光占比高。
可选地,在根据本发明的方法中,每个观察期新资源都标记有资源优质度,第一召回器按照各观察期新资源的资源优质度进行召回,其中资源优质度高的资源优先召回且排序靠前。
可选地,在根据本发明的方法中,还包括点击率预估模型的训练步骤:计算多个高点击率的非新资源的多个特征值作为正样本集,计算多个低点击率的非新资源的多个特征值作为负样本集;以及根据正样本集和负样本集对点击率预估模型进行训练,得到各特征值的权重和所述点击率预估值的计算方式。
可选地,在根据本发明的方法中,还包括观察期新资源的资源优质度的计算步骤:对于某个新资源,计算该新资源的多个特征值并组成特征向量;分别计算该特征向量与正样本集中每个样本所对应的特征向量的相似度,并将所得到的多个相似度值取平均作为该新资源的资源优质度。
可选地,在根据本发明的方法中,多个特征值所对应的特征包括以下特征中的至少一种:资源时间特征、资源热度特征、用户兴趣特征、用户行为特征、点击率综合得分特征、用户负反馈特征和关键词特征。
可选地,在根据本发明的方法中,资源时间特征包括资源的入资源池时间、有效时间和推荐时间中的至少一种;资源热度特征包括资源的曝光数、点击数、评论数和分享数中的至少一种;用户兴趣特征包括用户的品牌偏好、型号偏好、价格偏好和用户画像标签的至少一种;用户行为特征包括用户的浏览事件、搜索事件、点击事件、留咨询线索事件中的至少一种所对应的信息特征。
可选地,在根据本发明的方法中,点击率预估模型为XGBsoot模型和逻辑回归模型联用。
根据本发明的另一个方面,提供了一种网站资源的推荐装置,适于驻留在计算设备中,该计算设备中预先训练有点击率预估模型,该装置包括:资源识别模块,适于当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,该新资源包括观察期新资源和筛选期新资源;点击率预估模块,适于根据点击率预估模型计算非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源;资源推荐模块,适于调整优质资源和低质资源在本次资源推荐的曝光占比,并计算观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序被处理器执行时实现如上所述的网站资源的推荐方法的步骤。
根据本发明的又一方面,提供一种存储一个或多个程序的可读存储介质,该一个或多个程序包括指令,所述指令当由计算设备执行时实现如上所述的网站资源的推荐方法的步骤。
根据本发明的技术方案,在推荐系统中实时计算资源池中各非新资源和处于筛选期的新资源的点击率预估值,根据该点击率预估值来划分优质资源和低质资源,并自动调整优质和低质内容的曝光占比,以逐步淘汰低质资源。本发明对多种业务资源进行自动优胜略汰,实现了优质资源和低质资源的循环自动最优分配,可以给予优质资源更多的曝光机会,从而提高所推荐资源的整体CTR点击率,同时提升用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的网站资源的推荐方法200的流程图;
图3示出了根据本发明另一个实施例的网站资源的推荐方法300流程图;以及
图4示出了根据本发明一个实施例的网站资源的推荐装置400的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行网站资源的推荐方法200和/或300。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行网站资源的推荐方法200和/或300。
根据本发明的一个实施例,计算设备100中还可以预先训练一个点击率预估模型,其可以根据以下步骤进行模型训练:计算多个高点击率的非新资源的多个特征值作为正样本集,计算多个低点击率的非新资源的多个特征值作为负样本集。之后,根据正样本集和负样本集对点击率预估模型进行训练,得到各特征值的权重和点击率预估值的计算方式。应答理解,正样本和负样本可以实际点击率(点击数/曝光数)来区分,点击率高低的划分可以根据需要自行设定,本发明对此不作限制,如预估值高于4%为高点击率,低于4%的为低点击率。其中,多个特征值所对应的特征包括以下特征中的至少一种:资源时间特征、资源热度特征、用户兴趣特征、用户行为特征、点击率综合得分特征EE score(即CTR和其他特征的组合得分)、用户负反馈特征(用户主动反馈不喜欢、不感兴趣或屏蔽此类消息等)和关键词特征(如标题和文章的关键词特征)。
具体地,资源时间特征可以包括资源的入资源池时间、有效时间和推荐时间中的至少一种。资源热度特征可以包括资源的曝光数、点击数、评论数和分享数中的至少一种。用户兴趣特征可以包括用户的品牌偏好、型号偏好、价格偏好和用户画像标签的至少一种。用户行为特征可以包括用户的浏览事件、搜索事件、点击事件、留咨询线索事件中的至少一种所对应的信息特征。这里特征包括用户层面的特征、物料层面的特征、以及两者的交叉特征。这些特征只是示例性说明,实际还可以有多个特征,如采用140多种物料特征来进行模型训练。
其中,点击率综合得分的特征能够提高最终训练模型的准确性,其计算公式为EEscore=(衰减后的资源点击量+资源点击量平滑参数)/(衰减后的资源曝光量+资源曝光量平滑参数);衰减后的资源曝光量=上个时段衰减后的资源曝光量*decay+上个时段资源曝光增量;衰减后的资源点击量=上个时段衰减后的资源点击量*decay+上个时段资源点击增量。
在一些实施方式中,资源点击量平滑参数为6,资源曝光量平滑参数1000上个时段为上一个5min的,decay=0.99879734325当然不限于此。应当理解的是,将各种特征转换为对应的数值性内容进行训练是非常常见的方法,这里不再赘述。另外,存在多种点击率预估模型算法等,本发明不受限于具体的实现方式,所有能够对点击率进行预测的方法均在本发明的保护范围之内。根据一个实施例,点击率预估模型为XGBsoot模型和逻辑回归模型LR联用。关于该模型的结构和参数,本领域技术人员可以根据具体情况进行自行设定,本发明对此不作限制。
图2示出了根据本发明一个实施例的网站资源的推荐方法200的流程示意图。方法200在计算设备中执行,如在计算设备100中执行,以便对资源池中的多个网站资源进行推荐。
如图2所示,该方法始于步骤S210。在步骤S210中,当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,该新资源包括观察期新资源和筛选期新资源。
这里,可以加入定时器定时监测资源推荐的时机,也可以监测资源池中各资源的曝光占比(投放权重)的更新时机,同样可以采用定时机制,如定时每一分钟进行一次资源的权重更新,每到该时机就会取识别资源池的资源来进行后续处理,以便进行资源推荐。根据一些实施例,非新资源指加入资源池超过预定时间的资源,新资源指加入资源池未超过预定时间的资源。筛选期新资源指已达到预定投放效果的新资源,也就是加入到资源池还未超过预定时间但已经达到预定投放效果的资源。观察期新资源指未达到预定投放效果的新资源,也就是加入到资源池还未超过预定时间也未达到预定投放效果的资源。其中,预定投放效果指曝光量大于等于第二数值且实际点击率大于等于第三数值。其中,预定时间可以为24h,第二数值例如可以为100,第三数值例如可以为2%,当然不限于此,本领域技术人员可以根据业务需要设置自行设定其他数值。
通常,资源池中有多条业务资源,该资源即为feed流中的资源,如垂直领域的feed流,主要包括文章资源、视频资源等。资源池中会不断加入新的资源,也会淘汰过期资源或点击率很低的资源,如淘汰35天前加入的资源或几乎没人点击的资源。加入资源池一天内的资源为新资源,该新资源加入后会先进入观察期,在观察期内对该资源进行冷启动召回,冷启动通过智能投放实现数据回收。冷启动即在初始缺乏先验知识的前提对该新资源进行推荐,后续随着资源特性和用户特性的逐渐完善会改善为针对性的个性化推荐。
结合图3中的资源推荐的详细流程图,如果观察期的新资源冷启动数据合格,即在加入资源池的一天时间内达到了预定投放效果,则会进入筛选期。筛选期新资源会参与推荐系统资源的优胜略汰,如果筛选期新资源的点击率低,则会适当降低该资源的投放权重,尽量让该资源少曝光。如果筛选期新资源的点击率高,则会提高该资源的曝光占比(投放权重),尽量让该资源多曝光。如果冷启动数据不合格,如在加入资源池预定时间后还未达到预期投放效果,则可将该资源从资源池中淘汰。这里淘汰规则的预期投放效果可以适当降低,如点击率的要求设为1%即可。当然也可以将这些冷启后不合格的新资源作为非新资源来进行处理,再观察其一段时间内的点击率结果后决定是否进行淘汰。
根据一个实施例,观察期新资源的冷启动召回可以采用基于用户行为的找回,如离线CF召回、W2V召回、IDA召回等;也可以基于内容进行召回,如基于标签进行召回等。基于ItemCF方法中,可以预先计算新资源Item与已曝光资源的Item相似度,通过用户历史点击过的资源对相似的新资源进行召回。这里可通过模型学习新资源和已曝光资源的特征向量(Embedding)表示,并用该特征向量之间的余弦距离来表示资源之间的相似度。在另一种方式中,可以实时计算各观察期新资源的点击率得分,并召回点击率低的资源。这里可以根据点击数/曝光数来计算,也可以根据模型来预测,即通过模型学习用户和资源Item的向量表示,并计算用户向量和资源向量之间的余弦距离(或内积)作为资源的点击率得分。
随后,在步骤S220中,根据点击率预估模型计算非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源。
具体地,计算各非新资源和处于筛选期的新资源的多个特征值,将该多个特征值输入到该点击率预估模型中即可得到每个资源的点击率预估值。将点击率预估值高的划分为优质资源,点击率预估值低的划分为低质资源。其中,点击率高低的划分可以根据需要自行设定,本发明对此不作限制,如预估值高于4%为高点击率。
随后,在步骤S230中,调整优质资源和低质资源在本次资源推荐的曝光占比,并计算观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。
具体地,在本次资源投放时,提高各优质资源的曝光占比,降低各低质资源的曝光占比。曝光占比越高,则会向更多用户推荐该资源。例如某篇热点文章点击率很高,就会向多个用户重点推送该文章。优质资源和低质资源的曝光占比权重设定好后,计算观察期新资源的曝光占比,观察期新资源不参与优胜略汰策略,即不参与曝光占比的升权和降权过程。这里,还可以采取另一种曝光占比的设定方式,即预先设定好观察期新资源的曝光占比,然后根据剩下的曝光占比来调整优质资源和低质资源的曝光占比。这样保证观察期新资源的预定份额和冷启动不受干扰,设定观察期新资源的整体曝光占比为5%,则在剩下的95%内调整优质资源和低质资源的曝光占比。
这里,既要尽可能的提高优质资源的曝光占比,同时还要满足各业务线的基础曝光需求。每个业务线的资源都有最大曝光占比和最小曝光占比,如业务线A每日曝光上限100万次,下限为50次。因此对优质资源和低质资源的曝光占比调整可根据业务线的基础曝光需求进行设定,其具体数值本发明对此不作限制。在每天的多次曝光分配汇总,会在满足各业务线的基础曝光需求的前提下,尽量选择该业务线中的优质资源进行推荐。在这个基于群量用户的分配策略下,再进行针对单个用户的分配策略,此时会综合考虑各项用户因素来为个体用户推送针对性的资源。而所有个体用户的资源推荐之和,会满足预定设定的优质资源、低质资源、业务线资源等的曝光占比值。另外,优质资源不仅整体的曝光占比高,在向个体用户进行推荐时,也会尽量排在用户页面中比较显眼的位置,如放在首页页面的靠前位置,方便用户看到后进行点击,提高其点击率。
应当理解的是,推荐系统在进行资源推荐时可采用传统的召回、排序算法来进行推荐,这些算法以及前文所述的冷启召回算法可以采用目前常用的方法进行,如基于内容的召回和基于协同过滤的召回,这里不再赘述。根据一个实施例,在进行资源推荐时,可以从资源池中采用第一召回器中召回观察期新资源、采用第二召回器召回筛选期新资源,采用第三召回器中召回非新资源。之后,结合每种资源的曝光占比,采用综合排序算法对所召回的多个资源进行综合排序,并根据综合排序结果对该多个资源进行资源推荐,其中排序靠前的资源优先推荐且曝光占比高。其中,排序算法可以采用排序器进行,其会对用户和资源的多种因素进行考虑后排序,排序算法是目前比价成熟的技术,这里不再赘述。
进一步地,每个观察期新资源都标记有资源优质度,第一召回器在召回按照各观察期新资源的资源优质度进行召回,其中资源优质度高的资源优先召回且排序靠前。这里的排序靠前指在第一召回器中排序靠前,之后会结合其他几个召回器的内容进行综合排序。此外,方法200还可以包括观察期新资源的资源优质度的计算步骤:对于某个新资源,计算该新资源的多个特征值并组成特征向量;分别计算该特征向量与正样本集中每个样本所对应的特征向量的相似度,并将所得到的多个相似度值取平均作为该新资源的资源优质度。也就是,观察期新资源与正样本集中高点击率的样本的相似度越高,则其资源优质度越高,相应的也更容易从资源池中召回以进行资源推荐。
图3出了根据本发明另一个实施例的网站资源的推荐方法300的流程示意图。方法300计算设备中执行,如在计算设备100中执行,以便对资源池中的多个网站资源进行推荐。
如图3所示,方法300始于步骤S310。在步骤S310中,识别资源池中的资源是否为新资源,若是,代表该资源为新资源,则在步骤S320中,按照新资源的资源优质度对该新资源进行冷启动召回,并在步骤S330中判断在预定时间内该新资源是否达到了预定投放效果。若否,代表该新资源冷启数据不合格,则在步骤S340中,将该新资源从资源池中淘汰。反之,代表该新资源进入了筛选期,即为筛选期新资源,则在步骤S350中,根据点击率预估模型计算该达到预定投放效果的新资源(即筛选期新资源)的点击率预估值。同时,若步骤S310的判断结果为否,代表该资源为非新资源,则进入步骤S350,根据点击率预估模型计算该非新资源的点击率预估值。
随后,在步骤S360中,根据筛选期新资源和非新资源的点击率预估值划分优质资源和低质资源,并在下一轮资源推荐中提高优质资源的曝光占比,降低低质资源的曝光占比。以此来形成一个循环永动机,对新加入的资源进行冷启召回,冷启召回合格的进入优胜略汰模式,实时计算其点击率预估值以及非新资源的点击率预估值,并根据计算结果调整各资源的权重,高点击率的曝光占比提升,低点击率的曝光占比降低,以尽量多推荐优质资源。需要说明的,方法300中关于新资源的定义、资源优质度的计算、预定时间和预定投放效果的配置、以及曝光占比的调整等技术细节,已在基于方法200的描述中详细公开,这里不再赘述。
综上所述,资源池中的新资源内容先进入冷启召回,待达到预定投放效果时开始进入优胜略汰模式。增加了后验数据后再次计算该资源和非新资源的非新资源进行预估值,并逐步将CTR预估值低的业务降权,将释放出的资源份额转给优质业务。本发明形成了一个循环永动机,通过算法的CTR预估机制自动调整优质和低质内容的曝光占比,逐步淘汰低质内容,降低低质资源的曝光占比,补给给优质内容物料,以这种方式循环来达到最高的点击率效果。
图4示出了根据本发明一个实施例的网站资源的推荐装置400的结构框图,该装置400可以驻留在计算设备中,如驻留在计算设备100中。如图4所示,装置400包括:资源识别模块410、点击率预估模块420和资源推荐模块430。
资源识别模块410当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,该新资源包括观察期新资源和筛选期新资源。资源识别模块410可以进行与上面在步骤S210中描述的处理相对应的处理,这里不再展开赘述。
点击率预估模块420根据点击率预估模型计算非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源。点击率预估模块420可以进行与上面在步骤S220中描述的处理相对应的处理,这里不再展开赘述。
资源推荐模块430调整优质资源和低质资源在本次资源推荐的曝光占比,并计算观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。资源推荐模块430还可以从资源池中采用第一召回器中召回观察期新资源、采用第二召回器召回筛选期新资源,采用第三召回器中召回非新资源。之后,结合每种资源的曝光占比,采用综合排序算法对所召回的多个资源进行综合排序,并根据综合排序结果对该多个资源进行资源推荐,其中排序靠前的资源优先推荐且曝光占比高。资源推荐模块430可以进行与上面在步骤S230中描述的处理相对应的处理,这里不再展开赘述。
根据本发明的一个实施例,装置400还可以包括模型训练模块(图中未示出),适于根据以下方法点击率预估模型:计算多个高点击率的非新资源的多个特征值作为正样本集,计算多个低点击率的非新资源的多个特征值作为负样本集;以及根据所述正样本集和负样本集对所述点击率预估模型进行训练,得到各特征值的权重和所述点击率预估值的计算方式。
根据本发明的技术方案,在推荐系统中实现多种业务内容自动优胜略汰的方法,可以将优质物料更多的曝光机会,提高推荐的CTR点击率,同时提升用户体验。
A8、如A6所述的方法,其中所述多个特征值所对应的特征包括以下特征中的至少一种:资源时间特征、资源热度特征、用户兴趣特征、用户行为特征、点击率综合得分特征、用户负反馈特征和关键词特征。A9、如A8所述的方法,其中,所述资源时间特征包括资源的入资源池时间、有效时间和推荐时间中的至少一种;所述资源热度特征包括资源的曝光数、点击数、评论数和分享数中的至少一种;所述用户兴趣特征包括用户的品牌偏好、型号偏好、价格偏好和用户画像标签的至少一种;所述用户行为特征包括用户的浏览事件、搜索事件、点击事件、留咨询线索事件中的至少一种所对应的信息特征。A10、如A1所述的方法,其中所述点击率预估模型为XGBsoot模型和逻辑回归模型联用。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的网站资源的推荐方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种网站资源的推荐方法,适于在计算设备中执行,所述计算设备中预先训练有点击率预估模型,所述方法包括步骤:
当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,所述新资源包括观察期新资源和筛选期新资源;
根据所述点击率预估模型计算所述非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源;以及
调整所述优质资源和低质资源在本次资源推荐的曝光占比,并确定所述观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。
2.如权利要求1所述的方法,其中,
所述非新资源指加入资源池超过预定时间的资源,所述新资源指加入资源池未超过预定时间的资源;
所述筛选期新资源指已达到预定投放效果的新资源,所述观察期新资源指未达到预定投放效果的新资源。
3.如权利要求2所述的方法,其中,
所述优质资源指点击率预估值大于等于第一数值的资源;
所述预定投放效果指曝光量大于等于第二数值且实际点击率大于等于第三数值。
4.如权利要求1-3中任一项所述的方法,还包括步骤:
从资源池中采用第一召回器中召回观察期新资源、采用第二召回器召回筛选期新资源,采用第三召回器中召回非新资源;
结合所述每种资源的曝光占比,采用综合排序算法对所召回的多个资源进行综合排序,并根据综合排序结果对该多个资源进行资源推荐,其中排序靠前的资源优先推荐且曝光占比高。
5.如权利要求4所述的方法,其中每个观察期新资源都标记有资源优质度,所述第一召回器按照各观察期新资源的资源优质度进行召回,其中资源优质度高的资源优先召回且排序靠前。
6.如权利要求1-5中任一项所述的方法,还包括所述点击率预估模型的训练步骤:
计算多个高点击率的非新资源的多个特征值作为正样本集,计算多个低点击率的非新资源的多个特征值作为负样本集;以及
根据所述正样本集和负样本集对所述点击率预估模型进行训练,得到各特征值的权重和所述点击率预估值的计算方式。
7.如权利要求6所述的方法,还包括所述观察期新资源的资源优质度的计算步骤:
对于某个新资源,计算该新资源的多个特征值并组成特征向量;
分别计算该特征向量与正样本集中每个样本所对应的特征向量的相似度,并将所得到的多个相似度值取平均作为该新资源的资源优质度。
8.一种网站资源的推荐装置,适于驻留在计算设备中,所述计算设备中预先训练有点击率预估模型,所述装置包括:
资源识别模块,适于当监测到需要进行资源推荐时,识别当前资源池中的新资源和非新资源,所述新资源包括观察期新资源和筛选期新资源;
点击率预估模块,适于根据所述点击率预估模型计算所述非新资源和筛选期新资源的点击率预估值,并根据所计算的点击率预估值划分优质资源和低质资源;
资源推荐模块,适于调整所述优质资源和低质资源在本次资源推荐的曝光占比,并确定所述观察期新资源的曝光比例后按照每种资源的曝光占比进行资源推荐。
9.一种计算设备,包括:
至少一个处理器;以及
包括计算机程序指令的至少一个存储器;
所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如权利要求1-7中任一项所述的方法。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由服务器执行时,使得所述服务器执行根据权利要求1-7中所述的方法中的任一方法。
CN201910790978.5A 2019-08-26 2019-08-26 一种网站资源的推荐方法、装置和计算设备 Active CN110532468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910790978.5A CN110532468B (zh) 2019-08-26 2019-08-26 一种网站资源的推荐方法、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910790978.5A CN110532468B (zh) 2019-08-26 2019-08-26 一种网站资源的推荐方法、装置和计算设备

Publications (2)

Publication Number Publication Date
CN110532468A true CN110532468A (zh) 2019-12-03
CN110532468B CN110532468B (zh) 2021-12-07

Family

ID=68664185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910790978.5A Active CN110532468B (zh) 2019-08-26 2019-08-26 一种网站资源的推荐方法、装置和计算设备

Country Status (1)

Country Link
CN (1) CN110532468B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210882A (zh) * 2018-03-21 2019-09-06 腾讯科技(深圳)有限公司 推广位匹配方法和装置、推广信息展示方法和装置
CN111080357A (zh) * 2019-12-12 2020-04-28 恩亿科(北京)数据科技有限公司 产品投放占比的确定方法、装置、电子设备及存储介质
CN111538901A (zh) * 2020-04-15 2020-08-14 达而观信息科技(上海)有限公司 一种物品推荐方法、装置、服务器及储存介质
CN111651704A (zh) * 2020-04-14 2020-09-11 北京齐尔布莱特科技有限公司 一种内容推荐方法、计算设备以及存储介质
CN112068962A (zh) * 2020-09-14 2020-12-11 江苏赞奇科技股份有限公司 一种基于深度学习的云渲染资源兑换方法
CN112291297A (zh) * 2020-09-04 2021-01-29 腾讯科技(深圳)有限公司 资讯数据的处理方法、装置、存储介质以及电子设备
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN113344600A (zh) * 2021-08-06 2021-09-03 北京健康之家科技有限公司 线索数据的处理方法、装置、存储介质及线索中台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478664B1 (en) * 2011-10-25 2013-07-02 Amazon Technologies, Inc. Recommendation system with user interface for exposing downstream effects of particular rating actions
CN105787069A (zh) * 2016-03-01 2016-07-20 中山大学深圳研究院 一种个性化的音乐推荐方法
CN105956086A (zh) * 2016-04-29 2016-09-21 合网络技术(北京)有限公司 多媒体资源的推荐方法和装置
CN110069714A (zh) * 2019-04-25 2019-07-30 北京酷我科技有限公司 一种视频推荐系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478664B1 (en) * 2011-10-25 2013-07-02 Amazon Technologies, Inc. Recommendation system with user interface for exposing downstream effects of particular rating actions
CN105787069A (zh) * 2016-03-01 2016-07-20 中山大学深圳研究院 一种个性化的音乐推荐方法
CN105956086A (zh) * 2016-04-29 2016-09-21 合网络技术(北京)有限公司 多媒体资源的推荐方法和装置
CN110069714A (zh) * 2019-04-25 2019-07-30 北京酷我科技有限公司 一种视频推荐系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210882A (zh) * 2018-03-21 2019-09-06 腾讯科技(深圳)有限公司 推广位匹配方法和装置、推广信息展示方法和装置
CN111080357A (zh) * 2019-12-12 2020-04-28 恩亿科(北京)数据科技有限公司 产品投放占比的确定方法、装置、电子设备及存储介质
CN111080357B (zh) * 2019-12-12 2023-08-25 恩亿科(北京)数据科技有限公司 产品投放占比的确定方法、装置、电子设备及存储介质
CN111651704B (zh) * 2020-04-14 2024-01-12 北京齐尔布莱特科技有限公司 一种内容推荐方法、计算设备以及存储介质
CN111651704A (zh) * 2020-04-14 2020-09-11 北京齐尔布莱特科技有限公司 一种内容推荐方法、计算设备以及存储介质
CN111538901B (zh) * 2020-04-15 2023-06-06 达而观信息科技(上海)有限公司 一种物品推荐方法、装置、服务器及储存介质
CN111538901A (zh) * 2020-04-15 2020-08-14 达而观信息科技(上海)有限公司 一种物品推荐方法、装置、服务器及储存介质
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112749333B (zh) * 2020-07-24 2024-01-16 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112291297A (zh) * 2020-09-04 2021-01-29 腾讯科技(深圳)有限公司 资讯数据的处理方法、装置、存储介质以及电子设备
CN112068962A (zh) * 2020-09-14 2020-12-11 江苏赞奇科技股份有限公司 一种基于深度学习的云渲染资源兑换方法
CN113344600A (zh) * 2021-08-06 2021-09-03 北京健康之家科技有限公司 线索数据的处理方法、装置、存储介质及线索中台
CN113344600B (zh) * 2021-08-06 2021-11-16 北京健康之家科技有限公司 线索数据的处理方法、装置、存储介质及线索中台

Also Published As

Publication number Publication date
CN110532468B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN110532468A (zh) 一种网站资源的推荐方法、装置和计算设备
US11574354B2 (en) Methods and apparatus for interactive evolutionary algorithms with respondent directed breeding
Gittins et al. Multi-armed bandit allocation indices
CN103440335B (zh) 视频推荐方法及装置
US11977594B2 (en) Custom compilation videos
CN109543111A (zh) 推荐信息筛选方法、装置、存储介质及服务器
CN107547214B (zh) 基于电子书的群组阅读方法、电子设备及计算机存储介质
Berry What is a SWOT analysis
CN111767466B (zh) 基于人工智能的推荐信息推荐方法、装置及电子设备
KR20180091043A (ko) 사용자 포트레이트를 획득하는 방법 및 장치
CN106294830A (zh) 多媒体资源的推荐方法及装置
Merk Production beyond the horizon of consumption: spatial fixes and anti-sweatshop struggles in the global athletic footwear industry
CN106649647A (zh) 基于人工智能的搜索结果排序方法和装置
CN110532465A (zh) 一种网站内容的推荐方法及推荐系统
CN110766513A (zh) 信息排序方法、装置、电子设备及可读存储介质
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN109493138A (zh) 信息推荐方法、装置、服务器及存储介质
CN116739665A (zh) 信息投放方法、装置、电子设备及存储介质
CN108319612A (zh) 受众媒体推荐方法和系统
CN106997360A (zh) 用户行为数据的处理方法和装置
Brambilla et al. An explorative approach for crowdsourcing tasks design
Basaran et al. A multi-criteria decision making to rank Android based mobile applications for mathematics
CN109242927B (zh) 一种广告模板生成方法、装置及计算机设备
CN109034965A (zh) 一种产品推荐方法、计算设备及存储介质
CN113794649B (zh) 一种信息流量分配方法及装置、存储介质、计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant