CN113792180A - 推荐场景下的去重方法、装置、电子设备和存储介质 - Google Patents

推荐场景下的去重方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113792180A
CN113792180A CN202111006593.9A CN202111006593A CN113792180A CN 113792180 A CN113792180 A CN 113792180A CN 202111006593 A CN202111006593 A CN 202111006593A CN 113792180 A CN113792180 A CN 113792180A
Authority
CN
China
Prior art keywords
information
duplication
issued
history
information resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111006593.9A
Other languages
English (en)
Other versions
CN113792180B (zh
Inventor
陈航航
顾靖楠
张华泉
卢玉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111006593.9A priority Critical patent/CN113792180B/zh
Publication of CN113792180A publication Critical patent/CN113792180A/zh
Application granted granted Critical
Publication of CN113792180B publication Critical patent/CN113792180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了推荐场景下的去重方法、装置、电子设备和存储介质,涉及信息流领域等数据处理技术领域。具体实现方案为:接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;获取与所述场景类别对应的预设的去重策略;根据所述去重策略对推荐系统的多个环节配置去重方法;按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,以得到最终的所述请求的响应数据。该方法充分利用和提升了资源分发效率,最大限度避免优质资源的浪费,让用户有更好的体验、时长和互动。

Description

推荐场景下的去重方法、装置、电子设备和存储介质
技术领域
本申请涉及信息流领域等数据处理技术领域,尤其涉及一种推荐场景下的去重方法、装置、电子设备和存储介质。
背景技术
随着短视频沉浸式体验逐渐变成主流,用户即滑即播。在信息流推荐场景下为了提高用户体验,提升用户对新鲜资源的感知,用户消费知识后没必要继续推荐,因此对于推荐内容需要进行去重处理。
去重一方面要求用户看过的资源不会再次展现,另一面去重也影响着新资源、优质资源的分发、多样性的控制、推荐生态的建设。
发明内容
本申请提供了一种推荐场景下的去重方法、装置、电子设备和存储介质,以提高资源分发效率以及用户体验。
根据本申请的一方面,提供了一种推荐场景下的去重方法,包括:
接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
获取与所述场景类别对应的预设的去重策略;
根据所述去重策略对推荐系统的多个环节配置去重方法;
按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重。
根据本申请的第二方面,提供了一种推荐场景下的去重装置,包括:
类别获取模块,用于接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
策略获取模块,用于获取与所述场景类别对应的预设的去重策略;
配置模块,用于根据所述去重策略对推荐系统的多个环节配置去重方法;
去重模块,用于按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面所述方法的步骤。
根据本申请的技术充分利用和提升了资源分发效率,最大限度避免优质资源的浪费,让用户有更好的体验、时长和互动。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的推荐场景下的去重方法的流程图;
图2是根据本申请实施例的推荐系统的框图;
图3是根据本申请实施例的下发资源的获取流程图;
图4是根据本申请实施例的推荐场景下的去重装置的框图;
图5是用来实现本申请实施例的推荐场景下的去重方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有的推荐系统,主要包括召回环节和排序环节,在推荐系统架构中召回层与排序层是推荐系统的核心算法层,其中,召回层负责将海量的候选集快速缩小为几万到几千的规模;而排序层则负责对缩小后的候选集进行精准排序。
有时候因为某些场景的召回环节返回的数据量还是太多,怕排序环节速度跟不上,所以可以在召回环节和精排环节之间加入一个粗排环节,先对召回环节的结果进行粗略的排序,在保证一定精准的前提下,进一步减少往后传送的数据量。粗排环节是可选的,跟场景有关。
现有的去重策略不区分不同的推荐场景,统一在推荐系统的最后一个环节去重,虽然可以避免给用户展现的资源再次推荐,但是存在去重过严问题。一方面,例如相关推荐场景和关注Tab(标签)等推荐场景推荐的内容用户可能并未真正消费,导致去重过严,大量优质资源的浪费。另一方面,只在推荐系统的最后环节进行计重去重,资源的分发效率不佳。
本申请实施例针对不同的推荐场景,在推荐系统的不同环节设计不同强度的去重粒度,提高资源分发效率。通过设计合理的去重策略,提升推荐体验感知。
图1为本发明实施例提供的推荐场景下的去重方法流程图。本实施例提供了一种推荐场景下的去重方法,其执行主体可以为服务器等计算机设备,该推荐场景下的去重方法可以包括如下步骤。
步骤101,接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
目前的推荐场景多样,例如,在本实施例中,场景类别可以包括主场景(即主Feed场景)、频道场景、相关推荐场景、作者页场景、关注作者页场景等。不同的推荐场景下,用户的关注信息不同,为了提供更好的用户体验,去重策略需要区分不同的推荐场景。因此,需要先对推荐场景进行类别的识别。
例如,当用户点击用户终端APP上的某个推荐场景,推荐系统会自动识别所述推荐系统的当前的推荐场景的场景类别。
步骤102,获取与所述场景类别对应的预设的去重策略;
不同的推荐场景的去重要求不同,所以针对不同的推荐场景需要采用不同的去重策略。例如,主场景的去重要求为:重复的资源和历史相似的资源不能重复展现,去重要求较高;相关推荐场景中的去重要求为:用户点击过的资源不能重复展现,但是要求较松,如在相关推荐展现过的也可继续展现;作者页场景的去重要求为:用户关注作者的资源可以展现,对重复资源限制较松。
还有,去重时需要考虑的因素包括:
相关性:跟用户越相关的内容,用户越能辨别差异性;反之,用户容易感受重复。
重要性:用户对小事或不感兴趣的资源更加容易产生重复感,对大事容忍度更高。
权威性:权威来源发布的内容可靠性更高。
时效性:旧文新发容易引起重复感。
因此,对应不同的推荐场景,采用不同的去重策略,能有效提升用户体验,不会造成资源的浪费。
步骤103,根据所述去重策略对推荐系统的多个环节配置去重方法。
在本实施例中,推荐系统如图2所示,主要包括召回环节、粗排环节以及精排环节等。
可选的,在本实施例中,设置去重方法的环节包括请求聚合服务环节、多路召回环节、过滤引擎环节、中台去重环节、去重兜底环节。
首先需要说明的是,在本申请的实施例中,对已经下发的信息资源的下发状态定义为包括展示(show)状态、未展示状态和未知状态等,未知状态表示不能确定所述已经下发的信息资源为展示过或者未展示过。
可选的,在本实施例中,所述去重方法包括基于保存历史的精确匹配去重,基于保存历史的相似布隆过滤去重、视频抽帧相似去重、封面图相似去重、NID精确匹配去重、主题(title)相似去重等去重方法。
其中,所述基于保存历史的精确匹配去重包括基于点击历史(readlist)的精确匹配去重、基于展示历史(showlist)的精确匹配去重、基于下发历史的精确匹配去重。
其中,所述基于保存历史的相似布隆过滤去重包括基于点击历史(readlist)的相似布隆过滤去重、基于展示历史(showlist)的相似布隆过滤去重。
其中,视频抽帧相似去重包括基于点击历史的视频抽帧相似去重和基于展示历史的视频抽帧相似去重。
其中,封面图相似去重包括基于点击历史的封面图相似去重和基于展示历史的封面图相似去重。
本实施例中,根据所述去重策略对推荐系统的多个环节配置不同维度的去重方法;
上述去重方法主要是从长期、短期、精确、模糊等多个维度考虑的去重方法,例如,基于点击历史的精确匹配去重既属于短期维度,也属于精确维度。
针对不同的推荐场景,采用的去重策略不同,即采用的去重方法不同。例如,
在主推荐场景下,
在请求聚合服务环节,采用基于点击历史去重方法,防止因为兜底等策略导致的重复。
在多路召回环节,主要考虑性能开销,因此采用基于点击历史的精确匹配去重和NID精确匹配去重。
在过滤引擎环节,为解决不同路召回的相似,减少进粗排环节的资源数量,采用基于点击历史的精确匹配去重和NID精确匹配去重。
在中台DUP去重环节,采用视频抽帧相似去重、封面图相似去重、基于点击历史的相似布隆过滤去重等强力去重方法,避免重复。
在去重兜底环节,基于点击历史的精确匹配去重,避免强插等带来的重复。
在频道场景下,因为频道场景和主场景相似,都为沉浸式消费,因此,采用的去重策略及去重方法相同。
在相关推荐场景下,相关推荐场景只展示与原视频相关视频,允许展示(show)过但是未点击的视频可以再次展现,因此,相关推荐场景下需要屏蔽基于展示历史(showlist)的去重方法。例如,去重方法包含:基于下发历史的精确匹配去重、基于点击历史(readlist)的精确匹配去重、基于点击历史的相似布隆过滤去重、封面图相似去重,视频抽帧相似去重、NID精确匹配去重、title相似去重等去重方法。
在关注作者页场景下,关注作者页场景只展示关注作者的视频,依赖短期一个会话(Session)纬度的去重,因此只使用基于Session的下发历史的精确匹配去重方法。
在作者页场景下,和关注作者页场景类似,只使用基于Session的下发历史的精确匹配去重方法。
步骤104,按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,以得到最终的所述请求的响应数据。
在本实施例中,所述当前环节为所述推荐系统的初始环节,获取所述当前环节的待下发信息资源,包括:
将与所述当前推荐场景对应的下发信息资源进行召回,参见图3,其中,所述下发信息资源包括处于展示状态、未展示状态以及未知状态的下发信息资源;
将所述召回的下发信息资源与获取的与所述当前推荐场景对应的未下发的信息资源合并后,作为所述初始环节的待下发信息资源。
将下发的信息资源中处于展示状态、未展示状态以及未知状态的信息资源全部回传到推荐系统的初始环节,因为下发的信息资源中可能存在用户并未真正消费或者用户感兴趣的等,导致去重过严,造成大量优质资源的浪费。
按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,将最终生成的响应数据推送到用户终端。
本申请实施例的推荐场景下的去重方法,首先获取用户终端当前推荐场景所属的场景类别;再获取与所述场景类别对应的预设的去重策略;根据所述去重策略对推荐系统的多个环节配置不同维度的去重方法;通过配置的所述去重方法对所述当前推荐场景对应的待下发信息资源进行去重。针对推荐系统的不同场景,采用不同去重方法,因为不同场景用户体验感知不同,相互协同以达到用户体验最优。在推荐系统的不同环节设计不同去重机制达到去重效果和性能最优。还有通过定义资源的下发状态:展现、未展现、未知等状态,来提升资源的分发效率。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为基于保存历史的精确匹配去重,
获取所述用户终端的保存历史之中所存储的信息资源的属性信息;
根据所述属性信息,将所述当前环节的待下发信息资源中与所述保存历史中相同的信息资源进行去重。。
此去重方法主要是针对短期去重,避免重复感。
可选的,所述保存历史包括点击历史、展示历史以及下发历史,其中,所述点击历史用于存储预设时间内该用户点击过的信息资源的属性信息,或者,所述点击历史用于存储该用户点击过的数量满足预设值的信息资源的属性信息;
所述展示历史用于存储预设时间内为该用户展示过的信息资源的属性信息,或者,所述展示历史用于存储为该用户展示过的数量满足预设值的信息资源的属性信息
所述下发历史用于存储预设时间内为该用户下发过的信息资源的属性信息,或者,所述下发历史用于存储为该用户下发过的数量满足预设值的信息资源的属性信息。
提供不同状态的下发信息资源的存储历史,可以实现对存储的不同状态的下发信息资源进行去重操作,或者多种方式结合实现更佳的去重效果。
具体的,所述基于点击历史(readlist)的精确匹配去重,包括:
获取所述用户终端的第一保存历史之中所存储的信息资源的属性信息;其中,所述第一点击历史用于存储第一预设时间内该用户点击过的信息资源的属性信息,或者,所述点击历史用于存储该用户点击过的数量满足第一预设值的信息资源的属性信息;
根据所述属性信息,将当前环节对应的待下发信息资源中与所述第一点击历史中相同的信息资源进行去重。
例如,点击历史readlist仅能保存最近1000条或1个月内的内容。1个月点击1000次以上时,会出现1个月前的重复,主要是解决短期重复问题。
具体的,所述基于展示历史(showlist)的精确匹配去重,包括:
获取所述用户终端的第一展示历史之中所存储的信息资源的属性信息;其中,所述第一展示历史用于存储第二预设时间内为该用户展示过的信息资源的属性信息,或者,所述第一展示历史用于存储为该用户展示过的数量满足第二预设值的信息资源的属性信息;
根据所述属性信息,将当前环节对应的待下发信息资源中与所述第一展示历史中相同的信息资源进行去重。
例如,showlist仅能保存最近2000条或2个月内的内容。2个月展示2000次以上时,会出现2个月前的重复。此方法主要是针对短期去重。
具体的,所述基于下发历史的精确匹配去重,包括:
获取所述用户终端的第一下发历史之中所存储的信息资源的属性信息;其中,所述第一下发历史用于存储第三预设时间内为该用户下发过的信息资源的属性信息,或者,所述第一下发历史用于存储为该用户下发过的数量满足第三预设值的信息资源的属性信息;
根据所述属性信息,将当前环节对应的待下发信息资源中与所述第一下发历史中相同的信息资源进行去重。
为了适配用户端预请求逻辑,使用下发历史作为去重补充,避免预请求带来的短期内重复。
可选的,所述基于下发历史的精确匹配去重包括基于Session的下发历史的精确匹配去重方法,其中,所述基于Session的下发历史的精确匹配去重方法,包括:
获取所述用户终端有关Session的下发历史之中所存储的信息资源的属性信息;
根据所述属性信息,将当前环节对应的待下发信息资源中与所述第一下发历史中相同的信息资源进行去重。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为基于保存历史的相似布隆过滤去重,
获取所述用户终端的保存历史之中所存储的信息资源的相似内容;
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对所述当前环节的待下发信息资源进行去重。
该去重方法解决长期相似重复问题。
可选的,所述保存历史包括点击历史和展示历史,其含义不在赘述。
具体的,所述基于点击历史的相似布隆过滤去重,包括:
获取所述用户终端的第二点击历史之中所存储的信息资源的相似内容;其中,所述第二点击历史用于存储第四预设时间内该用户点击过的信息资源的属性信息,或者,所述第二点击历史用于存储该用户点击过的数量满足第四预设值的信息资源的属性信息;例如,当信息资源为视频资源时,相似内容为通过视频资源的属性信息特征计算出的相似视频。
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对当前环节对应的待下发信息资源进行去重。
例如,如果不在readlist中,再看基于点击历史的相似布隆过滤,所述基于点击历史的相似布隆过滤器中的点击历史,可存储6个月点击记录,解决长期重复。
具体的,所述基于展示历史相似布隆过滤去重,包括:
获取所述用户终端的第二展示历史之中所存储的信息资源的相似内容;其中,所述第二展示历史用于存储第五预设时间内为该用户展示过的信息资源的属性信息,或者,所述第二展示历史用于存储为该用户展示过的数量满足第五预设值的信息资源的属性信息;
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对当前环节对应的待下发信息资源进行去重。
例如,该去重方法可以去重近3个月的展示过的视频,主要是针对真实展示过的视频,解决长期重复。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为视频抽帧相似去重,
获取所述用户终端的保存历史之中所存储的信息资源的视频关键帧;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
该去重方法利用视频处理技术,获取和视频关键帧相似的视频,为用户解决短期相似重复问题。
同上,所述保存历史包括点击历史和展示历史,其含义不在赘述。
具体的,所述基于点击历史的视频抽帧相似去重,包括:
获取所述用户终端的第三点击历史之中所存储的信息资源的视频关键帧;其中,所述第三点击历史用于存储第六预设时间内该用户点击过的信息资源的属性信息,或者,所述第三点击历史用于存储用户点击过的信息资源的数量小于第六预设值的信息资源的属性信息;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
具体的,所述基于展示历史的视频抽帧相似去重,包括:
获取所述用户终端的第三展示历史包括的信息资源的视频关键帧;其中,所述第三展示历史用于存储第七预设时间内为该用户展示过的信息资源的属性信息,或者,所述第三展示历史用于存储为用户展示过的信息资源的数量小于第七预设值的信息资源的属性信息;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为封面图相似去重,
获取所述用户终端的保存历史之中所存储的信息资源的封面图信息;
确定所述当前环节的待下发信息资源中具有与所述封面图信息相似的封面图信息的信息资源,并进行去重。
该去重方法利用图像处理技术,获取和视频封面图信息相似的视频,为用户解决短期相似重复问题。
同上,所述保存历史包括点击历史和展示历史,其含义不在赘述。
具体的,所述基于点击历史的封面图相似去重,包括:
获取所述用户终端的第四点击历史之中所存储的信息资源的封面图信息;其中,所述第四点击历史用于存储第八预设时间内该用户点击过的信息资源的属性信息,或者,所述第四点击历史用于存储用户点击过的信息资源的数量小于第八预设值的信息资源的属性信息;
确定所述当前环节对应的待下发信息资源中具有与所述封面图信息相似的视频帧的视频资源,并进行去重。
所述基于展示历史的封面图相似去重,包括:
获取所述用户终端的第四展示历史之中所存储的信息资源的封面图信息;其中,所述第四展示历史用于存储第九预设时间内为该用户展示过的,或者,所述第四展示历史用于存储展示过的信息资源的数量小于第九预设值的信息资源的属性信息;
确定所述待下发信息资源中具有与所述封面图信息相似的封面图信息的视频资源,并进行去重。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为NID精确匹配去重,
获取为所述用户终端一次下发的信息资源的NID,其中,所述NID为每个所述信息资源的唯一表示;
根据所述NID,将所述为所述用户终端一次下发的信息资源中具有相同NID的信息资源进行去重。
该去重方法主要是针对用户一次下发内的视频根据唯一标识精确去重。
在上述任一实施例的基础上,步骤104的所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为主题相似去重,
获取为所述用户终端一次下发的信息资源的主题;
根据所述主题之间的文本相似度,将所述为所述用户终端一次下发的信息资源中相似度高的信息资源进行去重。
该去重方法主要是针对用户一次下发内的视频根据title相似度去重。
图4为本发明实施例提供的推荐场景下的去重装置的结构图。本实施例提供的推荐场景下的去重装置可以执行推荐场景下的去重方法实施例提供的处理流程,如图4所示,所述推荐场景下的去重装置包括别类别获取模块401、策略获取模块402、配置模块403及去重模块404。
类别获取模块401,用于接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
策略获取模块402,用于获取与所述场景类别对应的预设的去重策略;
配置模块403,用于根据所述去重策略对推荐系统的多个环节配置去重方法;
去重模块404,用于按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,以得到最终的所述请求的响应数据。
在本申请的一个实施例中,所述当前环节为所述推荐系统的初始环节,所述去重模块,具体用于:
将与所述当前推荐场景对应的下发信息资源进行召回,其中,所述下发信息资源包括处于展示状态、未展示状态以及未知状态的下发信息资源;
将所述召回的下发信息资源与获取的与所述当前推荐场景对应的未下发的信息资源合并后,作为所述初始环节的待下发信息资源。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为基于保存历史的精确匹配去重,
获取所述用户终端的保存历史之中所存储的信息资源的属性信息;
根据所述属性信息,将所述当前环节的待下发信息资源中与所述保存历史中相同的信息资源进行去重。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为基于保存历史的相似布隆过滤去重,
获取所述用户终端的保存历史之中所存储的信息资源的相似内容;
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对所述当前环节的待下发信息资源进行去重。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为视频抽帧相似去重,
获取所述用户终端的保存历史之中所存储的信息资源的视频关键帧;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为封面图相似去重,
获取所述用户终端的保存历史之中所存储的信息资源的封面图信息;
确定所述当前环节的待下发信息资源中具有与所述封面图信息相似的封面图信息的信息资源,并进行去重。
在本申请的一些实施例中,所述保存历史包括点击历史、展示历史以及下发历史,其中,
所述点击历史用于存储预设时间内该用户点击过的信息资源的属性信息,或者,所述点击历史用于存储该用户点击过的数量满足预设值的信息资源的属性信息;
所述展示历史用于存储预设时间内为该用户展示过的信息资源的属性信息,或者,所述展示历史用于存储为该用户展示过的数量满足预设值的信息资源的属性信息
所述下发历史用于存储预设时间内为该用户下发过的信息资源的属性信息,或者,所述下发历史用于存储为该用户下发过的数量满足预设值的信息资源的属性信息。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为NID精确匹配去重,
获取为所述用户终端一次下发的信息资源的NID,其中,所述NID为每个所述信息资源的唯一表示;
根据所述NID,将所述为所述用户终端一次下发的信息资源中具有相同NID的信息资源进行去重。
在本申请的一个实施例中,所述去重模块,具体用于:
响应于所述去重方法为主题相似去重,
获取为所述用户终端一次下发的信息资源的主题;
根据所述主题之间的文本相似度,将所述为所述用户终端一次下发的信息资源中相似度高的信息资源进行去重。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例的推荐场景下的去重装置,通过获取用户终端当前推荐场景所属的场景类别;获取与所述场景类别对应的预设的去重策略;根据所述去重策略对推荐系统的多个环节配置不同维度的去重方法;通过配置的所述去重方法对所述当前推荐场景对应的待下发信息资源进行去重。针对推荐系统的不同推荐场景,在不同环节配置不同去重方法,可以更好的满足用户需求、提升资源分发效率、提升用户体验。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的用于推荐场景下的去重的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的推荐场景下的去重方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于推荐场景下的去重方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的推荐场景下的去重方法对应的程序指令/模块(例如,附图4所示的类别获取模块401、策略获取模块402、配置模块403及去重模块404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的推荐场景下的去重方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据推荐场景下的去重的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至用于推荐场景下的去重的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
推荐场景下的去重方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与用于推荐场景下的去重的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种推荐场景下的去重方法,包括:
接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
获取与所述场景类别对应的预设的去重策略;
根据所述去重策略对推荐系统的多个环节配置去重方法;
按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,以得到最终的所述请求的响应数据。
2.根据权利要求1所述的方法,其中,所述当前环节为所述推荐系统的初始环节,获取所述当前环节的待下发信息资源,包括:
将与所述当前推荐场景对应的下发信息资源进行召回,其中,所述下发信息资源包括处于展示状态、未展示状态以及未知状态的下发信息资源;
将所述召回的下发信息资源与获取的与所述当前推荐场景对应的未下发的信息资源合并后,作为所述初始环节的待下发信息资源。
3.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为基于保存历史的精确匹配去重,获取所述用户终端的保存历史之中所存储的信息资源的属性信息;
根据所述属性信息,将所述当前环节的待下发信息资源中与所述保存历史中相同的信息资源进行去重。
4.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为基于保存历史的相似布隆过滤去重,获取所述用户终端的保存历史之中所存储的信息资源的相似内容;
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对所述当前环节的待下发信息资源进行去重。
5.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为视频抽帧相似去重,获取所述用户终端的保存历史之中所存储的信息资源的视频关键帧;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
6.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为封面图相似去重,获取所述用户终端的保存历史之中所存储的信息资源的封面图信息;
确定所述当前环节的待下发信息资源中具有与所述封面图信息相似的封面图信息的信息资源,并进行去重。
7.根据权利要求3至6任一所述的方法,其中,所述保存历史包括点击历史、展示历史以及下发历史,其中,
所述点击历史用于存储预设时间内该用户点击过的信息资源的属性信息,或者,所述点击历史用于存储该用户点击过的数量满足预设值的信息资源的属性信息;
所述展示历史用于存储预设时间内为该用户展示过的信息资源的属性信息,或者,所述展示历史用于存储为该用户展示过的数量满足预设值的信息资源的属性信息
所述下发历史用于存储预设时间内为该用户下发过的信息资源的属性信息,或者,所述下发历史用于存储为该用户下发过的数量满足预设值的信息资源的属性信息。
8.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为NID精确匹配去重,获取为所述用户终端一次下发的信息资源的NID,其中,所述NID为每个所述信息资源的唯一表示;
根据所述NID,将所述为所述用户终端一次下发的信息资源中具有相同NID的信息资源进行去重。
9.根据权利要求1所述的方法,其中,所述根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,包括:
响应于所述去重方法为主题相似去重,获取为所述用户终端一次下发的信息资源的主题;
根据所述主题之间的文本相似度,将所述为所述用户终端一次下发的信息资源中相似度高的信息资源进行去重。
10.根据权利要求1所述的方法,其中,所述环节包括请求聚合服务环节、多路召回环节、过滤引擎环节、中台去重环节、去重兜底环节。
11.一种推荐场景下的去重装置,包括:
类别获取模块,用于接收用户终端的请求,获取所述用户终端当前推荐场景所属的场景类别;
策略获取模块,用于获取与所述场景类别对应的预设的去重策略;
配置模块,用于根据所述去重策略对推荐系统的多个环节配置去重方法;
去重模块,用于按照所述多个环节的顺序,根据当前环节的配置的去重方法对所述当前环节的待下发信息资源进行去重,以得到最终的所述请求的响应数据。
12.根据权利要求11所述的装置,其中,所述当前环节为所述推荐系统的初始环节,所述去重模块,具体用于:
将与所述当前推荐场景对应的下发信息资源进行召回,其中,所述下发信息资源包括处于展示状态、未展示状态以及未知状态的下发信息资源;
将所述召回的下发信息资源与获取的与所述当前推荐场景对应的未下发的信息资源合并后,作为所述初始环节的待下发信息资源。
13.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为基于保存历史的精确匹配去重,获取所述用户终端的保存历史之中所存储的信息资源的属性信息;
根据所述属性信息,将所述当前环节的待下发信息资源中与所述保存历史中相同的信息资源进行去重。
14.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为基于保存历史的相似布隆过滤去重,获取所述用户终端的保存历史之中所存储的信息资源的相似内容;
将所述相似内容加入布隆过滤器,并根据所述布隆过滤器对所述当前环节的待下发信息资源进行去重。
15.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为视频抽帧相似去重,获取所述用户终端的保存历史之中所存储的信息资源的视频关键帧;
确定所述当前环节对应的待下发信息资源中具有与所述视频关键帧相似的视频帧的视频资源,并进行去重。
16.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为封面图相似去重,获取所述用户终端的保存历史之中所存储的信息资源的封面图信息;
确定所述当前环节的待下发信息资源中具有与所述封面图信息相似的封面图信息的信息资源,并进行去重。
17.根据权利要求13至16任一所述的装置,其中,所述保存历史包括点击历史、展示历史以及下发历史,其中,
所述点击历史用于存储预设时间内该用户点击过的信息资源的属性信息,或者,所述点击历史用于存储该用户点击过的数量满足预设值的信息资源的属性信息;
所述展示历史用于存储预设时间内为该用户展示过的信息资源的属性信息,或者,所述展示历史用于存储为该用户展示过的数量满足预设值的信息资源的属性信息
所述下发历史用于存储预设时间内为该用户下发过的信息资源的属性信息,或者,所述下发历史用于存储为该用户下发过的数量满足预设值的信息资源的属性信息。
18.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为NID精确匹配去重,获取为所述用户终端一次下发的信息资源的NID,其中,所述NID为每个所述信息资源的唯一表示;
根据所述NID,将所述为所述用户终端一次下发的信息资源中具有相同NID的信息资源进行去重。
19.根据权利要求11所述的装置,其中,所述去重模块,具体用于:
响应于所述去重方法为主题相似去重,获取为所述用户终端一次下发的信息资源的主题;
根据所述主题之间的文本相似度,将所述为所述用户终端一次下发的信息资源中相似度高的信息资源进行去重。
20.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
21.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
22.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
CN202111006593.9A 2021-08-30 2021-08-30 推荐场景下的去重方法、装置、电子设备和存储介质 Active CN113792180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006593.9A CN113792180B (zh) 2021-08-30 2021-08-30 推荐场景下的去重方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006593.9A CN113792180B (zh) 2021-08-30 2021-08-30 推荐场景下的去重方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113792180A true CN113792180A (zh) 2021-12-14
CN113792180B CN113792180B (zh) 2024-02-23

Family

ID=78876585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006593.9A Active CN113792180B (zh) 2021-08-30 2021-08-30 推荐场景下的去重方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113792180B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591966A (zh) * 2011-12-31 2012-07-18 华中科技大学 一种移动场景下的搜索结果过滤方法
US20180276734A1 (en) * 2016-07-12 2018-09-27 Tencent Technology (Shenzhen) Company Limited Information push method and apparatus, server, and storage medium
CN109492180A (zh) * 2018-09-07 2019-03-19 平安科技(深圳)有限公司 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN110489657A (zh) * 2019-07-05 2019-11-22 五八有限公司 一种信息过滤方法、装置、终端设备及存储介质
CN112463774A (zh) * 2020-10-23 2021-03-09 完美世界控股集团有限公司 数据去重方法、设备及存储介质
CN112712391A (zh) * 2020-12-31 2021-04-27 北京嘀嘀无限科技发展有限公司 一种服务推送方法、装置、电子设备以及存储介质
CN112989074A (zh) * 2021-04-23 2021-06-18 腾讯科技(深圳)有限公司 多媒体信息推荐方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591966A (zh) * 2011-12-31 2012-07-18 华中科技大学 一种移动场景下的搜索结果过滤方法
US20180276734A1 (en) * 2016-07-12 2018-09-27 Tencent Technology (Shenzhen) Company Limited Information push method and apparatus, server, and storage medium
CN109492180A (zh) * 2018-09-07 2019-03-19 平安科技(深圳)有限公司 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN110489657A (zh) * 2019-07-05 2019-11-22 五八有限公司 一种信息过滤方法、装置、终端设备及存储介质
CN112463774A (zh) * 2020-10-23 2021-03-09 完美世界控股集团有限公司 数据去重方法、设备及存储介质
CN112712391A (zh) * 2020-12-31 2021-04-27 北京嘀嘀无限科技发展有限公司 一种服务推送方法、装置、电子设备以及存储介质
CN112989074A (zh) * 2021-04-23 2021-06-18 腾讯科技(深圳)有限公司 多媒体信息推荐方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郎为民;褚开锋;姚晋芳;赵毅丰;: "大数据中心数据去重问题研究", 电信快报, no. 10 *

Also Published As

Publication number Publication date
CN113792180B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
JP7261827B2 (ja) 情報処理方法、装置、電子機器及び記憶媒体
CN106846040A (zh) 一种直播间中虚拟礼物显示方法和系统
CN112328816A (zh) 媒体信息展示方法、装置、电子设备及存储介质
CN111639027B (zh) 一种测试方法、装置及电子设备
CN110636366A (zh) 视频的播放处理方法、装置、电子设备和介质
CN112269789A (zh) 存储数据的方法和装置、以及读取数据的方法和装置
CN111090691B (zh) 一种数据处理方法、装置、电子设备和存储介质
CN111246257A (zh) 视频推荐方法、装置、设备及存储介质
CN112235613A (zh) 视频处理方法、装置、电子设备及存储介质
CN111858506A (zh) 测试数据的处理方法、装置、电子设备及存储介质
CN112311597A (zh) 消息推送方法和装置
CN114168793A (zh) 主播展示方法、装置、设备和存储介质
CN110545324A (zh) 数据处理方法、装置、系统、网络设备和存储介质
CN111669647B (zh) 实时视频的处理方法、装置、设备及存储介质
WO2021164193A1 (zh) 小程序物料处理方法、装置、电子设备和介质
CN111368184A (zh) 智能语音设备的屏保投放方法、设备及存储介质
CN112069137A (zh) 生成信息的方法、装置、电子设备及计算机可读存储介质
CN113792180A (zh) 推荐场景下的去重方法、装置、电子设备和存储介质
US20140040772A1 (en) Highlighting graphical user interface components based on usage by other users
US20210248486A1 (en) Method, apparatus, device and storage medium for customizing personalized rules for entities
CN112446728B (zh) 广告召回方法、装置、设备及存储介质
CN111694931A (zh) 要素获取方法及装置
CN113220982A (zh) 广告搜索方法、装置、电子设备和介质
CN111723318A (zh) 页面数据处理方法、装置、设备和存储介质
JP7451697B2 (ja) データ記憶方法、装置、クエリ方法、電子機器および可読媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant