CN112749333B - 资源搜索方法、装置、计算机设备和存储介质 - Google Patents

资源搜索方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112749333B
CN112749333B CN202010721879.4A CN202010721879A CN112749333B CN 112749333 B CN112749333 B CN 112749333B CN 202010721879 A CN202010721879 A CN 202010721879A CN 112749333 B CN112749333 B CN 112749333B
Authority
CN
China
Prior art keywords
click rate
resource
candidate
resources
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010721879.4A
Other languages
English (en)
Other versions
CN112749333A (zh
Inventor
黄剑辉
梁龙军
刘海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010721879.4A priority Critical patent/CN112749333B/zh
Publication of CN112749333A publication Critical patent/CN112749333A/zh
Application granted granted Critical
Publication of CN112749333B publication Critical patent/CN112749333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及机器学习技术领域,特别是涉及一种资源搜索方法、装置、计算机设备和存储介质。该方法包括:响应资源搜索请求,获取搜索关键字;从索引库召回与所述搜索关键字相关的候选资源;获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率;根据所述预测点击率对所述候选资源进行排序,得到搜索结果。该方法从候选资源的视觉吸引度特征维度预测点击率,而不同候选资源的吸引度特征不同,能够根据各候选资源的吸引度预测候选资源的点击率,体现预测的各候选资源的点击率差异,使得未被曝光过的优质资源能够参与搜索排序,提高了资源搜索的效率。

Description

资源搜索方法、装置、计算机设备和存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种资源搜索方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,用户搜索目标时,针对用户给定的搜索词,为提高搜索质量,搜索系统通常会对匹配的目标进行排序,使最有可能符合用户需要的目标排在前面。在排序时,历史曝光、点击等统计信息都是很重要的特征,发挥着关键作用,往往近期被多次曝光点击的目标在排序中更容易被优先再次曝光。但是历史曝光、点击等特征在排序中的引入也造成了问题,如历史中未曝光的目标缺乏甚至没有曝光机会,使得系统中大量的优质文档脱离不了冷启动阶段。
针对历史中未曝光或者未获得足够曝光机会的资源,通常基于参数估计采用统计平滑技术来预估文档的曝光点击率(CTR)。假设r表示内容文档的点击率,click为文档现有的点击量,exp为文档现有的历史曝光量,α、β分别预估参数,则预估点击率的公式如下:
上式基于历史曝光点击统计数据采用贝叶斯估计、矩估计等方式取得两个预估参数值,从而获得当前资源的曝光点击率预估值。
然而采用该方法,所有未曾曝光的文档均采用一套估计参数,使得对资源的点击率的预估值无法差异化,影响排序结果,用户根据排序结果不能快速查到目标资源,导致搜索效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高搜索效率的资源搜索方法、装置、计算机设备和存储介质。
一种资源搜索方法,其特征在于,所述方法包括:
响应资源搜索请求,获取搜索关键字;
从索引库召回与所述搜索关键字相关的候选资源;
获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;
根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率;
根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
一种资源搜索装置,所述装置包括:
响应模块,用于响应资源搜索请求,获取搜索关键字;
搜索模块,用于从索引库召回与所述搜索关键字相关的候选资源;
点击率处理模块,用于获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;
预测模块,用于根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率;
搜索处理模块,用于根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
在其中一个实施例中,所述点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征。
在另一个实施例中,所述点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的标题、封面图片和标签中的至少一种,得到未曝光过的候选资源的视觉吸引度特征。
在另一个实施例中,所述预测模块,用于将所述视觉吸引度特征输入预先训练好的点击率预测模型,得到未曝光过的候选资源的点击率。
在另一个实施例中,所述吸引度特征包括标题、图片和标签维度中的至少一种;所述预测模块,用于将各维度的视觉吸引度特征分别输入所述点击率预测模型中各维度对应的特征编码网络,得到各维度的吸引度特征向量;融合各特征编码网络输出的多维度的吸引度特征向量得到资源的吸引度特征向量;基于所述点击率预测模型的损失函数将所述资源的吸引度特征向量映射,得到所述资源的预测点击率。
在另一个实施例中,所述装置还包括:
历史数据获取模块,用于获取历史曝光过的资源的吸引度特征和点击率。
训练集处理模块,用于根据历史曝光过的所述资源的吸引度特征和点击率构建训练样本集。
训练模块,用于根据所述训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型。
在另一个实施例中,所述训练模块,用于将所述训练样本集中资源的标题、封面图片和标签中至少两种,分别输入对应的特征提取网络;融合至少两个特征提取提取网络输出的特征向量;根据融合的特征向量以及点击率,训练得到点击率预测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应资源搜索请求,获取搜索关键字;
从索引库召回与所述搜索关键字相关的候选资源;
获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;
根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率;
根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
响应资源搜索请求,获取搜索关键字;
从索引库召回与所述搜索关键字相关的候选资源;
获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;
根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率;
根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
上述资源搜索方法、装置、计算机设备和存储介质,对于根据搜索关键字的候选资源,通过根据未曝光过的候选资源的视觉吸引度特征预测其点击率,补全未曝光过的候选资源的点击率数据,进一步根据点击率对候选资源进行排序,得到推荐精确的搜索结果。而在补全未曝光过的候选资源的点击率时,从候选资源的视觉吸引度特征维度预测点击率,而不同候选资源的吸引度特征不同,能够根据各候选资源的吸引度预测候选资源的点击率,使得未被曝光过的优质资源能够参与搜索排序,提高了资源搜索的效率。
附图说明
图1为一个实施例中资源搜索方法的应用环境图;
图2为一个实施例中资源搜索方法的流程示意图;
图3为一个实施例中搜索过程的流程示意图;
图4为另一个实施例中点击率预测模型的结构示意图;
图5为一个实施例中点击率预测模型的训练和预测过程示意图;
图6为一个实施例中编码网络的结构示意图;
图7为一个实施例中资源搜索装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的技术方案,借助于人工智能(Artificial Intelligence,AI)实现。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明。
本申请提供的资源搜索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户通过终端102触发资源搜索,向服务器104发送资源搜索请求。服务器104响应资源搜索请求,获取搜索关键字,从索引库召回与搜索关键字相关的候选资源。服务器104的点击率检测模型1041根据未曝光过的候选资源的视觉吸引度特征,预测未曝光过的候选资源的预测点击率,并将未曝光的候选资源的预测点击率发送至搜索系统1042,搜索系统1042根据未曝光过的候选资源的预测点击率以及曝光过的候选资源的统计点击率,对候选资源进行排序,得到搜索结果。服务器104将搜索结果反馈至终端102。其中,点击率预测模型1041根据历史曝光过的资源的视觉吸引度特征和点击率构建训练样本集,对训练样本集进行训练得到。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种资源搜索方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,响应搜索请求,获取搜索关键字。
其中,用户通过在终端操作,在搜索输入框中输入搜索关键字,向服务器发送搜索请求。服务器响应搜索请求,获取搜索关键字。
步骤204,从索引库召回与搜索关键字相关的候选资源。
服务器根据搜索关键字,在索引库中召回与搜索关键字相关的候选资源。其中,候选资源是索引库中所有与搜索关键字相关用于索引的资源的特定信息,可以为文档信息,也可以为图片信息等。例如,搜索目标类型为视频,则候选资源可以为视频标题和视频封面。又例如,搜索目标类型为图片,则候选资源可以为图片和图片名称。
步骤206,获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的统计点击率。
曝光是指内容被展示。未曝光过的候选资源是指候选资源未在网站上被展示过,曝光过的候选资源是指候选资源在网站上被展示过。点击率(Click Through Rate),点击率是网站页面上某一内容被点击的次数与被显示次数之比。对于曝光过的候选资源,可统计其显示次数与点击次数之比,得到统计点击率。
视觉吸引度特征是指视觉上对用户产生吸引力的特征。视觉吸引度特征考虑的特征维度在视觉上,可以理解为用户视觉上看到该候选资源时,能够被吸引,而促使用户点击的特征。因此,视觉吸引度特征是资源的外在视觉表现,可以为资源的标题、标签或封面图片等。通常而言,视觉吸引度特征所表现的对用户越具有吸引力,被点击的可能性越大,点击率也越高,即资源视觉吸引度特征的吸引力程度与点击率呈正相关。
视觉吸引度特征的吸引力程度体现在视觉吸引度特征所表现出来的有效信息程度以及与搜索关键字的相关度。视觉吸引度特征所表现出来的有效信息程度越高,与搜索关键字的相关度越高,则视觉吸引度特征的吸引力程度也越高。
步骤208,根据视觉吸引度特征预测未曝光过的候选资源的预测点击率。
点击率与曝光有关,对于数据库中的一些内容,由于网站显示数量的限制,一些内容并没有机会被曝光。在资源搜索时,对于召回的候选资源,往往根据点击率进行排序,近期多次曝光的候选资源在排序中更容易被优先再次曝光,而由于未被曝光过,在召回排序时未被曝光过的候选资源存在劣势,即使是优质资源,也可能因为点击率的缺乏而导致排序靠后,得到不曝光。
由于视觉吸引度特征的吸引力程度与点击率之间存在正相关的关系,因此,通过挖掘未曝光过资源的视觉吸引度特征的吸引力程度,能够预测得到未曝光过的候选资源的预测点击率。
而由于预测点击率是利用资源的视觉吸引度特征预测的,对于不同的资源其所体现的视觉吸引度不同,因而在进行点击率预测时能够体现未曝光过的候选资源的差异,提高预测点击率的可靠性。
步骤210,根据点击率对候选资源进行排序,得到搜索结果。
其中,服务器根据曝光过的候选资源的统计点击率,以及预测的未曝光的过候选资源的预测点击率,对所有候选资源进行排序。以视频搜索为例,如图3所示,针对用户的搜索关键字“跳一跳”,服务器的搜索系统对索引库召回候选资源视频。服务器获取其中的曝光过的候选资源的点击率,根据未曝光过的候选资源的视觉吸引度特征预测未曝光过的候选资源的点击率,根据点击率对候选资源视频进行粗排和细排。粗排、精排两轮排序最终决定了推出的候选资源的顺序。
其中,排序的策略可以融合相关度和点击率,首先按候选资源与搜索关键字的相关度进行粗排,再根据点击率对候选资源进行细排,最终得到搜索结果。
本实施例中根据视觉吸引度特征补全了未曝光过的候选资源的点击率,使得搜索排序时,未被曝光过的优质资源也能得到曝光机会。
上述的资源搜索方法,对于根据搜索关键字的候选资源,通过根据未曝光过的候选资源的视觉吸引度特征预测其点击率,补全未曝光过的候选资源的点击率数据,进一步根据点击率对候选资源进行排序,得到推荐精确的搜索结果。而在补全未曝光过的候选资源的点击率时,从候选资源的视觉吸引度特征维度预测点击率,而不同候选资源的吸引度特征不同,能够根据各候选资源的吸引度预测候选资源的点击率,体现预测的各候选资源的点击率差异,使得未被曝光过的优质资源能够参与搜索排序,提高了资源搜索的效率。
在另一个实施例中,获取未曝光过的候选资源的视觉吸引度特征的方式,包括:获取资源搜索结果展示时未曝光过的候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征。
其中,候选资源的视觉吸引度特征可以从候选资源的用于展示的视觉可见内容分析得到。其中,视觉可见内容是指用户能够直观看到的内容。在搜索结果展示时,用户往往根据资源的视觉可见内容所体现的吸引度特征进行点击操作。若资源的视觉可见内容所体现的吸引度高,则用户点击的可能性越大,该目标的点击率高的可能性也越大。
在另一个实施例中,获取资源搜索结果展示时未曝光过的候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征,包括:获取资源搜索结果展示时未曝光过的候选资源的标题、封面图片和标签中的至少一种,得到未曝光过的候选资源的视觉吸引度特征。
其中,在搜索结果展示时,展示的是资源用于索引的部分内容,如在视频搜索时,展示的是视频的标题和视频内容封面。在图片搜索时,展示的是图片的标题和图片。在搜索文章时,展示的是文章的标题、首段文字和标签等。
资源搜索结果展示时,候选资源的视觉可见内容所直观展示的有效信息程度,某种程度上也决定了对用户的吸引力程度。有效信息越丰富,对用户的吸引力也越大。例如,两个候选资源中,候选资源1的标题为“主播B直播游戏角色C秒杀的技巧攻略”,候选资源2的标题为“游戏角色C的必杀技”,候选资源1中包括了主播信息,其信息量更丰富,在搜索结果展示时,用户更容易能够标题内容了解到资源相关的更多信息,因此容易被触发点击。又例如,候选资源3的标题为“小游戏A”,候选资源4的标题为“小游戏A,教你上500分的小技巧”,由于候选资源4具有比候选资源3更多的信息量,通过候选资源4的标题,用户能够直观地了解候选资源4的内容主题,显然候选资源4比候选资源3更值得曝光,事实上,根据历史统计规律,也可以发现,有效信息量越丰富的标题更具吸引力,获得更高的历史点击率。
在搜索结果展示时候选资源的视觉可见内容包括封面图片和标题,封面图片中的信息量对用户选择点击也会造成影响。例如,候选资源5的视觉可见特征包括了标题“电影D”以及电影第一帧的图片(通常只演员表之类的文字信息),候选资源6的视觉可见特征包括了标题“电影D”以及电影关键帧的图片(电影中主角的打斗场面),显然,候选资源6的图片信息涵盖了主演的人物信息以及电影中的场景信息,对于用户而言而具吸引力,候选资源6比候选资源5更值得曝光,且曝光后的点击率也会比候选资源5的点击率要高。
本实施例中,能够获取资源搜索结果展示时候选资源的标题、封面图片和标签信息,作为候选资源的吸引度特征,而候选资源的标题、封面图片和标签信息能够直观地表现出有效信息量,因此,将其作为吸引度特征,能够正确地表征点击率,体现出了标题、封面图片和标签信息的有效信息量与点击率之间的关系。
在另一个实施例中,根据吸引度特征预测未曝光过的候选资源的点击率,包括:将吸引度特征输入预先训练好的点击率预测模型,得到未曝光过的候选资源的点击率。
本实施例中,利用预先训练好的点击率预测模型,挖掘吸引度特征的有效信息量所体现的吸引力与点击率的隐含联系。其中,点击率预测模型是根据历史已曝光的资源的视觉吸引度特征和点击率训练得到的。通过模型训练,挖掘得到吸引度特征的有效信息量所体现的吸引力与点击率的隐含联系。在搜索时,根据已经训练好的模型,利用这种隐含关系能够根据视觉吸引度特征预测点击率。
具体地,吸引度特征包括标题、图片和标签维度中的至少一种;将吸引度特征输入预先训练好的点击率预测模型,得到未曝光过的候选资源的点击率,包括:将各维度的吸引度特征分别输入点击率预测模型中各维度对应的特征编码网络,得到各维度的吸引度特征向量;融合各特征编码网络输出的多维度的吸引度特征向量得到资源的吸引度特征向量;基于点击率预测模型的损失函数将所述资源的吸引度特征向量映射,得到所述资源的预测点击率。
如图4所示,资源的视觉吸引度特征包括标题、图片和标签三个维度。预先训练好的点击率预测模型包括了三个特征维度对应的特征编码网络。将标题输入第一特征编码网络,得到标题维度的第一吸引度特征向量,将封面图片输入第二特征编码网络,得到图片维度的第二吸引度特征向量,将标签输入第三特征编码网络,得到标签维度的第三吸引度特征向量。融合三个吸引度特征向量,得到资源的吸引度特征向量。资源的吸引度特征向量通过softmax映射0-1之间的实数,得到预测点击率。
具体地,点击率预测模型的训练过程,包括:获取历史曝光过的资源的吸引度特征和点击率;根据历史曝光过的资源的吸引度特征和点击率构建训练样本集;根据训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型。
具体地,将过去一段时间的曝光过的资源的吸引度特征作为训练数据,其中,资源的真实点击率作为训练数据的目标值。根据历史曝光过的资源的吸引度特征和点击率构建训练样本集。如图5所示,资源的吸引度特征为标题,则根据资源的标签以及资源的点击率,构建训练样本集。
其中,点击率预测模型可以根据吸引度特征的类型设置不同的编码网络,提取吸引度特征的特征向量。例如,吸引度特征包括封面图片,则对应的编码网络可以采用CNN(卷积神经网络),又例如,吸引度特征包括标题,则对应的编码网络可采用bert、LSTM、CNN等。
以吸引度特征包括标题为例,针对标题文档的语义编码模块,这里采用BERT进行语义编码,取CLS token的embedding作为文档的最终语义向量。其具体的结构图6所示。采用Bert作为标题文档的编码模块,编码获取文档的语义向量,并采用回归预测方式拟合文档的历史点击率。该方式针对文档直接采用BERT模型进行编码,并使用回归方式拟合历史曝光点击率,该模型不仅可以合理的给出未曝光标题的CTR预估值,而且可以有效的对标题语义和CTR间的隐含关系,捕捉标题中和CTR强相关的词语。
本实施例中,虽然采用监督训练方式建模,但是仅需基于历史曝光点击资源便可完成训练,无需额外标注数据。并且训练样本对长短及上下文没有限制,因此泛化能力强,在多种应用场景下均适用。
在另一个实施例中,根据训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型,包括:将训练样本集中资源的标题、封面图片和标签中至少两种,分别输入对应的特征提取网络;融合至少两个特征提取提取网络输出的特征向量;根据融合的特征向量以及点击率,训练得到点击率预测模型。
本实施例中,点击率预测模型融合多个维度的视觉吸引度特征,如融合封面图片、标题和标签中的至少两种,使得用于预测点击率的有效视觉特征的特征维度增加,适用范围更广,点击率预测更加准确。其中,整个模型采用回归的方式来拟合文档的历史曝光点击率,所以采用MSE作为最终的损失函数,其具体的公式如下:
本系统中采用MSE作为最终的损失函数,其次还可以替换其他回归模型中常用的损失函数,例如平均绝对值损失函数(MAE)、平滑平均绝对误差(Huber损失)等。
目前本申请的点击率预测模型的建模,是预估未曝光资源历史CTR的重要模块,其通过预估未曝光资源的历史CTR值可以有效的提升未曝光的优质资源的曝光量,从而优化整个搜索系统体验和线上CTR。该方法适用于所有需要用到资源历史曝光点击率的搜索、推荐场景。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种资源搜索装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:响应模块、搜索模块、点击率处理模块、预测模块和搜索处理模块,其中:
响应模块701,用于响应资源搜索请求,获取搜索关键字。
搜索模块702,用于从索引库召回与所述搜索关键字相关的候选资源。
点击率处理模块703,用于获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率。
预测模块704,用于根据所述视觉吸引度特征预测所述未曝光过的候选资源的预测点击率。
搜索处理模块705,用于根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
上述的资源搜索装置,对于根据搜索关键字的候选资源,通过根据未曝光过的候选资源的视觉吸引度特征预测其点击率,补全未曝光过的候选资源的点击率数据,进一步根据点击率对候选资源进行排序,得到推荐精确的搜索结果。而在补全未曝光过的候选资源的点击率时,从候选资源的视觉吸引度特征维度预测点击率,而不同候选资源的吸引度特征不同,能够根据各候选资源的吸引度预测候选资源的点击率,体现预测的各候选资源的点击率差异,使得未被曝光过的优质资源能够参与搜索排序,提高了资源搜索的效率。
在另一个实施例中,点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征。
在另一个实施例中,点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的标题、封面图片和标签中的至少一种,得到未曝光过的候选资源的视觉吸引度特征。
在另一个实施例中,预测模块,用于将所述吸引度特征输入预先训练好的点击率预测模型,得到未曝光过的候选资源的点击率。
在另一个实施例中,所述吸引度特征包括标题、图片和标签维度中的至少一种;预测模块,用于将各维度的吸引度特征分别输入所述点击率预测模型中各维度对应的特征编码网络,得到各维度的吸引度特征向量;融合各特征编码网络输出的多维度的吸引度特征向量得到资源的吸引度特征向量;基于所述点击率预测模型的损失函数将所述资源的吸引度特征向量映射,得到所述资源的预测点击率。
在另一个实施例中,还包括:
历史数据获取模块,用于获取历史曝光过的资源的吸引度特征和点击率。
训练集处理模块,用于根据历史曝光过的所述资源的吸引度特征和点击率构建训练样本集。
训练模块,用于根据所述训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型。
在另一个实施例中,训练模块,用于将所述训练样本集中资源的标题、封面图片和标签中至少两种,分别输入对应的特征提取网络;融合至少两个特征提取提取网络输出的特征向量;根据融合的特征向量以及点击率,训练得到点击率预测模型。
关于资源搜索装置的具体限定可以参见上文中对于资源搜索方法的限定,在此不再赘述。上述资源搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资源数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源搜索方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种资源搜索方法,其特征在于,所述方法包括:
响应资源搜索请求,获取搜索关键字;
从索引库召回与所述搜索关键字相关的候选资源;
获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;资源搜索结果展示时,所述候选资源的视觉可见内容所直观展示的有效信息越丰富,所述视觉吸引度特征对应的吸引力越大;
将各维度的视觉吸引度特征分别输入训练好的点击率预测模型中各维度对应的特征编码网络,得到各维度的吸引度特征向量;
融合各特征编码网络输出的多维度的吸引度特征向量得到资源的吸引度特征向量;
基于所述训练好的点击率预测模型的损失函数将所述资源的吸引度特征向量映射,得到所述资源的预测点击率;
根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
2.根据权利要求1所述的方法,其特征在于,获取未曝光过的候选资源的视觉吸引度特征的方式,包括:
获取资源搜索结果展示时未曝光过的所述候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征。
3.根据权利要求2所述的方法,其特征在于,获取资源搜索结果展示时未曝光过的所述候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征,包括:获取资源搜索结果展示时未曝光过的所述候选资源的标题、封面图片和标签中的至少一种,得到未曝光过的候选资源的视觉吸引度特征。
4.根据权利要求1所述的方法,其特征在于,所述视觉吸引度特征包括标题、图片和标签维度中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述点击率预测模型的训练过程,包括:
获取历史曝光过的资源的吸引度特征和点击率;
根据历史曝光过的所述资源的吸引度特征和点击率构建训练样本集;
根据所述训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型。
6.根据权利要求5所述的方法,其特征在于,根据所述训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型,包括:
将所述训练样本集中资源的标题、封面图片和标签中至少两种,分别输入对应的特征提取网络;
融合至少两个特征提取网络输出的特征向量;
根据融合的特征向量以及点击率,得到训练好的点击率预测模型。
7.一种资源搜索装置,其特征在于,所述装置包括:
响应模块,用于响应资源搜索请求,获取搜索关键字;
搜索模块,用于从索引库召回与所述搜索关键字相关的候选资源;
点击率处理模块,用于获取未曝光过的候选资源的视觉吸引度特征以及曝光过的候选资源的点击率;资源搜索结果展示时,所述候选资源的视觉可见内容所直观展示的有效信息越丰富,所述视觉吸引度特征对应的吸引力越大;
预测模块,用于将各维度的视觉吸引度特征分别输入训练好的点击率预测模型中各维度对应的特征编码网络,得到各维度的吸引度特征向量;融合各特征编码网络输出的多维度的吸引度特征向量得到资源的吸引度特征向量;基于所述训练好的点击率预测模型的损失函数将所述资源的吸引度特征向量映射,得到所述资源的预测点击率;
搜索处理模块,用于根据所述预测点击率对所述候选资源进行排序,得到搜索结果。
8.根据权利要求7所述的装置,其特征在于,所述点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的视觉可见内容,得到未曝光过的候选资源的视觉吸引度特征。
9.根据权利要求8所述的装置,其特征在于,所述点击率处理模块,用于获取资源搜索结果展示时未曝光过的所述候选资源的标题、封面图片和标签中的至少一种,得到未曝光过的候选资源的视觉吸引度特征。
10.根据权利要求7所述的装置,其特征在于,还包括:
历史数据获取模块,用于获取历史曝光过的资源的吸引度特征和点击率;
训练集处理模块,用于根据历史曝光过的所述资源的吸引度特征和点击率构建训练样本集;
训练模块,用于根据所述训练样本集对点击率预测模型进行训练,得到训练好的点击率预测模型。
11.根据权利要求10所述的装置,其特征在于,所述训练模块,用于将所述训练样本集中资源的标题、封面图片和标签中至少两种,分别输入对应的特征提取网络;融合至少两个特征提取网络输出的特征向量;根据融合的特征向量以及点击率,得到训练好的点击率预测模型。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
13.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010721879.4A 2020-07-24 2020-07-24 资源搜索方法、装置、计算机设备和存储介质 Active CN112749333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010721879.4A CN112749333B (zh) 2020-07-24 2020-07-24 资源搜索方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010721879.4A CN112749333B (zh) 2020-07-24 2020-07-24 资源搜索方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112749333A CN112749333A (zh) 2021-05-04
CN112749333B true CN112749333B (zh) 2024-01-16

Family

ID=75645254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010721879.4A Active CN112749333B (zh) 2020-07-24 2020-07-24 资源搜索方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112749333B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220922B (zh) * 2021-06-04 2024-02-02 北京有竹居网络技术有限公司 图像搜索方法、装置和电子设备
CN113934872A (zh) * 2021-10-29 2022-01-14 北京达佳互联信息技术有限公司 一种搜索结果的排序方法、装置、设备以及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
CN103988202A (zh) * 2011-11-25 2014-08-13 微软公司 基于索引和搜索的图像吸引力
WO2015124024A1 (zh) * 2014-02-24 2015-08-27 北京奇虎科技有限公司 一种提升信息的曝光率的方法和装置、确定搜索词的价值的方法和装置
CN106372249A (zh) * 2016-09-23 2017-02-01 北京三快在线科技有限公司 一种点击率预估方法、装置及电子设备
CN108255954A (zh) * 2017-12-20 2018-07-06 广州优视网络科技有限公司 应用检索方法、装置、存储介质以及终端
CN108733794A (zh) * 2018-05-14 2018-11-02 佛山市真觉网络科技有限公司 一种基于关键词编辑的人工搜索引擎优化方法
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN108875022A (zh) * 2018-06-20 2018-11-23 北京奇艺世纪科技有限公司 一种视频推荐方法及装置
CN109241425A (zh) * 2018-08-31 2019-01-18 腾讯科技(深圳)有限公司 一种资源推荐方法、装置、设备及存储介质
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN110489644A (zh) * 2019-08-13 2019-11-22 腾讯科技(北京)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110532468A (zh) * 2019-08-26 2019-12-03 北京齐尔布莱特科技有限公司 一种网站资源的推荐方法、装置和计算设备
CN111160959A (zh) * 2019-12-20 2020-05-15 深圳前海微众银行股份有限公司 一种用户点击转化预估方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105801A (zh) * 2007-04-20 2008-01-16 清华大学 一种网络关键资源页面的自动定位方法
CN103988202A (zh) * 2011-11-25 2014-08-13 微软公司 基于索引和搜索的图像吸引力
WO2015124024A1 (zh) * 2014-02-24 2015-08-27 北京奇虎科技有限公司 一种提升信息的曝光率的方法和装置、确定搜索词的价值的方法和装置
CN106372249A (zh) * 2016-09-23 2017-02-01 北京三快在线科技有限公司 一种点击率预估方法、装置及电子设备
CN108255954A (zh) * 2017-12-20 2018-07-06 广州优视网络科技有限公司 应用检索方法、装置、存储介质以及终端
CN108733794A (zh) * 2018-05-14 2018-11-02 佛山市真觉网络科技有限公司 一种基于关键词编辑的人工搜索引擎优化方法
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN108875022A (zh) * 2018-06-20 2018-11-23 北京奇艺世纪科技有限公司 一种视频推荐方法及装置
CN109241425A (zh) * 2018-08-31 2019-01-18 腾讯科技(深圳)有限公司 一种资源推荐方法、装置、设备及存储介质
CN110147496A (zh) * 2019-05-13 2019-08-20 百度在线网络技术(北京)有限公司 内容推送方法及装置
CN110489644A (zh) * 2019-08-13 2019-11-22 腾讯科技(北京)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110532468A (zh) * 2019-08-26 2019-12-03 北京齐尔布莱特科技有限公司 一种网站资源的推荐方法、装置和计算设备
CN111160959A (zh) * 2019-12-20 2020-05-15 深圳前海微众银行股份有限公司 一种用户点击转化预估方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Subodha Kumar ; Milind Dawande ; Vijay Mookerjee.Optimal Scheduling and Placement of Internet Banner Advertisements.IEEE Transactions on Knowledge and Data Engineering .2007,第1571 - 1584页. *
基于概率图模型的互联网广告点击率预测;岳昆;王朝禄;朱运磊;武浩;刘惟一;;华东师范大学学报(自然科学版)(03);第21-31页 *
基于社交网络个体行为特征的信息推荐算法研究;陈玲姣;中国博士学位论文全文数据库;第I138-91页 *

Also Published As

Publication number Publication date
CN112749333A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN110941740B (zh) 视频推荐方法及计算机可读存储介质
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN111680219B (zh) 内容推荐方法、装置、设备及可读存储介质
US10459975B1 (en) Method and system for creating an automatic video summary
CN111382361B (zh) 信息推送方法、装置、存储介质和计算机设备
CN110737783A (zh) 一种推荐多媒体内容的方法、装置及计算设备
CN112989209B (zh) 内容推荐方法、装置和存储介质
CN112100504B (zh) 内容推荐方法、装置、电子设备及存储介质
CN110765348B (zh) 一种热词的推荐方法、装置、电子设备及存储介质
CN112749333B (zh) 资源搜索方法、装置、计算机设备和存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN112052387A (zh) 一种内容推荐方法、装置和计算机可读存储介质
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN110765286A (zh) 跨媒体检索方法、装置、计算机设备和存储介质
CN111858972A (zh) 一种基于家庭知识图谱的电影推荐方法
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN112269943B (zh) 一种信息推荐系统及方法
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
US11727051B2 (en) Personalized image recommendations for areas of interest
CN114329049A (zh) 视频搜索方法、装置、计算机设备和存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN111881352A (zh) 内容推送方法、装置、计算机设备和存储介质
CN114564653A (zh) 信息推荐方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048366

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant