CN103116582B - 一种信息检索方法及相关系统和装置 - Google Patents

一种信息检索方法及相关系统和装置 Download PDF

Info

Publication number
CN103116582B
CN103116582B CN201110363304.0A CN201110363304A CN103116582B CN 103116582 B CN103116582 B CN 103116582B CN 201110363304 A CN201110363304 A CN 201110363304A CN 103116582 B CN103116582 B CN 103116582B
Authority
CN
China
Prior art keywords
information
click
user
sorting
cbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110363304.0A
Other languages
English (en)
Other versions
CN103116582A (zh
Inventor
刘凯鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110363304.0A priority Critical patent/CN103116582B/zh
Publication of CN103116582A publication Critical patent/CN103116582A/zh
Priority to HK13108717.0A priority patent/HK1181504A1/zh
Application granted granted Critical
Publication of CN103116582B publication Critical patent/CN103116582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息检索方法及相关系统和装置,用以提升信息展示结果的准确率和召回率。所述信息检索方法,包括:根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合;根据CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。

Description

一种信息检索方法及相关系统和装置
技术领域
本申请涉及互联网领域,尤其涉及一种信息检索方法及相关系统和装置。
背景技术
在互联网领域中,对于电子商务、搜索引擎等类型的网站来说,信息搜索引擎系统能够根据用户输入的检索词,判断用户的查询意图,并在特定位置上向用户展现需要投放的相关信息。准确预估信息在给定的检索词上的点击率,对用户体验、信息投放方的收益、以及网站的盈利都有重要影响。
用户可能会在一次搜索会话中点击某些信息,信息搜索引擎系统会记录各次信息展示结果以及用户点击情况。用户一般会根据信息相关性进行点击,因此历史点击数据反映了用户对信息展示结果的相关性的隐性评价。由于历史点击数据的数量巨大,且获取成本较低,因此对于改进信息展示结果具有重要的应用价值。
用户的点击行为会受到信息展示位置的影响。有研究表明,尽管相关性较差,但是在信息展示结果中,靠前位置展示的信息相比靠后位置展示的信息,一般能够获得更多的用户点击。上述影响可以称为位置偏置(PositionBias)。位置偏置的存在,增大了利用点击数据准确获得信息相关性的难度。
近年来,业界提出了各种点击模型,以消除位置偏置对基于历史点击数据进行信息相关性分析的影响。点击模型是基于历史点击数据统计用户对信息展示结果的点击行为的概率模型。这些点击模型都基于一个最基本的前提假设:查看假设(ExaminationHypothesis),即如果用户查看了某一位置上的信息,那么其点击该信息的概率为一个仅依赖于检索词和该信息的定值。根据这一假设,靠后位置展示的信息,其点击率较小是由于其被用户查看的概率较小。代表性的点击模型包括查看模型(ExaminationModel)、用户浏览模型(UserBrowsingModel,UBM)和贝叶斯浏览模型(BaysianBrowsingModel,BBM)。查看模型(ExaminationModel)假设用户查看某一位置上的信息的概率依赖于该位置;UBM进而假设用户查看某一位置上的信息的概率不仅依赖于该位置,还依赖于同一信息展示结果中前一次的点击位置。由于相关性和查看事件的耦合,使得在UBM中信息相关性的后验分布不可解,只能采用迭代算法(例如坐标下降法)估计UBM参数,获得信息相关性的后验分布。BBM在UBM中引入信息相关性的先验分布,利用查看、点击和相关性之间特定的条件独立性推导出信息相关性的后验分布的封闭公式,使得BBM训练可以只遍历一遍训练数据,大大提高了训练效率。
在点击模型中另一常用的假设是瀑布浏览前提假设(CascadeHypothesis),即用户按照由前到后顺序查看信息展示结果,其点击某一位置上的信息的概率依赖于同一展示展示结果中排在该信息之前的其他信息。代表性的点击模型包括点击链模型(ClickChainModel,CCM)和动态贝叶斯模型(DynamicBayesianModel,DBN)。在CCM中,假设某个信息展示位置上的信息被用户查看了,则该信息被用户点击的概率为其相关性,而用户继续查看下一条信息的概率为某一特定概率;如果该信息未被用户点击,则用户继续查看下一条信息的概率为另一依赖于其相关性的特定概率。在DBN中,将信息相关性区分为其对用户的吸引度和用户对其的满意度。用户是否点击信息依赖于其对用户的吸引度,而用户是否继续查看下一条信息依赖于用户对其的满意度。
现有的各种点击模型存在如下技术问题:
基于瀑布浏览前提假设(CascadeHypothesis)的点击模型,例如CCM、DBN等,假设用户按照由前到后顺序查看信息展示结果。但是实际情况下,用户往往采用跳跃式的浏览方式,使得瀑布浏览前提假设的适用性减弱,进而影响点击模型的有效性。
不基于瀑布浏览前提假设(CascadeHypothesis)的点击模型,例如UBM,BBM等,假设用户查看某一位置上信息的概率仅与同一信息展示结果中前一次的点击位置相关。该假设虽然可以刻画用户采用跳跃式的浏览方式,但是无法刻画用户按照由前到后顺序查看的浏览方式。
可见,现有的各种点击模型均无法准确刻画用户的浏览方式,使得点击模型的有效性受到影响,从而导致信息展示结果的准确率和召回率较低。准确率(PrecisionRate)是指检索出的相关信息数与检索出的信息总数的比率,旨在衡量信息搜索引擎系统的查准率;召回率(RecallRate)是指检索出的相关信息数与信息库中所有的相关信息数的比率,旨在衡量信息搜索引擎系统的查全率。
发明内容
本申请实施例提供一种信息检索方法及信息搜索引擎系统,用以提升信息展示结果的准确率和召回率。
本申请实施例还相应提供一种信息排序装置。
本申请实施例提供的信息检索方法,包括:
根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合;
根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;
基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。
本申请实施例提供的信息搜索引擎系统,包括信息展示装置、信息库和信息排序装置,其中:
所述信息展示装置,用于根据用户发起的携带检索词的信息检索请求,从所述信息库中查询符合所述检索词的信息集合,以及将所述信息排序装置排序后得到的信息展示结果展现给用户;
所述信息库,用于存储待投放的信息;
所述信息排序装置,用于根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得。
本申请实施例提供的信息排序装置,包括:
确定单元,用于根据比较浏览模型CBM确定需要向用户展现的信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;
排序单元,用于基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果。
本申请实施例提供的信息检索方法及相关系统和装置,提供刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型CBM,该点击模型能够准确刻画用户实际采用的比较复杂的浏览方式,消除位置偏置对信息的点击率预估的影响,有效统计出信息的用户点击反馈作为进行信息相关性分析的依据,从而提升信息展示结果的准确率和召回率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中CBM的图模型表示示意图;
图2为本申请实施例中信息搜索引擎系统框图;
图3为本申请实施例中信息检索方法流程图;
图4为本申请实施例中信息排序装置框图。
具体实施方式
本申请实施例提供一种信息检索方法及相关系统和装置,通过提供能够准确刻画用户的浏览方式的点击模型,消除位置偏置对信息的点击率预估的影响,有效统计出信息的用户点击反馈作为进行信息相关性分析的依据,从而提升信息展示结果的准确率和召回率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请发明人通过研究发现,用户在浏览信息展示结果时,对信息的浏览方式并非简单的按照由前到后顺序查看,而是采用相对比较复杂的浏览方式,在查看某个位置上的信息时,用户会同时查看该位置的前方和/或后方的信息,进行比较后再进行点击。基于此,本申请实施例中提供一种新的点击模型,能够克服现有的各种点击模型无法准确刻画用户的浏览方式的缺点,合理刻画用户采用的上述相对比较复杂的浏览方式,消除位置偏置对信息的点击率预估的影响。本申请文件中,将该新的点击模型称为比较浏览模型(ComparativeBrowsingModel,CBM),CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型;将根据历史点击数据统计出的消除位置偏置影响的信息的点击率称为信息的用户点击反馈,用户点击反馈是信息的点击率预估的重要数据源。
下面从点击模型描述、点击模型推理、点击模型参数估计、点击模型训练等方面,对本申请实施例提供的点击模型CBM进行详细说明。
对于一个给定的检索词,令{I1,I2,I3,...,IN}表示该检索词对应的搜索会话,其中N为搜索会话的数目,每次搜索会话中向用户展现M条信息。假设信息库中存储有D条待投放的信息,对任一信息j,使用Rj表示其相关性的随机变量,其中j为信息库中信息的唯一标识。对任一搜索会话Ik,定义映射φk:如果信息j在第i个位置上展示,则φk(i)=j。为了表达方便,定义
1、CBM描述
点击模型CBM基于如下前提假设:
(1)用户按照由前到后顺序查看信息展示结果;
(2)用户查看某一位置i上的信息的概率,依赖于:
a、在位置i之前用户点击过的最下方一条信息的位置,即位置i之前的最后点击位置;和,
b、在位置i之后用户点击过的最上方一条信息的位置,即位置i之后的最前点击位置。
(3)如果用户查看了某条信息j,则其点击信息j的概率仅依赖于该信息本身。
点击模型CBM的图模型表示请参见图1,其中,C为表示用户点击的随机变量,E为表示用户查看的随机变量,S为表示信息相关性的随机变量,箭头表示随机变量之间的依赖关系。
点击模型CBM的概率公式,请参见公式[1]:
P(E1=1)=β0,1,M+1,-M
P(Ci=1|Ei=0,Si)=0
P(Ci=1|Ei=1,Si)=Si[1]
P ( E i = 1 | C 1 , . . . , C i - 1 , C i + 1 , . . . , C M ) = β p i , d i , q i , b i
其中,β为CBM参数,表示针对位置i而言,给定其他位置上用户的点击行为之后,用户查看位置i的概率;p表示位置i之前的最后点击位置,d=i-p表示当前位置与其之前的最后点击位置之间的距离,q表示位置i之后的最前点击位置,b=q-i表示当前位置与其之后的最前点击位置之间的距离。所有可能的组合τ=(p,d,q,b)可以表示为集合即τ表示历史点击数据中一种在不同信息展示位置上的点击分布情况,表示历史点击数据中所有点击分布情况的全集,如公式[2]所示:
2、CBM推理
根据贝叶斯原理,可以得到如下公式[3]:
P(R|C1:N)∝P(R)P(C1:N|R)∝P(C1:N|R)[3]
其中,∝表示正比于,R表示信息相关性,C1:N表示历史点击数据中N次搜索会话得到的各信息展示结果的用户点击情况。
假定R的先验分布已知,对任一检索会话Ik,满足如下公式[4]:
P ( C k | S k ) = Π i = 1 M P ( C i k | C 1 : i - 1 k , C i + 1 : M k , S k )
= Π i = 1 M P ( C i k | E i k , S i k ) P ( E i k | C 1 : i - 1 k , C i + 1 : M k ) - - - [ 4 ]
= Π i = 1 M ( β i k S i k ) C i k ( 1 - β i k S i k ) 1 - C i k
其中, β i k = β p i k , d i k , q i k , b i k .
P ( S i k ) = P ( R φ k ( i ) ) , 则得到公式[5]:
P ( C k | R ) = Π i = 1 M P ( C i k | R φ k ( 1 ) , R φ k ( 2 ) , . . . , R φ k ( M ) ) = Π i = 1 M ( β i k R φ k ( i ) ) C i k ( 1 - β i k R φ k ( i ) ) 1 - C i k - - - [ 5 ]
利用公式[5]计算公式[3],可以得到R的后验分布,如公式[6]所示:
P ( R | C 1 : N ) ∝ Π k = 1 N Π i = 1 M ( β i k R φ k ( i ) ) C i k ( 1 - β i k R φ k ( i ) ) 1 - C i k
∝ Π k = 1 N Π i = 1 M ( β i k ) C i k Π n = 1 N Π i = 1 M R φ k ( i ) C i k ( 1 - β i k R φ k ( i ) ) 1 - C i k - - - [ 6 ]
∝ Π k = 1 N Π i = 1 M R φ k ( i ) C i k ( 1 - β i k R φ k ( i ) ) 1 - C i k
在公式[6]中,为常数。注意到R={R1,R2,...,RN}相互独立,使得可以单独计算每个Rj。故P(Rj|C1:N)可以改写为如公式[7]所示:
其中τ=(p,d,q,b),Clickj表示历史点击数据中信息j的点击数,表示历史点击数据中信息j在点击分布情况为τ时的未点击数(即信息j展示但是未获得点击的次数)。
公式[7]给出了P(Rj|C1:N)未经归一化的封闭形式的表达式。利用数值积分可以计算出在Rj∈[0,1]上的数学期望μj及Rj的置信度σj,计算公式分别如公式[8]、公式[9]所示:
μ j = ∫ 0 1 P ( R j | C 1 : N ) dR j - - - [ 8 ]
σ j = ∫ μ j - 0.05 μ j + 0.05 P ( R j | C 1 : N ) dR j - - - [ 9 ]
在实践中可以使用μj作为信息j对应的用户点击反馈特征值,σj表示信息j对应的用户点击反馈特征值的置信度,并可以利用σj根据不同的置信度要求对信息j对应的用户点击反馈特征值进行过滤。
3、CBM参数估计
根据公式[5]可以得到如下公式[10]:
P ( C k ) = ∫ R k P ( ( C ) k | ( R ) k ) P ( R k ) d R k = Π i = 1 M ( β i / 2 ) C i k ( 1 - i β / 2 ) 1 - C i k - - - [ 10 ]
因此似然函数如公式[11]所示:
其中对其求导数,可以得到β的极大似然估计值如公式[12]所示:
Clickτ分别表示历史点击数据中在点击分布情况为τ时的点击数和未点击数。
4、CBM训练
点击模型的训练需要处理海量的历史点击数据。这些历史点击数据一般存储在分布式文件系统中。为了提高训练效率,可以采用并行的训练方式。使用分布式任务调度管理系统,例如MapReduce(映射化简)系统,可以有效的提高训练效率。MapReduce是一种分布式的用于处理大规模数据集的并行编程模型,通过定义相应的映射(Map)和归约(Reduce)函数即可实现分布式数据处理的功能。实现MapReduce编程模型的系统一般简称为MapReduce系统,包括调度节点和若干任务执行节点,其中:客户端(Client)用于将用户布置的并行处理作业(Job)提交至调度节点;调度节点自动将客户端提交的作业分解为多个具有相同处理功能(但输入数据可能不同)的Map任务和多个具有相同处理功能(但处理的数据可能不同)的Reduce任务,其中,Map任务的输出数据作为Reduce任务的输入数据,并将任务调度给任务执行节点;任务执行节点向调度节点请求任务并执行请求到的任务,任务执行节点在任务执行之后向调度节点上报状态信息。MapReduce系统的工作流程如下:客户端将用户布置的作业提交给MapReduce系统,MapReduce系统中的调度节点将作业分解为待执行的任务;任务执行节点具有一定的任务执行能力,体现为可执行任务数,当任务执行节点没有达到其任务执行能力时,即当前执行的任务数低于可执行任务数,任务执行节点会向调度节点请求任务,调度节点从分解出的任务中调度一个任务给任务执行节点执行。
基于上述点击模型CBM,本申请实施例提供了一种信息搜索引擎系统,该信息搜索引擎系统适用于电子商务、搜索引擎等各种类型的网站,尤其适用于针对广告信息的搜索需求。如图2所示,信息搜索引擎系统包括信息展示装置201、信息库202和信息排序装置203,其中:
信息展示装置201,用于根据用户发起的携带检索词的信息检索请求,从所述信息库中查询符合所述检索词的信息集合,以及将信息排序装置203排序后得到的信息展示结果展现给用户;
信息库202,用于存储待投放的信息;
信息排序装置203,用于根据CBM确定信息集合中各信息对应的用户点击反馈特征值,基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得。
基于上述信息搜索引擎系统,本申请实施例提供了一种信息检索方法,如图3所示,包括:
S301、根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合。
S302、根据CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;例如可以利用当前日期之前T日的历史点击数据,通过点击模型的训练得到CBM参数,从而可以在当前日期根据CBM确定信息集合中各信息对应的用户点击反馈特征值。
S303、基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。
具体实施中用户会浏览信息展示结果,如果对某些信息感兴趣,会通过点击该信息进入其登陆页面。信息搜索引擎系统会记录本次搜索会话的信息展示结果及其用户点击情况到日志、或数据库中。后续,本次搜索会话的信息展示结果及其用户点击情况可以作为下一次CBM训练的历史点击数据。
在S302的具体实施中,根据CBM确定所述信息集合中各信息对应的用户点击反馈特征值,具体通过公式实现,μj表示信息j对应的用户点击反馈特征值,Rj为表示信息相关性的随机变量,N表示历史点击数据中搜索会话的数目,C1:N表示历史点击数据中N次搜索会话得到的各信息展示结果的用户点击情况;其中:
为βτ的极大似然估计值,τ表示历史点击数据中一种在不同信息展示位置上的点击分布情况,表示历史点击数据中所有点击分布情况的全集,Clickτ分别表示历史点击数据中在点击分布情况为τ时的点击数和未点击数,Clickj分别表示历史点击数据中信息j的点击数和未点击数,Clickj,τ分别表示历史点击数据中信息j在点击分布情况为τ时的点击数和未点击数,∝表示正比于。
在S302的具体实施中,所述基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,可以通过如下方式实现。
可以仅根据信息集合中各信息对应的用户点击反馈特征值进行信息的排序。具体的:
方式一、
按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序。
方式二、
从所述信息集合中筛选出用户点击反馈特征值不低于设定阈值的信息(为了便于区分,称为第一阈值),并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序。
也可以根据信息的质量评价值进行信息的排序。确定信息的质量评价值需要综合多个质量评价特征。综合至少两个质量评价特征确定信息的质量评价值时,需要预设每个质量评价特征所占的权重,可以过机器学习和其他方式可以确定每个质量评价特征所占的权重。用户点击反馈特征是一种重要的质量评价特征,其他质量评价特征可以为文本相关性特征等,现有技术中已经有确定其他质量评价特征值的方法,本申请文件中不再赘述。具体的:
方式三
根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序。
方式四
根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;
从所述信息集合中筛选出质量评价值不低于设定阈值的信息(为了便于区分,称为第二阈值),并按照质量评价值从高到低的顺序,对筛选出的信息进行排序。
较佳的,方式三和方式四中,可以选取用户点击反馈特征值的置信度作为用户点击反馈特征值所占的权重,具体通过公式实现,σj表示信息j对应的用户点击反馈特征值的置信度。
下面对信息搜索引擎系统中,信息排序装置的结构和功能进行详细介绍,由于该信息排序装置解决问题的原理与信息检索方法相似,因此该信息排序装置的实施可以参见方法的实施,重复之处不再赘述。该信息排序装置的结构示意图,如图4所示,包括:
确定单元401,用于根据CBM确定需要向用户展现的信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;
排序单元402,用于基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果。
具体实施中,确定单元401,可以通过公式实现所述信息集合中各信息对应的用户点击反馈特征值的确定。
排序单元402的一种较佳实施方式,具体用于按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出用户点击反馈特征值不低于设定的第一阈值的信息,并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果。
排序单元402的另一种较佳实施方式,具体可以包括:
获取子单元421,用于获取信息集合中各信息对应的其他质量评价特征值、以及每个质量评价特征所占的权重;
确定子单元422,用于根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;
排序子单元423,用于按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出质量评价值不低于设定的第二阈值的信息,并按照质量评价值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果。
较佳的,用户点击反馈特征值所占的权重为用户点击反馈特征值的置信度,则获取子单元421,可以通过公式实现用户点击反馈特征值所占的权重的获取。
本申请实施例提供的信息检索方法及相关系统和装置,提供刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型CBM,该点击模型能够准确刻画用户实际采用的比较复杂的浏览方式,消除位置偏置对信息的点击率预估的影响,有效统计出信息的用户点击反馈作为进行信息相关性分析的依据,从而提升信息展示结果的准确率和召回率。
本领域的技术人员应该明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例、以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种信息检索方法,其特征在于,包括:
根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合;
根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;
基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。
2.如权利要求1所述的方法,其特征在于,所述根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,具体通过公式实现,μj表示信息j对应的用户点击反馈特征值,Rj为表示信息相关性的随机变量,N表示历史点击数据中搜索会话的数目,C1:N表示历史点击数据中N次搜索会话得到的各信息展示结果的用户点击情况;其中:
为βτ的极大似然估计值,τ表示历史点击数据中一种在不同信息展示位置上的点击分布情况,表示历史点击数据中所有点击分布情况的全集,Clickτ分别表示历史点击数据中在点击分布情况为τ时的点击数和未点击数,Clickj分别表示历史点击数据中信息j的点击数和未点击数,Clickj,τ分别表示历史点击数据中信息j在点击分布情况为τ时的点击数和未点击数,∝表示正比于。
3.如权利要求2所述的方法,其特征在于,所述基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,具体包括:
按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序;或者,
从所述信息集合中筛选出用户点击反馈特征值不低于设定的第一阈值的信息,并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序。
4.如权利要求2所述的方法,其特征在于,所述基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,具体包括:
根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;
按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序;或者,从所述信息集合中筛选出质量评价值不低于设定的第二阈值的信息,并按照质量评价值从高到低的顺序,对筛选出的信息进行排序。
5.如权利要求4所述的方法,其特征在于,用户点击反馈特征值所占的权重为所述用户点击反馈特征值的置信度,具体通过公式实现,σj表示信息j对应的用户点击反馈特征值的置信度。
6.如权利要求1所述的方法,其特征在于,所述CBM参数由分布式任务调度管理系统采用并行的训练方式获得。
7.一种信息搜索引擎系统,其特征在于,包括信息展示装置、信息库和信息排序装置,其中:
所述信息展示装置,用于根据用户发起的携带检索词的信息检索请求,从所述信息库中查询符合所述检索词的信息集合,以及将所述信息排序装置排序后得到的信息展示结果展现给用户;
所述信息库,用于存储待投放的信息;
所述信息排序装置,用于根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得。
8.一种信息排序装置,其特征在于,包括:
确定单元,用于根据比较浏览模型CBM确定需要向用户展现的信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;
排序单元,用于基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果。
9.如权利要求8所述的装置,其特征在于,
所述确定单元,具体用于通过公式实现所述信息集合中各信息对应的用户点击反馈特征值的确定,μj表示信息j对应的用户点击反馈特征值,Rj为表示信息相关性的随机变量,N表示历史点击数据中搜索会话的数目,C1:N表示历史点击数据中N次搜索会话得到的各信息展示结果的用户点击情况;其中:
为βτ的极大似然估计值,τ表示历史点击数据中一种在不同信息展示位置上的点击分布情况,表示历史点击数据中所有点击分布情况的全集,Clickτ分别表示历史点击数据中在点击分布情况为τ时的点击数和未点击数,Clickj分别表示历史点击数据中信息j的点击数和未点击数,Clickj,τ分别表示历史点击数据中信息j在点击分布情况为τ时的点击数和未点击数,∝表示正比于。
10.如权利要求9所述的装置,其特征在于,
所述排序单元,具体用于按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出用户点击反馈特征值不低于设定的第一阈值的信息,并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果。
11.如权利要求9所述的装置,其特征在于,所述排序单元,具体包括:
获取子单元,用于获取信息集合中各信息对应的其他质量评价特征值、以及每个质量评价特征所占的权重;
确定子单元,用于根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;
排序子单元,用于按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出质量评价值不低于设定的第二阈值的信息,并按照质量评价值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果。
12.如权利要求11所述的装置,其特征在于,
所述获取子单元,具体用于通过公式实现用户点击反馈特征值所占的权重的获取,σj表示信息j对应的用户点击反馈特征值的置信度,用户点击反馈特征值所占的权重为所述用户点击反馈特征值的置信度。
CN201110363304.0A 2011-11-16 2011-11-16 一种信息检索方法及相关系统和装置 Active CN103116582B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110363304.0A CN103116582B (zh) 2011-11-16 2011-11-16 一种信息检索方法及相关系统和装置
HK13108717.0A HK1181504A1 (zh) 2011-11-16 2013-07-25 種信息檢索方法及相關系統和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110363304.0A CN103116582B (zh) 2011-11-16 2011-11-16 一种信息检索方法及相关系统和装置

Publications (2)

Publication Number Publication Date
CN103116582A CN103116582A (zh) 2013-05-22
CN103116582B true CN103116582B (zh) 2016-03-02

Family

ID=48414959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110363304.0A Active CN103116582B (zh) 2011-11-16 2011-11-16 一种信息检索方法及相关系统和装置

Country Status (2)

Country Link
CN (1) CN103116582B (zh)
HK (1) HK1181504A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753601A (zh) * 2018-11-28 2019-05-14 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750713A (zh) * 2013-12-27 2015-07-01 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
CN103955480B (zh) * 2014-04-02 2018-08-10 百度在线网络技术(北京)有限公司 一种用于确定用户所对应的目标对象信息的方法与设备
CN105512156B (zh) * 2014-10-20 2020-02-07 腾讯科技(深圳)有限公司 点击模型生成方法和装置
CN104657415A (zh) * 2014-11-28 2015-05-27 百度在线网络技术(北京)有限公司 一种用于展示点击结果页面的方法与设备
CN104503833A (zh) * 2014-12-22 2015-04-08 广州唯品会网络技术有限公司 任务调度优化方法及装置
CN108335137B (zh) * 2018-01-31 2021-07-30 北京三快在线科技有限公司 排序方法及装置、电子设备、计算机可读介质
CN111782926B (zh) * 2019-04-04 2024-04-09 北京沃东天骏信息技术有限公司 用于数据交互的方法、装置、存储介质及电子设备
CN110674399B (zh) * 2019-09-10 2023-04-07 北京字节跳动网络技术有限公司 确定搜索项目的顺序的方法和装置
CN111078848A (zh) * 2019-11-29 2020-04-28 支付宝(杭州)信息技术有限公司 一种用于对话机器人的输入提示方法及装置
CN111797312B (zh) * 2020-06-22 2024-03-01 北京三快在线科技有限公司 模型训练的方法及装置
CN113343046B (zh) * 2021-05-20 2023-08-25 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN113468235B (zh) * 2021-05-31 2023-05-09 北京达佳互联信息技术有限公司 信息获取方法、装置、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983214A (en) * 1996-04-04 1999-11-09 Lycos, Inc. System and method employing individual user content-based data and user collaborative feedback data to evaluate the content of an information entity in a large information communication network
CN101256573A (zh) * 2008-04-01 2008-09-03 天津大学 基于内容相关性的反馈式搜索方法及内容相关方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983214A (en) * 1996-04-04 1999-11-09 Lycos, Inc. System and method employing individual user content-based data and user collaborative feedback data to evaluate the content of an information entity in a large information communication network
CN101256573A (zh) * 2008-04-01 2008-09-03 天津大学 基于内容相关性的反馈式搜索方法及内容相关方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753601A (zh) * 2018-11-28 2019-05-14 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备
CN109753601B (zh) * 2018-11-28 2021-10-22 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN103116582A (zh) 2013-05-22
HK1181504A1 (zh) 2013-11-08

Similar Documents

Publication Publication Date Title
CN103116582B (zh) 一种信息检索方法及相关系统和装置
Cornesse et al. Is there an association between survey characteristics and representativeness? A meta-analysis
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
US10348550B2 (en) Method and system for processing network media information
CN103593353B (zh) 信息搜索方法、展示信息排序权重值确定方法及其装置
CN105678587B (zh) 一种推荐特征确定方法、信息推荐方法及装置
JP5078910B2 (ja) 観察したユーザの行動からの広告品質の推定
EP3617952A1 (en) Information search method, apparatus and system
US20110231256A1 (en) Automated building of a model for behavioral targeting
US8694374B1 (en) Detecting click spam
CN106251174A (zh) 信息推荐方法及装置
US10157351B1 (en) Persona based data mining system
CN101673385A (zh) 消费预估方法和装置
US20230281665A1 (en) Systems and methods for targeting bid and position for a keyword
US8346710B2 (en) Evaluating statistical significance of test statistics using placebo actions
US10089675B1 (en) Probabilistic matrix factorization system based on personas
CN110880127B (zh) 消费水平的预测方法、装置、电子设备及存储介质
US9875484B1 (en) Evaluating attribution models
WO2019194868A1 (en) Allocating resources in response to estimated completion times for requests
US11983089B2 (en) Contribution incrementality machine learning models
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
US20130080247A1 (en) Ad Placement
JP6678666B2 (ja) ランキング関数のオフライン評価
CN103309894A (zh) 基于用户属性的搜索实现方法及系统
CN104050197A (zh) 一种信息检索系统评测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181504

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant