CN107423298B - 一种搜索方法和装置 - Google Patents
一种搜索方法和装置 Download PDFInfo
- Publication number
- CN107423298B CN107423298B CN201610346575.8A CN201610346575A CN107423298B CN 107423298 B CN107423298 B CN 107423298B CN 201610346575 A CN201610346575 A CN 201610346575A CN 107423298 B CN107423298 B CN 107423298B
- Authority
- CN
- China
- Prior art keywords
- query
- search
- click
- current
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本发明提供了一种搜索方法和装置,其中方法包括:获取用户输入的当前query;依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。通过本发明能够使得搜索结果更加准确地满足用户的搜索需求。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种搜索方法和装置。
【背景技术】
随着计算机技术的迅猛发展和普及,人们越来越多的使用搜索引擎来进行信息获取,用户通过在搜索框输入搜索关键词,搜索引擎就能够向用户返回与该搜索关键词匹配的搜索结果。然而,现有搜索方式在向用户返回搜索结果时,大多基于用户的共同需求,搜索结果页中满足大多数用户需求的搜索结果排次会更靠前。例如,用户输入搜索关键词“陈赫”,大多数用户要找的是陈赫的百科,因此陈赫的百科页面会排在靠前的位置。
然而,大多数用户的搜索需求并不一定是当前用户的搜索需求,例如用户上一次输入的搜索关键词为“邓超微博”,当前输入的搜索关键词为“陈赫”,那么该用户很大的概率要找的是陈赫的微博,而不是陈赫的百科。因此,现有的搜索方式对于用户搜索需求定位的准确性有待提高。
【发明内容】
有鉴于此,本发明提供了一种搜索方法和装置,使得搜索结果更加准确地满足用户的搜索需求。
具体技术方案如下:
本发明提供了一种搜索方法,该方法包括:
获取用户输入的当前query;
依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
根据本发明一优选实施方式,当前query的上一query通过以下方式确定:
从当前query所对应搜索结果页的url参数中的oq字段或rq字段,确定上一query;或者,
从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
根据本发明一优选实施方式,依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序包括:
查询点击概率模型,确定所述上一query条件下所述当前query在本次搜索得到的各搜索结果的点击概率,其中所述点击概率模型是利用历史搜索日志中所述上一query条件下当前query对应的各搜索结果的点击状况训练得到的;
依据点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
根据本发明一优选实施方式,所述点击概率模型包括:
各网页的点击概率与网页特征之间的关系;
其中,所述网页特征包括用户偏好特征,或者所述网页特征包括用户偏好特征与非用户偏好特征。
根据本发明一优选实施方式,所述用户偏好特征包括:网页的点检率或点展率;
其中所述点检率为网页在搜索结果页中的点击次数与浏览次数的比值,所述点展率为网页在搜索结果页中的点击次数与展现次数的比值。
根据本发明一优选实施方式,所述非用户偏好特征包括:网页在搜索结果页中的排次或者网页与对应query之间的匹配度。
根据本发明一优选实施方式,所述点击概率模型采用下述方式训练:
利用历史搜索日志中第一时间段内的数据生成网页特征向量;
利用所述历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。
根据本发明一优选实施方式,所述模型参数包括网页特征向量的权重。
根据本发明一优选实施方式,在利用历史搜索日志中第一时间段内的数据生成网页特征向量时,针对各网页分别执行:确定上一query和当前query条件下网页的用户偏好特征,以及当前query条件下网页的用户偏好特征;保留所确定出的两个用户偏好特征不同的网页;
利用保留的各网页生成所述网页特征向量。
根据本发明一优选实施方式,所述点击概率模型包括:
其中,P为网页的点击概率,x1为用户偏好特征向量,x2为非用户偏好特征向量,θ1和θ2分别为x1和x2的权重。
本发明还提供了一种搜索装置,该装置包括:
获取单元,用于获取用户输入的当前query;
排序单元,用于依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
根据本发明一优选实施方式,该装置还包括:
确定单元,用于采用以下方式确定当前query的上一query:
从当前query所对应搜索结果页的url参数中的oq字段或rq字段,确定上一query;或者,
从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
根据本发明一优选实施方式,所述排序单元具体包括:
查询子单元,用于查询点击概率模型,确定所述上一query条件下所述当前query在本次搜索得到的各搜索结果的点击概率,其中所述点击概率模型是利用历史搜索日志中所述上一query条件下当前query对应的各搜索结果的点击状况训练得到的;
排序子单元,用于依据点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
根据本发明一优选实施方式,所述点击概率模型包括:
各网页的点击概率与网页特征之间的关系;
其中,所述网页特征包括用户偏好特征,或者所述网页特征包括用户偏好特征与非用户偏好特征。
根据本发明一优选实施方式,所述用户偏好特征包括:网页的点检率或点展率;
其中所述点检率为网页在搜索结果页中的点击次数与浏览次数的比值,所述点展率为网页在搜索结果页中的点击次数与展现次数的比值。
根据本发明一优选实施方式,所述非用户偏好特征包括:网页在搜索结果页中的排次或者网页与对应query之间的匹配度。
根据本发明一优选实施方式,该装置还包括:
训练单元,用于利用历史搜索日志中第一时间段内的数据生成网页特征向量;利用所述历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。
根据本发明一优选实施方式,所述模型参数包括网页特征向量的权重。
根据本发明一优选实施方式,所述训练单元在利用历史搜索日志中第一时间段内的数据生成网页特征向量时,针对各网页分别执行:确定上一query和当前query条件下网页的用户偏好特征,以及当前query条件下网页的用户偏好特征,保留所确定出的两个用户偏好特征不同的网页,以利用保留的各网页生成所述网页特征向量。
根据本发明一优选实施方式,所述点击概率模型包括:
其中,P为网页的点击概率,x1为用户偏好特征向量,x2为非用户偏好特征向量,θ1和θ2分别为x1和x2的权重。
由以上技术方案可以看出,本发明根据历史搜索日志中上一query条件下当前query对应的各搜索结果的点击概率,确定当前query在本次搜索得到的各搜索结果的排序,使得搜索结果更加准确地满足用户的搜索需求。
【附图说明】
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明的核心思想在于,获取到用户输入的当前query后,依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定当前query在本次搜索得到的各搜索结果的排序。
在本发明实施例中,可以依据历史搜索日志建立点击概率模型,通过查询点击概率模型就能够确定上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率。也就是说,本发明提供的方法可以包括两个阶段,一个是模型建立阶段,另一个是模型使用阶段,即实现搜索的阶段。但需要说明的是,模型的建立与搜索的实现是分离的,可以理解为模型建立阶段为线下过程,实现搜索的阶段为线上过程,并且模型的建立是周期性地、不断更新的。下面结合图1所示实施例对本发明提供的方法进行详细描述。
图1为本发明实施例提供的一种方法流程图,如图1中所示,该方法可以具体包括以下步骤:
在101中,利用历史搜索日志中第一时间段内的数据生成网页特征向量。
在本实施例中,步骤101和步骤102为模型建立阶段的实现,为了方便理解,首先对本发明实施例中涉及的点击概率模型进行描述。点击概率模型体现了各网页的点击概率与网页特征之间的关系,最终达到的效果是,通过查询点击概率模型就能够得到上一query条件下当前query对应的各搜索结果的点击概率。
其中网页特征可以包括用户偏好特征,该用户偏好特征体现了在上一query和当前query条件下,用户对搜索结果页中该网页的偏好程度,通常用户对网页的偏好程度越高,对该网页的点击概率就越大。可以采用点检率或者点展率等作为用户偏好特征。
所谓点检率指的是网页在搜索结果页中的点击次数与浏览次数的比值。点击次数比较容易理解,若用户在搜索结果页中点击了某url,则该url就被点击一次。搜索结果页中的某url是否被浏览可以通过用户点击行为反应,可以确定在搜索结果页中用户点击的排次最靠后的url,该url之前的所有url都可以认为被浏览过一次。在确定url的点检率时,可以统计上一query和当前query条件下,各url在所有搜索结果中的点击次数和浏览次数,然后利用点击次数和浏览次数的比值分别确定各url的点检率。
所谓点展率指的是网页在搜索结果页中的点击次数与展现次数的比值。只要某url在搜索结果页中被展现过,则认为该url被展现过一次。在确定url的点展率时,可以统计上一query和当前query条件下,各url在所有搜索结果中的点击次数和展现次数,然后利用点击次数和展现次数的比值分别确定各url的点展率。
另外,网页特征除了包括用户偏好特征之外,还可以包括非用户偏好特征,用以弱化用户偏好对点击概率的影响。其中非用户偏好特征可以采用网页在搜索结果页中的排次,或者网页与对应query之间的匹配度等。
该点击概率模型可以由上述网页特征和模型参数,通过特定的关系表达(即函数关系)来表征网页的点击概率。其中模型参数可以是各网页特征的权重。例如,点击概率可以体现为P=f(x1,θ1,x2,θ2),其中P为在上一query和当前query条件下url的点击概率,x1为上一query和当前query条件下的用户偏好特征向量,该用户偏好特征向量由上一query和当前query条件下各url的用户偏好特征构成,x2为上一query和当前query条件下的非用户偏好特征向量,该非用户偏好特征向量由上一query和当前query条件下各url的非用户偏好特征构成,θ1和θ2分别为x1和x2的权重。其中函数关系f()可以是线性关系,也可以是非线性关系,作为其中一种实现方式,可以采用以下函数关系:
在本步骤中,可以首先按照上一query和当前query作为条件,统计各url的点击次数和浏览次数(在此以点检率作为用户偏好特征为例,若以点展率作为用户偏好特征则统计展现次数,后续处理方式类似)。为了提高效率,在此可以仅保留浏览次数大于或等于预设浏览次数阈值的url用于网页特征向量的构建,其他的由于浏览次数很低,用户对其感兴趣的程度也较小,因此不用于模型的建立。举个例子,若以当前日期的前一天的之前17天作为第一时间段,则从这17天的历史搜索日志中,统计上一query和当前query条件下各url的点击次数和浏览次数,保留浏览次数大于或等于20的url,其他url过滤掉。
然后计算上一query和当前query条件下各url的点检率。更进一步地,可以依据该点检率对各url进行排序,然后在对当前query条件下各url的点检率进行计算,并依据点检率进行排序。若某url在两个排序中的位置一样,则说明上一query对当前query在该url上不产生影响,因此可以将该url也过滤掉。所谓当前query条件下的各url指的是不考虑上一query的限制,包括所有上一query以及没有上一query的情况。这一过程可以概括为:确定上一query和当前query条件下url的用户偏好特征,以及当前query条件下url的用户偏好特征,保留所确定出的两个用户偏好特征不同的url。后续,利用保留的url生成网页特征向量。
至此,利用保留的url可以生成点检率的向量,即用户偏好特征向量。还可以进一步统计保留的各url的排次(也可以是各url与对应query之间的匹配度),即确定保留的各url的非用户偏好特征向量。
另外,在该步骤中,在确定当前query的上一query时,可以采用但不限于以下方式:
第一种方式:从当前query所对应搜索结果页的url参数的oq字段,确定上一query。
如果是用户在搜索框中输入了query1后,主动在搜索框中又输入一个新的query2,那么在该query2所对应搜索结果页的url参数的oq字段中会携带query1的信息,那么query2的上一query为query1。
如果是用户在搜索框中输入了query1后,在query1的搜索结果页中点击了一个推荐资源(例如推荐的在线应用),那么在该推荐资源(推荐资源的名称为query2)对应的搜索结果页的url参数的oq字段中也会携带该query1的的信息,那么query2的上一query为query1。
第二种方式:从当前query所对应搜索结果页的url参数中的rq字段,确定上一query。
如果用户在搜索框中输入了query1后,在query1的搜索结果页中点击了相关搜索query2,那么在跳转到的query2的搜索结果页的url参数的rq字段中会携带query1的信息,那么query2的上一query为query1。
第三种方式:从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
通常浏览器在请求页面时,会在请求中包含referer,用以指明是从哪个网页链接过来的,也就是说,从包含当前query的搜索请求的referer中url参数的word字段携带有上一query的信息,当然前提是referer的url是提供搜索服务的主域,例如主域为“baidu.com”。
在102中,利用历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。
本步骤中涉及的第二时间段和第一时间段并没有必然的关系,两者可以是有重叠的,也可以是不相互重叠的。例如,以当前日期的前一天的之前17天作为第一时间段生成网页特征向量,以当前日期的前一天的数据作为训练样本,训练点击概率模型。
在训练样本中,若在上一query条件下当前query对应的搜索结果中,某url被点击,则该url的点击概率为1,若未被点击,则该url的点击概率为0,利用已经生成的特征向量进行训练。假设点击概率模型为P=f(x1,θ1,x2,θ2),利用生成的x1和x2以及训练数据进行训练后,就可以得到x1和x2的权重θ1和θ2。
为了更清晰地理解该点击概率模型,举一个实例:
从历史搜索日志中第一时间段内的数据进行统计,可以得到如表1中所示的数据,由于统计得到的数据很多,表1中仅截取其中一部分。
表1
在表1中,搜索结果中的各网页可以用url标识,也可以用资源标识来表示。从表1中可以看出,当前query同样是“安东尼”,由于上一query的不同,同一个网页被用户点击或浏览的情况是不同的,例如资源标识为“91”的网页,上一query为“韦德”时,被浏览了178次,被点击了29次;上一query为“陪安东尼度过漫长岁月”(这是一个小说的名称)时,被浏览了2429次,被点击了2286次。显然当用户先输入“陪安东尼度过漫长岁月”,后输入“安东尼”时,对该网页的点击概率更大,在后续出现这种情况时,应该将其在搜索结果中的排序更靠前。
将第二时间段的数据作为训练样本进行训练后,最终得到的点击概率模型可以包含如下表2所示的数据:
表2
表2中,页面特征为中“:”之前的数字为页面特征值,“:”之后的数字为页面特征标识,例如表2中“72”、“26”和“71”分别用于标识不同的页面特征,即分别为“点检率离散值_在搜索结果中的排次”、“在搜索结果中的排次”和“点检率离散值”这三种页面特征。其中点检率离散值指的是将点检率进行离散化后形成的值,例如将点检率离散化为0~20之间的整数值,当然也可以不进行离散化。另外,由于“在搜索结果中的排次”是非用户偏好特征,这一特征是为了弱化用户偏好特征对点击概率的影响,因此从表2中可以看出,其权重值为负值。
至此,点击概率模型建立完毕,对于上一query和当前query的组合条件,各url都存在对应的点击概率。下面的步骤为实现搜索的线上阶段。
在103中,获取用户输入的当前query,并利用当前query进行搜索匹配,得到各搜索结果。
在104中,查询点击概率模型,确定上一query条件下该当前query在本次搜索得到的各搜索结果的点击概率。
假设用户当前输入了query2,其上一次输入的query为query1,那么查询点击概率模型,确定query1为query2的上一query条件下,query2本次搜索得到的各搜索结果的点击概率。
在105中,依据点击概率,确定当前query本次搜索得到的各搜索结果的排序。
在本步骤中,可以将点击概率作为对搜索结果进行排序的因素之一,例如,如果原来搜索结果排序是按照各搜索结果与当前query之间的文本相似度排序,那么可以加入点击概率的因素,将文本相似度与点击概率采用诸如加权的方式确定各搜索结果的排序分值,然后依据排序分值进行排序。相同文本相似度情况下,点击概率越高的搜索结果排次越高。
或者,也可以将原本得到的搜索结果页中各搜索结果依据点击概率相应提高或者降低其在搜索结果页中的排序。例如,可以将点击概率划分成几个等级,比如点击概率高于80%的属于第一等级,处于60%~80%的属于第二等级,处于30~60%的属于第三等级,低于30%的属于第四等级,然后将点击概率处于第一等级的url的排次提高n1位,将处于第二等级的url的排次提高n2位,n1>n2,处于第三等级的url的排次不变,处于第四等级的url的排次降低n3位。
以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
图2为本发明实施例提供的装置结构图,该装置可以设置于提供搜索服务的服务器端,如图2所示,该装置可以包括:获取单元10和排序单元20,还可以进一步包括确定单元30和训练单元40。
获取单元10负责获取用户输入的当前query。服务器端的搜索引擎会利用当前query在搜索数据库中进行搜索,搜索匹配方式在本发明并不并加以限制,本发明仅仅利用搜索得到的搜索结果,并对其进行排序调整。
排序单元20负责依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定当前query在本次搜索得到的各搜索结果的排序。
确定单元30负责确定当前query的上一query,可以采用但不限于以下方式:
第一种方式:从当前query所对应搜索结果页的url参数的oq字段,确定上一query。
第二种方式:从当前query所对应搜索结果页的url参数中的rq字段,确定上一query。
第三种方式:从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
其中,排序单元20可以具体包括:查询子单元21和排序子单元22。
查询子单元21负责查询点击概率模型,确定上一query条件下当前query在本次搜索得到的各搜索结果的点击概率,其中点击概率模型是利用历史搜索日志中上一query条件下当前query对应的各搜索结果的点击状况训练得到的。
点击概率模型包括:各网页的点击概率与网页特征之间的关系。其中,网页特征包括用户偏好特征,或者网页特征包括用户偏好特征与非用户偏好特征。
用户偏好特征可以包括:网页的点检率或点展率等。其中点检率为网页在搜索结果页中的点击次数与浏览次数的比值,点展率为网页在搜索结果页中的点击次数与展现次数的比值。非用户偏好特征包括:网页在搜索结果页中的排次或者网页与对应query之间的匹配度等。关于上述特征的具体描述可以参见上述方法实施例,在此不再赘述。
该点击概率模型可以由上述网页特征和模型参数,通过特定的关系表达(即函数关系)来表征网页的点击概率。其中模型参数可以是各网页特征的权重。例如,点击概率可以体现为P=f(x1,θ1,x2,θ2),其中P为在上一query和当前query条件下url的点击概率,x1为上一query和当前query条件下的用户偏好特征向量,该用户偏好特征向量由上一query和当前query条件下各url的用户偏好特征构成,x2为上一query和当前query条件下的非用户偏好特征向量,该非用户偏好特征向量由上一query和当前query条件下各url的非用户偏好特征构成,θ1和θ2分别为x1和x2的权重。其中函数关系f()可以是线性关系,也可以是非线性关系,作为其中一种实现方式,可以采用以下函数关系:
排序子单元22负责依据点击概率,确定当前query在本次搜索得到的各搜索结果的排序。具体地,可以将点击概率作为对搜索结果进行排序的因素之一,例如,如果原来搜索结果排序是按照各搜索结果与当前query之间的文本相似度排序,那么可以加入点击概率的因素,将文本相似度与点击概率采用诸如加权的方式确定各搜索结果的排序分值,然后依据排序分值进行排序。相同文本相似度情况下,点击概率越高的搜索结果排次越高。或者,也可以将原本得到的搜索结果页中各搜索结果依据点击概率相应提高或者降低其在搜索结果页中的排序。
上述的点击概率模型由训练单元40训练得到。训练单元40可以利用历史搜索日志中第一时间段内的数据生成网页特征向量;利用历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。其中第二时间段和第一时间段并没有必然的关系,两者可以是有重叠的,也可以是不相互重叠的。例如,以当前日期的前一天的之前17天作为第一时间段生成网页特征向量,以当前日期的前一天的数据作为训练样本,训练点击概率模型。
对于历史搜索日志中上一query的确定也可以由确定单元30实现,并提供给训练单元40。
训练单元40在利用历史搜索日志中第一时间段内的数据生成网页特征向量时,可以针对各网页分别执行:确定上一query和当前query条件下网页的用户偏好特征,以及当前query条件下网页的用户偏好特征,保留确定的两个用户偏好特征不同的网页,以利用保留的各网页生成网页特征向量。例如,可以依据该点检率对各url进行排序,然后在对当前query条件下各url的点检率进行计算,并依据点检率进行排序。若某url在两个排序中的位置一样,则说明上一query对当前query在该url上不产生影响,因此可以将该url也过滤掉。所谓当前query条件下的各url指的是不考虑上一query的限制,包括所有上一query以及没有上一query的情况。
针对本发明上述实施例所产生的效果,在此举几个实例:
若用户输入的上一query为“韦德”,输入的当前query为“安东尼”,由于历史搜索日志中,当用户输入“韦德”后又输入“安东尼”时,在搜索结果中点击安东尼作为篮球运动员的url的概率很高,因此这些url在本次搜索的搜索结果中排序靠前。
若用户输入的上一query为“陪安东尼度过漫长岁月”,输入的当前query为“安东尼”,由于历史搜索日志中,当用户输入“陪安东尼度过漫长岁月”后又输入“安东尼”时,在搜索结果中点击与作家相关的url的概率很高,因此这些url在本次搜索的搜索结果中排序靠前。
若用户输入的上一query为“王菲”,输入的当前query为“红豆”,由于历史搜索日志中,用户输入“王菲”后又输入“红豆”时,在搜索结果中点击红豆作为一首歌曲的url的概率很高,因此将这些url在本次搜索的搜索结果中排序靠前。
若用户输入的上一query为“黑豆”,输入的当前query为“红豆”,由于历史搜索日志中,用户输入“黑豆”后又输入“红豆”时,在搜索结果中点击红豆作为一种食物的url的概率很高,因此将这些url在本次搜索的搜索结果中排序靠前。
若用户输入的上一query为“邓超微博”,输入的当前query为“陈赫”,由于历史搜索日志中,用户输入“邓超微博”后又输入“陈赫”时,在搜索结果中点击陈赫微博的url的概率很高,因此可以将该url在本次搜索的搜索结果中排序靠前。
若用户输入的上一query为“邓超”,输入的当前query为“陈赫”,由于历史搜索日志中,用户输入“邓超”后又输入“陈赫”时,在搜索结果中点击陈赫与跑男相关的url的概率很高,因此可以将该url在本次搜索的搜索结果中排序靠前。
可以看出,这种方式即便用户输入的上一query和当前query并没有语义上的相关性,也能够找出两者的关联,并在搜索结果中体现出用户的偏好。并且对于当前query存在多种语义时,也能够基于上一query很好地区分出用户的需求。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种搜索方法,其特征在于,该方法包括:
获取用户输入的当前query;
依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
2.根据权利要求1所述的方法,其特征在于,当前query的上一query通过以下方式确定:
从当前query所对应搜索结果页的url参数中的oq字段或rq字段,确定上一query;或者,
从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
3.根据权利要求1所述的方法,其特征在于,依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序包括:
查询点击概率模型,确定所述上一query条件下所述当前query在本次搜索得到的各搜索结果的点击概率,其中所述点击概率模型是利用历史搜索日志中所述上一query条件下当前query对应的各搜索结果的点击状况训练得到的;
依据点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
4.根据权利要求3所述的方法,其特征在于,所述点击概率模型包括:
各网页的点击概率与网页特征之间的关系;
其中,所述网页特征包括用户偏好特征,或者所述网页特征包括用户偏好特征与非用户偏好特征。
5.根据权利要求4所述的方法,其特征在于,所述用户偏好特征包括:网页的点检率或点展率;
其中所述点检率为网页在搜索结果页中的点击次数与浏览次数的比值,所述点展率为网页在搜索结果页中的点击次数与展现次数的比值。
6.根据权利要求4所述的方法,其特征在于,所述非用户偏好特征包括:网页在搜索结果页中的排次或者网页与对应query之间的匹配度。
7.根据权利要求4所述的方法,其特征在于,所述点击概率模型采用下述方式训练:
利用历史搜索日志中第一时间段内的数据生成网页特征向量;
利用所述历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。
8.根据权利要求7所述的方法,其特征在于,所述模型参数包括网页特征向量的权重。
9.根据权利要求7所述的方法,其特征在于,在利用历史搜索日志中第一时间段内的数据生成网页特征向量时,针对各网页分别执行:确定上一query和当前query条件下网页的用户偏好特征,以及当前query条件下网页的用户偏好特征;保留所确定出的两个用户偏好特征不同的网页;
利用保留的各网页生成所述网页特征向量。
11.一种搜索装置,其特征在于,该装置包括:
获取单元,用于获取用户输入的当前query;
排序单元,用于依据用户输入的上一query条件下当前query在历史搜索日志中对应的各搜索结果的点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:
确定单元,用于采用以下方式确定当前query的上一query:
从当前query所对应搜索结果页的url参数中的oq字段或rq字段,确定上一query;或者,
从包含当前query的搜索请求的referer中url参数的word字段,确定上一query。
13.根据权利要求11所述的装置,其特征在于,所述排序单元具体包括:
查询子单元,用于查询点击概率模型,确定所述上一query条件下所述当前query在本次搜索得到的各搜索结果的点击概率,其中所述点击概率模型是利用历史搜索日志中所述上一query条件下当前query对应的各搜索结果的点击状况训练得到的;
排序子单元,用于依据点击概率,确定所述当前query在本次搜索得到的各搜索结果的排序。
14.根据权利要求13所述的装置,其特征在于,所述点击概率模型包括:
各网页的点击概率与网页特征之间的关系;
其中,所述网页特征包括用户偏好特征,或者所述网页特征包括用户偏好特征与非用户偏好特征。
15.根据权利要求14所述的装置,其特征在于,所述用户偏好特征包括:网页的点检率或点展率;
其中所述点检率为网页在搜索结果页中的点击次数与浏览次数的比值,所述点展率为网页在搜索结果页中的点击次数与展现次数的比值。
16.根据权利要求14所述的装置,其特征在于,所述非用户偏好特征包括:网页在搜索结果页中的排次或者网页与对应query之间的匹配度。
17.根据权利要求14所述的装置,其特征在于,该装置还包括:
训练单元,用于利用历史搜索日志中第一时间段内的数据生成网页特征向量;利用所述历史搜索日志中第二时间段内的数据作为训练样本,训练点击概率模型,得到模型参数。
18.根据权利要求17所述的装置,其特征在于,所述模型参数包括网页特征向量的权重。
19.根据权利要求17所述的装置,其特征在于,所述训练单元在利用历史搜索日志中第一时间段内的数据生成网页特征向量时,针对各网页分别执行:确定上一query和当前query条件下网页的用户偏好特征,以及当前query条件下网页的用户偏好特征,保留所确定出的两个用户偏好特征不同的网页,以利用保留的各网页生成所述网页特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610346575.8A CN107423298B (zh) | 2016-05-24 | 2016-05-24 | 一种搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610346575.8A CN107423298B (zh) | 2016-05-24 | 2016-05-24 | 一种搜索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423298A CN107423298A (zh) | 2017-12-01 |
CN107423298B true CN107423298B (zh) | 2021-02-19 |
Family
ID=60422525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610346575.8A Active CN107423298B (zh) | 2016-05-24 | 2016-05-24 | 一种搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423298B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033140B (zh) * | 2018-06-08 | 2020-05-29 | 北京百度网讯科技有限公司 | 一种确定搜索结果的方法、装置、设备和计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103885950A (zh) * | 2012-12-19 | 2014-06-25 | 高德软件有限公司 | 一种获取缩略词与poi间对应关系的方法和装置 |
CN104102727A (zh) * | 2014-07-23 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 查询词的推荐方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419755B (zh) * | 2010-09-28 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 一种搜索结果的排序方法和装置 |
CN104778176A (zh) * | 2014-01-13 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 一种数据搜索处理方法及装置 |
CN104142999B (zh) * | 2014-08-01 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法及装置 |
-
2016
- 2016-05-24 CN CN201610346575.8A patent/CN107423298B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103885950A (zh) * | 2012-12-19 | 2014-06-25 | 高德软件有限公司 | 一种获取缩略词与poi间对应关系的方法和装置 |
CN104102727A (zh) * | 2014-07-23 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 查询词的推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107423298A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290927B2 (en) | Method and apparatus for rating user generated content in search results | |
US9507804B2 (en) | Similar search queries and images | |
US8301616B2 (en) | Search equalizer | |
US7617205B2 (en) | Estimating confidence for query revision models | |
US9009146B1 (en) | Ranking search results based on similar queries | |
CA2603673C (en) | Integration of multiple query revision models | |
US9418128B2 (en) | Linking documents with entities, actions and applications | |
US8332426B2 (en) | Indentifying referring expressions for concepts | |
US8762326B1 (en) | Personalized hot topics | |
US9177057B2 (en) | Re-ranking search results based on lexical and ontological concepts | |
US20060230005A1 (en) | Empirical validation of suggested alternative queries | |
WO2007062397A2 (en) | Inferring search category synonyms from user logs | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
JP2011238276A (ja) | ブログ文書のランク付け | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
CN109952571B (zh) | 基于上下文的图像搜索结果 | |
US11789946B2 (en) | Answer facts from structured content | |
US8364672B2 (en) | Concept disambiguation via search engine search results | |
CN112740202A (zh) | 使用内容标签执行图像搜索 | |
KR20100023630A (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
KR20120038418A (ko) | 탐색 방법 및 디바이스 | |
CN107423298B (zh) | 一种搜索方法和装置 | |
Kulkarni et al. | Information retrieval based improvising search using automatic query expansion | |
AU2011247862B2 (en) | Integration of multiple query revision models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |