CN105512156A

CN105512156A - 点击模型生成方法和装置

Info

Publication number: CN105512156A
Application number: CN201410560304.3A
Authority: CN
Inventors: 蒋雷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-10-20
Filing date: 2014-10-20
Publication date: 2016-04-20
Anticipated expiration: 2034-10-20
Also published as: CN105512156B

Abstract

本发明公开了一种点击模型生成方法和装置。其中，方法包括：分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合；计算多个历史点击信息集合之间的历史点击信息的重叠率；利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类；以及分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。通过本发明，解决了现有技术中通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为的技术问题，达到了基于不同地理区域的点击模型准确地预测用户的点击行为的效果。

Description

点击模型生成方法和装置

技术领域

本发明涉及搜索引擎领域，具体而言，涉及一种点击模型生成方法和装置。

背景技术

在互联网领域中，对于提供搜索服务的网站而言，搜索引擎系统能够根据用户输入的检索词来预测用户的点击行为。而这个过程中，点击模型起到了至关重要的作用。点击模型是对用户点击行为的建模，根据用户的历史点击信息，对用户的信物和行为进行建模，以对用户未来的点击行为进行预测，提高相关性。

然而，发明人发现，由于使用互联网的用户存在地域差异，不同地域的用户的历史点击行为也具有差异性，而现有搜索引擎中通常是利用用户行为来训练得到一个点击模型，这样，导致通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为。

针对现有技术中通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种点击模型生成方法和装置，以解决现有技术中通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为的技术问题。

根据本发明实施例的一个方面，提供了一种点击模型生成方法，包括：分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合；计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例；利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域；以及分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

根据本发明实施例的另一方面，还提供了一种点击模型生成装置，包括：第一获取单元，用于分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合；计算单元，用于计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示所述多个历史点击信息集合之间具有相同点击行为的比例；聚类单元，用于利用所述多个历史点击信息集合之间的历史点击信息的重叠率来对所述多个地理区域进行聚类，得到多个区域类，其中，所述多个区域类中的每一个区域类包括一个或者多个地理区域；以及生成单元，用于分别生成对应于所述多个区域类的点击模型，得到多个点击模型，所述多个点击模型与所述多个区域类一一对应。

根据本发明实施例，通过按照预先划分的多个地理区域对历史点击信息进行分类，得到对应于多个地理区域的多个历史点击信息集合，并利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，分别生成对应于多个区域类的点击模型，得到多个点击模型，其中，每个区域类对应一个点击模型，通过建立的点击模型，可以按照地域差异性来预测用户的点击行为，从而可以根据用户的位置信息准确地预测用户的点击行为，解决了现有技术中通过运行点击模型得到的搜索结果不能准确地预测用户的点击行为的技术问题，达到了基于不同地理区域的点击模型准确地预测用户的点击行为的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的点击模型生成方法的流程图；

图2是根据本发明实施例的一种可选的区域类的聚类流程图；

图3是根据本发明实施例优选的点击模型生成方法的流程图；

图4是根据本发明实施例的一种可选的模型参数优化流程图；

图5是根据本发明实施例的一种可选的硬件环境的示意图；

图6是根据本发明实施例的点击模型生成装置的示意图；以及

图7是根据本发明实施例的一种可选的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种点击模型生成方法，如图1所示，该方法包括：

步骤S102，分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。

用户的历史点击信息为用户通过点击行为产生的数据信息。其中，用户的点击行为包括但不限定于：用户的点击什么文档、点击发生的时间、文档当时的展现位置。上述行为均可以通过数据的形式体现，例如，在用户的点击日志中存在用于反映上述行为特征的数据信息。用户的历史点击信息可以是从用户的点击日志中获取。

多个历史点击信息集合与多个地理区域一一对应。预先划分的多个地理区域可以是行政区域，行政区域可以是以城市为粒度。多个历史点击信息集合中的每一个历史点击信息集合中包括与其对应的地理区域的用户的历史点击信息。

具体地，分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合可以是先获取用户的位置信息(例如精度与维度)，将用户对应到相应的地理区域中，然后再将获取各个地理区域的用户的历史点击信息，得到每个地理区域对应的历史点击信息集合。

步骤S104，计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。

由于一些不同地理区域之间，用户的点击行为会存在相似性，例如，在不同区域的用户对于同一个检索词的输出结果，点击了相同的文档，这即为重叠，表示该不同区域的用户具有相同的点击行为。当不同区域之间具有相同点击行为的比例即重叠率达到一定值时，则表明该不同区域之间用户点击行为的相似度比较高。

计算多个历史点击信息集合之间的历史点击信息的重叠率即计算多个历史点击信息集合对应的多个地理区域之间的用户点击行为的重叠率。

步骤S106，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。

聚类具体是指将物理或者抽象对象的集合分成由类似的对象组成的多个类的过程。在本发明实施例中，利用多个历史点击信息集合之间的重叠率将多个地理区域进行聚类，将具有用户点击行为相似性的地理区域合并到一个区域类中，当然，对于与其他地理区域不存在相似性的地理区域，则单独放在一个区域类中。

步骤S108，分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

在聚类得到多个区域类之后，利用每个区域类中用户的历史点击信息来生成点击模型。其中，每个区域类中用户的历史点击信息是由该区域类中的一个或者多个地理区域对应的历史点击信息集合得到。

下面通过本发明实施例的点击模型生成方法的应用场景来对本发明实施例进行描述。如表1所示：

表1

预先划分的地理区域包括：地理区域a、地理区域b、地理区域c、地理区域d、地理区域e和地理区域f，按照该地理区域对获取到的历史点击信息进行划分，依次得到历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E和历史点击信息集合F。

通过计算历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E和历史点击信息集合F之间的重叠率，确定地理区域a和地理区域b之间用户点击行为的相似度较高，地理区域c、地理区域d和地理区域e之间用户点击行为的相似度较高，则将地理区域a和地理区域b进行聚类，得到区域类X，对地理区域c、地理区域d和地理区域e进行聚类，得到区域类Y，地理区域f则单独作为一个区域类Z。

根据区域类X对应的历史点击信息集合A和历史点击信息集合B生成点击模型x，根据区域类Y对应的历史点击信息集合C、历史点击信息集合D和历史点击信息集合E生成点击模型y，根据区域类Z对应的历史点击信息集合F生成点击集合z。这样，当用户处于地理区域a或者b时，根据该用户的检索词，可以通过运行点击模型x来输出搜索结果，从而使得搜索结果满足在区域类X中所具有的特征，例如，当北京和天津划分到一个区域类中，而在该区域中，当用户输入检索词“包子”时，通常比较喜欢点击“狗不理包子”。那么，通过采用本发明实施例的点击模型的生成方法之后，当其他用户来到北京或者天津时，想关注一下北京或者天津的包子的情况，在输入检索词“包子”时，则运行北京和天津所在的区域类的点击模型，使得“狗不理包子”处于比较靠前的位置，从而避免出现“上海小笼包”的顺序比“狗不理包子”的顺序靠前的情况。

优选地，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类包括：判断重叠率是否超过预设阈值；以及将多个历史点击信息集合中重叠率超过预设阈值的历史点击信息集合对应的地理区域合并，得到多个区域类。

由于不同地理区域对应的历史点击信息集合或多或少都会有一定的重叠率，当重叠率较低时，可以认为重叠率低的地理区域之间的用户的点击行为相似性较低；当重叠率达到预设阈值即重叠率较高时，可以认为重叠率高的地理区域之间的用户的点击行为的相似性较高，这类情况下，可以将重叠率高的地理区域合并，最终得到多个区域类。其中，预设阈值可以通过预先设置。

具体地，如表1所示，计算多个历史点击信息集合的历史点击信息的重叠率可以是先对历史点击信息集合A、历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E和历史点击信息集合F中两两之间进行重叠率计算，例如，分别计算历史点击信息集合A与历史点击信息集合B、历史点击信息集合C、历史点击信息集合D、历史点击信息集合E、历史点击信息集合F之间的重叠率，分别计算历史点击信息集合B与历史点击信息集合C、历史点击信息集合D、历史点击信息集合E之间的重叠率，以此类推，直到计算出任意两个集合之间的重叠率，将重叠率超过预设阈值的地理区域合并，得到区域类X(包括地理区域a和地理区域b)、区域类Y(包括地理区域c、地理区域d和地理区域e)和区域类Z(包括地理区域z)。

可选地，本发明实施例可以采用如图2所示的方式来建立点击模型：

第一步：按区域分类。根据用户的位置信息(一般是经度与纬度)，将用户对应到相应的行政区域(即地理区域)上(一般用城市作为最小的行政区域)。如图2所示，用户包括用户1、用户2、用户3、用户4、用户5，区域包括区域1、区域2和区域3。按照区域将用户分类，其中，用户1、用户2被分到区域1中，用户3、用户4被分到区域2中，用户5分到区域3中。

第二步:将行政区域做聚类，将具有相似性的行政区域聚合为一类。判断相似性是以用户点击行为的重叠率为依据，例如在搜索“美容”时，发现在区域1的用户与区域2的用户都喜欢点某一个文档，这个含义就叫重叠，当在很多查询词上两个区域都有重叠率很高时就认为他们是相似的。例如，区域2和区域3之间相似，则将区域2和区域3合合并到类别2里，区域1单独作为一个类别1。

第三步:分别建立点击模型。对各个类别下得用户集合，收集他们的行为特征(包含并不限于:用户的点击什么文档，点击发生的时间，文档当时的展现位置)，建立点击模型。如图2所示，类别1建立点击模型1，类别2建立电点击模型2。在这基础上建立点击模型，通过模型能够计算出查询词和文档的相关度得分，利用该得分影响最终的排序。

优选地，在分别生成对应于多个区域类的点击模型，得到多个点击模型之后，点击模型生成方法还包括：获取预先生成的多组模型参数，多组模型参数为多个点击模型中目标点击模型的参数；分别利用多组模型参数运行目标点击模型，得到运行结果，运行结果包括用于反映运行目标点击模型得到的结果的质量值；以及从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

目标点击模型可以是生成的多个点击模型中的任意一个点击模型，多组模型参数可以是按照预设方式生成的参数，例如，根据点击模型的特征之间的权重生成的，或者是随机生成的参数。每一个点击模型都对应有其参数，该参数可以用于参与计算检索词与搜索结果的相关度得分，从而影响最终的搜索结果排序。因此模型参数的优化能够提高点击模型对用户的点击行为的准确性。

在获取到多组模型参数之后，分别利用该多组模型参数运行目标点击模型，得到运行结果，该运行结果包括用于反映运行目标点击模型得到的结果的质量值，例如DCG(英文全称是Discountedcumulativegain，它是一个衡量搜索引擎算法的指标)的值。每一组模型参数对应一个质量值，质量值用于衡量点击模型运行结果的优劣，质量值越高，表明结果越优。因此，从运行结果中选择质量值最高的模型参数作为目标点击模型的参数，从而实现对目标点击模型的参数优化，提高了点击模型的质量。

优选地，从运行结果中选择质量值最高的模型参数作为目标点击模型的参数包括：从运行结果中选择质量值最高的模型参数；生成与选择的模型参数对应的邻近参数，邻近参数为根据选择的模型参数生成的所述目标点击模型的参数；利用邻近参数运行目标点击模型，得到邻近参数对应的质量值；将邻近参数对应的质量值插入到运行结果；以及从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

从运行结果中选择质量值最高的模型参数可以是将运行结果中的质量值进行按照大小(从大到小或者从小到大)进行排序，得到质量值队列，从队列的质量值中选择质量值最高(头部或者尾部)，然后查找到与该质量值对应的模型参数。

选择的模型参数即质量值最高的模型参数，生成与该模型参数对应的邻近参数，该邻近参数可以是与质量值最高的模型参数比较接近的参数。可以根据预设设置的公式计算得到该邻近参数，该邻近参数中每个值与其在质量值最高的模型参数中对应的值相差较小。例如，当质量值最高的模型参数为(0.3，0.3，0.4)，则该模型参数的邻近参数可以是(0.25，0.35，0.45)。

在生成邻近参数之后，利用邻近参数运行目标点击模型，得到该邻近参数对应的治理那个值，然后将该质量值插入到利用多组模型参数运行目标点击模型的运行结果中，由于邻近参数相当于是原来运行结果中质量值最高的模型参数的微调，因此，利用该邻近参数运行目标点击模型得到的质量值与原来运行结果中质量值最高的模型参数对应的质量值相差很小，这样，当将邻近参数对应的质量值插入到原来的运行结果中后，该运行结果中质量值最高的模型参数可能会发生变化，从中选择质量值最高的模型参数作为目标点击模型最终的模型参数，从而达到进一步优化目标点击模型的参数的目的。

图3是根据本发明实施例优选的点击模型生成方法。

如图3所示，该方法包括：

步骤S302，分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。

步骤S304，计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。

步骤S306，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。

步骤S308，分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

步骤S310，获取预先生成的多组模型参数，多组模型参数为多个点击模型中目标点击模型的参数。

步骤S312，分别利用多组模型参数运行目标点击模型，得到运行结果，运行结果包括用于反映运行目标点击模型得到的结果的质量值。

步骤S314，从运行结果中选择质量值最高的模型参数。

步骤S316，生成与选择的模型参数对应的邻近参数，邻近参数为根据选择的模型参数生成的所述目标点击模型的参数。

步骤S318，利用邻近参数运行目标点击模型，得到邻近参数对应的质量值。

步骤S320，将邻近参数对应的质量值插入到运行结果。

其中，步骤S302至步骤S320已经在上述实施例中描述，这里不做赘述。

步骤S322，记录利用邻近参数运行目标点击模型的运行次数。

步骤S324，判断记录的运行次数是否达到预设次数。如果是，则执行步骤S326；反之，则返回执行步骤S314。

每利用邻近参数运行目标点击模型一次，记录的运行次数加1，如果未达到预设次数，则再生成一个邻近参数，利用再次生成的邻近参数运行目标点击模型，并将得到的质量值插入到运行结果中，如此循环预设次数后执行步骤S326。

步骤S326，将从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

本发明实施例中，采用循环的模式由质量值最高的模型参数生成邻近参数，并运行目标点击模型得到质量值，当达到预设次数时，质量值的增长变得很小，此时可以将最终运行结果中质量值最高的模型参数作为目标点击模型的参数，从而实现对目标点击模型的参数的进一步优化，提高用户点击行为的准确性。

下面以DCG值为例，结合图4来描述本发明实施例中对生成的点击模型的参数的优化方式。

可以用遗传算法的方式做参数迭代。假设优化的目标是提升排序的DCG(英文全称是Discountedcumulativegain，它是一个衡量搜索引擎算法的指标)，那么遗传算法的步骤为：

第一步：随机生成一批参数组合(例如500个)，将每组参数运行一次模型得到DCG值即DCG得分，并按照DCG降序排列得到参数待评估队列。一批参数组合包括：P(1)、P(2)……P(m)，其中，每一组参数包括参数f1、f2……fln。

第二步：多线程计算单元取出队列头部的那一组参数P(i)，生成它的邻近参数NewP(i)，将NewP(i)运行一次得到它的DCG值，然后将NewP(i)插入到参数待评估队列中，插入后也要保证是队列是降序排列。具体地，利用P(i)生成NewP(i)可以是采用爬山法，一种示例公式为：

NewP(i)＝P(i)*pow(10，3*(rand()-0.5))+0.01*(rand()％3-1)

第三步：重复第二步直到到达最高的重复次数，或者DCG的增长已经很小了。

这样，在重复一定次数后，将队列头部的那组参数作为点击模型最终的参数。

本发明实施例中，由于生成对应于多个区域类的多个点击模型，因此，参数优化时，每一个点击模型均可以参照目标点击模型的参数优化方式进行优化，这样则实现了对每个区域类的点击模型的参数优化。

可选地，在本实施例中，上述点击模型生成方法可以应用于如图5所示的硬件环境中，其中，该硬件环境包括一个或者多个服务器101和数据存数介质102。服务器101与数据存数介质102可通过网络连接，该网络包括但不限定与广域网、局域网等。

具体地，服务器101从数据存数介质102中分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合；服务器101计算多个历史点击信息集合之间的历史点击信息的重叠率；服务器101利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类；服务器101分别生成对应于多个区域类的点击模型，得到多个点击模型。

需要说明的是，本发明实施例的点击模型除了可以应用在搜索之外也可以应用于推荐系统，过程也是类似的，首先根据位置对用户聚类，在各个类别上再应用已有的推荐算法即可。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述点击模型生成方法的点击模型生成装置，如图6所示，该装置包括：第一获取单元10、计算单元20、聚类单元30和生成单元40。

第一获取单元10用于分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。

计算单元20用于计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。

聚类单元30用于利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。

生成单元40用于分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

优选地，聚类单元包括：第一判断模块，用于判断重叠率是否超过预设阈值；以及合并模块，用于将多个历史点击信息集合中重叠率超过预设阈值的历史点击信息集合对应的地理区域合并，得到多个区域类。

优选地，点击模型生成装置还包括：第二获取单元，用于在分别生成对应于多个区域类的点击模型，得到多个点击模型之后，获取预先生成的多组模型参数，多组模型参数为多个点击模型中目标点击模型的参数；运行单元，用于分别利用多组模型参数运行目标点击模型，得到运行结果，运行结果包括用于反映运行目标点击模型得到的结果的质量值；以及选择单元，用于从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

优选地，选择单元包括：第一选择模块，用于从运行结果中选择质量值最高的模型参数；生成模块，用于生成与选择的模型参数对应的邻近参数，邻近参数为根据选择的模型参数生成的目标点击模型的参数；运行模块，用于利用邻近参数运行目标点击模型，得到邻近参数对应的质量值；插入模块，用于将邻近参数对应的质量值插入到运行结果；以及第二选择模块，用于从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

优选地，选择单元还包括：记录模块，用于在将邻近参数对应的质量值插入到运行结果之后，记录利用邻近参数运行目标点击模型的运行次数；第二判断模块，用于判断记录的运行次数是否达到预设次数，其中，第一选择模块还用于如果判断出记录的运行次数未达到预设次数，则返回执行从运行结果中选择质量值最高的模型参数的步骤，第二选择模块还用于如果判断出记录的运行次数达到预设次数，则执行将从运行结果中选择质量值最高的模型参数作为目标点击模型的参数的步骤。

每利用邻近参数运行目标点击模型一次，记录的运行次数加1，如果未达到预设次数，则再生成一个邻近参数，利用再次生成的邻近参数运行目标点击模型，并将得到的质量值插入到运行结果中，则将从运行结果中选择质量值最高的模型参数作为目标点击模型的参数。

可选地，在本实施例中，上述点击模型生成装置可以应用于如图5所示的硬件环境中，其中，该硬件环境包括一个或者多个服务器101和数据存数介质102。服务器101与数据存数介质102可通过网络连接，该网络包括但不限定与广域网、局域网等。

实施例3

根据本发明实施例，还提供了一种用于实施上述点击模型生成方法的服务器，如图7所示，该服务器包括：处理器702、存储器704和网络接口706。本发明实施例的消息的处理装置可以由服务器来实现。

其中处理器702可以用于执行以下步骤：

步骤S31，分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。

步骤S33，计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。

步骤S35，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。

步骤S37，分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

处理器702获取的数据可以是从存储器704中读取。网络接口706用于接收用户输入的检索词，利用处理器702生成的点击模型对搜索结果进行相关性预测。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以存储用于执行本发明实施例1的点击模型生成方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于本发明实施例3中的处理器上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

步骤S41，分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于多个地理区域的多个历史点击信息集合。

步骤S43，计算多个历史点击信息集合之间的历史点击信息的重叠率，重叠率用于表示多个历史点击信息集合之间具有相同点击行为的比例。

步骤S45，利用多个历史点击信息集合之间的历史点击信息的重叠率来对多个地理区域进行聚类，得到多个区域类，其中，多个区域类中的每一个区域类包括一个或者多个地理区域。

步骤S47，分别生成对应于多个区域类的点击模型，得到多个点击模型，多个点击模型与多个区域类一一对应。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种点击模型生成方法，其特征在于，包括：

分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于所述多个地理区域的多个历史点击信息集合；

计算所述多个历史点击信息集合之间的历史点击信息的重叠率，所述重叠率用于表示所述多个历史点击信息集合之间具有相同点击行为的比例；

利用所述多个历史点击信息集合之间的历史点击信息的重叠率来对所述多个地理区域进行聚类，得到多个区域类，其中，所述多个区域类中的每一个区域类包括一个或者多个地理区域；以及

分别生成对应于所述多个区域类的点击模型，得到多个点击模型，所述多个点击模型与所述多个区域类一一对应。

2.根据权利要求1所述的点击模型生成方法，其特征在于，利用所述多个历史点击信息集合之间的历史点击信息的重叠率来对所述多个地理区域进行聚类，得到多个区域类包括：

判断所述重叠率是否超过预设阈值；以及

将所述多个历史点击信息集合中重叠率超过所述预设阈值的历史点击信息集合对应的地理区域合并，得到所述多个区域类。

3.根据权利要求1所述的点击模型生成方法，其特征在于，在分别生成对应于所述多个区域类的点击模型，得到多个点击模型之后，所述点击模型生成方法还包括：

获取预先生成的多组模型参数，所述多组模型参数为所述多个点击模型中目标点击模型的参数；

分别利用所述多组模型参数运行所述目标点击模型，得到运行结果，所述运行结果包括用于反映运行所述目标点击模型得到的结果的质量值；以及

从所述运行结果中选择质量值最高的模型参数作为所述目标点击模型的参数。

4.根据权利要求3所述的点击模型生成方法，其特征在于，从所述运行结果中选择所述质量值最高的模型参数作为所述目标点击模型的参数包括：

从所述运行结果中选择质量值最高的模型参数；

生成与选择的模型参数对应的邻近参数，所述邻近参数为根据所述选择的模型参数生成的所述目标点击模型的参数；

利用所述邻近参数运行所述目标点击模型，得到所述邻近参数对应的质量值；

将所述邻近参数对应的质量值插入到所述运行结果；以及

5.根据权利要求4所述的点击模型生成方法，其特征在于，在将所述邻近参数对应的质量值插入到所述运行结果之后，所述点击模型生成方法还包括：

记录利用邻近参数运行所述目标点击模型的运行次数；

判断记录的运行次数是否达到预设次数；

如果判断出记录的运行次数未达到所述预设次数，则返回执行从所述运行结果中选择质量值最高的模型参数的步骤；以及

如果判断出记录的运行次数达到所述预设次数，则执行将所述从所述运行结果中选择质量值最高的模型参数作为所述目标点击模型的参数的步骤。

6.一种点击模型生成装置，其特征在于，包括：

第一获取单元，用于分别获取预先划分的多个地理区域的用户的历史点击信息，得到对应于所述多个地理区域的多个历史点击信息集合；

计算单元，用于计算所述多个历史点击信息集合之间的历史点击信息的重叠率，所述重叠率用于表示所述多个历史点击信息集合之间具有相同点击行为的比例；

聚类单元，用于利用所述多个历史点击信息集合之间的历史点击信息的重叠率来对所述多个地理区域进行聚类，得到多个区域类，其中，所述多个区域类中的每一个区域类包括一个或者多个地理区域；以及

生成单元，用于分别生成对应于所述多个区域类的点击模型，得到多个点击模型，所述多个点击模型与所述多个区域类一一对应。

7.根据权利要求6所述的点击模型生成装置，其特征在于，所述聚类单元包括：

第一判断模块，用于判断所述重叠率是否超过预设阈值；以及

合并模块，用于将所述多个历史点击信息集合中重叠率超过所述预设阈值的历史点击信息集合对应的地理区域合并，得到所述多个区域类。

8.根据权利要求6所述的点击模型生成装置，其特征在于，所述点击模型生成装置还包括：

第二获取单元，用于在分别生成对应于所述多个区域类的点击模型，得到多个点击模型之后，获取预先生成的多组模型参数，所述多组模型参数为所述多个点击模型中目标点击模型的参数；

运行单元，用于分别利用所述多组模型参数运行所述目标点击模型，得到运行结果，所述运行结果包括用于反映运行所述目标点击模型得到的结果的质量值；以及

选择单元，用于从所述运行结果中选择质量值最高的模型参数作为所述目标点击模型的参数。

9.根据权利要求8所述的点击模型生成装置，其特征在于，所述选择单元包括：

第一选择模块，用于从所述运行结果中选择质量值最高的模型参数；

生成模块，用于生成与选择的模型参数对应的邻近参数，所述邻近参数为根据所述选择的模型参数生成的所述目标点击模型的参数；

运行模块，用于利用所述邻近参数运行所述目标点击模型，得到所述邻近参数对应的质量值；

插入模块，用于将所述邻近参数对应的质量值插入到所述运行结果；以及

第二选择模块，用于从所述运行结果中选择质量值最高的模型参数作为所述目标点击模型的参数。

10.根据权利要求9所述的点击模型生成装置，其特征在于，所述选择单元还包括：

记录模块，用于在将所述邻近参数对应的质量值插入到所述运行结果之后，记录利用邻近参数运行所述目标点击模型的运行次数；

第二判断模块，用于判断记录的运行次数是否达到预设次数，

其中，所述第一选择模块还用于如果判断出记录的运行次数未达到所述预设次数，则返回执行从所述运行结果中选择质量值最高的模型参数的步骤，

所述第二选择模块还用于如果判断出记录的运行次数达到所述预设次数，则执行将所述从所述运行结果中选择质量值最高的模型参数作为所述目标点击模型的参数的步骤。