CN104933047B

CN104933047B - 一种确定搜索词的价值的方法和装置

Info

Publication number: CN104933047B
Application number: CN201410098737.1A
Authority: CN
Inventors: 邓钦华; 许晟
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: 3600 Technology Group Co ltd
Priority date: 2014-03-17
Filing date: 2014-03-17
Publication date: 2020-02-04
Anticipated expiration: 2034-03-17
Also published as: CN104933047A

Abstract

本发明公开了一种确定搜索词的价值的方法和装置。该方法包括：将待测搜索词的特征数据输入价值回归模型；基于价值回归模型，获取所述待测搜索词的价值数据；其中，所述价值回归模型是通过如下方式获取的：将已有搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；将搜索词集合分类为不同价值的搜索词集合；利用不同价值的搜索词集合进行模型训练以获取价值回归模型。通过本发明的方案，可以更加准确地确定搜索词的价值并基于搜索词价值数据选择展现其中有价值的数据信息（例如广告）从而提高用户体验并提高信息点击率。

Description

一种确定搜索词的价值的方法和装置

技术领域

本发明涉及互联网技术领域，具体涉及一种确定搜索词的价值的方法和装置。

背景技术

在互联网应用中，对搜索词的价值(例如，商业价值)进行判别的系统在各种信息系统(例如，广告系统)中有很多应用，比如在搜索广告系统中判定一次搜索是否出广告的应用。因为只有具有一定商业价值的检索词出广告才不会影响用户体验并且同时可以带来广告点击。在现有的方法中，在对于搜索词的价值判别上，对于判别的覆盖率和准确率上还有一些提升空间，如何实现搜索词商业价值判别系统以便能够进一步提高判别的覆盖率以及准确率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定搜索词的价值的方法和相应的确定搜索词的价值的装置。

依据本发明的一个方面，提供了一种确定搜索词的价值的方法，其特征在于，包括：将待测搜索词的特征数据输入价值回归模型；基于价值回归模型，获取所述待测搜索词的价值数据。

其中，所述价值回归模型是通过如下方式获取的：将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；将搜索词集合分类为不同价值的搜索词集合；利用不同价值的搜索词集合进行模型训练以获取价值回归模型。

可选地，根据本发明的方法，其特征在于，所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

可选地，根据本发明的方法，其特征在于，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

可选地，根据本发明的方法，其特征在于，将已有搜索词基于所述已有搜索词之间的点击关系数据和展现关系数据而进行聚类，以获得聚类后的搜索词集合，进一步包括：获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数并基于所述共同展现次数计算展现关系数据；基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离；基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

可选地，根据本发明的方法，其特征在于，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

可选地，根据本发明的方法，其特征在于，利用不同价值的搜索词集合进行模型训练以获取价值回归模型，进一步包括：将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本，具体地，将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为一份1样本并且低价值的搜索词集合中的每个搜索词作为一份0样本利用逻辑回归算法进行训练以形成所述价值回归模型。

依据本发明的另一个方面，提供了一种确定搜索词的价值的装置，其特征在于，包括：输入模块，用于将待测搜索词的特征数据输入价值回归模型；获取模块，用于基于价值回归模型，获取所述待测搜索词的价值数据；其中，所述价值回归模型是通过如下模块获取的：聚类模块，用于将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；分类模块，用于将搜索词集合分类为不同价值的搜索词集合；模型获取模块，用于利用不同价值的搜索词集合进行模型训练以获取价值回归模型。

可选地，根据本发明的装置，其特征在于，所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

可选地，根据本发明的装置，其特征在于，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

可选地，根据本发明的装置，其特征在于，聚类模块进一步包括：关系数据获取子模块，用于获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数基于所述共同展现次数计算展现关系数据；计算子模块，用于基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离；以及获取子模块，用于基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

可选地，根据本发明的装置，其特征在于，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

可选地，根据本发明的装置，其特征在于，模型获取模块进一步被配置成：将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本，具体地，将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为一份1样本并且低价值的搜索词集合中的每个搜索词作为一份0样本利用逻辑回归算法进行训练以形成所述价值回归模型。

根据本发明的确定搜索词的价值的方法和装置，可以更加准确地确定搜索词的价值并基于搜索词价值数据选择展现其中有价值的数据信息(例如广告)从而提高用户体验并提高信息点击率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的获取价值回归模型的方法的流程图；

图2示出了根据本发明一个实施例的确定搜索词的价值的方法的流程图；以及。

图3示出了根据本发明一个实施例的确定搜索词的价值的装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实现方式中，主要包括以下几个步骤：

步骤1，在广告展现日志中统计所有搜索词的广告展现数量和广告点击数量；

步骤2，计算搜索词的广告点击率＝检索词广告点击数量/检索词广告展现数量；

步骤3，如果检索词广告点击率小于一个阈值并且广告展现数量大于一个阈值，则这个检索词为低价值的；反之，如果检索词广告点击率大于一个阈值并且广告展现数量大于一个阈值，则这个检索词为高价值的。具体例子如下：比如搜索词点击率的阈值为5％，搜索词展现阈值的阈值为50；而搜索词“落日余晖的散文”广告展现次数为100，点击次数为1，则这个词为低价值的；而搜索词“笔记本电脑”广告展现次数为10000，点击次数为1000，则这个词为高价值的。

在该实现方式中，需要人工指定搜索词点击率阈值和搜索词展现阈值，效果的好坏极大依赖工作者的经验；并且该实现方式只能判断价值高或者低，无法给出一个价值的具体数值，在实际应用中不够平滑；而且，该实现方式主要来自于统计，所以推广性较差，覆盖率比较低，并且准确率也有提升空间，不能完全满足搜索广告系统的需要。

下面将参考附图，详细描述本发明改进的技术方案。

为了更好地理解本发明的技术方案，首先介绍本发明的价值回归模型的获取方法。如图1所示，图1是根据本发明一个实施例的获取价值回归模型的方法的流程图。

在步骤S110处，将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合。

具体来说，首先，需要获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数并基于所述共同展现次数计算展现关系数据。

例如，可以获取不同搜索词的共同展现次数并基于所述共同展现次数计算展现关系数据。

假设被输入的某个搜索词为Q1，而基于该搜索词被搜索引擎展现的数据为D1，D2，D3，D4；而被输入的另一搜索词为Q2，基于该搜索词被搜索引擎展现的数据为D2，D3，D5，D7，则它们的共同展现次数为2(D2，D3)；此时可以使用某种相关性来描述Q1和Q2之间的展现关系，例如可以假设这个相关性被定义成共同展现次数/Q1的展现数，则此时Q1，Q2的展现关系可以表示为展现相关度2/4＝0.5。

应该理解，也可以使用任何适当的其他的方式来表示两个搜索词之间的展现关系，而不限于上面的方式。例如也可以将相关性定义为共同展现次数/Q2的展现数或者共同展现次数/(Q1的展现数+Q2的展现数)等等。

类似地，可以获取到搜索词两两之间的展现关系数据。

此外，还可以获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据。

假设被输入的某个搜索词为Q1，而基于该搜索词被搜索引擎展现并被用户点击的数据为D1，D2，D3，D4；而被输入的另一搜索词为Q2，基于该搜索词被搜索引擎展现并被用户点击的数据为D2，D3，D4，D7，则它们的共同点击次数为3(D2，D3，D4)；此时可以使用某种相关性来描述Q1和Q2之间的点击关系，例如可以假设这个相关性被定义成共同点击次数/Q1的点击数，则此时Q1，Q2的点击关系可以表示为点击相关度3/4＝0.75。

类似地，可以获取到搜索词两两之间的点击关系数据。

应该理解，也可以使用任何适当的其他的方式来表示两个搜索词之间的点击关系，而不限于上面的方式。例如也可以将相关性定义为共同点击次数/Q2的点击数或者共同点击次数/(Q1的点击数+Q2的点击数)等等。

应当理解，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。也即是说，上述参数是指两两搜索词之间的相关性参数。

在获取了点击关系数据、展现关系数据、共同点击次数、共同展现次数中的至少一个之后，可以基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离。然后，基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

承接上面的例子，例如Q1的展现数据被表示为<D1,D2,D3,D4>，Q1的展现数据被表示为<D2,D3,D5,D7>，然后使用聚类算法计算Q1和Q2搜索词之间的聚类距离。通过类似的方法，计算出所有的搜索词的聚类距离，从而实现搜索词的聚类。例如，可以使用谱聚类或者kmeans聚类算法并基于点击关系数据、展现关系数据、共同点击次数、共同展现次数中的至少一个而计算搜索词之间的聚类距离，从而实现对搜索词进行聚类，并且从而获得聚类后的搜索词集合。

在步骤S120处，将搜索词集合分类为不同价值的搜索词集合。

具体而言，可以将所有集合分类为预定数量的搜索词集合。可选地，例如在本发明的一个优选实施例中，可以将集合分类为三类：高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。按照一定规则将所有的搜索词集合分类为预订数量的搜索词集合。更具体而言，针对每个搜索词，已经利用日志统计数据预先确定其价值数据。例如可以近似地用千次搜索带来的价值来衡量该搜索词的价值数据，它反映了单位搜索内搜索词的盈利能力，也就是它的价值。这样，利用日志统计数据，可以获取搜索词的价值数据，并根据价值数据分布将每个搜索词确定为例如高、中、低三个档次。然后，再根据单个搜索词的价值数据，就能够得到聚类后的搜索词集合的集合价值数据。同理可将聚类后的搜索词集合分配为不同价值的搜索词集合。

应该理解，对搜索词和/或搜索词集合划分不同价值的一定规则是灵活且可变的，其可以根据系统需求而做出调整。例如可以将搜索词划分成更多的档次或者更少的档次，同样也可以将搜索词集合划分成更多的档次或者更少的档次。这些划分方式都在本发明的保护范围之内。

在步骤S130处，利用不同价值的搜索词集合进行模型训练以获取价值回归模型。

将搜索词分类之后，利用不同价值的搜索词集合进行模型训练，最终获取价值回归模型。

具体而言，可以将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本，具体地，承接上面的示例，将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为1份1样本并且低价值的搜索词集合中的每个搜索词作为1份0样本利用逻辑回归算法进行训练以形成所述价值回归模型。例如，假设在价值回归模型中，存在3个聚类的标注数据：聚类1中的搜索词例如为“笔记本电脑”、“mac air”、“thinkpad”等，商业价值标注为1(高等商业价值)；聚类2中的搜索词为“刘德华”、“张学友”、“刘德华的专辑”等，商业价值标注为0(低商业价值)；聚类3中的搜索词为“5寸手机有多大”，“android手机是否流畅”等，商业价值标注为0.5(中商业价值)。也即是说，通过训练获取到该价值回归模型的参数，从而利用该价值回归模型对待测搜索词的价值数据进行预测。

应当理解，如何对不同价值的搜索词集合中的搜索词进行样本化的方式也可以是其他任何适当的方式而不限于上述的方式。

至此，参照图1描述了价值回归模型的构建方法。

下面，利用形成的价值回归模型并参考图2来描述本发明的确定搜索词的价值的方法。如图2所示，图2是根据本发明一实施例的确定搜索词的价值的方法的流程图。

在步骤S210处，将待测搜索词的特征数据输入价值回归模型。具体而言，为了利用如图1所示的方法所建立的价值回归模型来预测待测的搜索词的价值数据，首先需要提取待测搜索词的特征数据并且将其输入价值回归模型。通过图1所示的模型训练已经获得了该价值回归模型的参数，现在将待测搜索词的特征数据输入该模型。搜索词的特征数据例如可以包括但不限于搜索词的长度、搜索词的类别、搜索词分词后的结果等。

举例而言，比如在价值回归模型中，存在3个聚类的标注数据：聚类1中的搜索词例如为“笔记本电脑”、“mac air”、“thinkpad”等，商业价值标注为1(高等商业价值)；聚类2中的搜索词为“刘德华”、“张学友”、“刘德华的专辑”等，商业价值标注为0(低商业价值)；聚类3中的搜索词为“5寸手机有多大”，“android手机是否流畅”等，商业价值标注为0.5(中商业价值)。例如，首先，将待测搜索词“东芝笔记本”的特征数据输入价值回归模型。

在步骤S220处，基于价值回归模型，获取所述待测搜索词的价值数据。

承接上述例子，例如将待测搜索词“东芝笔记本”的特征数据输入价值回归模型，则训练的模型对“东芝笔记本”将给出的价值数据例如是0.8(是大于0.5小于等于1的一个数)。再例如，基于价值回归模型，获取到待测搜索词“李连杰”的价值数据例如是0.1(小于0.5大于0的一个数)。

本发明还提供了一种确定搜索词的价值的装置。如图3所示，图3是根据本发明一实施例的确定搜索词的价值的装置300的结构框图。

装置300可以包括输入模块310以及获取模块320。其中，输入模块310可以用于将待测搜索词输入价值回归模型。获取模块330可以用于基于价值回归模型，获取所述待测搜索词的价值数据。

根据本发明的实施例，价值回归模型可以是通过如下模块获取的：

聚类模块(未示出)，其可以用于将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；

分类模块(未示出)，其可以用于将搜索词集合分类为不同价值的搜索词集合；

模型获取模块(未示出)，其可以用于利用不同价值的搜索词集合进行模型训练以获取价值回归模型。

根据本发明的实施例，上述不同价值的搜索词集合可以包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

其中，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

根据本发明的实施例，其中，聚类模块可以进一步包括关系数据获取子模块、计算子模块以及获取子模块。

其中，关系数据获取子模块，可以用于获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或不同搜索词的共同展现次数基于所述共同展现次数计算展现关系数据；

计算子模块，可以用于基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离；

获取子模块，可以用于基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

其中，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

根据本发明的实施例，模型获取模块可以进一步被配置成：

将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为一份1样本并且低价值的搜索词集合中的每个搜索词作为一份0样本利用逻辑回归算法进行训练以形成所述价值回归模型。

由于本实施例的装置所实现的功能基本相应于前述图1和图2所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定搜索词的价值设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的一个实施例公开了A7、一种确定搜索词的价值的装置，其特征在于，包括：

输入模块，用于将待测搜索词的特征数据输入价值回归模型；

获取模块，用于基于价值回归模型，获取所述待测搜索词的价值数据；

其中，所述价值回归模型是通过如下模块获取的：

聚类模块，用于将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；

分类模块，用于将搜索词集合分类为不同价值的搜索词集合；

模型获取模块，用于利用不同价值的搜索词集合进行模型训练以获取价值回归模型。

A8、根据权利要求A7所述的装置，其特征在于，所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

A9、根据权利要求A8所述的装置，其特征在于，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

A10、根据权利要求A7所述的装置，其特征在于，聚类模块进一步包括：

关系数据获取子模块，用于获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数基于所述共同展现次数计算展现关系数据；

计算子模块，用于基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离；以及

获取子模块，用于基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

A11、根据权利要求A10所述的装置，其特征在于，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

A12、根据权利要求A8所述的装置，其特征在于，模型获取模块进一步被配置成：

将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本，具体地，

Claims

1.一种确定搜索词的价值的方法，其特征在于，包括：

将待测搜索词的特征数据输入价值回归模型；

基于价值回归模型，获取所述待测搜索词的价值数据；

其中，所述价值回归模型是通过如下方式获取的：

将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合；

将搜索词集合分类为不同价值的搜索词集合；

利用不同价值的搜索词集合进行模型训练以获取价值回归模型；

将已有的不同搜索词基于点击关系数据和/或展现关系数据而进行聚类，以获得聚类后的搜索词集合包括：获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数并基于所述共同展现次数计算展现关系数据；

基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个，计算已有搜索词之间的聚类距离；

基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合。

2.根据权利要求1所述的方法，其特征在于，所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

3.根据权利要求2所述的方法，其特征在于，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

4.根据权利要求1所述的方法，其特征在于，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

5.根据权利要求2所述的方法，其特征在于，利用不同价值的搜索词集合进行模型训练以获取价值回归模型，进一步包括：将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本，具体地，

6.一种确定搜索词的价值的装置，其特征在于，包括：

其中，所述价值回归模型是通过如下模块获取的：

聚类模块，包括关系数据获取子模块、计算子模块及获取子模块；关系数据获取子模块，用于获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数基于所述共同展现次数计算展现关系数据；

获取子模块，用于基于所述聚类距离将已有搜索词进行聚类，以获得聚类后的搜索词集合；

7.根据权利要求6所述的装置，其特征在于，所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合，其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据；以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。

8.根据权利要求7所述的装置，其特征在于，高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为0。

9.根据权利要求6所述的装置，其特征在于，共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。

10.根据权利要求6所述的装置，其特征在于，模型获取模块进一步被配置成：