CN103164454A

CN103164454A - 关键词分组方法及系统

Info

Publication number: CN103164454A
Application number: CN201110421121XA
Authority: CN
Inventors: 葛幼姿; 于惊涛; 广宇昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-19
Anticipated expiration: 2031-12-15
Also published as: CN103164454B

Abstract

本发明提供了一种关键词分组方法及系统，该方法包括：A、利用预先建立的关键词分类模型，基于关键词的属性对当前推广账户内的关键词进行分类，并确定各关键词的权值；B、根据所述关键词与创意之间语义匹配度，分别从各分类的关键词中选出与当前推广账户内的创意之间语义匹配度满足预设匹配度要求的关键词作为种子词；C、分别以各分类的种子词为核心，基于各关键词的权值对当前推广账户中剩余的关键词进行聚类，得到关键词的分组结果，所述聚类是计算所述关键词与种子词之间差异度，把关键词聚类到满足预设差异度要求的类别中。本发明提供的关键词分组方法及系统，提高了关键词与创意之间匹配关系的准确度。

Description

关键词分组方法及系统

【技术领域】

本发明涉及互联网应用技术，尤其涉及一种关键词分组方法及系统。

【背景技术】

网络推广技术是随搜索引擎的发展而发展起来的一种技术，例如百度推广、Google关键字广告(AdWords)和广告联盟(AdSense)等。在网络推广中，推广单元是管理关键词和创意的小单位。关键词可以是产品词、通俗词、地域词、品牌词等，在建立推广单元时，一般将意义相近、结构相同的关键词纳入同一个推广单元中，以便有针对性地撰写创意。创意是指用于在网民利用搜索词搜索得到推广结果后触发时，展现在网民面前的推广内容，创意的内容是针对关键词撰写，一般包括标题、描述，以及访问URL和显示URL。关键词用来定位潜在客户，创意则用来吸引潜在客户访问网站，并在浏览网站的基础上进一步了解所提供的产品/服务，进而采取转化行为，如注册，在线提交订单，电话咨询，上门访问等。创意质量将在很大程度上影响关键词的点击率，并通过质量度进一步影响推广费用和推广效果。

由此可见，关键词与推广创意的对应关系是影响搜索推广账户质量的重要因素，建立准确的关键词与创意的对应关系可以有效的提高广告质量，从而进一步提高广告的点击率以及转化效率，增强客户的推广效果。

然而，推广账户的用户在选择关键词时，由于缺乏经验等因素，可能会选择到不符合网民搜索行为和点击习惯的关键词，无法很好地与相关创意进行匹配。而现有技术并不会对推广单元的关键词与创意的对应关系进行调整，当在搜索引擎中输入搜索词检索信息时，系统根据输入的搜索词来投放与该搜索词命中的关键词相匹配的网络广告(创意)，如果推广账户内的关键词不能与搜索词相匹配，与该关键词对应的创意则不能被显示出来。由于现有技术不会对关键词进行自动分组，当关键词选得不好或者关键词分组不符合网民搜索行为和点击习惯，则将使得搜索词始终无法匹配到相关创意内容，导致广告投放的效果不佳。

【发明内容】

为了解决上述问题，本发明提供了一种关键词分组方法及系统，对推广账户内的关键词进行重组，建立新的关键词与创意的对应关系，提高关键词与创意之间匹配关系的准确度。

具体技术方案如下：

本发明实施例提供的一种关键词分组方法，预先从搜索日志的搜索词中提取关键词建立关键词分类模型，所述关键词分类模型包括关键词的属性及属性的权值；所述方法包括：

A、利用关键词分类模型，基于关键词的属性对当前推广账户内的关键词进行分类，并确定各关键词的权值；

B、根据关键词与创意之间语义匹配度，分别从各分类的关键词中选出与当前推广账户内的创意之间语义匹配度满足预设匹配度要求的关键词作为种子词；

C、分别以各分类的种子词为核心，基于各关键词的权值对当前推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

根据本发明之一优选实施例，预先从搜索日志的搜索词中提取关键词建立关键词分类模型具体包括：

S101、获取搜索日志的搜索词，并对搜索词进行分词处理和过滤处理得到关键词；

S102、提取步骤S101所得到的关键词的属性作为分类特征，所述关键词的属性包括关键词的字面、词义和词性；

S103、为提取得到的各分类特征赋予对应的权值，建立所述关键词分类模型。

根据本发明之一优选实施例，所述关键词的权值为：关键词的属性以及关键词的各属性的权值构成的特征向量。

根据本发明之一优选实施例，所述关键词与创意之间语义匹配度由关键词代入到创意通配符中时的通顺度以及关键词与创意在语义上的搭配度中的一种或组合确定；

其中所述关键词代入到创意通配符中时的通顺度通过该关键词与创意中各词语的语义相关性，或者通过该关键词与创意中词语的共现概率来计算；

所述关键词与创意在语义上的搭配度通过关键词与创意中各词语的搭配概率来计算。

根据本发明之一优选实施例，在执行所述步骤B之前，还包括：

对当前推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词；

其中关键词的商业价值通过关键词在搜索日志中的检索量、点击率、平均点击价格以及展现量中的至少一种体现。

根据本发明之一优选实施例，所述聚类是计算当前推广账户中剩余的关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中；

其中关键词与种子词之间的差异度为：关键词与种子词之间各属性的权值之差，或者，关键词的属性和属性的权值构成的特征向量与种子词的属性和属性的权值构成的特征向量之间的相似度。

根据本发明之一优选实施例，所述预设匹配度要求包括：

与当前推广账户内的创意之间语义匹配度排在前N1个，N1为预设正整数；

或者，与当前推广账户内的创意之间语义匹配度大于预设阈值。

相应地，本发明实施例提供一种关键词分组系统，包括：

分类模型建立模块，用于从搜索日志的搜索词中提取关键词建立关键词分类模型，所述关键词分类模型包括关键词的属性及属性的权值；

分类模块，用于利用分类模型建立模块得到的关键词分类模型，基于关键词的属性对当前推广账户内的关键词进行分类，并确定各关键词的权值；

种子词模块，用于根据关键词与创意之间语义匹配度，分别从各分类的关键词中选出与当前推广账户内的创意之间语义匹配度满足预设匹配度要求的关键词作为种子词；

聚类模块，用于以所述种子词模块得到的种子词为核心，基于各关键词的权值对当前推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

根据本发明之一优选实施例，所述分类模型建立模块包括：

获取搜索词子模块，用于获取搜索日志的搜索词，并对搜索词进行分词处理和过滤处理得到关键词；

特征提取子模块，用于提取所述获取搜索词子模块所得到的关键词的属性作为分类特征，所述关键词的属性包括关键词的字面、词义和词性；

权值计算子模块，用于为提取得到的各分类特征赋予对应的权值，建立所述关键词分类模型。

根据本发明之一优选实施例，所述分类模块确定的各关键词的权值为：关键词的属性以及各属性的权值构成的特征向量。

根据本发明之一优选实施例，该系统还包括语义匹配度模块，用于计算关键词与创意之间语义匹配度，所述关键词与创意之间语义匹配度由关键词代入到创意通配符中时的通顺度以及关键词与创意在语义上的搭配度中的一种或组合确定；

根据本发明之一优选实施例，该系统还包括：

关键词过滤模块，用于对当前推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词，将过滤后的关键词为所述种子词模块所用；

根据本发明之一优选实施例，所述聚类模块通过计算所述关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中或者最相似的种子词所属分类中；

根据本发明之一优选实施例，所述预设匹配度要求包括：

由以上技术方案可以看出，本发明提供的一种关键词分组方法及系统，筛选出推广账户中与创意对应表现最好的关键词作为分组种子词，基于种子词的词型和词义进行账户内的关键词重组，建立新的关键词与创意的对应关系，提高了关键词与创意之间匹配关系的准确度，更符合网民的搜索行为和点击习惯，从而更进一步提高客户网页的点击率和转化效率。

【附图说明】

图1是本发明实施例提供的关键词分组方法的流程图；

图2是本发明实施例提供的建立关键词分类模型的流程图；

图3是本发明实施例2的关键词分组结果示意图；

图4是本发明实施例提供的关键词分组系统的框图；

图5是本发明实施例提供的关键词分类模型的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

种子词是指描述产品或服务特征最常使用、最相关的词或短语，是核心关键词。例如对于英语培训业务，网民在表达需求时所用的搜索词中很可能会包含“英语”这个关键词，可以将“英语”作为种子词。

推广账户的一般结构模型为：一个推广账户包括多个推广计划，一个推广计划里包括多个推广单元，每个推广单元内包括多个关键词，每个推广单元中可以包括多条与关键词相关的创意。将意义相近(如：雅思培训-雅思英语培训)、结构相同(如：学英语-提高英语)的关键词划分到同一推广单元。关键词与创意的相关性越强，说明推广结果的针对性越强，越能满足网民的搜索需求，推广质量越高。从统计意义上来说，相关性和通顺度高的结果，关键词的质量度会高。

本发明提供的关键词分组方法及系统，从推广账户中筛选出与创意对应表现最好的关键词作为分组种子词，基于种子词的词型和词义进行账户内的关键词重组，建立新的关键词与创意的对应关系，以便于更符合网民的搜索行为和点击习惯。

如图1所示，图1为本发明实施例提供的关键词分组方法的流程图，具体包括以下步骤：

S1、预先从搜索日志的搜索词中提取关键词建立关键词分类模型，所述关键词分类模型包括关键词的属性及属性的权值。

建立关键词分类模型主要是构造分类器，将一定规模的搜索日志作为输入的训练样本集，提取训练样本集中的属性或特征组成特征向量，通过统计方法、机器学习方法或神经网络方法进行训练，得到特征向量对应的权值。在建立好的关键词分类模型后，则可以利用该关键词分类模型对新的关键词进行分类。

如图2所示，图2为本发明实施例提供的建立关键词分类模型的流程图，具体包括：

S101、获取搜索日志的搜索词，并对搜索词进行分词处理和过滤处理得到关键词。

获取搜索日志的搜索词，首先进行分词得到词项集合，并对词项集合进行过滤，去掉集合中的停用词，如助词、介词等，得到关键词。

S102、提取步骤S101所得到的关键词的属性作为分类特征，所述关键词的属性包括关键词的字面、词义和词性。

关键词的字面是指经过分词处理直接得到的词项，比如，对于搜索词“世界杯足球赛”可以提取得到“世界杯”“足球赛”词项。对于搜索词“复读真的好吗”可以提取得到“复读”“好”词项。

关键词的词义是指根据语义关系确定与关键词相关联的词项，包括关键词的同义词。比如，“电脑”是“计算机”的同义词，在分类时，可以利用同义词词典进行判别，将关键词“计算机”的同义词“电脑”也作为分类特征。

另外，在自然语言中，能够起到特性标识作用的往往是关键词或文本中的实词，如名词、动词、形容词等，而一些虚词，如感叹词、介词、连词等，对于特性标识并没有贡献，对确定关键词分类没有意义。因此，在提取关键词时，主要提取对于类别特性表现力强的名词和动词。因而，将关键词的词性作为分类特征。

S103、为提取得到的各分类特征赋予对应的权值，建立关键词分类模型。

在选取训练样本集后，根据步骤S102中提取的分类特征包括关键词的字面、词义和词性，可以根据不同的计算方法，如统计方法、机器学习方法或神经网络方法等进行计算，得到关键词字面、语义、词性对应的权值，从而建立关键词分类模型。比如，采用BM25概率模型、词频-倒文档率(TF-IDF)等计算方法得到关键词的字面和词义特征对应的权值，采用经验统计的方法得到关键词的词性特征对应的权值，还可以采用机器学习方法，如贝叶斯方法、最大熵方法或SVM(Support Vector Machine，支持向量机)等，来计算关键词的各个特征对应的权值。

例如，在本发明一实施例中，采用概率潜在语义分析(PLSA)通过机器训练得到各分类特征对应的权值，得到关键词分类模型。PLSA是基于多项式分布和条件分布的混合来建模共现的概率，通过计算关键词的共现关系，与潜在主题词(潜在类)相关联的概率来计算的。PLSA模型中的潜在主题体现了关键词(可以看成短文本)的语义类别信息，可以求解得到词与词之间共现的概率值，得到相关度矩阵。例如，“初三复读”“中考复读”、“我想复读”这些关键词，与“中学”“考试”“学校”等潜在主题词有不同的概率分布，经过训练可以得到各个关键词与潜在主题词相关联的概率，形成相关度矩阵。

利用PLSA的训练结果得到的概率值作为关键词各个分类特征对应的权值，即得到了关键词分类模型。建立的关键词分类模型可以采用现有的boost或SVM或KNN分类器等分类器实现。

继续参见图1

S2、利用关键词分类模型，基于关键词的属性对当前推广账户内的关键词进行分类，并确定各关键词的权值。

选取任意推广账户，对选取的当前推广账户内的关键词，利用建立好的关键词分类模型进行分类，基于关键词的属性从关键词分类模型中得到关键词的权值。所述关键词的权值包括：对应于关键词的属性，由各个属性的权值构成特征向量，采用特征向量的表示形式，如，表示为{term1，权值1，term2，权值2，......}。

另外，在建立关键词分类模型时，也可以只选取字面、词义或词性中的一种或两种属性作为分类特征，经过训练得到属性的权值。例如，仅以关键词的词义为分类特征时，利用TF-IDF等计算方法得到对应的权值，建立关键词分类模型。经过本步骤S2时，利用该关键词分类模型可以得到词义这一属性的权值，则直接将该属性的权值作为关键词的权值。对于选取多个分类特征的情形，也可以先对关键词的属性和属性的权值采用加权的方式得到加权值，用该加权值作为关键词的权值。

S3、对当前推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词。

其中，关键词的商业价值通过关键词在搜索日志中的检索量、点击率、平均点击价格以及展现量中的至少一种体现。所述对推广账户内的关键词进行商业价值过滤的方式包括：

根据关键词检索量，选取符合预设检索量要求的关键词。检索量是在一段时间内，网民用该关键词进行检索的次数。关键词检索量越大，越受到网民的关注，其包含商业价值通常较大。比如，“哈利波特7”一天的检索量可能就有几十万。可以选择检索量符合预设检索量要求的关键词，例如可以选择当天的检索量大于或等于预设的检索量阈值的关键词，比如，当天预设的检索量阈值是1万，则选择日检索量大于或等于1万的关键词，去掉日检索量小于1万的关键词。

根据关键词的点击率，选取符合预设点击率要求的关键词。点击率是指与关键词相对应的创意被网民点击的次数与关键词出现在搜索结果页上的次数的比值，即点击量与展现量的比值。通常，点击率越大，表明越能吸引网民的注意，其蕴含的商业价值通常较高。同样地，可以选择点击率符合预设点击率要求的关键词，例如可以选择点击率大于或等于预设的点击率阈值的关键词，比如，设定点击率阈值为30％，则选择点击率大于或等于30％的关键词，去掉点击率小于30％的关键词。

根据关键词的平均点击价格，选取符合预设点击价格要求的关键词。平均点击价格是指一段时间内关键词对应的创意被点击时支付给搜索引擎供应商的价格的平均值。随着竞争关系趋于一个稳定的范围，关键词的平均点击价格通常在一定区间范围内波动。出现平均点击价格过高或者过低，可能是由于竞争太激烈或者有其他非正常的原因导致点击价格出现极端。平均点击价格太高，用户花费与其实际回报不能对应；平均点击价格太低，通常是由于关键词设置得不够合理。因而，可以选择平均点击价格在一个预设区间内的关键词，去掉平均点击价格处于两端的关键词，选择商业价值较高的关键词。

或者，根据关键词的展现量，选取符合预设展现量要求的关键词。关键词的展现量指在网民进行搜索查询时，与关键词相对应的创意出现在搜索结果页上的次数。出现的次数越多，即展现量越大时，关键词对应的创意才越有可能被网民点击，才能吸引网民的关注，其商业价值通常较高。同样地，可以选择展现量符合预设展现量要求的关键词，例如可以选择展现量大于或等于预设的展现量阈值的关键词，比如，设定展现量阈值为5千次，则选择展现量大于或等于5千次的关键词，去掉展现量少于5千次的关键词。

值得一提的是，上述的商业价值过滤方式可以采用多种方式结合使用，也可以只采用其中的一种。针对不同应用场景中，可以先确定其影响因素，比如对于某购物类的网站，其主要关注的可能是关键词的展现量以及点击率，因而选取关键词的展现量和点击率作为影响因素；再根据影响因素确定商业价值过滤标准。对应不同应用场景的关键词数据，得到不同商业价值过滤标准。

该步骤是对选取种子词的预处理，只有商业价值高的关键词，才能被选为种子词，可以避免选择到一些商业价值较低的关键词作为种子词。

值得一提的是，步骤S3的商业价值过滤操作也可先于步骤S2执行，即先对关键词进行商业价值过滤后，再利用关键词分类模型进行分类。

S4、根据关键词与创意之间语义匹配度，分别从各分类的关键词中选出与当前推广账户内的创意之间语义匹配度满足预设匹配度要求的关键词作为种子词。

创意要求语句通顺、符合逻辑，当关键词与创意搭配不当时，就会产生创意不通顺，表明关键词与创意的相关性较差，可能导致不能获得好的搜索结果，甚至完全不出现在搜索结果中。

关键词经过商业价值过滤后，则选取关键词与创意语义匹配度较好的关键词作为种子词。所述语义匹配度是指关键词与创意在句法分析中的匹配模式中词与词之间语义搭配的概率，可以通过以下两种计算方法中的一种或组合形式得到：

第一、计算关键词代入到创意通配符中时的通顺度。

关键词代入到创意通配符中的通顺度的计算方式是基于通顺度计算模型来计算的，即通过该关键词与创意中各词语的语义相关性来计算，或者通过该关键词与创意中词语的共现概率来计算。

举个例子，推广单元中有关键词“口语培训班”“口语班”“英语外教班”，其对应的创意为“{}帮你成就流利口语——北京{}，快来***英语培训机构，独创10大英语学习模式，帮助上万学员成就流利口语梦想。”其中“{}”为通配符，可以将关键词代入到所有通配符中，形成创意。可以看出，该创意是针对口语班进行描述的，计算得到关键词“口语培训班”“口语班”与创意中各词语的语义相关性较好，因而对于该创意来说，关键词“口语培训班”“口语班”是通顺的关键词。计算得到关键词“英语外教班”与该创意中各词语的语义相关性较差，可以预先设定一个相关性阈值，当计算得到的语义相关性小于该阈值时，可以认为“英语外教班”为不通顺的关键词。

第二、计算关键词与对应创意在语义上的搭配度。

计算关键词与对应创意在语义上的搭配度是利用语义处理模型，通过关键词与创意中各词语的搭配概率来计算。利用关键词与创意中各词语的搭配概率对该关键词进行打分，通过该打分值体现搭配度。

语义处理模型是根据汉语实词的语义分类体系建立的表征词与词之间语义搭配关系的通用字典。它是基于本位语法，利用汉语实词的语义分类体系，将所有的词组织成一定的层次结构中，形成一个像树一样的分类体系。语义处理模型中对具体实词逐个进行了语义类属性标记，并根据语义类属性标记确定词与词之间的语义搭配关系。一个词允许分属于不同的语义类，在描述词与词之间语义搭配关系时，对于用法受限的词语，描述则具体到词，以词对词的方式进行描述；对于不好确定具体搭配词项的词语，描述则采用上层语义类，以词对类的方式进行描述。因而有描述动词与受其支配的名词、形容词与受其支配的名词、名词与受其支配的其他名词之间的语义搭配关系。比如，教师属于人，也属于职位，还属于教育等不同的类别。

通过关键词与其对应创意的搭配与语义处理模型的语义搭配关系，来对关键词进行打分。如果关键词与创意的搭配有在该机器字典中出现过，说明该拍卖词与创意的搭配符合语义处理模型规则，打分就高，通过该打分值体现语义搭配度。

通过上述任一方法或其结合，可以得到关键词与创意语义匹配度，从各个分类的关键词中选出账户内关键词与创意的语义匹配度满足预设匹配度要求的关键词。所述预设匹配度要求包括：与当前推广账户内的创意之间语义匹配度排在前N1个的关键词，N1为预设正整数，比如，当N1＝1时，则在一个关键词分类中只选取与其对应创意的语义匹配度最好的关键词作为种子词；或者，与当前推广账户内的创意之间语义匹配度大于预设阈值。

值得一提的是，关键词与创意语义匹配度也可以采用预先计算的方式，根据语义处理模型，预先计算出广告库中所有关键词与对应创意的语义匹配度，如图中步骤S41。

S5、分别以各分类的种子词为核心，基于各关键词的权值对当前推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

所述聚类是通过计算关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中或者最相似的种子词所属分类中。

其中，关键词与种子词之间的差异度为：关键词与种子词之间各属性的权值之差，或者，关键词的属性和属性的权值组成的特征向量与种子词的属性和属性的权值构成的特征向量之间的相似度。该关键词与种子词的特征向量之间的相似度可以通过内积或余弦相似度的方法进行计算，得到关键词与种子词的相似度，用该相似度的倒数来表示关键词与种子词之间的差异度，相似度越大，差异度越小。

值得一提的是，所述任意推广账户内的关键词包括拍卖词和扩展得到的新增的关键词。拍卖词是指曾有用户购买过的关键词，只要是有用户买过的关键词都属于拍卖词。对于系统根据推广账户内的关键词(或拍卖词)进行相应地扩展得到的新增的关键词也可以采用本发明提供的关键词分组方法，完成新增的关键词分组过程。这个过程是将新增的关键词添加到所选取的推广账户中去，而后根据关键词分类模型进行分类，对每一类关键词进行商业价值过滤，根据语义处理模型选取种子词，最后以种子词为核心，以关键词与种子词之间的差异度来进行聚类，完成关键词分组。这个过程可以通过机器自动完成，替代人工进行关键词分组，可以节约系统时间，提高效率。

例1：某一推广账户内包括2个推广单元，其中：

推广单元1的关键词为“口语培训班”“口语班”“英语外教班”，对应的创意1为：“{}帮你成就流利口语——北京{}，快来***英语培训机构，独创10大英语学习模式，帮助上万学员成就流利口语梦想。”

推广单元2的关键词为“外教班”，对应的创意2为：“{}100％纯正英语环境——北京{}，快选***外教英语，资深外籍教师，纯正英语，教学经验丰富，一周免费试听外教课！”

扩展词包括“进阶口语班”“基础口语班”“暑期外教班”。

首先，对推广账户内的关键词利用关键词分类模型进行分类，确定关键词的属性和权值。

扩展后推广账户内的关键词包括“口语培训班”“口语班”“进阶口语班”“基础口语班”“英语外教班”“外教班”“暑期外教班”，利用关键词分类模型进行分类，确定关键词的属性和权值。最后分类为：关键词“口语培训班”对应权值1，“口语班”对应权值2，“进阶口语班”对应权值3，“基础口语班”对应权值4，“英语外教班”对应权值5，“外教班”对应权值6，“暑期外教班”对应权值6。

第二，对推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词。

比如，假设“进阶口语班”的点击率非常小，在进行商业价值过滤时，则会被过滤掉。比如，“基础口语班”“暑期外教班”的检索量可能非常小，则也会被过滤掉。最后得到的关键词有：“口语培训班”“口语班”“英语外教班”“外教班”。

第三，根据关键词与创意语义匹配度，从过滤后的各分类中选出与创意语义匹配度满足预设匹配符要求的关键词作为种子词，比如选取语义匹配度最好的关键词作为种子词。

对应于创意1，与其语义匹配度最好的关键词是“口语班”，则将“口语班”作为第一类的种子词。

对应于创意2，与其语义匹配度最好的关键词是“外教班”，则将“外教班”作为第三类的种子词。

最后，以种子词为核心，对推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

计算剩余的各个关键词与2个种子词之间差异度，把关键词聚类到差异度最小的种子词所属分类中或者最相似的种子词所属分类中。关键词与各个种子词之间的差异度，通过对应的权值之差来表示。例如，当计算得到“口语培训班”与种子词“口语班”的差异度比“口语培训班”与种子词“外教班”的差异度小，则将“口语培训班”聚类到种子词“口语班”所属分类中。

最终，得到的关键词分类结果为：组1包括关键词“口语培训班”“口语班”“进阶口语班”“基础口语班”对应于创意1；组2包括关键词“英语外教班”“外教班”“暑期外教班”对应于创意2。原来对应创意1的关键词“英语外教班”经过本发明的分组方法后已对应于创意2，更符合用户的搜索行为。另外对于新增的扩展词，本发明可以自动完成分组，无需人工进行匹配操作。

例2.

假定用户的推广账户内的关键词为“初三复读”，“中考复读”，“我想复读”，“复读真漫长”，“复读真的好吗”，“复读应该去哪里”这些关键词对应有两个创意：创意1为“选择哪所学校最好？考重点高中！读XX中复！”和创意2为“首选XX，2011中复成绩又创新高。”

首先，对推广账户内的关键词利用关键词分类模型进行分类，确定关键词的属性及对应的权值，其分类结果为6个类别，分别是：类别系数为A的“初三复读”，类别系数为B的“中考复读”，类别系数为C的“我想复读”，类别系数为D的“复读真的好吗”，类别系数为E的“复读应该去哪里”以及类别系数为F的“复读真漫长”。从关键词分类模型中得到关键词的属性和对应的权值，并采用特征向量的形式表示。

然后，对该推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词。其中，商业价值过滤是根据关键词的检索量、点击率、展现量和/或点击平均价格进行过滤。比如，类别系数为F的“复读真漫长”可能因为点击率差，没有满足预设的点击率要求而被过滤掉了。因而，过滤得到的结果包括：类别系数为A的“初三复读”，类别系数为B的“中考复读”，类别系数为C的“我想复读”，类别系数为D的“复读真的好吗”以及类别系数为E的“复读应该去哪里”。

接着，根据关键词与创意语义匹配度，从各分类的关键词中选出与创意语义匹配度满足预设匹配度要求的关键词作为种子词。本实施例中，得到与创意1和创意2语义匹配度最好的关键词，为“中考复读”和“复读真的好吗？”，作为种子词。

最后，以选取的种子词为核心，对推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

先计算每个关键词与选取的各个种子词之间的差异度，可以利用关键词与种子词的特征向量通过内积或余弦相似度进行计算，得到关键词与种子词的相似度，该关键词归类到相似度最大的种子词所属分类中，重复聚类的过程，直到完成分组。

如图3所示，得到聚类结果为：聚类1包括“初三复读”，“中考复读”对应于创意2，聚类2包括“我想复读”，“复读真漫长”，“复读真的好吗”，“复读应该去哪里”对应于创意1。

如图4所示，为本发明实施例提供的关键词分组系统的框图，包括：

分类模型建立模块101，用于从搜索日志的搜索词中提取关键词建立关键词分类模型，所述关键词分类模型包括关键词的属性及属性的权值。

如图5所示，图5为本发明实施例提供的关键词分类模型的框图，分类模型建立模块101包括：

获取搜索词子模块201，用于获取搜索日志的搜索词，并对搜索词进行分词处理和过滤处理得到关键词。

获取搜索词子模块201获取搜索日志的搜索词，首先进行分词得到词项集合，并对词项集合进行过滤，去掉集合中的停用词，如助词、介词等，得到关键词。

特征提取子模块202，用于提取获取搜索词子模块201所得到的关键词的属性作为分类特征，所述关键词的属性包括关键词的字面、词义和词性。

其中，关键词的字面是指经过分词处理直接得到的词项，比如，对于搜索词“世界杯足球赛”可以提取得到“世界杯”“足球赛”词项。对于搜索词“复读真的好吗”可以提取得到“复读”“好”词项。

权值计算子模块203，用于为特征提取子模块202中提取得到的各分类特征赋予对应的权值，建立关键词分类模型。

在选取训练样本集后，根据特征提取子模块202中提取的分类特征包括关键词的字面、词义和词性，可以根据不同的计算方法，如统计方法、机器学习方法或神经网络方法等进行计算，得到关键词字面、语义、词性对应的权值，从而建立关键词分类模型。比如，采用BM25概率模型、词频-倒文档率(TF-IDF)等计算方法得到关键词的字面和词义特征对应的权值，采用经验统计的方法得到关键词的词性特征对应的权值，还可以采用机器学习方法，如贝叶斯方法、最大熵方法或SVM(Support Vector Machine，支持向量机)等，来计算关键词的各个特征对应的权值。

继续参见图4

分类模块103，用于利用分类模型建立模块得到的关键词分类模型，基于关键词的属性对当前推广账户内的关键词进行分类，并确定各关键词的权值。

选取任意推广账户，对选取的当前推广账户内的关键词，利用建立好的关键词分类模型进行分类，基于关键词的属性从关键词分类模型中得到关键词的权值。所述关键词的权值为关键词的属性以及各属性的权值构成的特征向量，采用特征向量的表示形式，如，表示为{term1，权值1，term2，权值2，......}。

关键词过滤模块104，用于对当前推广账户内的关键词进行商业价值过滤，去掉商业价值低的关键词，将过滤后的关键词为种子词模块105所用。

其中，关键词的商业价值通过关键词在搜索日志中的检索量、点击率、平均点击价格以及展现量中的至少一种体现。

关键词过滤模块104对推广账户内的关键词进行商业价值过滤的方式包括：

值得一提的是，在实际应用中，关键词过滤模块104可以采用上述多种商业价值过滤方式结合使用，也可以只采用其中的一种进行关键词过滤。针对不同应用场景中，可以先确定其影响因素，比如对于某购物类的网站，其主要关注的可能是关键词的展现量以及点击率，因而选取关键词的展现量和点击率作为影响因素；再根据影响因素确定商业价值过滤标准。对应不同应用场景的关键词数据，得到不同商业价值过滤标准。

另外，关键词过滤模块104也可以设置于分类模块103之前，将关键词过滤模块104过滤后的关键词为分类模块103所用。

种子词模块105，用于根据关键词与创意之间语义匹配度，分别从各分类的关键词中选出与当前推广账户内的创意之间语义匹配度满足预设匹配度要求的关键词作为种子词。

关键词经过商业价值过滤后，则选取关键词与创意语义匹配度较好的关键词作为种子词。为了方便选取种子词，本发明的分组系统通过设置语义匹配度模块102，用于根据语义处理模型，计算广告库中的关键词与其对应创意的语义匹配度，将所得的计算结果为种子词模块105使用。

所述语义匹配度是指关键词与创意在句法分析中的匹配模式中词与词之间语义搭配的概率，语义匹配度模块102计算关键词与创意的语义匹配度，是通过以下两种计算方法中的一种或组合进行计算：

第一，计算关键词代入到创意通配符中时的通顺度。

第二、计算关键词与对应创意在语义上的搭配度。

语义匹配度模块102通过上述任一方法或其结合，可以得到关键词与创意语义匹配度，种子词模块105则利用语义匹配度模块102的计算结果，从各个分类的关键词中选出账户内关键词与创意的语义匹配度满足预设匹配度要求的关键词。

所述预设匹配度要求包括：与当前推广账户内的创意之间语义匹配度排在前N1个，N1为预设正整数，比如，当N1＝1时，则在一个关键词分类中只选取与其对应创意的语义匹配度最好的关键词作为种子词；或者，与当前推广账户内的创意之间语义匹配度大于预设阈值。

聚类模块106，用于以种子词模块105得到的种子词为核心，基于分类模块103得到的各关键词的权值对当前推广账户中剩余的关键词进行聚类，得到关键词的分组结果。

所述聚类是计算所述关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中或者最相似的种子词所属分类中。

其中，关键词与各个种子词之间的差异度为：关键词与种子词之间各属性的权值之差，或者，关键词的属性和属性的权值组成的特征向量与种子词的属性和属性的权值构成的特征向量之间的相似度。该关键词与种子词的特征向量之间的相似度可以通过内积或余弦相似度的方法进行计算，得到关键词与种子词的相似度，用该相似度的倒数来表示关键词与种子词之间的差异度，相似度越大，差异度越小。

本发明提供的一种关键词分组方法及系统，从推广账户的关键词中筛选出与创意对应表现最好的关键词作为分组种子词，基于种子词的词型和词义进行账户内的关键词重组，建立新的关键词与创意的对应关系，提高了关键词与创意之间匹配关系的准确度，更符合网民的搜索行为和点击习惯，帮助客户进行更为有效的广告投放，从而更进一步提高客户网页的点击率和转化效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种关键词分组方法，其特征在于，

预先从搜索日志的搜索词中提取关键词建立关键词分类模型，所述关键词分类模型包括关键词的属性及属性的权值；

所述方法包括：

2.根据权利要求1所述的方法，其特征在于，预先从搜索日志的搜索词中提取关键词建立关键词分类模型具体包括：

3.根据权利要求1所述的方法，其特征在于，所述关键词的权值为：关键词的属性以及关键词的各属性的权值构成的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述关键词与创意之间语义匹配度由关键词代入到创意通配符中时的通顺度以及关键词与创意在语义上的搭配度中的一种或组合确定；

5.根据权利要求1所述的方法，其特征在于，在执行所述步骤B之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述聚类是计算当前推广账户中剩余的关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中；

7.根据权利要求1所述的方法，其特征在于，所述预设匹配度要求包括：

8.一种关键词分组系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，所述分类模型建立模块包括：

10.根据权利要求8所述的系统，其特征在于，所述分类模块确定的各关键词的权值为：关键词的属性以及各属性的权值构成的特征向量。

11.根据权利要求8所述的系统，其特征在于，该系统还包括语义匹配度模块，用于计算关键词与创意之间语义匹配度，所述关键词与创意之间语义匹配度由关键词代入到创意通配符中时的通顺度以及关键词与创意在语义上的搭配度中的一种或组合确定；

12.根据权利要求8所述的系统，其特征在于，该系统还包括：

13.根据权利要求8所述的系统，其特征在于，所述聚类模块通过计算所述关键词与各个种子词之间的差异度，把关键词聚类到差异度最小的种子词所属分类中或者最相似的种子词所属分类中；

14.根据权利要求8所述的系统，其特征在于，所述预设匹配度要求包括：与当前推广账户内的创意之间语义匹配度排在前N1个，N1为预设正整数；或者，与当前推广账户内的创意之间语义匹配度大于预设阈值。