CN101216825B

CN101216825B - 标引关键词提取/预测方法

Info

Publication number: CN101216825B
Application number: CN2007101607007A
Authority: CN
Inventors: 朱廷劭
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-12-29
Filing date: 2007-12-29
Publication date: 2010-10-27
Anticipated expiration: 2027-12-29
Also published as: CN101216825A

Abstract

本发明公开了一种预测目标网页的标引关键词的方法，该方法包括：获取训练数据集，根据所获取的训练数据集训练决策树；利用训练得到的决策树生成标引关键词的过滤器；利用训练得到的决策树和所生成的过滤器，预测目标网页的标引关键词。本发明还公开了一种推荐在线广告的方法，根据用户浏览历史预测得到的目标在线广告的标引关键词发送给搜索引擎，并推荐搜索引擎返回的在线广告。本发明还公开了一种提取网页的标引关键词的方法以及推荐在线广告的装置。根据本发明公开的方法和装置，能够预测用户的搜索意图，为用户提供精确的搜索服务。

Description

标引关键词提取/预测方法

技术领域

本发明涉及搜索技术，特别是指根据用户的浏览行为捕捉用户的搜索意图，预测目标网页的标引关键词的方法，以及推荐在线广告的方法和装置。

背景技术

随着网络与通信技术的迅速发展，Web信息爆炸性的增长，已经成为一个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获取自己需要的信息，是互联网用户面临的一个重要问题。互联网的媒体特性促使在线广告(Online Advertisement)的诞生和发展，在线广告的形式已被许多企业接受和采纳，而且取得较好的广告效果。如何快速、准确、方便的从在线广告中获取自己需要的在线广告，同样也是在线广告所面临的一个重要问题。

Web搜索引擎能为用户提供一种查找所需资源的服务，越来越多的搜索引擎对人们获取网络资源提供了很大的方便。目前搜索引擎是根据网页的静态内容，按照用户输入的一个或多个搜索关键字进行搜索并返回搜索结果。因此，按照目前的搜索技术，无法正确预测用户的搜索意图，更不能为用户推荐符合用户搜索意图的网页和在线广告。

发明内容

有鉴于此，本发明的主要目的在于提供一种提取网页的标引关键词的方法，提取出指定网页的标引关键词。

本发明的另一主要目的在于，提供一种预测目标网页的标引关键词的方法，根据用户的浏览行为预测用户的搜索意图。

为了达到上述目的，本发明提供一种提取网页的标引关键词的方法，该方法包括：

获取训练数据集，所述训练数据集包括多个样本网页以及相应样本网页的标引关键词，所述标引关键词包括l个字/词，l为大于等于1的自然数；

获取所述样本网页的标引关键词中每一个字/词的网页特征向量，所述网页特征向量用于描述每一个字/词在网页中的特征属性，包含多个属性分量，将该标引关键词中所有字/词的网页特征向量列在一起得到该样本网页的标引关键词的网页特征向量，对该标引关键词的网页特征向量进行分类得到所属的类别，并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树；

利用训练得到的决策树，生成标引关键词的过滤器，所述过滤器包括标引关键词的网页特征向量的判定条件；所述利用训练得到的决策树为：在根节点中设置标引关键词的网页特征向量中分量的判定条件，根据分量的不同取值建立分支节点，然后在每个分支节点中设置标引关键词的网页特征向量中分量的判定条件并根据分量的不同取值再建立下层分支节点，直到建立叶节点为止，叶节点对应所述类别；

所述生成标引关键词的过滤器的步骤包括：

针对具有规定类别的每一个叶节点，将从根节点到所述叶节点的判定条件用“与”的关系连接在一起得到从根节点到所述叶节点的规则；

对于每一个规则，将标引关键词的相同位置的判定条件用“与”的关系连接在一起得到标引关键词的每一个位置的判定条件；

将不同规则中标引关键词的相同位置的判定条件用“或”的关系组合在一起，得到标引关键词的每一个位置的析取范式，所述标引关键词的各位置的析取范式构成过滤器；

获取网页的部分或所有字/词，获取所述部分或所有字/词的网页特征向量，并选择网页特征向量符合所述过滤器中判定条件的字/词，从所选择的字/词中提取网页的标引关键词。

为了达到上述另一目的，本发明提供一种预测目标网页的标引关键词的方法，该方法包括：

获取训练数据集，所述训练数据集包括多个浏览历史样本目标网页以及相应浏览历史样本目标网页的标引关键词，所述标引关键词包括l个字/词，l为大于等于1的自然数；

获取所述浏览历史样本目标网页的标引关键词中每一个字/词的浏览特征向量，所述浏览特征向量为字/词在浏览历史记录中的一些表相的特性和方式，包含多个属性分量，将该标引关键词中所有字/词的浏览特征向量列在一起得到该浏览历史样本目标网页标引关键词的浏览特征向量，对该标引关键词的浏览特征向量进行分类得到所属的类别，并根据所述训练数据集中浏览历史样本目标网页的标引关键词的浏览特征向量和所属的类别训练决策树；

利用训练得到的决策树，生成标引关键词的过滤器，所述过滤器包括标引关键词的浏览特征向量的判定条件；所述利用训练得到的决策树为：在根节点中设置标引关键词的浏览特征向量中分量的判定条件，根据分量的不同取值建立分支节点，然后在每个分支节点中设置标引关键词的浏览特征向量中分量的判定条件并根据分量的不同取值再建立下层分支节点，直到建立叶节点为止，叶节点对应所述类别；

所述生成标引关键词的过滤器的步骤包括：

获取浏览历史网页，获取所述浏览历史网页的部分或所有字/词，获取所述部分或所有字/词的浏览特征向量，并选择浏览特征向量符合所述过滤器中判定条件的字/词，从所选择的字/词中预测目标网页的标引关键词。

根据本发明提供的预测目标网页的标引关键词的方法，预先根据浏览历史样本目标网页训练决策树，利用训练得到的决策树生成标引关键词的过滤器，之后，根据用户浏览历史记录提取用户浏览历史网页序列中所包含的字/词的浏览特征向量，调用决策树和过滤器来预测目标网页的标引关键词，从而预测到了用户的搜索意图。其中，在训练决策树时可以根据本发明提供的提取网页的标引关键词的方法提取出了浏览历史样本目标网页的标引关键词。由此可以看出，本发明充分结合了静态的网页内容和动态的用户的浏览行为，根据被动观察到的用户浏览的历史纪录来预测用户的搜索意图，无需用户的其他输入，对用户的浏览不做任何的干预，为用户提供更精确的搜索服务。上述预测用户搜索意图的方法可以应用于在线广告的推荐，通过用户的广告浏览历史记录来预测并推荐与用户搜索意图最相关的在线广告。由于在线广告推荐中利用了用户的浏览历史记录，因此，即便是采用引用方式发布的在线广告也对于在线广告的推荐有贡献，所以广告发布商采用显示广告或引用广告的方式发布广告都能获得收益。

图1所示为用户网上浏览过程示意图；

图2所示为本发明中为提取网页的标引关键词而训练决策树的流程图；

图3所示为本发明中训练得到的决策树的示意图；

附图说明

图4所示为本发明中生成过滤器的流程图；

图5所示为本发明中从指定网页中提取标引关键词的流程图；

图6所示为本发明中为了预测目标网页的标引关键词而训练决策树的过程；

图7所示为本发明中预测目标网页的标引关键词的流程图；

图8所示为本发明中用于提取网页的标引关键词的装置结构图；

图9所示为本发明中用于推荐在线广告的装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面举具体实施例，对本发明作进一步详细的说明。

设想这样的一个用户的网上浏览过程，如图1所示。用户在浏览器中打开网页“P1”，然后点击网页P1中的一个超级链接，该链接的题头(anchortext)中包含“Dolphins”。但是这个链接将用户引到另外一个网页“P2”，网页P2是关于NFL中的一个橄榄球队的“Miami Dolphins”。当用户发现这个网页P2并不是他想要的，就点击“Back”按钮返回到网页P1。在跳过网页P1中的题头是“free dolphin”第二个连接后，点击第三个题头中包含“Whale”的超级链接。这个超级链接打开了网页“P3”，然后用户点击了题头包含“whale”和“Shamu”的超级链接去继续浏览其他网页，直到打开网页“P5”，其中包含了关于“whales”和“seaworld”信息。

基于用户截止到目前的浏览历史，可以做出这样的推断，这个用户希望找到关于“whale”和“dolphin”的信息，而非“football”和“NFL”，为什么呢？因为用户点击了关于“whale”或“dolphin”的超级链接，而从关于“football”和“NFL”的网页退回到前一网页。我们做出的推断所基于的规则可以描述如下：

“whale”是用户想找的信息，因为他点击了包含“whale”的超级链接

“football”并非用户需要的信息，因为他从和“football”相关的网页中退出

更进一步归纳上述的一些规则，可以得到下面更具一般性的规则(说明：实际使用的规则比这些例子描述的更复杂，使用的属性也更多)，其中W可以是任何字/词：

如果用户频繁点击包含了W的超级链接，则W是用户想找的信息

如果用户从和W相关的网页退回，则W不是用户想找的信息

上述的规则具有普遍的适用性，也就是说这些规则可以应用于任何的信息资源环境中。因为这些规则是完全基于用户的浏览过程中的浏览行为，而并不是基于用户当前所浏览的内容。

本发明获取类似于上述一般性规则的用户浏览行为模型，利用用户浏览行为模型预测用户的搜索意图，向用户推荐符合用户搜索意图的搜索结果。

首先，本发明提供一种提取网页的标引关键词的方法。本发明所述的网页的标引关键词为，从网页的正文中提取出的关键词，以此标引关键词为搜索关键词，则对于特定的搜索引擎，该网页是该搜索引擎返回的第一个搜索结果或者在前几个搜索结果之中。其中，标引关键词的长度为l(l≥1)，即标引关键词包含l个字/词。

本发明在提取网页的标引关键词时，利用机器学习(Machine Learning)中的分类学习技术对网页进行处理从而提取出其标引关键词。机器学习是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习一般可以分为有指导的学习和无指导的学习。本发明使用有指导的学习方法中的决策树学习。

本发明提供的提取一个指定网页的标引关键词的过程主要包括三大步骤：第一步，获取训练数据集，根据所获取的训练数据集训练决策树；第二步，利用训练得到的决策树，生成标引关键词的过滤器；第三步，利用训练得到的决策树和所生成的过滤器，提取网页的标引关键词。下面详细介绍决策树训练过程以及过滤器生成过程，进而详细介绍利用决策树和过滤器提取网页标引关键词的流程。

图2所示为训练决策树的流程图，如图2所示，训练决策树的过程包括以下步骤：

步骤201：获取用于训练决策树的训练数据集，训练数据集中包括多个数据项，每一个数据项包括一个样本网页以及该样本网页的标引关键词。

例如，训练数据集可以表示为如下形式：

{(p₁，W¹)…，(p_i，Wⁱ)，…(p_N，W^N)}

其中p_i为训练数据中的一个样本网页，Wⁱ为该样本网页的标引关键词。其中，每一个标引关键词的长度为l，标引关键词Wⁱ包含l个字/词w₁ ⁱ，w₂ ⁱ，…w_l ⁱ。

训练数据可以以手工方式获取，也可以由系统自动生成。训练数据集中的数据项数目N可以根据决策树训练需求而定。

步骤202：对于训练数据集中的每一个样本网页，计算样本网页的标引关键词中的每一个字/词的网页特征向量，然后将所得到的字/词的网页特征向量按照字/词在标引关键词中的顺序排列成一个向量，作为整个标引关键词的网页特征向量。

本发明所述的网页特征向量用于描述每一个字/词在网页中的特征属性，可以包含多个属性分量。在本实施例中，字/词w在网页p内的网页特征向量包含19个分量(v₁，v₂，…，v₁₉)，分别对应于字/词w在网页p内不同HTML标签上出现的次数，这些标签分别为：“alt”、“h1”、“h2”、“h3”、“h4”、“h5”、“h6”、“a”、“title”、“cite”、“strong”、“big”、“em”、“i”、“b”、“u”、“blink”、“s”，以及在网页p中的总的出现次数。

如步骤201所述，训练数据集中的样本网页p_i的标引关键词Wⁱ包括l个字/词w₁ ⁱ，w₂ ⁱ，…w_j ⁱ，…w_l ⁱ，其中字/词w_j ⁱ的网页特征向量为(v₁ ^j，v₂ ^j，…，v₁₉ ^j)，上标j表示该字/词在标引关键词中的位置，下标1，2，…，19表示网页特征向量的分量。这样，本步骤得到的整个标引关键词的网页特征向量可以表示为：

(v₁ ¹，v₂ ¹，…，v₁₉ ¹，v₁ ²，v₂ ²，…，v₁₉ ²，…，v₁ ^l，v₂ ^l，…，v₁₉ ^l)

其中，标引关键词的网页特征向量的长度为19×l。

这里，标引关键词的网页特征向量中不包含标引关键词中的字/词，而只包含这些字/词的网页特征向量。

步骤203：对每一个样本网页的标引关键词的网页特征向量进行分类得到所属的类别。

对标引关键词的网页特征向量进行分类时，可以根据样本网页在以该标引关键词为搜索关键词进行搜索而返回的搜索结果中的排名位置(rank)进行分类，例如，如果rank≥5，则分类为“bad”类别，否则分类为“good”类别。标引关键词的网页特征向量的19×l个分量的变量命名与其所属的字/词在标引关键词中的位置相对应，这样，训练数据集中的每一个样本网页及其标引关键词可以表示为：

[v₁ ¹，v₂ ¹，…，v₁₉ ¹，v₁ ²，v₂ ²，…，v₁₉ ²，…，v₁ ^l，v₂ ^l，…，v₁₉ ^l，bad/good]

步骤204：利用训练数据集中的样本网页的标引关键词的网页特征向量及其所属的类别，训练决策树(DT)。

通过训练，在根节点中设置标引关键词的网页特征向量中属性分量的判定条件，根据属性分量的不同取值建立分支节点，然后按照同样方式在每个分支节点中设置标引关键词的网页特征向量中属性分量的判定条件并根据属性分量的不同取值再建立下层分支节点，直到建立叶节点为止，叶节点对应“bad”或“good”的类别，以此训练得到决策树。

图3所示为按照上述步骤201～204所训练得到的决策树的示意图，其中，假设网页的标引关键词的长度为3，网页特征向量包括4个属性分量，那么标引关键词的网页特征向量可以表示为(v₁ ¹，v₂ ¹，v₃ ¹，v₄ ¹，v₁ ²，v₂ ²，v₃ ²，v₄ ²，v₁ ³，v₂ ³，v₃ ³，v₄ ³)。

图4所示为生成过滤器的流程图。本发明通过对训练得到的决策树进行分析，生成标引关键词的过滤器。过滤器是由标引关键词各位置上的析取范式构成。其中，位置是指组成标引关键词的字/词在该标引关键词中的排列顺序。通过该过滤器，可以找出组成标引关键词的字/词，并且返回这些字/词的正确排列顺序。如图4所示，生成过滤器的步骤包括：

步骤401：通过对决策树进行分析，针对类别为“good”的每一个叶节点，建立从根节点到叶节点的规则，该规则是将从根节点到叶节点的判定条件用“与”的关系连接在一起得到。

在此，结合图3说明规则建立方法。图3中，有4个类别为“good”的叶节点，因此需要建立4个规则，具体为，将从根节点到每一个类别为“good”的叶节点的判定条件用“与”的关系连接在一起，得到如下所示的4个规则：

规则一：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} < 0.007 AND v_{3}^{1} < 0.75

规则二：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} < 0.007 AND v_{3}^{1} &GreaterEqual; 0.75 AND v_{2}^{3} &GreaterEqual; 0.005

规则三：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} &GreaterEqual; 0.007 AND v_{1}^{2} &GreaterEqual; 0.15

规则四：

v_{1}^{1} < 0.5 AND v_{2}^{3} < 0.25 AND v_{4}^{1} &GreaterEqual; 0.15 AND v_{3}^{3} &GreaterEqual; 0.25

步骤402：对于每一条规则，将标引关键字的相同位置的判定条件用“与”的关系连接在一起，得到标引关键词的每一个位置的判定条件。

在此，标引关键词的相同位置的判定条件是指标引关键词中相同位置上的字/词的网页特征向量的属性分量的判定条件。按照上述例子，本步骤得到的结果如下所示：

规则一：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} < 0.007 AND v_{3}^{1} < 0.75

位置一：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{1} < 0.75

位置二：

v_{3}^{2} < 0.007

位置三：无

规则二：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} < 0.007 AND v_{3}^{1} &GreaterEqual; 0.75 AND v_{2}^{3} &GreaterEqual; 0.005

位置一：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{1} &GreaterEqual; 0.75

位置二：

v_{3}^{2} < 0.007

位置三：

v_{2}^{3} &GreaterEqual; 0.005

规则三：

v_{1}^{1} &GreaterEqual; 0.5 AND v_{3}^{2} &GreaterEqual; 0.007 AND v_{1}^{2} &GreaterEqual; 0.15

位置一：

v_{1}^{1} &GreaterEqual; 0.5

位置二：

v_{3}^{2} &GreaterEqual; 0.007 AND v_{1}^{2} &GreaterEqual; 0.15

位置三：无

规则四：

v_{1}^{1} < 0.5 AND v_{2}^{3} < 0.25 AND &GreaterEqual; 0.15 AND v_{3}^{3} &GreaterEqual; 0.25

位置一：

v_{1}^{1} < 0.5 AND v_{4}^{1} &GreaterEqual; 0.15

位置二：无

位置三：

v_{2}^{3} < 0.25 AND v_{3}^{3} &GreaterEqual; 0.25

步骤403：将不同规则中标引关键词的相同位置的判定条件用“或”的关系组合在一起，得到标引关键词的每一个位置上的析取范式，由此得到标引关键词的过滤器。

由于一个决策树可能包括多个规则，而每个规则之间是“或”的关系，因此，标引关键词的某一位置上的析取范式为，将不同规则中的相同位置上的判定条件按照“或”的关系建立的判断条件。按照上述例子，标引关键词的每一个位置上的析取范式如下所示：

位置一：(v₁≥0.5 AND v₃＜0.75)OR(v₁≥0.5 AND v₃≥0.75)ORv₁≥0.5 OR(v₁＜0.5 AND v₄≥0.15)

位置二：v₃＜0.007 OR(v₃≥0.007 AND v₁≥0.15)

位置三：v₂≥0.005 OR(v₂＜0.25 AND v₃≥0.25)

通过以上流程得到标引关键词的过滤器，具体得到标引关键词的每一个位置上的过滤器。其中，标引关键词的每一个位置上的过滤器由上述的析取范式表示。

本发明利用训练得到的决策树和所生成的过滤器来提取指定网页的标引关键词，首先得到指定网页的字/词并获取各字/词的网页特征向量，利用标引关键词的过滤器对所获取的字/词进行过滤得到满足过滤器条件的字/词，并从这些通过过滤器的字/词中提取标引关键词。图5所示为从指定网页p中提取标引关键词的流程图，如图5所示，提取网页的标引关键词的步骤具体包括：

步骤501：获取指定网页p的所有字/词，计算所有字/词的网页特征向量。

在此，也可以获取指定网页p中部分字/词，例如，可以获取指定网页p中有效的字/词。有效的字/词是从网页p所包含的所有字/词中去除没有实际意义的例如“是”、“的”等字/词之后得到的字/词。

步骤502：对于步骤501中所获取的指定网页p的每一个字/词，判断该字/词的网页特征向量是否符合过滤器各位置上的析取范式，并记录符合析取范式的字/词以及相应的位置，得到标引关键词l个位置上可能包含的字/词集(X₁，X₂，…，X_i，…，X_l)。其中，每一个位置上所包含的字/词数可能不同，包含的字/词数用|X_i|，i＝(1，...，l)表示。

其中，过滤器生成过程如图4所示的步骤401～403所述。

步骤503：从步骤502所得到的l个位置中各位置上所得到的字/词集Xi中分别提取一个字/词组成一个长度为l的标引关键词，作为候选标引关键词。这种组合方式共有

K = Π_{i = 1}^{l} | X_{i} |

种，因此候选标引关键词的总数目为

K = Π_{i = 1}^{l} | X_{i} | .

步骤504：针对每一个候选标引关键词，将组成该候选标引关键词的各字/词的网页特征向量连在一起形成一个向量，作为该候选标引关键词的网页特征向量。

步骤505：调用训练得到的决策树DT，根据候选标引关键词的网页特征向量来预测该候选标引关键词的类别，如“good”或“bad”。

其中，决策树训练过程如图2所示的步骤201～204所述。

预测候选标引关键词的类别的方法具体为，从决策树的根节点开始，根据各节点上的判定条件来确定候选标引关键词的网页特征向量中与该节点的判定条件对应的网页特征向量的属性分量来确定该节点的分支节点，直到确定叶节点为止，根据所确定的叶节点即可得到该候选标引关键词的类别。

步骤506：对于类别为“good”的候选标引关键词，记录该候选标引关键词的预测准确度。

在此，所述的预测准确度是由决策树给出的，简单的实现方法为，将训练数据集中的所有数据项都用该决策树预测一遍，这样每一个叶节点上都会对应一些训练数据项，从而可以统计各叶节点的预测准确度，即该叶节点所对应的训练数据项中类别和叶节点的类别相同的训练数据项的总数与该叶节点所对应的训练数据项的总数的比例。

步骤507：将预测准确度最高的候选标引关键词作为该指定网页p的标引关键词。

在本步骤中，也可以选择多个标引关键词，例如，将预测准确度达到规定标准的候选标引关键词作为该指定网页的标引关键词。

以上给出了提取一指定网页的标引关键词的方法。

其次，为了预测用户的搜索意图，本发明提供了一种预测目标网页的标引关键词的方法，这里所述的目标网页是指含有用户真正需要内容的网页。在此，假设在整个互联网中存在着满足用户搜索意图的目标网页，如果预测出这个目标网页的标引关键词，那么就可以通过访问相应的搜索引擎得到该目标网页，从而为用户提供精确的搜索服务。因此，目标网页的标引关键词可以看作是用户搜索意图在相应的搜索引擎上的表示，如果预测出目标网页的标引关键词，则可以说预测到了用户的搜索意图。

类似于提取指定网页的标引关键词的方法，本发明提供的预测目标网页的标引关键词的过程也主要包括三大步骤：第一步，获取训练数据集，根据所获取的训练数据集训练决策树；第二步，利用训练得到的决策树，生成标引关键词的过滤器；第三步，利用训练得到的决策树和所生成的过滤器，预测目标网页的标引关键词。

图6所示为为了预测目标网页的标引关键词而训练决策树的过程，如图6所示，决策树训练过程包括以下步骤：

步骤601：获取用于训练决策树的训练数据集，训练数据集中包括多个数据项，每一个数据项包括一个浏览历史样本目标网页以及该浏览历史样本目标网页的标引关键词。

在此，浏览历史样本目标网页是指在浏览过程中被访问过的网页中满足搜索要求的目标网页，浏览历史样本目标网页可以由用户指定，也可以由浏览器自动生成。浏览历史样本目标网页的标引关键词可以是手工方式获取。较佳的，浏览历史样本目标网页的标引关键词可以采用实施例一中给出的基于网页特征向量的决策树方式提取，如图5所示的步骤501～步骤507。由于按照图5所示基于网页特征向量的决策树方式能够准确地提取出浏览历史样本目标网页的标引关键词，能够提高训练数据的准确度，从而提高决策树的准确度。

步骤602：对于训练数据集中的每一个浏览历史样本目标网页p，计算出该浏览历史样本目标网页p的标引关键词中的每一个字/词w的浏览特征向量，然后将所得到的浏览特征向量按照字/词在标引关键词中顺序排列成一个向量，作为整个标引关键词的浏览特征向量。

本发明所述的浏览特征向量为字/词在浏览历史记录中的一些表相的特性和方式，例如，该字/词有多少次出现在网页的标题等。其中，浏览历史记录是用户浏览的网页的序列以及相应的浏览动作，例如点击某一超级链接等。其中，浏览历史包括互联网的网页浏览，还可以包括由Text Message驱动的信息浏览以及各种信息系统之上的信息浏览。浏览特征向量可以包含多个属性分量。在本实施例中，字/词w在浏览历史记录中的浏览特征向量包含20个属性分量(b₁ ⁱ，b₂ ⁱ，…，b₂₀ ⁱ)，分别对应于在整个浏览过程中字/词w在18个HTML标签上出现的次数总和，这些标签分别为：“alt”、“h1”、“h2”、“h3”、“h4”、“h5”、“h6”、“a”、“title”、“cite”、“strong”、“big”、“em”、“i”、“b”、“u”、“blink”、“s”，另外该字/词w在所有被点击的超级链接上出现的次数总和，以及在整个网页序列中最后出现的位置。在此，所有的属性值经过归一化处理。

如步骤601所述，训练数据集中的浏览历史样本目标网页pi的标引关键词包括l个字/词w₁ ⁱ，w₂ ⁱ，…w_j ⁱ，…w_l ⁱ，其中字/词wji的浏览特征向量为(b₁ ^j，b₂ ^j，…，b₂₀ ^j)，这样，本步骤602得到的整个标引关键词的浏览特征向量可以表示为：

(b₁ ¹，b₂ ¹，…，b₂₀ ¹，b₁ ²，b₂ ²，…，b₂₀ ²，…，b₁ ^l，₂ ^l，…，b₂₀ ^l)

其中，标引关键词的浏览特征向量的长度为20×l。

步骤603：对每一个浏览历史样本目标网页的标引关键词的浏览特征向量进行分类得到所属的类别。

对标引关键词的浏览特征向量进行分类时，可以根据浏览历史样本目标网页p在以该标引关键词为搜索关键词进行搜索而返回的搜索结果中的排名位置(rank)进行分类，例如，如果rank≥5，则分类为“bad”类别，否则分类为“good”类别。标引关键词特征向量的20×l个分量的变量命名与其所属的字/词在标引关键词中的位置相对应，这样，训练数据集中的每一个浏览历史样本目标网页p及其标引关键词可以表示为：

[b₁ ¹，b₂ ¹，…，b₂₀ ¹，b₁ ²，b₂ ²，…，b₂₀ ²，…，b₁ ^l，b₂ ^l，…，b₂₀ ^l，bad/good]

步骤604：利用训练数据集中的浏览历史样本目标网页的标引关键词的浏览特征向量及其类别，训练决策树(DT′)。

通过训练，在根节点中设置标引关键词的浏览特征向量中属性分量的判定条件，根据属性分量的不同取值建立分支节点，然后按照同样方式在每个分支节点中设置标引关键词的浏览特征向量中属性分量的判定条件并根据属性分量的不同取值再建立下层分支节点，直到建立叶节点为止，叶节点对应“bad”或“good”的类别，以此训练得到决策树。

预测目标网页的标引关键词的第二步中生成过滤器的步骤同图4所示流程，在此省略其描述。

通过上述方法训练得到决策树和生成过滤器之后，为了预测目标网页的标引关键词，本发明首先获取浏览历史网页的字/词并获取各字/词的浏览特征向量，利用标引关键词的过滤器对所获取的字/词进行过滤得到满足过滤器条件的字/词，并从这些通过过滤器的字/词中提取标引关键词作为目标网页的标引关键词。图7所示为预测目标网页的标引关键词的流程图，如图7所示，包括以下步骤：

步骤701：获取浏览历史网页序列P＝(p₁，p₂，…，p_n)，对于每一个浏览历史网页p_i，提取浏览历史网页p_i内的所有或部分字/词，并计算所有或部分字/词的浏览特征向量。

在此，浏览历史网页序列可以在浏览器端得到，也可以在服务器端得到。

步骤702：对于浏览历史网页p_i的每一个字/词，判断该字/词的浏览特征向量是否符合过滤器各位置上的析取范式，并记录符合析取范式的字/词以及相应的位置，得到标引关键词l个位置上可能包含的字/词集(X₁，X₂，…，X_i，…，X_l)。其中，每一个位置上所包含的字/词数可能不同，包含的字/词数用|X_i|，i＝(1，...，l)表示。

其中，过滤器生成过程如图4所示的步骤401～403所述。

步骤703：从步骤702所得到的l个位置中各位置上所得到的字/词集Xi中分别提取一个字/词组成一个长度为l的标引关键词，作为候选标引关键词。这种组合方式共有

K = Π_{i = 1}^{l} | X_{i} |

种，因此候选标引关键词的总数目为

K = Π_{i = 1}^{l} | X_{i} | .

步骤704：针对每一个候选标引关键词，将组成该候选标引关键词的各字/词的浏览特征向量连在一起形成一个向量，作为该候选标引关键词的浏览特征向量。

步骤705：调用训练得到的决策树DT′，根据候选标引关键词的浏览特征向量来预测该候选标引关键词的类别，如“good”或“bad”。

其中，决策树训练方法如图6所示的步骤601～604所述。

预测候选标引关键词的类别的方法具体为，从决策树的根节点开始，根据各节点上的判定条件来确定候选标引关键词的浏览特征向量中与该节点的判定条件对应的浏览特征向量的属性分量来确定该节点的分支节点，直到确定叶节点为止，根据所确定的叶节点即可得到该候选标引关键词的类别。

步骤706：对于类别为“good”的候选标引关键词，记录该候选标引关键词的预测准确度。在此，所述的预测准确度是由决策树给出的。

步骤707：将预测准确度最高的候选标引关键词确定为目标网页的标引关键词。

在本步骤中，也可以选择多个标引关键词，例如，将预测准确度达到规定标准的候选标引关键词确定为目标网页的标引关键词。

如上所述，本发明通过提取用户浏览历史网页序列中所包含的字/词的浏览特征向量，调用决策树和过滤器来预测目标网页的标引关键词。由于目标网页的标引关键词可以看作是用户搜索意图在相应的搜索引擎上的表示，所以，通过本实施例预测出目标网页的标引关键词，则可以说预测到了用户的搜索意图，因此可以向用户推荐将所预测到的目标网页的标引关键词为搜索关键词搜索得到的结果。

按照上述图7所示流程预测得到目标网页的标引关键词之后，将该目标网页的标引关键词作为搜索关键词发送给搜索引擎，并向用户推荐由该搜索引擎返回的搜索结果。这样，用户可以得到符合自身搜索意图的目标网页。本发明所述的预测目标网页的标引关键词的方法可以作为浏览器的一个功能模块集成到浏览器内，或者也可以作为一个独立的功能单元安装到浏览器内。另外，也可以将本发明所述的预测目标网页的标引关键词的方法作为计算机可执行的程序，安装到浏览器上，使得该浏览器通过执行该程序来预测用户的搜索意图，以便向用户推荐网页。

本发明提供的预测目标网页的标引关键词的方法可以应用于在线广告推荐。在线广告中可以包含文本、图片、动画、音频等内容。在线广告需要返回与用户需求最相关的广告，这样可以鼓励用户点击广告项。推荐在线广告的具体方法为，广告发布网站获取用户在同一网站或不同网站上的浏览历史记录并向广告服务器登记用户的浏览历史记录，广告服务器提取浏览历史记录中所包含的字/词的浏览特征向量，调用预先训练得到的决策树和预先生成的过滤器来预测目标在线广告的标引关键词，将该目标在线广告的标引关键词作为搜索关键词发送给广告服务器上的搜索引擎，并向用户推荐由该广告服务器上的搜索引擎返回的在线广告。这样，用户可以得到自身需要的在线广告。其中，训练决策树的流程，除了训练数据集不同之外，其他过程与图6所示流程相同。为了推荐在线广告而训练决策树时，训练数据集包括多个浏览历史样本目标在线广告以及相应浏览历史样本目标在线广告的标引关键词。其中，浏览历史样本目标在线广告是指在浏览过程中被访问过的在线广告，浏览历史样本目标在线广告可以由用户指定，也可以由广告服务器自动生成。生成过滤器的方法与图4所示流程相同，在此省略其描述。

在此，广告发布网站可以采用“显示广告”或“引用广告”的方式发布广告。“引用广告”是指不显示任何广告内容，而只是作为其他网站的引用者。假设在第一个网站中采用“引用广告”的方式发布了广告，在第二个网站中采用“显示广告”的方式发布了广告，第一个网站的“引用广告”对于用户是不可见的，用户从第一个网站转到第二个网站点击了“显示广告”，这时，由于浏览特征向量表示了用户浏览历史过程，所以，该第一个网站作为浏览历史对广告的预测是有贡献的。因此，采用“显示广告”的方式发布广告的网站在用户点击任一广告而得到收益后，应当根据采用“引用广告”的方式发布广告的网站所记录的用户浏览历史记录对该广告的贡献，与采用“引用广告”的方式发布广告的网站分享部分收益。当然，采用“显示广告”的方式发布广告的网站也可以作为一个引用者与其他网站分享广告收益。

本发明提供的根据用户的浏览行为预测目标网页的标引关键词的方法，充分结合了静态的网页内容和动态的用户的浏览行为，根据被动观察到的用户浏览的历史纪录来预测用户的搜索意图，无需用户的其他输入，对用户的浏览不做任何的干预，为用户提供更精确的搜索服务。

下面给出用于实现上述方法的装置结构。

图8所示为用于提取网页的标引关键词的装置结构图，如图8所示，该装置包括：决策树训练单元810，用于训练决策树；过滤器生成单元820，用于利用所述决策树训练单元所训练得到的决策树生成过滤器；标引关键词提取单元830，用于利用所述决策树训练单元所训练得到的决策树和所述过滤器生成单元所生成的过滤器，提取输入网页的标引关键词并输出。

所述决策树训练单元810包括：训练数据集获取单元811，用于获取多个样本网页以及相应样本网页的标引关键词；标引关键词的网页特征向量计算单元812，用于计算所述样本网页的标引关键词的网页特征向量；分类单元813，用于对所述样本网页的网页特征向量进行分类得到所属的类别；训练单元814，用于根据所述样本网页的标引关键词的网页特征向量和所属的类别训练决策树；决策树保存单元815，用于保存所训练得到的决策树。

所述过滤器生成单元820包括：规则建立单元821，用于从所述决策树保存单元中所保存的决策树中，确定具有规定类别的叶节点，并建立从根节点到所述具有规定类别的叶节点的规则；判定条件提取单元822，用于从所述规则建立单元所建立的每一个规则中，提取标引关键词的相同位置的判定条件，并得到标引关键词的每一个位置的判定条件；析取范式获取单元823，用于提取所述判定条件提取单元所得到的不同规则中标引关键词的相同位置的判定条件，得到标引关键词的每一个位置的析取范式；过滤器保存单元824，用于将所述析取范式获取单元所获取的标引关键词的每一个位置的析取范式作为相应位置的过滤器保存。

所述标引关键词提取单元830包括：字/词提取单元831，用于获取输入网页的部分或所有字/词；网页特征向量计算单元832，用于计算所述字/词提取单元所获取的部分或所有字/词的网页特征向量；标引关键词各位置字/词选择单元833，用于按照所述过滤器保存单元所保存的标引关键词的每一个位置的过滤器，判断所述网页特征向量计算单元所计算的字/词的网页特征向量是否满足标引关键词的每一个位置的过滤器条件，如果满足，则在标引关键词的相应位置上选择该字/词；候选标引关键词生成单元834，用于从所述标引关键词各位置字/词选择单元所选择的标引关键词的各位置上的字/词中分别提取字/词并按照位置顺序排列成候选标引关键词；类别预测单元835，用于调用所述决策树保存单元所保存的决策树，根据所述候选标引关键词生成单元所得到的各候选标引关键词所包含的字/词的网页特征向量来预测该候选标引关键词的类别；预测准确度记录单元836，用于对于规定类别的候选标引关键词记录预测准确度；标引关键词确定单元837，用于将预测准确度达到规定标准或最高的候选标引关键词作为输入网页的标引关键词并输出。

下面给出用于推荐在线广告的装置。如图9所示，推荐在线广告的装置包括：决策树训练单元910，用于训练决策树；过滤器生成单元920，用于利用所述决策树训练单元所训练得到的决策树生成过滤器；浏览历史获取单元940，用于获取在线广告的浏览历史，并传给标引关键词预测单元；标引关键词预测单元930，用于利用所述决策树训练单元所训练得到的决策树和所述过滤器生成单元所生成的过滤器，根据浏览历史预测目标在线广告的标引关键词，并输出给在线广告推荐单元950；在线广告推荐单元950将从所述标引关键词预测单元收到的目标在线广告的标引关键词发送给在线广告搜索引擎，接收该在线广告搜索引擎所返回的在线广告并推荐。

所述决策树训练单元910包括：训练数据集获取单元911，用于获取多个浏览历史样本目标在线广告以及相应浏览历史样本目标在线广告的标引关键词；标引关键词的浏览特征向量计算单元912，用于计算所述浏览历史样本目标在线广告的标引关键词的浏览特征向量；分类单元913，用于对所述浏览历史样本目标在线广告的浏览特征向量进行分类得到所属的类别；训练单元914，用于根据所述浏览历史样本目标在线广告的标引关键词的浏览特征向量和所属的类别训练决策树；决策树保存单元915，用于保存所训练得到的决策树。在此，训练数据集获取单元911在获取浏览历史样本目标在线广告的标引关键词时，可以将浏览历史样本目标在线广告输出给图8所示的用于提取网页的标引关键词的装置，由该用于提取网页的标引关键词的装置提取出该浏览历史样本目标在线广告的标引关键词之后返回给所述训练数据集获取单元911。

所述过滤器生成单元920包括：规则建立单元921，用于从所述决策树保存单元中所保存的决策树中，确定具有规定类别的叶节点，并建立从根节点到所述具有规定类别的叶节点的规则；判定条件提取单元922，用于从所述规则建立单元所建立的每一个规则中，提取标引关键词的相同位置的判定条件，并得到标引关键词的每一个位置的判定条件；析取范式获取单元933，用于提取所述判定条件提取单元所得到的不同规则中标引关键词的相同位置的判定条件，得到标引关键词的每一个位置的析取范式；过滤器保存单元944，用于将所述析取范式获取单元所获取的标引关键词的每一个位置的析取范式作为相应位置的过滤器保存。

所述标引关键词预测单元930包括：字/词提取单元931，用于提取所述浏览历史获取单元940所获取的浏览历史中的部分或所有字/词；浏览特征向量计算单元932，用于计算所述字/词提取单元所提取的部分或所有字/词的浏览特征向量；标引关键词各位置字/词选择单元933，用于按照所述过滤器保存单元所保存的标引关键词的每一个位置的过滤器，判断所述浏览特征向量计算单元所计算的字/词的浏览特征向量是否满足标引关键词的每一个位置的过滤器条件，如果满足，则在标引关键词的相应位置上选择该字/词；候选标引关键词生成单元934，用于从所述标引关键词各位置字/词选择单元所选择的标引关键词的各位置上的字/词中分别提取字/词并按照位置顺序排列成候选标引关键词；类别预测单元935，用于调用所述决策树保存单元所保存的决策树，根据所述候选标引关键词生成单元所得到的各候选标引关键词所包含的字/词的浏览特征向量来预测该候选标引关键词的类别；预测准确度记录单元936，用于对于规定类别的候选标引关键词记录预测准确度；标引关键词确定单元937，用于将预测准确度达到规定标准或最高的候选标引关键词作为目标在线广告的标引关键词并输出给所述在线广告推荐单元950。

本发明所述的用于推荐在线广告的装置可以作为广告服务器的一个功能模块集成到广告服务器内，或者也可以作为一个独立的功能单元安装到广告服务器内。另外，也可以将本发明所述的用于推荐在线广告的方法作为计算机可执行的程序，安装到广告服务器上，使得该广告服务器通过执行该程序来进行在线广告推荐。

以上所述的提取网页的标引关键词的方法和装置、预测目标网页的标引关键词的方法和装置、以及推荐在线广告的方法和装置不仅可以应用于互联网搜索、桌面搜索、企业信息搜索，还可以应用于即时通讯(IM)设备、手机移动设备以及手持设备上的搜索应用系统。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取网页的标引关键词的方法，其特征在于，该方法包括：

获取所述样本网页的标引关键词中每一个字/词的网页特征向量，所述网页特征向量用于描述每一个字/词在网页中的特征属性，包含多个属性分量；将该标引关键词中所有字/词的网页特征向量列在一起得到该样本网页的标引关键词的网页特征向量，对该标引关键词的网页特征向量进行分类得到所属的类别，并根据所述训练数据集中样本网页的标引关键词的网页特征向量和所属的类别训练决策树；

利用训练得到的决策树，生成标引关键词的过滤器，所述过滤器包括标引关键词的网页特征向量的判定条件；所述训练决策树为：在根节点中设置标引关键词的网页特征向量中分量的判定条件，根据分量的不同取值建立分支节点，然后在每个分支节点中设置标引关键词的网页特征向量中分量的判定条件并根据分量的不同取值再建立下层分支节点，直到建立叶节点为止，叶节点对应所述类别；

所述生成标引关键词的过滤器的步骤包括：

2.根据权利要求1所述的方法，其特征在于，

所述选择网页特征向量符合所述过滤器中判定条件的字/词为：对于所述网页的部分或所有字/词，判断字/词的网页特征向量是否满足标引关键词的每一个位置的析取范式，如果满足，则在标引关键词的相应位置上选择该字/词；

所述从所选择的字/词中提取网页的标引关键词为：

从标引关键词的各位置上所选择的字/词中分别提取字/词并按照位置顺序排列成候选标引关键词；

调用训练得到的决策树，根据各候选标引关键词所包含的字/词的网页特征向量预测该候选标引关键词的类别，对于规定类别的候选标引关键词记录预测准确度，并将预测准确度达到规定标准或最高的候选标引关键词作为该网页的标引关键词。

3.一种预测目标网页的标引关键词的方法，其特征在于，该方法包括：

获取所述浏览历史样本目标网页的标引关键词中每一个字/词的浏览特征向量，所述浏览特征向量为字/词在浏览历史记录中的一些表相的特性和方式，包含多个属性分量；将该标引关键词中所有字/词的浏览特征向量列在一起得到该浏览历史样本目标网页标引关键词的浏览特征向量，对该标引关键词的浏览特征向量进行分类得到所属的类别，并根据所述训练数据集中浏览历史样本目标网页的标引关键词的浏览特征向量和所属的类别训练决策树；

所述生成标引关键词的过滤器的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述浏览历史样本目标网页的标引关键词通过权利要求1所述的方法提取得到。

5.根据权利要求3所述的方法，其特征在于，

所述选择浏览特征向量符合所述过滤器中判定条件的字/词为：对于所述浏览历史网页的部分或所有字/词，判断字/词的浏览特征向量是否满足标引关键词的每一个位置的析取范式，如果满足，则在标引关键词的相应位置上选择该字/词；

所述从所选择的字/词中预测目标网页的标引关键词为：

调用训练得到的决策树，根据各候选标引关键词所包含的字/词的浏览特征向量预测该候选标引关键词的类别，对于规定类别的候选标引关键词记录预测准确度，并将预测准确度达到规定标准或最高的候选标引关键词作为目标网页的标引关键词。