CN103744956B

CN103744956B - 一种关键词的多样化拓展方法

Info

Publication number: CN103744956B
Application number: CN201410004563.8A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 孙海春
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2017-01-04
Anticipated expiration: 2034-01-06
Also published as: CN103744956A

Abstract

本发明涉及一种辅助网络信息搜索的方法，实现关键词的多样化拓展。可以被嵌入应用到多种web信息服务系统中。方法基于一种简单的网页预处理及组织机制。能够依据用户不同的需求，得到关键词的在不同范围的多样化扩展词语集合；依据互联网络上面的超链接，构建基于网页分类的索引网络；基于构建好的索引网络，实现关键词的多样化扩展；即使用户以前没有查询过这个关键词或者这个领域，扩展仍然能够推荐出用户最有可能的查询语义。

Description

一种关键词的多样化拓展方法

技术领域

本发明属于Web信息检索领域，具体涉及Web信息检索、Web信息应用中的一种关键词的拓展方法。

背景技术

随着网络在人们日常生活中的普及，网络上的资源呈指数倍增长。各种信息杂乱地分布在互联网络上，目前，大部分用户借助搜索引擎来查找信息。但是，依靠关键词匹配的技术来筛选信息，使得现有的搜索引擎技术具有很大的局限性。缺点之一是：搜索引擎对用户服务质量的好坏在很大程度上依赖于用户输入的关键词的精确程度。实际上，只有少部分的用户一次性地给出准确的搜索词。由于用户的先验知识及用户表达能力的差异，很多情况下，在输入关键词时，用户需要搜索引擎提供一定的指导。

目前，也出现了一些关键词拓展/关键词推荐的相关技术和应用。例如：Google、Bing、Baidu等知名搜索引擎的“Searches related to…”中，系统推荐出了与搜索词相匹配的、并且最近一段时间的热度搜索关键词；搜索“天气预报”，会出现“天气预报查询一周”、“北京天气预报”、“上海天气预报”等。但是，这样的相关搜索有一个前提，要求用户输入的关键词是正确的。假如，用户无法给出查询内容的一个关键词，这种推荐是无效的。此外，有些搜索引擎也会借助传统的搜索引擎，把匹配到的网页中出现频次较高的一些词作为扩展词，推荐给用户；比如：Carrot(http://search.carrot2.org/stable/search)。相比于Google等的“Searches related to..”，这类推荐能够帮助用户对搜索的内容进一步精确。比如：搜索“教育”，会推荐出“高等教育”，“高考”，“儿童教育”等。这类推荐适用于需要对搜索内容逐步细化和精确的情况，而不适用于需要对搜索词进行联想式的扩展。同时，这类推荐需要系统实时地去提取高频率关键词，带给系统一定的负载和延迟。

发明内容

本发明的主要目的在于提供一种关键词扩展方法。通过使用这种方法，Web信息服务应用系统对给定的关键词进行“关联性”拓展、“兄弟语义”拓展和“用户个性化”拓展。所谓“关联性”拓展，是指查找一些与输入关键词不匹配，但是有现实关联的关键词。比如：输入“大学学院”，扩展出“医学院”、“研究所”、“建筑科学”、“艺术教育”等等；输入“远程教育”，拓展出“科研”，“法学”等。“兄弟语义”关联是指，查找与输入关键词属于同一个主题的其它关键词；在本体中，这些词具有同一个父类词。比如：“苹果”和“梨”，它们具有共同的父类词“水果”。“用户个性化”扩展是指依据用户的偏好对关键词进行扩展。

本发明给出的技术方案是：

一种关键词的多样化扩展方法，用于辅助网络信息搜索。其特征在于：

首先，把网页类别看作一个主题。依据选定的分类体系，把网页进行分类；对网页类与网页类之间的超链接进行统计、归一化，构建网页类与网页类之间的关联，形成基于网页分类的索引网络。

其次，基于构建的索引网络，实现关键词的多样化扩展。包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法。

所述关键词，是指用户用来搜索信息时，所输入的关键词；

所述关键词的“兄弟语义”扩展，是指扩展出与关键词同属于一个主题的其它特征词；

所述关键词的“关联性”拓展，是指扩展出与关键词具有某种现实关联的其它特征词；

所述关键词的“用户个性化”扩展，是指针对歧义关键词，依据用户的历史日志，预估用户正在查找的关键词语义，并推荐出与选定语义相关的其它特征词。

与现有技术相比，本发明的有益效果：

(1)“关联性”扩展可以拓展出一些不包含搜索词，但是与搜索词紧密关联的一系列关键词。

(2)“兄弟语义”扩展能够扩展出与关键词同属于一个主题的其它特征词。扩展出的结果比现有技术更加多样化、覆盖面更加全。

(3)“用户个性化”扩展，能够智能识别用户的偏好进行扩展，当用户输入的关键词为多义词时，这种方法利于区分用户的查询语义。另外，用户个性化扩展的优势是，即使用户以前没有查询过这个关键词或者这个领域，扩展仍然能够推荐出用户最有可能的查询语义。

附图说明

下面结合附图和实施方式对本发明作进一步的详细说明：

图1为基于网页分类的索引网络的构建流程。

图2为互联网络上的网页爬取流程。

图3为网页类与网页类之间的关联构建。

图4为兄弟语义关键词拓展的实现。

图5为关联性关键词扩展的实现流程。

图6为用户个性化关键词扩展的实现。

具体实施方式

以下通过附图对本发明技术方案作进一步详细介绍。

第一步，依据互联网络上面的超链接，构建基于网页分类的索引网络。索引网络的构建步骤如图1所示。

(11)首先，选定网页分类体系及其训练集合，使用朴素贝叶斯算法，完成网页类的特征向量的训练。具体地，我们借助dmoz人工分类目录的中文部分(http://www.dmozdir.org/)，人工选取分类目录中的300个类，把它们包含的网页作为训练集。训练完成之后，我们使用WorldNet，对网页类的特征词进行近义词拓展，以便获得描述更全面的特征向量。(12)然后，爬取互联网络上的网页，依据训练好的网页分类器，对网页进行分类处理。我们设计开发的爬虫如图2所示。具体地，我们设定爬虫从信息门户网站出发，使用深度优先的策略来爬取互联网络上的网页。(13)最后，分析网页类与网页类之间的超链接，建立网页类与网页类之间关联，形成索引网络。我们使用公式(1)来统计网页类与网页类之间的超链接，判断网页类之间的关联是否存在。进一步地，用公式(2)对公式(1)的结果进行归一化处理，给出关联的强度。网页类与网页类之间关系的构建流程如图3所示。

l (u_{i}, u_{j}) = \{\begin{matrix} \frac{\underset{p_{x} &Element; u_{i}, p_{y} &Element; u_{j}}{Σ} i (p_{x}, p_{y})}{| u_{i} |}; & i &NotEqual; j; \\ 0; & i = j \cdot \end{matrix}

i (p_{x}, p_{y}) = \{\begin{matrix} 1 & i f p_{x} h a s h y p e r l i n k t o p_{y} \\ 0 & e l s e \end{matrix} - - - (1)

其中，“u”代表网页类。“p”代表网页，“|u|”代表类u中的网页总数。

l^{'} (u_{1}, u_{2}) = \frac{1}{\underset{l (u_{1}, u_{i}) &NotEqual; 0}{Σ} l (u_{1}, u_{i})} * l (u_{1}, u_{2}) - - - (2)

第二步，基于构建好的索引网络，实现关键词的多样化扩展。

(21)实现关键词的“兄弟语义”拓展。实现流程如图4所示。具体方法如下：

“|u|”代表类u中的网页总数，“f_u(r′)”表示类u中与输入关键词相匹配的网页的数目，“η”为一个阈值；当条件成立时，我们把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户。在这种方法中，“η”是一个系统开发者设定的阈值；可以作为是否对关键词进行拓展的条件进行选择。

(22)实现关键词的“关联性”拓展。实现流程如图5所示。具体方法如下：

当时，输入的关键词被定位到网页类“u₁”，依据设定的阈值δ，我们获得所有满足条件l′(u₁,u₂)>δ的网页类的集合；这些网页类中的特征词将按照网页类与“u₁”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值。推荐值的计算过程如下：首先，对所有关联网页类的关联程度进行归一化处理；然后，把归一化得到的数值作为词语的叠加系数，计算词语的推荐值；推荐值大的特征词优先作为输入关键词的扩展。假设，与网页类“u₁”相关联的网页类有m个，那么，词语w的推荐值的计算公式为：“tfw-21”代表词语w在网页类“u₂₁”中的出现频次。

(23)实现关键词的“用户个性化”拓展。实现流程如图6所示。具体方法如下：

作为后台预处理工作，首先，依据用户的浏览日志，计算用户的主题偏好。如图6(a)所示。把用户的浏览历史记录投射到所有的类中，这样，可以得到一个用户的偏好的集合“U”。利用简单的比率公式，计算出用户对每个类的偏好比率。“U(u_i)”为用户浏览记录落在类“u_i”中的次数，“|U|”为用户浏览记录的总数目。

当用户输入一个搜索关键词时，假如关键词被定位到多个网页类“u_j1,u_j2,…u_jn”中。我们认为：与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大。那么，类“u_ji”中关键词w被推荐的概率值为：

r_{w} = (\frac{| U (u_{1}) |}{| U |} * l^{'} (u_{j i}, u_{1}) + ... + \frac{| U (u_{n}) |}{| U |} * l^{'} (u_{j i}, u_{n})) * {tf}_{w - u_{j i}}

具体的推荐实现流程如图6(b)所示。

Claims

1.一种关键词的多样化扩展方法，用于辅助网络信息搜索；其特征在于：

首先，把网页类别看作一个主题；依据选定的分类体系，把网页进行分类；对网页类与网页类之间的超链接进行统计、归一化，构建网页类与网页类之间的关联，形成基于网页分类的索引网络；

其次，基于构建的索引网络，实现关键词的多样化扩展；

包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法；

所述关键词，是指用户用来搜索信息时，所输入的关键词；

所述关键词的“用户个性化”扩展，是指针对歧义关键词，依据用户的历史日志，预估用户正在查找的关键词语义，并推荐出与选定语义相关的其它特征词；

具体包括如下步骤：

第一步，依据互联网络上面的超链接，构建基于网页分类的索引网络；

(11)首先，选定网页分类体系及其训练集合，使用朴素贝叶斯算法，完成网页类的特征向量的训练；具体地，借助dmoz人工分类目录的中文部分，人工选取分类目录中的300个类，把它们包含的网页作为训练集；训练完成之后，使用WorldNet，对网页类的特征词进行近义词拓展，获得描述更全面的特征向量；(12)然后，爬取互联网络上的网页，依据训练好的网页分类器，对网页进行分类处理；爬虫从信息门户网站出发，使用深度优先的策略来爬取互联网络上的网页；(13)最后，分析网页类与网页类之间的超链接，建立网页类与网页类之间关联，形成索引网络；

使用公式(1)来统计网页类与网页类之间的超链接，判断网页类之间的关联是否存在；进一步地，用公式(2)对公式(1)的结果进行归一化处理，给出关联的强度；

l (u_{i}, u_{j}) = \{\begin{matrix} \frac{\underset{p_{x} &Element; u_{i}, p_{y} &Element; u_{j}}{Σ} i (p_{x}, p_{y})}{| u_{i} |}; & i &NotEqual; j; \\ 0; & i = j . \end{matrix}

i (p_{x}, p_{y}) = \{\begin{matrix} 1 & i f p_{x} h a s h y p e r l i n k t o p_{y} \\ 0 & e l s e \end{matrix} - - - (1)

其中，“u”代表网页类；“p”代表网页，“|u|”代表类u中的网页总数；

l^{'} (u_{1}, u_{2}) = \frac{1}{\underset{l (u_{1}, u_{i}) &NotEqual; 0}{Σ} l (u_{1}, u_{i})} * l (u_{1}, u_{2}) - - - (2)

第二步，基于构建好的索引网络，实现关键词的多样化扩展；

(21)实现关键词的“兄弟语义”拓展；实现流程如下：

“|u|”代表类u中的网页总数，“f_u(r′)”表示类u中与输入关键词相匹配的网页的数目，“η”为一个阈值；当条件成立时，把这个类中出现频次较高的词的集合作为关键词的扩展展示给用户；在这种方法中，“η”是一个系统开发者设定的阈值；作为是否对关键词进行拓展的条件进行选择；

(22)实现关键词的“关联性”拓展；实现流程方法如下：

当时，输入的关键词被定位到网页类“u₁”，依据设定的阈值δ，获得所有满足条件l′(u₁,u₂)＞δ的网页类的集合；这些网页类中的特征词将按照网页类与“u₁”的关联强度和特征词在该网页类中出现的频次两个因素计算它们的推荐值；推荐值的计算过程如下：首先，对所有关联网页类的关联程度进行归一化处理；然后，把归一化得到的数值作为词语的叠加系数，计算词语的推荐值；推荐值大的特征词优先作为输入关键词的扩展；假设，与网页类“u₁”相关联的网页类有m个，那么，词语w的推荐值的计算公式为：

r_{w} = \frac{l^{'} (u_{1}, u_{21})}{Σ_{i = 1}^{m} l^{'} (u_{1}, u_{2 i})} * {tf}_{w - 21} + ... + \frac{l^{'} (u_{1}, u_{2 m})}{Σ_{i = 1}^{m} l^{'} (u_{1}, u_{2 i})} * {tf}_{w - 2 m};

“tf_w-21”代表词语w在网页类“u₂₁”中的出现频次；

(23)实现关键词的“用户个性化”拓展；实现流程方法如下：

作为后台预处理工作，首先，依据用户的浏览日志，计算用户的主题偏好；把用户的浏览历史记录投射到所有的类中，得到一个用户的偏好的集合“U”；利用比率公式，计算出用户对每个类的偏好比率；“U(u_i)”为用户浏览记录落在类“u_i”中的次数，“|U|”为用户浏览记录的总数目；

当用户输入一个搜索关键词时，假如关键词被定位到多个网页类“u_j1,u_j2,…u_jn”中；与用户偏好的网页类关联最紧密的类的特征词被推荐的可能性最大；类“u_ji”中关键词w被推荐的概率值为：

r_{w} = (\frac{| U (u_{1}) |}{| U |} * l^{'} (u_{j i}, u_{1}) + ... + \frac{| U (u_{n}) |}{| U |} * l^{'} (u_{j i}, u_{n})) * {tf}_{w - u_{j i}} .