CN103838735A

CN103838735A - 一种提高检索效率和质量的数据检索方法

Info

Publication number: CN103838735A
Application number: CN201210475837.2A
Authority: CN
Inventors: 刘博�; 梅昱婷
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2014-06-04

Abstract

本发明公开了一种提高检索效率和质量的数据检索方法，包括以下步骤：构建基于数据库的双向索引，接收用户的单关键字查询或者多关键字和多语句的查询；相关度排序，包括按照按频次或权值排定次序和按页面被访问或被引用的次数排序；设计用户接口，提交搜索请求，表现搜索结果，分析搜索行为；调整VSM检索模型排序。本发明采用相关度排序技术和用户接口技术提高检索效率和质量，使得搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息，并对VSM检索模型排序方法进行了调整，使得其适合于实际情况中查询向量能比较近似地代表用户查询目标文档的情况。

Description

一种提高检索效率和质量的数据检索方法

技术领域

本发明涉及一种Web数据检索技术，特别是一种提高检索效率和质量的数据检索方法。

背景技术

信息检索的核心就是判断待检索文章与用户查询式是否相关，通常通过一个相关性评价的数据检索模型来实现。在这个数据检索模型中给出了文档的表示方式、检索的表示方式以及检索与文档的匹配过程。检索技术发展至今,有很多不同的检索模型,最经典的模型有布尔逻辑模型、向量空间模型、概率论模型及神经网络模型等。

布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。在设计信息检索系统时，它是用得最普遍的模型，尤其是在商用信息检索系统中。在布尔模型中，一个文档通过一个关键词条的集合来表示，这些词条都来自一个词典。在查询与文档匹配的过程中，主要看该文档中的词条是否满足查询的条件。向量空间模型是实验环境中应用最多的检索模型。在向量模型中，信息获取系统如果涉及n个关键词，则建立n维的向量空间，每一维都代表不同的关键词，信息库中的文本以及用户的查询都通过该空间中的向量来表示。信息检索的概率论模型的基础是概率排序规则：如果文档按照与查询的概率相关性的大小排序，那么排在前面的文档是最有可能被检索的文档。布尔模型主要缺点包括对于一个信息获取系统的初学者来说，由于很难掌握布尔操作符的使用方法，因此很难将一个查询公式化；不能够在查询串中说明关键词的相对重要性，即在布尔模型中，查询串中的关键词是被对等看待的；在布尔模型中匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。很难将文档按照与查询串相关性来排序。但是，布尔模型实现起来比较容易，而且计算的代价相对较少；较其他模型中的查询语言更容易表达；该模型适合于那些明确知道自己想要查找什么信息的用户。概率论模型要明显优于布尔模型，但是比向量模型略差，概率论模型的主要缺点在于与向量模型一样，关键词之间是假设相互独立的；在没有获得样本文档之前，即没有相关的文档之前，无法估计词条的相关性。

搜索引擎作为信息检索的工具，应该能理解用户的检索意图并在最短的时间内使用户检索到最相关信息。提高搜索引擎检索效率和检索质量是其中的重要技术。目前主要涉及相关度排序技术和用户接口技术两方面。

发明内容

为解决现有技术存在的上述问题，本发明通过运用相关度排序技术和用户接口技术，设计一种能理解用户的检索意图并在最短的时间内使用户检索到最相关信息的提高了检索效率和质量的方法。

为了实现上述目的，本发明的技术方案如下：一种提高检索效率和质量的数据检索方法，包括以下步骤：

A、构建基于数据库的双向索引，接收用户的单关键字查询或者多关键字和多语句的查询。

B、相关度排序

B1、按频次或权值排定次序。如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好。

B2、按页面被访问或被引用的次数排序。本发明中让搜索引擎会记录所搜索到的页面的被引用次数,从而判断该页面被访问的频率。

对于一个查询q，搜索引擎首先利用相似度函数找到k个页面，然后利用下面的公式计算每个页面的重要性。

Rankingscore(q，d)=α*sim(q，d)+β*R(d)

其中，α，β∈[0，1]，α+β=1，sim(q，d)是相似度函数，sim(q，d)，R(d)∈[0，1]。

C、提交搜索请求

采用多语言查询技术，当用户使用一种语言输入查询关键词时(例如使用中文)，本发明除了使用这个关键词查询外，还会同时使用相应的英文关键词查询，这样就可以同时得到各种语言的查询结果。由于中文编码的多样性，多语言查询技术又有了其特殊意义，引擎可以在各种中文编码GB、BIG5等等)之间转换，从而可以只使用一种中文编码提交查询请求，而同时查询出使用不同中文编码的信息。

同时也可以采用模糊语义查询技术，当用户提交一个关键词后，本发明还可以使用这个关键词的同义词、近义词等查询，从而使得查询更加准确。当用户直接使用自然语言来描述搜索请求时，本发明会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求。

D、表现搜索结果

D1、进行相关度评价和排序，使用户对搜索结果能够有一个更好的取舍；

D2、提供“网页快照”或称“cache”功能，使用户在无法连接到相关主机的情况下也可以浏览其信息；

D3、提供“类似网页”功能，便于用户快速获得与查询相关的信息

D4、提供“二次检索”功能。按照一定的条件对搜索结果进一步进行优化,可以再选择类别、相关词等。

E、分析搜索行为

本发明充分考虑用户的个性搜索，跟踪分析用户的搜索行为，然后通过进行“群体行为分析”和“个性化搜索”并积累用户的搜索个性化数据，一方面使用户的搜索更加精确，更符合每个用户的需求。另一方面可以变传统的信息拉取技术(即由用户主动从信源拉取信息)为个性化的信息推送(即由信源将信息主动推送给用户)或信息推拉技术(即在信息获取过程中既有来自信源的推送也有用户自身的主动拉取)。

F、调整VSM检索模型排序

在实际中，用户输入的关键词很有限，一般3至8个，而文档向量一般30-60维，这样查询向量就很难近似代表目标文档向量，同时文档集中查询关键词的权重信息对查询结果非常重要。考虑到以上情况当前实际应用中对相似度计算方法进行了调整，最简单的相似度计算方法是直接计算查询串与文档向量间的点集，不再标准化。即

sim (d, q) = Σ_{i = 1}^{m} w_{i} q_{i}

其中，d代表文档向量，q代表查询向量，q_i为q中的第i个词条的权重，w_i为q中第i个词条在文档中的权重。

考虑到文档和查询向量的权重与文档和查询串的长度紧密相关，因此上面的公式显得不科学。目前比较常用的相似度计算方法是余弦表示法，在该方法中考虑到了文本的长度和查询串的长度：

sim (d, q) = \frac{Σ_{i = 1}^{m} w_{i} q_{i}}{| d | \times | q |}

其中，d代表文档向量，q代表查询向量，q_i为q中的第i个词条的权重，w_i为q中第i个词条在文档中的权重，|d|与|q|分别表示文档与查询串的长度。

与现有技术相比，本发明具有以下有益效果：

1、由于本发明使用基于数据库的双向索引，提高了检索效率和检索质量。

2、本发明采用相关度排序技术和用户接口技术提高检索效率和质量，使得搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息。

3、本发明调整VSM检索模型排序方法，使得其适合于实际情况中查询向量能比较近似地代表用户查询目标文档的情况。

附图说明

本发明共有附图1张，其中：

图1是本发明中数据检索工作流程示意图。

具体实施方式

下面结合附图对本发明进行进一步地描述。如图1所示，其工作流程如下：

B、相关度排序

Rankingscore(q，d)=α*sim(q，d)+β*R(d)

C、提交搜索请求

D、表现搜索结果

E、分析搜索行为

F、调整VSM检索模型排序

sim (d, q) = Σ_{i = 1}^{m} w_{i} q_{i}

sim (d, q) = \frac{Σ_{i = 1}^{m} w_{i} q_{i}}{| d | \times | q |}

Claims

1.一种提高检索效率和质量的数据检索方法，其特征在于：包括以下步骤：

A、构建基于数据库的双向索引，接收用户的单关键字查询或者多关键字和多语句的查询；

B、相关度排序

B1、按频次或权值排定次序；如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好；

B2、按页面被访问或被引用的次数排序；本发明中让搜索引擎会记录所搜索到的页面的被引用次数,从而判断该页面被访问的频率；

对于一个查询q，搜索引擎首先利用相似度函数找到k个页面，然后利用下面的公式计算每个页面的重要性；

Rankingscore(q，d)=α*sim(q，d)+β*R(d)

其中，α，β∈[0，1]，α+β=1，sim(q，d)是相似度函数，sim(q，d)，R(d)∈[0，1]；

C、提交搜索请求

采用多语言查询技术，当用户使用一种语言输入查询关键词时之间转换，从而可以只使用一种中文编码提交查询请求，而同时查询出使用不同中文编码的信息；

同时也可以采用模糊语义查询技术，当用户提交一个关键词后，本发明还可以使用这个关键词的同义词、近义词等查询，从而使得查询更加准确；当用户直接使用自然语言来描述搜索请求时，本发明会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求；

D、表现搜索结果

D4、提供“二次检索”功能；按照一定的条件对搜索结果进一步进行优化,可以再选择类别、相关词等；

E、分析搜索行为

本发明充分考虑用户的个性搜索，跟踪分析用户的搜索行为，然后通过进行“群体行为分析”和“个性化搜索”并积累用户的搜索个性化数据，一方面使用户的搜索更加精确，更符合每个用户的需求；另一方面可以变传统的信息拉取技术即由用户主动从信源拉取信息，为个性化的信息推送即由信源将信息主动推送给用户，或信息推拉技术即在信息获取过程中既有来自信源的推送也有用户自身的主动拉取；

F、调整VSM检索模型排序

在实际中，用户输入的关键词很有限，一般3至8个，而文档向量一般30-60维，这样查询向量就很难近似代表目标文档向量，同时文档集中查询关键词的权重信息对查询结果非常重要；考虑到以上情况当前实际应用中对相似度计算方法进行了调整，最简单的相似度计算方法是直接计算查询串与文档向量间的点集，不再标准化；即

sim (d, q) = Σ_{i = 1}^{m} w_{i} q_{i}

其中，d代表文档向量，q代表查询向量，q_i为q中的第i个词条的权重，w_i为q中第i个词条在文档中的权重；

考虑到文档和查询向量的权重与文档和查询串的长度紧密相关，因此上面的公式显得不科学；目前比较常用的相似度计算方法是余弦表示法，在该方法中考虑到了文本的长度和查询串的长度：

sim (d, q) = \frac{Σ_{i = 1}^{m} w_{i} q_{i}}{| d | \times | q |}