CN106649423A

CN106649423A - 一种基于内容相关度的检索模型计算方法

Info

Publication number: CN106649423A
Application number: CN201610474582.6A
Authority: CN
Inventors: 贾海龙
Original assignee: Xinxiang University
Current assignee: Xinxiang University
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2017-05-10

Abstract

本发明公开了一种基于内容相关度的检索模型计算方法，包括相似性计算和特征权值计算；与现有技术相比，本发明首先，介绍了检索模型的基础知识——向量空间模型和概率检索模型；并重点分析了概率检索模型中的二元独立模型和BM25模型，发现二元独立模型中估算因子在进行概率计算时出现的零概率问题和BM25模型中相关度计算不准确的情况。其次针对以上两个问题，提出了改进的语言统计检索模型。最后，通过实验及分析验证了所提出改进语言统计检索模型的性能。

Description

一种基于内容相关度的检索模型计算方法

技术领域

本发明涉及一种网络技术方法，尤其涉及一种基于内容相关度的检索模型计算方法。

背景技术

搜索引擎提供信息查询服务的时候，它面对的只是查询词。而有不同背景的人可能提交相同的查询词，但是关心的信息却有可能是和查询词不同的方面，搜索引擎通常是不知道用户背景的，因此搜索引擎既要争取不漏掉任何相关的信息，还要争取将那些尽可能被关注的信息排在检索列表的前面，这是用户对搜索引擎的基本要求。因此对网络爬虫爬取来的网页进行排序是搜索引擎最核心的部分，其很大程度上决定了搜索引擎质量的好坏及用户满意度。实际检索结果排序的因子有很多，但最主要的三个因素是网页内容的相关度、网页链接关系和用户查询意图。

发明内容

本发明的目的就在于为了解决上述问题而提供一种改进HMM模型聚类策略的方法。

本发明通过以下技术方案来实现上述目的：

本发明包括相似性计算和特征权值计算；

所述相似性计算：将文档转换为特征向量后，就可以计算文档之间或者是查询和文档之间的相似性了，对于搜索排序这种任务来说，给定用户输入的查询，计算查询和网页内容之间的“相关性”，即文档是否和用户需求相关，之后按照相关程度由高到低排序，向量空间模型将问题做了转换，即以查询和文档之间的内容相似性作为相关性的替代，按照文档和查询的相似性得分由高到低排序作为搜索结果，给定用户查询特征向量和文档特征向量，Cosine相似性是最常用也是非常有效的计算相似性的方式，Cosine相似性计算定义如下式：

公式(1)是计算用户查询Q,D_i的文档相似性，式中的分子部分，将文档的每个特征权值和查询的每个特征权值相乘取和，这个过程也叫做求两个向量的点积；公式的分母部分是两个特征向量在欧式空间中长度的乘积，作为对点积计算结果的规范化，之所以要对特征向量的长度做规范化操作，主要是对长文档的一种惩罚机制，否则的话，计算结果往往是长文档得分较高，而这并非因为长文档与查询更相关，而是因为其长度较长，导致特征权值比短文档要大，所以加入规范化操作抑制长文档在排序中的位置，

为了便于理解Cosine相似性，可以将每个文档及查询看作是t维特征空间中的一个数值点，每个特征形成t维空间中的一个维度，连接特征空间原点和这个数值点形成一个向量，而Cosine相似性就是计算特征空间中两个向量之问的夹角，这个夹角越小，说明两个特征向量内容越相似，夹角越大，说明两个向量内容越不同，考虑一种极端情况：两个完全相同的文档，其在向量空间中的两个向量是重叠的，通过Cosine相似性计算得到的相似性结果为1；

所述特征权值计算：查询中的关键词权重应该反映这个词对查询的重要性，网页文档和用户查询词被转换为特征向量时，每个特征都会赋予一定的权值，在向量空间模型里，特征权值的计算框架一般被称作Tf-IDF框架，虽然具体计算方式可以有多种，但是大都遵循这一框架，而这一计算框架考虑的主要计算因子有两个：词频Tf和逆文档频率IDF，

(1)词频因子(Tf)

Tf算因子代表了词频，即一个单词在文档中出现的次数，在某个文档中反复出现的单词，往往能够表征文档的主题信息，即Tf值越大，越能代表文档所反映的内容，那么应该给予这个单词更大的权值，这是为何引入词频作为计算权值的重要因子的原因，

具体计算词频因子的时候，基于不同的出发点，可以采纳不同的计算公式，最直接的方式就是直接利用词频数，比如文档中某个单词出现过5次，就将这个单词的Tf值计为5，一种词频因子的变体计算如公式(2)所示，

W_Tf＝1+log(Tf) (2)

式中将词频数值Tf取log值作为词频权值，比如单词在文档中出现过4次，则其词频因子权值是3，公式中的数字1是为了平滑计算用的，因为如果Tf值为1的情况下，取Log后值为0，即本来出现了一次的单词，按照这种方法计算会认为这个单词从来没有在文档中出现过，为了避免这种情形，采用加1的方式来进行平滑，之所以要对词频取log，是基于如下考虑：即使一个单词出现了10次，也不应该在计算特征权值时，比出现1次的情况权值大10倍，所以加入log机制抑制这种过大的差异，

另外一种单词词频因子的变体计算公式是：

这种方法被称为增强型规范化Tf，其中的a是调节因子，过去经验取值0.5，新的研究表明取值为0.4效果更好，公式中的Tf代表这个单词的实际词频数目，而Max(Tf)代表了文档中所有单词中出现次数最多的那个单词对应的词频数目，之所以要如此操作，主要出于对长文档的一种抑制，因为如果文档较长，与短文档相比，则长文档中所有单词的Tf值会普遍比短文档的值高，但是这并不意味着长文档与查询更相关，用单词实际词频除以文档中最高词频，等于将绝对的数值进行了规范化转换，公式的含义就转换为：同一个文档内单词之间的相对重要性，即使一个文档很长，单词词频普遍很高，但是除以文档最高词频，那么通过这种计算方式得出的数值比短文档来说并不一定就大，这样就消除了文档长度因素的影响，长文档和短文档的词频因子就成为可比的了，

(2)逆文档频率因子(IDF)

词频因子是与文档密切相关的，一个单词的Tf值，指的是这个单词在某个文档中的出现次数，同一个单词在不同文档中Tf值很可能是不一样的，而逆文档频率因子IDF则与此不同，它代表的是文档集合范围的一种全局因子，给定一个文档集台，那么每个单词的IDF值就唯一确定，跟具体的文档无关，所以IDF考虑的不是文档本身的特征，而是特征单词之间的相对重要性[58]，

所谓逆文档频率因子IDF，其计算如公式(4)，

式中的N代表文档集台中总共有多少个文档，而n_k代表特征单词k在其中多少个文档中出现过，即文档频率，由公式可知，文档频率n_k越高，则其IDF值越小，即越多的文档包含某个单词，那么其IDF权值越小，IDF反映了一个特征词在整个文档集合中的分布情况，特征词出现在其中的文档数目越多，IDF值越低，这个词区分不同文档的能力越差。

(3)Tf-IDF框架

Tf-IDF框架就是结台了上述的词频因子和逆文档频率因子的计算框架，一般是将两者相乘作为特征权值，特征权值越大，则越可能是好的指示词，即：

Weight_word＝Tf×IDF (5)

从公式(5)可以看出，对于某个文档D来说：

如果D中某个单词的词频很高，而且这个单词在文档集合的其他文档中很少出现，那么这个单词的权值会很高，

如果D中某个单词的词频很高，但是这个单词在文档集合的其他文档中也经常出现t或者单词词频水高，但是在文档集合的其他文档中很少出现，那么这个单词的权值一般，

如果D中某个单词词频很低，同时这个单词在文档集合的其他文档中经常出现，那么这个单词的权值很低。

本发明的有益效果在于：

本发明是一种基于内容相关度的检索模型计算方法，与现有技术相比，本发明首先，介绍了检索模型的基础知识——向量空间模型和概率检索模型；并重点分析了概率检索模型中的二元独立模型和BM25模型，发现二元独立模型中估算因子在进行概率计算时出现的零概率问题和BM25模型中相关度计算不准确的情况。其次针对以上两个问题，提出了改进的语言统计检索模型。最后，通过实验及分析验证了所提出改进语言统计检索模型的性能。

具体实施方式

下面对本发明作进一步说明：

1、包括相似性计算和特征权值计算；

(1)词频因子(Tf)

W_Tf＝1+log(Tf) (2)

另外一种单词词频因子的变体计算公式是：

(2)逆文档频率因子(IDF)

词频因子是与文档密切相关的，一个单词的Tf值，指的是这个单词在某个文档中的出现次数，同一个单词在不同文档中Tf值很可能是不一样的，而逆文档频率因子IDF则与此不同，它代表的是文档集合范围的一种全局因子，给定一个文档集台，那么每个单词的IDF值就唯一确定，跟具体的文档无关，所以IDF考虑的不是文档本身的特征，而是特征单词之间的相对重要性^[58]，

所谓逆文档频率因子IDF，其计算如公式(4)，

式中的N代表文档集台中总共有多少个文档，而n_k代表特征单词k在其中多少个文档中出现过，即文档频率，由公式可知，文档频率n_k越高，则其IDF值越小，即越多的文档包含某个单词，那么其IDF权值越小，IDF反映了一个特征词在整个文档集合中的分布情况，特征词出现在其中的文档数目越多，IDF值越低，这个词区分不同文档的能力越差，

在极端情况下，考虑一个在文档集合中所有文档中部出现的特征词“我们”，即n_k＝N，这说明无论搜索任何主题，“我们”这个词都会出现在所有相关和不相关的文档中，因此“我们”对任何主题都没有区分相关文档和不相关文档的能力，这时“我们”的IDF值为0，例如，在一个有关IT领域的文档集合中，特征词“计算机”几乎会出现在所有文档中，这时用它进行搜索没有任何效果，但如果另一个文档集合中包括IT领域相关的文档和很多金融方面的文档，那么在这个集合中使用“计算机”搜索计算机相关的文档效果会比较好，也就是说，“计算机”这个特征词在第1个文档集合中区分不同文档的能力很差，在第2个文档集合中区分能力很强，而IDF就是衡量不同单词对文档的区分能力的，其值越高，则其区分不同文档差异的能力越强，反之则区分能力越弱，整体而言，IDF的计算公式是基于经验和直觉的，有研究者进一步分析认为：IDF代表了单词带有的信息量的多少，其值越高，说明其信息含量越多，就越有价值，

(3)Tf-IDF框架

Weight_word＝Tf×IDF (5)

从公式(5)可以看出，对于某个文档D来说：

如果D中某个单词词频很低，同时这个单词在文档集合的其他文档中经常出现，那么这个单词的权值很低，

经过几十年的不断探索，向量空间模型已经相当成熟，并被各种领域广泛采用，从数学模型的角度看，向量空问模型简单直观，用查询和文档之间的相似性来模拟搜索中的相关性，能对文档与查询的相关性进行打分排序，能够有效提高检索效率，但是总体而言，向量空闻模型是个经验型的模型，是靠直觉和经验不断摸索完善的，缺乏一个明确的理论来指导其改进方向，它的明显缺点是相似度的计算量大，当有新文档加入时，则必须重新计算词的权值，

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于内容相关度的检索模型计算方法，其特征在于：包括相似性计算和特征权值计算；

(1)词频因子(Tf)

W_Tf＝1+log(Tf) (2)

另外一种单词词频因子的变体计算公式是：

(2)逆文档频率因子(IDF)

所谓逆文档频率因子IDF，其计算如公式(4)，

(3)Tf-IDF框架

Weight_word＝Tf×IDF (5)

从公式(5)可以看出，对于某个文档D来说：