CN106095780B

CN106095780B - 一种基于位置特征的检索方法

Info

Publication number: CN106095780B
Application number: CN201610361839.7A
Authority: CN
Inventors: 江永青
Original assignee: Daerguan Information Technology (shanghai) Co Ltd
Current assignee: Daguan Data Co ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2019-12-03
Anticipated expiration: 2036-05-26
Also published as: CN106095780A

Abstract

本发明公开了一种基于位置特征的检索方法，包括如下步骤：根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算关键词在检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数；将词频及密度分数及位置距离分数进行加权求和获取关键词在检索结果中的基本分数A，将分布分数平滑后，计算顺序分数与平滑后的分布分数的比值B，通过A与B的乘积计算关键词在每个检索结果的综合分数，将检索结果按照其对应的综合分数进行降序排序后通过用户接口提供给用户。本发明词频及密度的分数、位置距离分数、分布分数、顺序分数的统合分数，实现提高检索结果相关性，提高用户体验性的目的。

Description

一种基于位置特征的检索方法

技术领域

本发明属于互联网技术领域，具体而言，涉及一种基于位置特征的检索方法。

背景技术

随着互联网的发展，搜索引擎的种类也越来越多。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游，发现和搜集信息。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。在信息检索的过程中，搜索引擎一般是根据用户输入的查询词获取匹配相应的泛需求的关键词，再根据关键词在检索结果中的词频、密度或位置计算在检索结果中的分数后，根据分数排序检索结果并提供给用户的。这种检索结果并没有考虑综合到关键词在检索结果中的词频、密度、位置、以及关键词的排序对检索结果的影响。

发明内容

为解决现有现有搜索引擎检索并未综合考虑关键词在检索结果总的词频及密度、位置、顺序对检索结果的影响，导致用户检索体验性差的计算缺陷，本发明提供了一种将关键词在检索结果中的词频、密度、位置、顺序都考虑在内计算用户查询词与检索结果关联性的基于位置特征的检索方法。

本发明提供了一种基于位置特征的检索方法，包括如下步骤：

采集通过用户接口获取的用户输入的查询词；

查询预设所述泛需求关键词数据库，获取所述查询词对应的关键词，根据所述关键词获取对应的检索结果；

根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数；

将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A，将所述分布分数平滑后，计算所述顺序分数与平滑后的分布分数的比值B，通过A与B的乘积计算所述关键词在每个检索结果的综合分数；

将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。

进一步，所述获取所述查询词对应的关键词包括

遍历所述泛需求关键词数据库，获取所述查询词中包括的关键词。

进一步，所述词频及密度分数为：

，其中，demote为预设参数，idf为所述关键词在所述检索结果中的重要程度，hit_count为查询词在检索结果中击中的次数，term为查询词，

所述idf按照如下公式计算：

进一步，所述位置距离分数的计算公式为：

其中，smoothA和smoothB为预设的平滑参数，words_count为预设的关键词词数的数量，span为预设的计算关键词分布分数的距离，promote为预设的控制参数。

进一步，所述基本分数的计算公式为：

A＝hits_score*weight1+span_score*weight2

其中，weight1、weight2分别为预设的所述词频及密度分数的权重、所述位置距离分数对应的权重。

进一步，所述分布分数的计算公式为：

其中，positions表示所述关键词在检索结果中的位置，N表示所述关键词在检索结果中的位置的数量。

进一步，所述顺序分数的计算公式为：

其中，smoothA、smoothB为预设的平滑参数，promote为预设控制参数。

进一步，所述比值

其中，所述SmoothA为预设的平滑参数。

综上，本发明通过统计所述关键词的词频及密度的分数、所述位置距离分数、分布分数、顺序分数的统合分数，实现提高检索结果相关性，提高用户体验性的目的。

附图说明

图1为本发明所述的基于位置特征的检索方法的流程示意图。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细描述。

本发明的基本思想是：将用户输入的查询词进行识别获取泛需求检索的关键词，根据所述泛需求检索的关键词查找相应的文档，根据所述关键词在所述查找出的文档中的紧密度、检索的重要程度进行相关性分数计算，最后按照预设的规则将统计分数后的检索结果提供给用户。

如图1所示，本发明提供了一种基于位置特征的检索方法，包括如下步骤：

S101、采集通过用户接口获取的用户输入的查询词；

S102、查询预设所述泛需求关键词数据库，获取所述查询词对应的关键词，根据所述关键词获取对应的检索结果。

进一步，所述获取所述查询词对应的关键词包括

具体实施时，所述泛需求关键词数据库可选的利用搜索引擎采集的网页进行分词，并将分词的结果构建出倒排索引结构；同时还可选的还会存储它们的“正排”信息，即记录它们的标题、作者、发布时间、描述等跟位置、出现次数无关但也很重要的信息。而在搜索引擎中，这些关键词可选的以倒排索引的形式存储的。倒排索引中可选的包括所有的关键词的组合及每一个关键词词对应的倒排链表。每个所述倒排链表中的块都是该关键词在某个文档中的信息，包括在文档ID、在文档中出现的次数、在文档中的出现的位置等。

关键词的获取方式是通过分词算法获取的。例如“好看的电影”，在分词算法中会被分为“好看”、“的”、“电影”，其中“的”字因为经常出现，会被作为“停用词”给去除。所以最后的关键词结果是“好看”、“电影”。具体实施时，如查找Term(即关键词)是否在文档A中存在，以及存在的位置，就是先找到Term所在的倒排链表，然后遍历该倒排链表(当然链表是按ID顺序排列的，可以随时中断跳出)，找到文档A对应的信息，就能获得该Term在文档中出现的次数、位置等。如果没有找到，就说明这个Term没有在文档中出现。

例如，对于查找“电影”查询词。假设有文档1(“好看的电影”)，文档2(“电影很好看，是一部好看的电影”)，“电影”这个Term对应到的倒排列表有A(docid:1,count:1,pos:2),B(docid:2,count:2,pos:1、5)。这里的count指该term在文档中出现的次数，pos表示在文档中出现的词的位置(去除了停用词“很”、“是”、“的”)。通过“电影”可以很容易地查找到在哪个文档中出现，以及出现的位置等信息。

S103、根据预设的关键词词频及密度算法、位置距离相关性分数算法、分布相关性分数算法、顺序相关性算法分别计算所述关键词在所述检索结果中的词频及密度分数、位置距离分数、分布分数、顺序分数。

S104、将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A，将所述分布分数平滑后，计算所述顺序分数与平滑后的分布分数的比值B，通过A与B的乘积计算所述关键词在每个检索结果的综合分数；

S105、将所述检索结果按照其对应的综合分数进行降序排序后通过所述用户接口提供给用户。

所述词频及密度分数为：

所述idf按照如下公式计算：

进一步，所述位置距离分数的计算公式为：

进一步，所述基本分数的计算公式为：

A＝hits_score*weight1+span_score*weight2

进一步，所述分布分数的计算公式为：

进一步，所述顺序分数的计算公式为：

其中，smoothA、smoothB为预设的平滑参数，promote为预设控制参数

进一步，

其中，所述SmoothA为预设的平滑参数。

以“好看电影”这个搜索和文档(“好看的动漫电影，评价很好看”)为例说明本发明。“电影”对应到的倒排列表为(docid:1,count:1,pos:3),“好看”对应的倒排列表为(docid:1,count:2,pos:1、5)。

计算hit_score:假设文档库中有10000个文档，有2000个文档包含了“电影”，则idf(“电影”)＝log(10000/2001)＝0.698，假设有5000个文档包含了“好看”，则idf(“好看”)＝log(10000/5001)＝0.30。设置demote＝0.5，文档1的hit_score＝idf(好看)*exp(hits_count(好看)，0.5)+idf(电影)*exp(hits_count(电影),0.5)＝0.698*exp(2,0.5)+0.30＝0.698*1.414+0.3＝1.287。

计算span_score:文档1的最优位置组合是“好看的动漫电影”，words_count是指“好看电影”这个查询里的词数，为2；span为“好看的动漫电影”中的词数，为3；设置promote为0.7，smoothA为1,smoothB为2，span_score＝exp((2+1)/(3+2),0.7)＝0.699。

计算base_score：假设对两个分数都取相同的权重，则base_score＝0.5*1.287+0.5*0.699＝0.993。

计算balance_score:平均位置u＝1/3*(1+3+5)＝3，

计算reverse_score:reverse score是在最优位置组合“好看的动漫电影”里计算reverse_score。由于对于查询“好看电影”，这个组合中的逆序数为0，而对于2个词的最大逆序数为1。取smoothA为1和smoothB为10，promote为0.5，则reverse_score＝exp(1–(0+1)/(1+10),0.5)＝0.9534。

最后计算总分final_score＝base_score*reverse_score/(balance_score+smoothA)＝0.993*0.9534/(0.8366+1)＝0.515，其中smoothA设置为1。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于位置特征的检索方法，其特征在于，包括如下步骤：

采集通过用户接口获取的用户输入的查询词；

查询预设泛需求关键词数据库，获取所述查询词对应的关键词，根据所述关键词获取对应的检索结果；

将所述词频及密度分数及所述位置距离分数进行加权求和获取所述关键词在所述检索结果中的基本分数A，将所述分布分数平滑后，计算所述顺序分数与平滑后的分布分数的比值B，通过A与B的乘积计算所述关键词在每个检索结果的综合分数；其中，所述词频及密度分数为：

其中，demote为预设参数，idf为所述关键词在所述检索结果中的重要程度，hit_count为查询词在检索结果中击中的次数，term为查询词，所述idf按照如下公式计算：

2.根据权利要求1所述的基于位置特征的检索方法，其特征在于，所述获取所述查询词对应的关键词包括

3.根据权利要求2所述的基于位置特征的检索方法，其特征在于，所述位置距离分数的计算公式为：

4.根据权利要求3所述的基于位置特征的检索方法，其特征在于，所述基本分数的计算公式为：

A＝hits_score*weight1+span_score*weight2

5.根据权利要求1所述的基于位置特征的检索方法，其特征在于，所述分布分数的计算公式为：

6.根据权利要求5所述的基于位置特征的检索方法，其特征在于，所述顺序分数的计算公式为：

7.根据权利要求6所述的基于位置特征的检索方法，其特征在于，

所述比值

其中，所述SmoothA为预设的平滑参数。