CN110008407B

CN110008407B - 一种信息检索方法及装置

Info

Publication number: CN110008407B
Application number: CN201910278425.1A
Authority: CN
Inventors: 张永欢
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2021-05-04
Anticipated expiration: 2039-04-09
Also published as: CN110008407A

Abstract

本申请公开了一种信息检索方法及装置，所述方法包括：在接收到检索请求后，生成检索词库；其中，所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词；从信息库中查询符合所述检索词的索引信息，生成索引库；其中，所述索引库中包含多条索引信息；计算索引库中各索引信息相比检索词的词频‑逆文档频率TF‑IDF相关度；根据所述TF‑IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。本申请利用改进的TF‑IDF算法来计算索引库中各索引信息相比检索词的TF‑IDF相关度，从而提高了信息检索的效率和准确度。

Description

一种信息检索方法及装置

技术领域

本申请涉及信息检索领域，尤其涉及一种信息检索方法及装置。

背景技术

随着信息技术的发展，互联网信息每天都在呈比例增长，如何在庞大的信息海洋中寻找到自己想要得到的信息，是目前信息技术都在发展的方向。

对于电子商务、搜索引擎等类型的网站来说，信息搜索引擎系统能够根据用户输入的检索词，判断用户的查询意图，并在特定位置上向用户展现需要投放的相关信息，不同的检索方法会对应不同的检索结果，准确预估信息在给定的检索词上的点击率，对用户体验、信息投放方的收益、以及网站的盈利都有重要影响。

如何提高信息检索的效率和准确度，更快更准确地返回用户想要的检索结果，从而提高用户的体验度，是目前亟待解决的问题。

发明内容

本申请的主要目的在于提出一种信息检索方法，提高了信息检索的效率和准确度，更快更准确地返回用户想要的检索结果，从而提高了用户的体验度。

为实现上述目的，本申请实施例提供了一种信息检索方法，包括：

在接收到检索请求后，生成检索词库；其中，所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词；

从信息库中查询符合所述检索词的索引信息，生成索引库；其中，所述索引库中包含多条索引信息；

计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度；

根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。

可选地，所述计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度，包括：

根据所述索引信息中出现的检索词的词频与逆文档频率之和，以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度。

可选地，利用如下公式计算所述索引信息相比检索词的TF-IDF相关度：

其中，IDF_i表示所述索引信息中所包含的第i个检索词的逆文档频率，TF_i表示所述索引信息中所包含的第i个检索词的词频，TN表示所述索引信息中所包含的检索词的总数,dist_i表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离，当所述第i个检索词在所述文档中的位置d_i大于所述第i-1个检索词在所述文档中的位置d_i-1时，dist_i＝d_i-d_i-1，当所述第i个检索词在所述文档中的位置d_i小于所述第i-1个检索词在所述文档中的位置d_i-1时，dist_i＝2(d_i-1-d_i)。

可选地，其中，对于所述索引信息中所包含的堆砌3次以上的检索词，对应所述检索词的词频与逆文档频率之和采取降权一半处理。

可选地，所述根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，包括：

利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序，按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。

本申请实施例还提供了一种信息检索装置，包括：

检索词库生成模块，设置为在接收到检索请求后，生成检索词库；其中，所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词；

索引库生成模块，设置为从信息库中查询符合所述检索词的索引信息，生成索引库；其中，所述索引库中包含多条索引信息；

TF-IDF相关度计算模块，设置为计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度；

检索结果确定模块，设置为根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。

可选地，所述TF-IDF相关度计算模块具体设置为：

可选地，所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度：

其中，IDF_i表示所述索引信息中所包含的第i个检索词的逆文档频率，TF_i表示所述索引信息中所包含的第i个检索词的词频，TN表示所述索引信息中所包含的检索词的总数,dist_i表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离，当所述第i个检索词在所述文档中的位置d_i大于所述第i-1个检索词在所述文档中的位置d_i-1时，dist_i＝d_i-d_i-1，当所述第i个检索词在所述文档中的位置_di小于所述第i-1个检索词在所述文档中的位置d_i-1时，dist_i＝2(d_i-1-d_i)。

可选地，所述检索结果确定模块具体设置为：

本申请提出的技术方案包括：在接收到检索请求后，生成检索词库；其中，所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词；从信息库中查询符合所述检索词的索引信息，生成索引库；其中，所述索引库中包含多条索引信息；计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度；根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。

本申请利用改进的TF-IDF算法来计算索引库中各索引信息相比检索词的TF-IDF相关度，并根据所计算的TF-IDF相关度获取检索结果，以此方式获取的检索结果与检索词更加匹配，从而提高了信息检索的效率和准确度，更快更准确地返回用户想要的检索结果，从而提高了用户的体验度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1所示为本申请实施例1的信息检索方法流程图；

图2所示为本申请实施例2的信息检索装置流程图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1所示为本申请实施例1的信息检索方法流程图，包括以下步骤：

步骤101：在接收到检索请求后，生成检索词库；其中，所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词；

其中，检索请求中包含用户所输入的原始检索信息，在接收到该检索请求后，首先提取出用户所输入的原始检索信息，然后对其进行分词操作，在分词时可以调用现有的SCWS(“Simple Chinese Words Segmentation”的缩写，即：简易中文分词系统)所提供的接口来实现，SCWS是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正确的切分成词。其中，SCWS采用Tire树+路径最大概率法分词算法。Tire树负责文本语料库的组织，路径最大概率法分词是分词的策略。

根据分词结果生成检索词库，该检索词库中的检索词即为对原始检索信息进行分词后所产生的各个文本，如：用户所输入的原始检索信息为“绿色的毛衣”，则进行分词后所生成的检索词库中包含了两个检索词，分别为：“绿色的”和“毛衣”。

步骤102：从信息库中查询符合所述检索词的索引信息，生成索引库；其中，所述索引库中包含多条索引信息；

其中，信息库指的是用户输入原始检索信息所在的系统提供的数据库，比如该系统可以是商品投放系统(如淘宝、京东等)，还可以是搜索引擎网站(如：百度等)。

索引库中的索引信息即为信息库中包含部分或全部检索词的信息的索引，该索引库采用倒排索引建立方式。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。

倒排索引也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号(DocID)，单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项(Posting)，包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。

在从信息库中查询符合所述检索词的索引信息时，为了缩短查询时间，提高检索效率，可以把检索表打碎为每10W行一个的小表，每次直接读取对应的表。通过如此优化，最终将query的平均响应时间由1.8秒降到0.3秒，达到了优化要求。

步骤103：计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度；

其中，可以根据所述索引信息中出现的检索词的词频与逆文档频率之和，以及所述检索词在文档中的位置来计算所述索引信息相比检索词的TF-IDF相关度，具体计算方式可以利用如下公式来进行：

其中，TF_i为所述索引信息中所包含的第i个检索词在一文档中出现的次数除以其在所有文档中出现的总次数；IDF_i为总文档数目除以包含该检索词的文档的数目与1相加的和，再将得到的商取对数得到的结果值。

其中，对于所述索引信息中所包含的堆砌3次以上的检索词，对应所述检索词的词频与逆文档频率之和采取降权一半处理。

步骤104：根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。

在通过上述步骤103计算出各索引信息的Weight后，利用最大堆排序法将所有的Weight值进行排序，按数值从大到小的顺序选取前面符合预设数量的Weight所对应的索引信息，然后将所确定的索引信息对应所述信息库中的信息作为与检索请求对应的检索结果。其中，预设数量可以根据系统设计的需要灵活设定。对于检索结果，可以以系统所定义的方式向用户进行展示。

这里需要说明的是，本申请利用改进的TF-IDF算法来计算索引库中各索引信息相比检索词的TF-IDF相关度，并根据所计算的TF-IDF相关度获取检索结果，以此方式获取的检索结果与检索词更加匹配，从而提高了信息检索的效率和准确度，更快更准确地返回用户想要的检索结果，从而提高了用户的体验度。

图2为本申请实施例2的信息检索装置结构图，如图2所示，该装置包括：

进一步地，所述TF-IDF相关度计算模块具体设置为：

进一步地，所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度：

进一步地，其中，对于所述索引信息中所包含的堆砌3次以上的检索词，对应所述检索词的词频与逆文档频率之和采取降权一半处理。

进一步地，所述检索结果确定模块具体设置为：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种信息检索方法，其特征在于，包括：

根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果，

所述计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度，包括：

根据所述索引信息中出现的检索词的词频与逆文档频率之和，以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度，

利用如下公式计算所述索引信息相比检索词的TF-IDF相关度：

2.根据权利要求1所述的方法，其特征在于，其中，对于所述索引信息中所包含的堆砌3次以上的检索词，对应所述检索词的词频与逆文档频率之和采取降权一半处理。

3.根据权利要求1～2任一项所述的方法，其特征在于，所述根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，包括：

4.一种信息检索装置，其特征在于，包括：

检索结果确定模块，设置为根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息，将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果，

所述TF-IDF相关度计算模块具体设置为：

所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度：

5.根据权利要求4所述的装置，其特征在于，其中，对于所述索引信息中所包含的堆砌3次以上的检索词，对应所述检索词的词频与逆文档频率之和采取降权一半处理。

6.根据权利要求4～5任一项所述的装置，其特征在于，所述检索结果确定模块具体设置为：