CN109977286B

CN109977286B - 基于内容的信息检索方法

Info

Publication number: CN109977286B
Application number: CN201910217511.1A
Authority: CN
Inventors: 张凯; 李斌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2022-10-28
Anticipated expiration: 2039-03-21
Also published as: CN109977286A

Abstract

本发明公开了一种基于内容的信息检索方法，包括：离线训练过程：通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间；逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词；将样本库的每个信息量化到相应的视觉单词，每个视觉单词记录相应信息的序号，从而构成一系列的倒排表；在线检索过程：逐一选择倒排表，将待查询的信息量化到对应的视觉单词中，获得相应的序列；将获得的所有序列合并，并去除重复的序号，形成新的序列，也即候选集合；在待选集合中进行全局的检索，设定阈值，按照距离大小，获得检索结果。通过使用本发明公开的上述方案，可以提高检索结果的准确性。

Description

基于内容的信息检索方法

技术领域

本发明涉及信息检索技术领域，尤其涉及一种基于内容的信息检索方法。

背景技术

基于内容的信息检索是(Content-Based Information Retrieval)现代信息服务的一个重要内容，具有重要的研究意义和应用价值。一个基于内容的信息检索系统主要完成的目标为：给定一个查询文件(包含但不限于文档、声音和图像等类型)和一个包含大量文件(包含但不限于文档、声音和图像等类型)的数据库，该系统能够快速准确地在数据库中查找到与查询文件内容相近的文件，返回给用户。

基于内容的信息检索技术最初用于图书、文献检索方面，现广泛应用于军事、工业、医疗、航空、政府机关等各个方面。由基于内容的文档检索引申而来的基于内容的图像检索在互联网时代有着重要的应用价值，从图像的表达与特征提取，到图像间相似度计算，高维向量最近邻搜索问题等都是研究的热点。目前著名的搜索引擎包括Google、百度、必应等。

现代检索技术中最常用的索引方法为倒排索引。由于目前数据库的规模越来越庞大，查找向量与数据库中向量逐一比对会耗费无法容忍的时间。所以在检索系统中常常采用索引技术来减少搜索时间，避免逐一比对，即可完成检索任务。

在Google等搜索引擎中，一篇文章或者图像会被表征为一个向量。现有的多倒排索引技术最好的是KLSH方法。该方法主要采用聚类算法(例如k-means算法)对样本空间进行聚类，聚类中心为单词，利用单词构建倒排表。KLSH方法会对空间多次量化，每次量化kmeans都会重新初始化。但是该方法在相同速度下准确率偏低，很难达到实时检索的要求，其速度也不是令人满意。其主要原因在于各个倒排表之间过于相似，存在较多的冗余信息，同时因为量化不精细，丢失了部分真正准确的信息。

发明内容

本发明的目的是提供一种基于内容的信息检索方法，提高了检索结果的准确性。

本发明的目的是通过以下技术方案实现的：

一种基于内容的信息检索方法，包括：

离线训练过程：通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间；逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词；将样本库的每个信息量化到相应的视觉单词，每个视觉单词记录相应信息的序号，从而构成一系列的倒排表；

在线检索过程：逐一选择倒排表，将待查询的信息量化到对应的视觉单词中，获得相应的序列；将获得的所有序列合并，并去除重复的序号，形成新的序列，也即候选集合；在待选集合中进行全局的检索，设定阈值，按照距离大小，获得检索结果。

由上述本发明提供的技术方案可以看出，1)基于不同测度空间的倒排表保证了其不相关性，去除了原有技术存在的信息冗余；2)将原有的测度空间扩充为加权测度空间，极大地丰富了测度空间的多样性，为倒排表的互补提供了多种可能；3)多测度空间的最佳组合反映了待查询向量与数据库之间的深层次联系，并且更加符合真实情况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于内容的信息检索方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提高一种基于内容的信息检索方法，如图1所示，其主要包括如下步骤：

一、离线训练过程。

通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间；逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词；将样本库的每个信息量化到相应的视觉单词，每个视觉单词记录相应信息的序号，从而构成一系列的倒排表。

离线训练过程主要包括：

1、表示为向量。

本发明实施例中，需要预先对样本库中的数据进行处理获得相应的向量。也即在离线训练过程所使用的样本库中的信息是指，对样本库中的文档或者图像进行处理后所获得的向量信息。

以图像为例，通过特征提取获得相应的特征向量信息，特征提取的方式包括但不限于SIFT特征、GIST特征、CNN特征。

2、构建基于不同测度的倒排索引结构。

1)建立测度空间。

本发明实施例中，采用均匀随机采样的方法生成一系列权值，在原有测度空间的上逐一带入所生成的权值，从而构建一系列加权后的新的测度空间；

所述原有测度空间包括但不限于：欧式距离、曼哈顿距离、相关性距离与余弦距离。

2)选择测度空间并生成视觉单词。

本发明实施例中，逐一从构建的一系列新的测度空间中选择一个测度空间，在所选择测度空间上对样本库中的信息进行聚类，聚类方法包括但不限于kmeans算法，得到聚类中心，即为视觉单词，所有视觉单词构成词典。

使用kmeans算法的聚类过程如下：

a、对于任一个新的测度空间，选择其初始聚类中心；

b、计算样本库中的每一个信息到初始聚类中心的距离，然后将每一个信息聚合到最近的聚类中心；

c、根据聚集在聚类中心的信息来更新聚类中心；

d、重复b～c两个步骤，直至聚类中心不再变化，则最终的聚类中心即为视觉单词。

3)量化并生成倒排表。

本发明实施例中，将样本库的每个信息量化到相应的视觉单词，每个视觉单词记录相应信息的序号。每个视觉单词记录相应信息的序号是指，记录相应向量信息对应的文档或者图像在数据库中的序号，包含文档或者图像序号的视觉单词序列即为倒排表。

重复上述2)～3)两个步骤，最终得到从而构成一系列的倒排表。

举例来说，假设样本库中包含如下三个文档：

文档1：小明的家乡是安徽合肥。

文档2：小明在中国科大上学。

文档3：中国科大坐落于安徽合肥。

将上述三个文档处理为向量信息后，通过上述步骤2)得到三个视觉单词：小明、合肥、中国科大，然后进行量化，得到表1所示的倒排索引结构。

视觉单词编号	视觉单词	倒排表
			1	小明	1,2
2	合肥	1,3
			3	中国科大	2,3
…

按照上述这种结构，将样本库中所有向量信息量化到视觉单词，构建倒排表。

二、在线检索过程。

逐一选择倒排表，将待查询的信息量化到对应的视觉单词中，获得相应的序列；将获得的所有序列合并，并去除重复的序号，形成新的序列，也即候选集合；在待选集合中进行全局的检索，设定阈值，按照距离大小，获得检索结果。

在线检索过程主要包括：

1、表示为向量。

与离线训练过程类似的，需要预先对带查询的数据进行预处理获得相应的向量，也即在线检索过程所使用的待查询的信息是指，对待查询的文档或者图像进行处理后所获得的向量信息。

2、多次倒排索引检索。

选择倒排表1，在对应的测度空间1上，将待查询的信息量化到对应的视觉单词，并取出单词后的序列；重复该过程在不同的倒排表上，并将取出后的序列进行合并，去除掉重复的序号，形成新的序列，即为候选集合。

3、候选集合检索

由于候选集合规模大大减小，计算与待查询的信息之间的距离，可以选择一个阈值，距离低于该阈值的结果，按照距离大小，返回序号。

本发明实施例上述方案，相对于现有方法主要具有如下优点：

1)基于不同测度空间的倒排表保证了其不相关性，去除了原有技术存在的信息冗余。

2)将原有的测度空间扩充为加权测度空间，极大地丰富了测度空间的多样性，为倒排表的互补提供了多种可能。

3)多测度空间的最佳组合反映了待查询向量与数据库之间的深层次联系，并且更加符合真实情况。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于内容的信息检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于内容的信息检索方法，其特征在于，离线训练过程所使用的样本库中的信息是指，对样本库中的文档或者图像进行处理后所获得的向量信息；每个视觉单词记录相应信息的序号是指，记录相应向量信息对应的文档或者图像在数据库中的序号。

3.根据权利要求1所述的一种基于内容的信息检索方法，其特征在于，所述通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间包括：

采用均匀随机采样的方法生成一系列权值，在原有测度空间的上逐一带入所生成的权值，从而构建一系列加权后的新的测度空间；

所述原有测度空间包括：欧式距离、曼哈顿距离、相关性距离与余弦距离。

4.根据权利要求1所述的一种基于内容的信息检索方法，其特征在于，离线训练过程中的聚类方法使用kmeans算法，其过程如下：

a、对于任一个新的测度空间，选择其初始聚类中心；

c、根据聚集在聚类中心的信息来更新聚类中心；

5.根据权利要求1所述的一种基于内容的信息检索方法，其特征在于，在线检索过程所使用的待查询的信息是指，对待查询的文档或者图像进行处理后所获得的向量信息；所提取的特征包括：SIFT特征、GIST特征和/或CNN特征。