CN109977286A - 基于内容的信息检索方法 - Google Patents

基于内容的信息检索方法 Download PDF

Info

Publication number
CN109977286A
CN109977286A CN201910217511.1A CN201910217511A CN109977286A CN 109977286 A CN109977286 A CN 109977286A CN 201910217511 A CN201910217511 A CN 201910217511A CN 109977286 A CN109977286 A CN 109977286A
Authority
CN
China
Prior art keywords
information
vision word
content
retrieval
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910217511.1A
Other languages
English (en)
Other versions
CN109977286B (zh
Inventor
张凯
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910217511.1A priority Critical patent/CN109977286B/zh
Publication of CN109977286A publication Critical patent/CN109977286A/zh
Application granted granted Critical
Publication of CN109977286B publication Critical patent/CN109977286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于内容的信息检索方法,包括:离线训练过程:通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间;逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词;将样本库的每个信息量化到相应的视觉单词,每个视觉单词记录相应信息的序号,从而构成一系列的倒排表;在线检索过程:逐一选择倒排表,将待查询的信息量化到对应的视觉单词中,获得相应的序列;将获得的所有序列合并,并去除重复的序号,形成新的序列,也即候选集合;在待选集合中进行全局的检索,设定阈值,按照距离大小,获得检索结果。通过使用本发明公开的上述方案,可以提高检索结果的准确性。

Description

基于内容的信息检索方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于内容的信息检索方法。
背景技术
基于内容的信息检索是(Content-Based Information Retrieval)现代信息服务的一个重要内容,具有重要的研究意义和应用价值。一个基于内容的信息检索系统主要完成的目标为:给定一个查询文件(包含但不限于文档、声音和图像等类型)和一个包含大量文件(包含但不限于文档、声音和图像等类型)的数据库,该系统能够快速准确地在数据库中查找到与查询文件内容相近的文件,返回给用户。
基于内容的信息检索技术最初用于图书、文献检索方面,现广泛应用于军事、工业、医疗、航空、政府机关等各个方面。由基于内容的文档检索引申而来的基于内容的图像检索在互联网时代有着重要的应用价值,从图像的表达与特征提取,到图像间相似度计算,高维向量最近邻搜索问题等都是研究的热点。目前著名的搜索引擎包括Google、百度、必应等。
现代检索技术中最常用的索引方法为倒排索引。由于目前数据库的规模越来越庞大,查找向量与数据库中向量逐一比对会耗费无法容忍的时间。所以在检索系统中常常采用索引技术来减少搜索时间,避免逐一比对,即可完成检索任务。
在Google等搜索引擎中,一篇文章或者图像会被表征为一个向量。现有的多倒排索引技术最好的是KLSH方法。该方法主要采用聚类算法(例如k-means算法)对样本空间进行聚类,聚类中心为单词,利用单词构建倒排表。KLSH方法会对空间多次量化,每次量化kmeans都会重新初始化。但是该方法在相同速度下准确率偏低,很难达到实时检索的要求,其速度也不是令人满意。其主要原因在于各个倒排表之间过于相似,存在较多的冗余信息,同时因为量化不精细,丢失了部分真正准确的信息。
发明内容
本发明的目的是提供一种基于内容的信息检索方法,提高了检索结果的准确性。
本发明的目的是通过以下技术方案实现的:
一种基于内容的信息检索方法,包括:
离线训练过程:通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间;逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词;将样本库的每个信息量化到相应的视觉单词,每个视觉单词记录相应信息的序号,从而构成一系列的倒排表;
在线检索过程:逐一选择倒排表,将待查询的信息量化到对应的视觉单词中,获得相应的序列;将获得的所有序列合并,并去除重复的序号,形成新的序列,也即候选集合;在待选集合中进行全局的检索,设定阈值,按照距离大小,获得检索结果。
由上述本发明提供的技术方案可以看出,1)基于不同测度空间的倒排表保证了其不相关性,去除了原有技术存在的信息冗余;2)将原有的测度空间扩充为加权测度空间,极大地丰富了测度空间的多样性,为倒排表的互补提供了多种可能;3)多测度空间的最佳组合反映了待查询向量与数据库之间的深层次联系,并且更加符合真实情况。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于内容的信息检索方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提高一种基于内容的信息检索方法,如图1所示,其主要包括如下步骤:
一、离线训练过程。
通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间;逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词;将样本库的每个信息量化到相应的视觉单词,每个视觉单词记录相应信息的序号,从而构成一系列的倒排表。
离线训练过程主要包括:
1、表示为向量。
本发明实施例中,需要预先对样本库中的数据进行处理获得相应的向量。也即在离线训练过程所使用的样本库中的信息是指,对样本库中的文档或者图像进行处理后所获得的向量信息。
以图像为例,通过特征提取获得相应的特征向量信息,特征提取的方式包括但不限于SIFT特征、GIST特征、CNN特征。
2、构建基于不同测度的倒排索引结构。
1)建立测度空间。
本发明实施例中,采用均匀随机采样的方法生成一系列权值,在原有测度空间的上逐一带入所生成的权值,从而构建一系列加权后的新的测度空间;
所述原有测度空间包括但不限于:欧式距离、曼哈顿距离、相关性距离与余弦距离。
2)选择测度空间并生成视觉单词。
本发明实施例中,逐一从构建的一系列新的测度空间中选择一个测度空间,在所选择测度空间上对样本库中的信息进行聚类,聚类方法包括但不限于kmeans算法,得到聚类中心,即为视觉单词,所有视觉单词构成词典。
使用kmeans算法的聚类过程如下:
a、对于任一个新的测度空间,选择其初始聚类中心;
b、计算样本库中的每一个信息到初始聚类中心的距离,然后将每一个信息聚合到最近的聚类中心;
c、根据聚集在聚类中心的信息来更新聚类中心;
d、重复b~c两个步骤,直至聚类中心不再变化,则最终的聚类中心即为视觉单词。
3)量化并生成倒排表。
本发明实施例中,将样本库的每个信息量化到相应的视觉单词,每个视觉单词记录相应信息的序号。每个视觉单词记录相应信息的序号是指,记录相应向量信息对应的文档或者图像在数据库中的序号,包含文档或者图像序号的视觉单词序列即为倒排表。
重复上述2)~3)两个步骤,最终得到从而构成一系列的倒排表。
举例来说,假设样本库中包含如下三个文档:
文档1:小明的家乡是安徽合肥。
文档2:小明在中国科大上学。
文档3:中国科大坐落于安徽合肥。
将上述三个文档处理为向量信息后,通过上述步骤2)得到三个视觉单词:小明、合肥、中国科大,然后进行量化,得到表1所示的倒排索引结构。
视觉单词编号 视觉单词 倒排表
1 小明 1,2
2 合肥 1,3
3 中国科大 2,3
按照上述这种结构,将样本库中所有向量信息量化到视觉单词,构建倒排表。
二、在线检索过程。
逐一选择倒排表,将待查询的信息量化到对应的视觉单词中,获得相应的序列;将获得的所有序列合并,并去除重复的序号,形成新的序列,也即候选集合;在待选集合中进行全局的检索,设定阈值,按照距离大小,获得检索结果。
在线检索过程主要包括:
1、表示为向量。
与离线训练过程类似的,需要预先对带查询的数据进行预处理获得相应的向量,也即在线检索过程所使用的待查询的信息是指,对待查询的文档或者图像进行处理后所获得的向量信息。
2、多次倒排索引检索。
选择倒排表1,在对应的测度空间1上,将待查询的信息量化到对应的视觉单词,并取出单词后的序列;重复该过程在不同的倒排表上,并将取出后的序列进行合并,去除掉重复的序号,形成新的序列,即为候选集合。
3、候选集合检索
由于候选集合规模大大减小,计算与待查询的信息之间的距离,可以选择一个阈值,距离低于该阈值的结果,按照距离大小,返回序号。
本发明实施例上述方案,相对于现有方法主要具有如下优点:
1)基于不同测度空间的倒排表保证了其不相关性,去除了原有技术存在的信息冗余。
2)将原有的测度空间扩充为加权测度空间,极大地丰富了测度空间的多样性,为倒排表的互补提供了多种可能。
3)多测度空间的最佳组合反映了待查询向量与数据库之间的深层次联系,并且更加符合真实情况。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于内容的信息检索方法,其特征在于,包括:
离线训练过程:通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间;逐一利用每一新的测度空间对样本库中的信息进行聚类获得视觉单词;将样本库的每个信息量化到相应的视觉单词,每个视觉单词记录相应信息的序号,从而构成一系列的倒排表;
在线检索过程:逐一选择倒排表,将待查询的信息量化到对应的视觉单词中,获得相应的序列;将获得的所有序列合并,并去除重复的序号,形成新的序列,也即候选集合;在待选集合中进行全局的检索,设定阈值,按照距离大小,获得检索结果。
2.根据权利要求1所述的一种基于内容的信息检索方法,其特征在于,离线训练过程所使用的样本库中的信息是指,对样本库中的文档或者图像进行处理后所获得的向量信息;每个视觉单词记录相应信息的序号是指,记录相应向量信息对应的文档或者图像在数据库中的序号。
3.根据权利要求1所述的一种基于内容的信息检索方法,其特征在于,所述通过随机加权的方式在在原有测度空间的基础上生成一系列新的测度空间包括:
采用均匀随机采样的方法生成一系列权值,在原有测度空间的上逐一带入所生成的权值,从而构建一系列加权后的新的测度空间;
所述原有测度空间包括:欧式距离、曼哈顿距离、相关性距离与余弦距离。
4.根据权利要求1所述的一种基于内容的信息检索方法,其特征在于,离线训练过程中的聚类方法使用kmeans算法,其过程如下:
a、对于任一个新的测度空间,选择其初始聚类中心;
b、计算样本库中的每一个信息到初始聚类中心的距离,然后将每一个信息聚合到最近的聚类中心;
c、根据聚集在聚类中心的信息来更新聚类中心;
d、重复b~c两个步骤,直至聚类中心不再变化,则最终的聚类中心即为视觉单词。
5.根据权利要求1所述的一种基于内容的信息检索方法,其特征在于,在线检索过程所使用的待查询的信息是指,对待查询的文档或者图像进行处理后所获得的向量信息;所提取的特征包括:SIFT特征、GIST特征和/或CNN特征。
CN201910217511.1A 2019-03-21 2019-03-21 基于内容的信息检索方法 Active CN109977286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910217511.1A CN109977286B (zh) 2019-03-21 2019-03-21 基于内容的信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910217511.1A CN109977286B (zh) 2019-03-21 2019-03-21 基于内容的信息检索方法

Publications (2)

Publication Number Publication Date
CN109977286A true CN109977286A (zh) 2019-07-05
CN109977286B CN109977286B (zh) 2022-10-28

Family

ID=67079968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910217511.1A Active CN109977286B (zh) 2019-03-21 2019-03-21 基于内容的信息检索方法

Country Status (1)

Country Link
CN (1) CN109977286B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609916A (zh) * 2019-09-25 2019-12-24 四川东方网力科技有限公司 视频图像数据检索方法、装置、设备和存储介质
CN110674334A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于一致性区域深度学习特征的近重复图像检索方法
CN112732946A (zh) * 2019-10-12 2021-04-30 四川医枢科技股份有限公司 一种医学文献的模块化数据分析和数据库建立方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
CN107045520A (zh) * 2016-11-29 2017-08-15 江南大学 一种基于位置信息加权词汇树的车辆图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
CN107045520A (zh) * 2016-11-29 2017-08-15 江南大学 一种基于位置信息加权词汇树的车辆图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈莹等: "利用位置信息加权词汇树的图像检索", 《系统仿真学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674334A (zh) * 2019-09-16 2020-01-10 南京信息工程大学 基于一致性区域深度学习特征的近重复图像检索方法
CN110609916A (zh) * 2019-09-25 2019-12-24 四川东方网力科技有限公司 视频图像数据检索方法、装置、设备和存储介质
CN112732946A (zh) * 2019-10-12 2021-04-30 四川医枢科技股份有限公司 一种医学文献的模块化数据分析和数据库建立方法

Also Published As

Publication number Publication date
CN109977286B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及系统
US8463045B2 (en) Hierarchical sparse representation for image retrieval
CN108304444B (zh) 信息查询方法及装置
US20190056423A1 (en) Adjoint analysis method and apparatus for data
Zheng et al. $\mathcal {L} _p $-Norm IDF for Scalable Image Retrieval
CN109977286A (zh) 基于内容的信息检索方法
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN106033416A (zh) 一种字符串处理方法及装置
WO2013066929A1 (en) Method and apparatus of ranking search results, and search method and apparatus
US20070192316A1 (en) High performance vector search engine based on dynamic multi-transformation coefficient traversal
JPWO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
CN104112005B (zh) 分布式海量指纹识别方法
CN106649440B (zh) 融合全局r特征的近似重复视频检索方法
CN106649605B (zh) 一种推广关键词的触发方法及装置
CN111859004A (zh) 检索图像的获取方法、装置、设备及可读存储介质
KR20220017497A (ko) 이미지 특징 추출 및 네트워크의 훈련 방법, 장치 및 기기
US11782991B2 (en) Accelerated large-scale similarity calculation
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN110347754B (zh) 一种数据查询方法及装置
Abbasifard et al. Efficient indexing for past and current position of moving objects on road networks
CN112365921A (zh) 一种基于长短时记忆网络的蛋白质二级结构预测方法
CN111782856A (zh) 一种人体图像处理方法、装置、设备及介质
CN113792709B (zh) 快速大规模人脸识别方法及系统
KR101363335B1 (ko) 문서 분류모델 생성장치 및 방법
CN114610960A (zh) 基于item2vec和向量聚类的实时推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant