CN1272734C - 基于非负矩阵分解的相关反馈图像检索方法 - Google Patents
基于非负矩阵分解的相关反馈图像检索方法 Download PDFInfo
- Publication number
- CN1272734C CN1272734C CN 200410018483 CN200410018483A CN1272734C CN 1272734 C CN1272734 C CN 1272734C CN 200410018483 CN200410018483 CN 200410018483 CN 200410018483 A CN200410018483 A CN 200410018483A CN 1272734 C CN1272734 C CN 1272734C
- Authority
- CN
- China
- Prior art keywords
- matrix
- semantic
- images
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于非负矩阵分解的相关反馈图像检索方法,利用初次检索返回的结果来构建相关类图像矩阵,应用非负矩阵分解训练算法对该矩阵进行矩阵分解,得到语义空间的基矩阵和系数矩阵,对系数矩阵求取均值,生成代表该语义类的语义特征,然后通过非负矩阵分解测试算法将图像库中所有图像在此语义空间进行投影,得到所有图像的语义特征,求取所有图像的语义特征和该语义类特征的相似性,并按照相似性的大小返回出结果图像,如未满足检索要求,重复反馈,给出最终的检索结果。应用本发明的方法所建立的图像检索系统,充分利用人机的交互反馈,能更好地模拟人对于图像的感觉,使得生成的语义空间能更好的吻合图像检索的要求,能够获得较高的检索准确率。
Description
技术领域
本发明涉及一种基于非负矩阵分解的相关反馈图像检索方法,涉及模式识别、矩阵分析和图像检索等领域,能直接应用于基于内容的图像检索。
背景技术
上个世纪后期,随着大规模图像数据库的不断涌现,对于如此大数据量的管理和有效的应用逐渐引起人们的重视,图像检索也成为研究的热点。最初的图像检索技术是基于文本的检索技术,这种技术的框架就是首先用文本来标注图像,然后使用基于文本的数据库管理系统来进行图像检索,但是这种方法存在着两个缺陷:1、对大规模的图像数据库进行人工标注需要大量的人力,物力和财力,2、人工标注的主观性非常强,对于同样的一幅图像,不同的人可能就有不同的感觉。到了90年代,为了克服这两个缺点,基于内容的图像检索(content-based imageretrieval,CBIR)应运而生。CBIR的实际意义就是让用户根据自己所要检索的图像内容和含义,在图像库中直观地进行检索并判别图像满足自己的需要程度。
当前成熟的基于内容的图像检索系统在对图像内容进行描述的时候,大多直接从图像中分析抽取底层视觉特征,例如图像的颜色、形状、纹理、空间关系等,而在这些底层视觉特征基础上建立的图像描述模型中,而对图像数据的描述一般以统计数据的形式出现,这些数据与人对图像内容的理解有着很大的差异。1、人具有学习的能力,对图像内容的理解并不仅仅依靠统计进行;2、图像的内容具有模糊性,不能简单的用特征向量来描述;3、人对图像内容的理解无法直接从图像的数据中获得,而要根据人的知识来判断,这个过程结合了日常生活中积累的大量的经验,而底层特征无法反应这些经验知识。因此在传统的底层视觉特征基础上的图像检索并不能取得良好的效果。刘忠伟等(刘忠伟,章毓晋基于特征的图象查询和检索系统应用基础及工程学学报2000.8(1):69-77)探讨了利用颜色、纹理、形状等单一特征以及综合利用不同特征的查询和检索方法。但由于使用的特征都是底层的视觉特征,无法提供准确的语义描述。为解决该问题,必须提供有效的图像语义的表达方式,即如何表达图像的内容,使其与人对图像内容的理解一致;此外还必须有提取图像语义表达的方法,即如何通过学习来获取图像语义,实现底层视觉特征和高层语义之间的映射。
相关反馈技术可以看作是连接底层视觉特征和高层语义之间的桥梁,这种方法具体过程是:系统首先返回一组结果图像,通过交互反馈信息自动分析最能表征查询目标的特征,自动调整相似度的度量方法,然后进行新的查询,如此多次反馈,最终得到满意的结果。相关反馈可以起到两个作用,一是逐步把握真正的检索需求;二是逐步建立特定语义与底层视觉特征的对应,或是修正与图像关联的高层概念。
最初的相关反馈方法是从信息检索中直接借用过来的,其算法是基于底层特征的,不能有效的提取图像的语义特征。
发明内容
本发明的目的在于针对上述相关反馈技术的不足,提出一种基于非负矩阵分解(Non-negative Matrix Factorization)的相关反馈方法,用于图像的自动检索,提高检索精度。
为实现这样的目的,本发明利用初次检索返回的结果来构建相关类图像矩阵,应用非负矩阵分解训练算法对该矩阵进行矩阵分解,得到语义空间的基矩阵和系数矩阵,对系数矩阵求取均值,生成代表该语义类的语义特征,然后通过非负矩阵分解测试算法将图像库中所有图像在此语义空间进行投影,得到所有图像的语义特征,求取所有图像的语义特征和该语义类特征的相似性,并按照相似性的大小返回出结果图像,如未满足检索要求,重复反馈,给出最终的检索结果。
本发明的基于非负矩阵分解的相关反馈图像检索系统的实现方法按如下步骤进行:
1.初始检索:针对检索图像,提取色度-饱和度混合直方图特征,局部累加直方图特征,基于小波模极大值的形状特征,基于Gabor滤波器的纹理特征,并通过归一化形成综合的底层视觉特征,与图像库中所有图像形成的特征库进行相似性度量,按照相似性的大小进行排序,将与检索图像最相似的若干幅图像返回。
2.构造待分解矩阵:将检索返回的图像进行分类,分成相关图像类和非相关图像类,并将相关图像类和检索图像的底层视觉特征组合为待分解相关图像矩阵,该矩阵的每一列对应于一个图像,每一行对应于特征的一个分量,该矩阵就代表和检索图像处于相同语义类的图像。
3.基和语义类特征的生成:应用非负矩阵分解训练算法对待分解相关图像矩阵进行分解,经过迭代收敛后得到基矩阵和系数矩阵,用该基矩阵张成语义空间,因为系数矩阵是相同语义类在此语义空间的投影,所以可求取系数矩阵的均值,来生成代表该语义类的语义特征,语义特征的维数r的取值要满足(n+m)r<nm,此处n代表底层视觉特征的维数,m代表相关图像的个数。使得语义特征的维数大大降低,减小了相似性度量的计算量。
4.图像库中所有图像语义特征的生成:将图像库中所有图像的综合底层视觉特征构造一个待分解矩阵。这里同样利用上步中的非负矩阵分解训练算法生成的基矩阵构造的语义空间,通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征,即固定非负矩阵分解训练算法得到的基矩阵,通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征。
5.相似性度量及结果返回:先将前次返回的相关图像记忆下来优先返回,再计算所有图像的语义特征和该语义类的语义特征的相似性,按照相似性的大小进行排序,将与检索图像最相似的其余若干幅图像返回。
6.利用人机交互反馈平台,重复上面的2-5步,直到所有返回图像均为相关图像为止,并给出最终的检索结果。
在实际应用中,当通过该系统输入检索图像,首先返回一组结果图像,系统从反馈信息中自动构建该语义类特征空间,生成语义特征,进行相似性的度量,反馈回结果图像,然后进行新的构建,如此多次反馈,最终得到满意的结果,从而提高检索的准确率。
本发明的方法能够获得较高的检索准确率。由于充分利用人机交互反馈信息,能更好地模拟人对于图像的感觉,使得生成的语义空间能更好的吻合图像检索的要求。在一些初始检索效果不好,要求反馈次数少便能给出较好效果的应用中,本发明的方法更具有使用价值。
本发明建立的基于非负矩阵分解的相关反馈图像检索系统,可以用于基于图像内容和语义的检索,能较准确的检索出所需要的图像。
附图说明
图1为本发明实施例的初次检索结果示意图。
图2为本发明实施例的第一次反馈检索结果示意图。
图3为本发明实施例的第二次反馈检索结果示意图。
图4为本发明实施例的第三次反馈检索结果示意图。
具体实施方式
以下结合具体的实施例对本发明的技术方案作进一步详细描述。
本发明实施例采用的图像数据库共有500个样本,储存有从网络收集的各种语义类别的图像,包括:动物、室外风景、植物、汽车、人造建筑、室内风景等,初始检索用的综合底层视觉特征包括色度-饱和度混合直方图特征,局部累加直方图特征,基于小波模极大值的形状特征,基于Gabor滤波器的纹理特征。综合特征用向量表示,
(l=1,2,…,500),
含240个特征。每次返回和检索图像最相似的12个图像,结果图像分为相关图像和非相关图像两个类别,所有这些信息被存储在一个数据库中。
整个系统实现过程如下:
1.初始检索:
针对检索图像q,提取其综合的视觉特征
与图像库中所有图像形成的特征库进行相似性度量,
并按照相似性的大小进行排序,将与检索图像最相似的12幅显示出来。图1为系统初次检索返回结果示意,其中,左上角第一个图像为检索图像。
2.构造待分解矩阵:
将检索返回的图像进行分类,分成相关图像类和非相关图像类,本实施例中共有8个相关图像,将其底层视觉特征组合为待分解相关图像矩阵,该矩阵大小为240×8,每一列对应一个相关图像,每一行对应于底层视觉特征的一个分量,该矩阵代表和检索图像处于相同语义类的图像。
3.基和语义类特征的生成:
用非负矩阵分解训练算法对待分解相关图像矩阵进行分解,此处,语义特征的维数取值为7,经过数次迭代收敛后得到基矩阵(大小为240×7)和系数矩阵(7×8),用该基矩阵张成语义空间,因为系数矩阵是相同语义类在此语义空间的投影,所以可求取系数矩阵的均值,大小为7×1,代表该语义类的语义特征。
4.图像库中所有图像语义特征的生成:
将图像库中所有图像的综合底层特征构造一个待分解矩阵,大小为240×500。这里同样利用上步中的非负矩阵分解训练算法生成的基矩阵构造的语义空间,通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征,即固定非负矩阵分解训练算法得到的基矩阵,通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征矩阵,大小为7×500,每一列对应一个图像,每一行对应于语义特征的一个分量。
5.相似性度量及结果返回:
现在所有的图像已经用其在语义空间的特征来表示,下面计算所有图像的语义特征和该语义类的语义特征的相似性,先将前次返回的8个相关图像记忆下来,并按照相似性的大小返回出其余的4个图像。图2为本发明实施例的第一次反馈检索结果示意图。
6.利用人机交互反馈平台,重复上面的2-5步两次,满足检索需求,给出最终的检索结果,图3为本发明实施例的第二次反馈检索结果示意图,图4为本发明实施例的第三次反馈检索结果示意图。
在实际应用中,利用本发明方法建立的基于非负矩阵分解的相关反馈图像检索系统,只要利用人机交互反馈信息来构建语义空间,就可以返回和检索图像属于相同语义类的图像,从而满足检索需求。
Claims (1)
1、一种基于非负矩阵分解的相关反馈图像检索方法,其特征在于包括如下具体步骤:
1)初始检索:针对检索图像,提取色度—饱和度混合直方图特征,局部累加直方图特征,基于小波模极大值的形状特征,基于Gabor滤波器的纹理特征,并通过归一化形成综合的底层视觉特征,与图像库中所有图像形成的特征库进行相似性度量,按照相似性的大小进行排序,将与检索图像最相似的若干幅图像返回;
2)构造待分解矩阵:将检索返回的图像进行分类,分成相关图像类和非相关图像类,并将相关图像类和检索图像的底层视觉特征组合为待分解相关图像矩阵,该矩阵的每一列对应于一个图像,每一行对应于特征的一个分量,该矩阵就代表和检索图像处于相同语义类的图像;
3)基和语义类特征的生成:应用非负矩阵分解训练算法对待分解相关图像矩阵进行分解,经过迭代收敛后得到基矩阵和系数矩阵,用该基矩阵张成语义空间,求取系数矩阵的均值来生成代表该语义类的语义特征,语义特征的维数r的取值要满足(n+m)r<nm,此处n代表底层视觉特征的维数,m代表相关图像的个数;
4)图像库中所有图像语义特征的生成:将图像库中所有图像的综合底层视觉特征构造一个待分解矩阵,利用上一步基矩阵构造的语义空间,通过非负矩阵分解测试算法来计算图像库中所有图像的语义特征,即固定非负矩阵分解训练算法得到的基矩阵,通过同样的迭代过程对系数矩阵进行更新来得到所有图像的语义特征;
5)相似性度量及结果返回:先将前次返回的相关图像记忆下来优先返回,再计算所有图像的语义特征和该语义类的语义特征的相似性,按照相似性的大小进行排序,将与检索图像最相似的若干幅图像返回;
6)利用人机交互反馈平台,重复上面的2-5步,直到所有返回图像均为相关图像为止,给出最终的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410018483 CN1272734C (zh) | 2004-05-20 | 2004-05-20 | 基于非负矩阵分解的相关反馈图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410018483 CN1272734C (zh) | 2004-05-20 | 2004-05-20 | 基于非负矩阵分解的相关反馈图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1581164A CN1581164A (zh) | 2005-02-16 |
CN1272734C true CN1272734C (zh) | 2006-08-30 |
Family
ID=34581804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410018483 Expired - Fee Related CN1272734C (zh) | 2004-05-20 | 2004-05-20 | 基于非负矩阵分解的相关反馈图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1272734C (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8175168B2 (en) * | 2005-03-18 | 2012-05-08 | Sharp Laboratories Of America, Inc. | Methods and systems for picture up-sampling |
DE602005012163D1 (de) * | 2005-09-09 | 2009-02-12 | Sacmi | Verfahren und vorrichtung zur optischen inspektion eines gegenstands |
US7899253B2 (en) * | 2006-09-08 | 2011-03-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting moving objects in video by classifying on riemannian manifolds |
CN101295305B (zh) * | 2007-04-25 | 2012-10-31 | 富士通株式会社 | 图像检索装置 |
CN101382934B (zh) * | 2007-09-06 | 2010-08-18 | 华为技术有限公司 | 多媒体模型检索方法、装置及系统 |
CN102779162B (zh) * | 2012-06-14 | 2014-09-17 | 浙江大学 | 一种带局域限制的矩阵概念分解方法 |
CN103425768A (zh) * | 2013-08-07 | 2013-12-04 | 浙江商业职业技术学院 | 一种视觉与语义相似性约束的图像检索方法 |
CN104899253B (zh) * | 2015-05-13 | 2018-06-26 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN109359501A (zh) * | 2018-08-03 | 2019-02-19 | 新疆大学 | 一种Gabor新融合算法的维吾尔族人脸识别方法 |
-
2004
- 2004-05-20 CN CN 200410018483 patent/CN1272734C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1581164A (zh) | 2005-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN101281520A (zh) | 基于非监督学习和语义匹配特征交互式体育视频检索方法 | |
CN1272734C (zh) | 基于非负矩阵分解的相关反馈图像检索方法 | |
CN103605706A (zh) | 一种基于知识地图的资源检索方法 | |
CN1524235A (zh) | 多媒体信息的元描述符 | |
CN109947948B (zh) | 一种基于张量的知识图谱表示学习方法及系统 | |
CN101241504A (zh) | 一种基于内容的遥感图像数据智能搜索方法 | |
CN114676204A (zh) | 一种基于多属性海洋监测数据立体化管理方法及系统 | |
CN106611016A (zh) | 一种基于可分解词包模型的图像检索方法 | |
Omori et al. | Predict inter-photo visual similarity via pre-trained computer vision models | |
Lane et al. | CHREST+: A simulation of how humans learn to solve problems using diagrams. | |
CN1710557A (zh) | 基于非负矩阵分解的隐含语义图像检索方法 | |
EP1008067A1 (de) | Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil | |
Rao et al. | Texture based image indexing and retrieval | |
Chen | RETRACTED: Development and Innovation of Music Course Teaching Mode Based on Big Data | |
Robbert et al. | The database course: What must be taught | |
US10936997B2 (en) | Point in phasetime system and method thereof | |
Yu et al. | The application of data mining technology in employment analysis of university graduates | |
Langendorf | Towards an improved information utilization in design decisionmaking: A case study of the Hurricane Andrew recovery efforts | |
Xu et al. | Research on Science Popularization Management of Community Sports Facilities Based on Artificial Inelligence Decision Tree Network | |
Zhu | Interactive art design with deep learning and information fusion technology | |
Choenni et al. | Generating Synthetic Data from Large Language Models | |
US9892373B2 (en) | Point in phasetime system and method thereof | |
Han et al. | A novel BP-based image retrieval system | |
Liao | Design of Cultural and Creative Products for Applied Undergraduate Colleges based on Multi-Dimensional Computer Image Synthesis Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060830 |