CN104199950B - 一种基于图像相似度快速匹配的学术论文搜索方法 - Google Patents

一种基于图像相似度快速匹配的学术论文搜索方法 Download PDF

Info

Publication number
CN104199950B
CN104199950B CN201410464732.6A CN201410464732A CN104199950B CN 104199950 B CN104199950 B CN 104199950B CN 201410464732 A CN201410464732 A CN 201410464732A CN 104199950 B CN104199950 B CN 104199950B
Authority
CN
China
Prior art keywords
image
paper
eigenmatrix
word
source images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410464732.6A
Other languages
English (en)
Other versions
CN104199950A (zh
Inventor
邓攀
袁伟
闫碧莹
赵鑫
李玉成
刘昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhong kjia speed (Beijing) Information Technology Co., Ltd.
Original Assignee
SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd filed Critical SINOPARADOFT (BEIJING) PARALLEL SOFTWARE Co Ltd
Priority to CN201410464732.6A priority Critical patent/CN104199950B/zh
Publication of CN104199950A publication Critical patent/CN104199950A/zh
Application granted granted Critical
Publication of CN104199950B publication Critical patent/CN104199950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种基于图像相似度快速匹配的学术论文搜索方法,用于海量论文智能检索。本方法包括:从论文库中获取论文图像库,建立论文图像库的索引;获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;根据源图像的图像关键词检索论文图像库索引,获取相关图像集;检索相关图像集,获取与源图像相似的图像,获得最终图像集;依据最终图像集,从论文库中获取相应的论文。本发明可利用图像及图像相关信息进行论文检索,图像特征采用更小的存储介质,且检索速度快,检索精准度高。

Description

一种基于图像相似度快速匹配的学术论文搜索方法
技术领域
本发明涉及海量论文智能检索技术,具体设计一种基于图像相似度快速匹配的学术论文搜索方法。
背景技术
一般的论文检索方式是通过论文作者、论文题目等文字信息检索。但这种检索方法在很多学科存在很多局限性,并不能满足如在考古学科中,搜索关于某种文物研究现状的论文检索需求。而现有的图像匹配技术,由于是对完整图像的完整匹配,性能相对较低,利用目前现有的图像匹配技术无法满足快速论文检索需求。
发明内容
本发明针对现有论文检索中,由于图像的完整匹配,性能相对较低,无法满足快速论文检索需求的问题,提出一种基于图像相似度快速匹配的学术论文搜索方法。
本发明的一种基于图像相似度快速匹配算法的学术论文检索方法,包括如下步骤:
步骤1:从论文库中获取论文图像库,建立论文图像库的索引;
步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;所述的图像关键词包括图像所属的研究领域;
步骤3:根据源图像的信息关键词检索论文图像库索引,获取相关图像集;所述的相关图像集指源图像所属研究领域中的图像集合;
步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集;所述的相似图像是指在形状上具有共性的图像;
步骤5:依据最终图像集,从论文库中获取相应的论文。
所述的步骤1中建立论文图像库索引,具体包含如下步骤:
步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段;
步骤102:计算论文图像库中所有图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息;
步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。
所述的步骤4中,遍历相关图像集,依次将相关图像集中各图像的特征矩阵与源图像的特征矩阵进行比较;特征矩阵比较的方法是:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为0;最后,统计结果矩阵中值为1的元素的比例r,若r>80%,则认为两幅图像相似,否则认为两幅图像不相似。
本发明的优点和积极效果在于:本发明实现了一种基于索引的图像快速匹配和检索的方法,可全面利用图像以及图像相关信息进行论文检索;特别是为在野外工作的学科,例如考古学,提供了一种便利的查询相关研究论文的方法,且检索速度快,检索精准度高。
附图说明
图1为本发明的学术论文检索方法的整体流程图;
图2是本发明实施例中用于搜索的源图片;
图3是本发明实施例搜索结果示意图。
具体实施方式
下面将结合附图对本发明的技术方案作进一步的详细说明。
本发明采用新的图像相似度快速匹配方法,并结合专有中文词库以及中文分词技术,完成了一种基于图像相似度快速匹配的学术论文检索方法。本发明的基于图像相似度快速匹配算法的学术论文检索方法,步骤如图1所示,下面进行详细说明。
步骤1:从论文中获取论文图像库,建立论文图像库的索引。具体地,建立图像及其相关信息的数据结构,抽取论文中的所有图像和相关信息,存储于该数据结构中,并形成论文图像库;然后根据图像特征矩阵计算方法,计算图像库中所有图像的特征矩阵;最后创建索引,并存储于XML文件中。具体步骤为:
步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库。具体的,首先建立论文图像库中存储图像及其相关图像信息的数据结构,图像信息包括:图像高、图像宽、图像标注、论文GUID(全局唯一标识符)以及论文题目字段。然后从论文中抽取图像信息,存储在论文图像库中。其中,图像标注包括图像所属的研究领域等。
步骤102:计算论文图像库中所有图像的特征矩阵,形成图像索引数据,并通过图像索引数据结构存储。具体的,图像索引数据结构,包含图像特征矩阵、图像高、图像宽、图像标注、论文GUID,及论文题目字段。
遍历论文图像库的所有图像,采用图像特征值计算方法,计算图像的特征矩阵,并利用图像索引数据结构存储起来。
步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。具体的,根据图像索引数据结构,定义XML文档格式,并最终自动生成XML文档,建立论文图像库的索引文件,XML的索引文件的格式定义如下:
该XML文件中存储了各图像的特征矩阵feature-matrix、图像高height、图像宽width、图像标注description、论文GUID以及论文题目字段title。
步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵。具体地,源图像既可以通过本地上传获得,也可以通过与终端设备相连的摄像头获得;图像关键词由用户输入获得。图像关键词包括源图像的所属研究领域。
所述的图像的特征矩阵提取方法,如下所述:
步骤201:图像二值化,将四通道表示的图像将其颜色信息转换成0-1二值化图像。具体地,对于一个RGBA的图像,对每个像素点,采用公式:
Y=0.212671*R+0.715160*G+0.07169*B+0*A
完成图像由彩色到0-1二值化图像的转换。
步骤202:边缘提取,提取图像中的物体外形边缘特征。具体地,采用Canny边缘检测算法,通过对图像进行滤波、增强和检测,最终精确确定图像边缘的位置。
步骤203:根据特征矩阵算法计算经过预处理后图像的特征矩阵。具体地,设图像的长宽比例为n,首先将图像大小调整为128像素*128/n像素;设定大小为8像素*m像素的探测窗口,16*m=128/n,即m=n/8;则特征矩阵的大小为16*16;取探测窗口内所有像素值的平均值作为该探测窗口的特征值,该特征值为特征矩阵对应位置的元素值;遍历整幅图像,获得图像的特征矩阵。
步骤3:检索论文图像库索引,并根据图像关键词与索引中图像标注信息,获取相关图像集。所述的相关图像是指源图像所属研究领域中相关的图像。
具体的,首先,编写XML文档解析程序,从XML格式的论文图像库索引文件中提取出图像标注和论文题目字段;然后,根据基于正向最长匹配策略的分词方法,提取出论文图像关键词;最后通过对源图像和论文图像关键词的比较,获取相关图像集。
所述的基于正向最长匹配策略的分词方法,具体步骤如下:
步骤A“查字典”,具体依据SmartChineseAnalyzer维护的汉语词典。具体过程如下:对于一个需要查询的词语,如“中国”,首先计算词语首字“中”的哈希值H,然后找到在首字索引的第H项,其值为R,R则为在汉语词典中“中国”这个词的行数。在这一行中,所有的词语都是以“中”字开头的。然后在这一行中检索是否包含“中国”这个词,检索的过程是基于二分法策略而非遍历,时间复杂度为O(Log N),N为该行包含的词的个数。若找到“中国”一项,则说明这两个字为一个词;同理,若查询“中大”,在词典中找不到这个词,则说明这不是一个词,需要进行分割,分成“中”和“大”两个词。
步骤B“正向最长匹配策略”。具体过程如下:若已在词典中找到一个词AB,分析器并不立即确定该词为一个整词,而是会继续尝试将AB之后的一个字C匹配进入这个词,即需要匹配ABC是否也在词典中存在,若存在则继续如上策略,直到该条件不满足。例如匹配“中国人”这个词时,发现“中国”这个词出现在词典中,分析器会继续尝试匹配“中国人”,发现匹配,则“中国人”成为一个词,而不是将“中国人”分为“中国”和“人”。
步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集。所述的相似图像是指在形状上具有共性的图像。具体的,遍历相关图像集,依次比较相关图像集中各图像的特征矩阵与源图像的特征矩阵,判断两幅图像是否相似,相似的图像组成最终图像集。
两个特征矩阵比较的方法为:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为0;最后,统计结果矩阵中值为1的元素个数在结果矩阵所有元素中所占的比例r,如果r>80%,说明对应的两幅图像是相似的,否则认为对应的两幅图像不相似。
在本发明中,建立的特征矩阵大小为16*16,用以代表一幅图像的特征,跟现有的图像特征抽取和存储方式不一致,本发明利用更小的存储介质来存储一副图像特征,对于图像匹配算法的性能有较大帮助。在图像匹配算法中,先通过特征矩阵的元素比较,满足设定的阈值,说明两幅图像在局部上具有相似性;再通过特征矩阵的整体元素比较,满足设定的阈值,说明两幅图像在整体上具有相似性,在同时满足整体和局部相似性时,说明两幅图像是相似的。经过实际环境测试,所用的特征矩阵比较方法具有较高的检索精准度。
步骤5:依据最终图像集,从论文库中获取相应的论文。具体的,首先从图像索引数据中获取图像对应论文的GUID,根据此GUID从论文库中获取论文;然后根据论文的发表时间对结果进行排序。
如图2所示,为本发明实施例提供的要进行搜索的源图像,图3为利用本发明方法查询的结果示意图。由图3可看出,使用本发明的学术论文检索方法,查询结果精度较高,且查询速度较快,在5万篇论文库中,查询时间在秒级。
以上所述为本发明的具体实施方式,应当指出,对于本技术领域的普通人员来说,在不脱离本发明院里的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (1)

1.一种基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,包括如下步骤:
步骤1:从论文库中获取论文图像库,建立论文图像库的索引;具体实现过程为:
步骤101:遍历库中的论文,抽取其中的图像及图像信息,建立论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段;
步骤102:提取论文图像库中的各图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息;
步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件;
步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;
步骤201:对图像进行二值化;
步骤202:对二值化图像进行边缘提取;
步骤203:计算步骤202处理后的图像的特征矩阵,具体是:将图像大小调整为128像素*128/n像素,n为图像的长宽比例;设定探测窗口大小为8像素*8/n像素,探测窗口内所有像素值的平均值作为该探测窗口的特征值,遍历整幅图像,得到图像的特征矩阵,特征矩阵大小为16*16;
步骤3:根据源图像的图像关键词检索论文图像库索引,获取相关图像集;
所述的图像关键词包括图像所属的研究领域,所述的相关图像集为源图像所属研究领域中的图像集合;
具体的,首先,编写XML文档解析程序,从XML格式的论文图像库索引文件中提取出图像标注和论文题目字段;然后,根据基于正向最长匹配策略的分词方法,提取出论文图像关键词;最后通过对源图像和论文图像关键词的比较,获取相关图像集;
所述的基于正向最长匹配策略的分词方法,具体步骤如下:
步骤A“查字典”,具体依据SmartChineseAnalyzer维护的汉语词典;具体过程如下:对于一个需要查询的词语,首先计算词语首字的哈希值H,然后找到在首字索引的第H项,其值为R,R则为在汉语词典中所需查询词的行数;然后在这一行中检索是否包含查询词,检索的过程是基于二分法策略,时间复杂度为O;
步骤B“正向最长匹配策略”;具体过程如下:若已在词典中找到一个词AB,分析器并不立即确定该词为一个整词,而是会继续尝试将AB之后的一个字C匹配进入这个词,即需要匹配ABC是否也在词典中存在,若存在则继续如上策略,直到该条件不满足;
所述的相关图像集,其获取方法是:首先,编写XML文档解析程序,从论文图像库索引文件中提取出图像标注和论文题目字段;然后,根据基于正向最长匹配策略的分词方法,提取出论文图像关键词;最后通过对源图像和论文图像关键词的比较,获取相关图像集;
步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集;
遍历相关图像集,依次将相关图像集中各图像的特征矩阵与源图像的特征矩阵进行比较;特征矩阵比较的方法是:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为0;最后,统计结果矩阵中值为1的元素的比例r,若r>80%,则认为两幅图像相似,否则认为两幅图像不相似;
步骤5:依据最终图像集,从论文库中获取相应的论文。
CN201410464732.6A 2014-09-12 2014-09-12 一种基于图像相似度快速匹配的学术论文搜索方法 Active CN104199950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410464732.6A CN104199950B (zh) 2014-09-12 2014-09-12 一种基于图像相似度快速匹配的学术论文搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410464732.6A CN104199950B (zh) 2014-09-12 2014-09-12 一种基于图像相似度快速匹配的学术论文搜索方法

Publications (2)

Publication Number Publication Date
CN104199950A CN104199950A (zh) 2014-12-10
CN104199950B true CN104199950B (zh) 2018-02-13

Family

ID=52085243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410464732.6A Active CN104199950B (zh) 2014-09-12 2014-09-12 一种基于图像相似度快速匹配的学术论文搜索方法

Country Status (1)

Country Link
CN (1) CN104199950B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824931B (zh) * 2016-03-17 2019-10-22 广东小天才科技有限公司 一种搜索题目的方法及装置
CN109035489A (zh) * 2018-08-10 2018-12-18 苏州拓拓家软件科技有限公司 行车记录仪
CN115205866A (zh) * 2022-09-16 2022-10-18 北京吉道尔科技有限公司 一种基于区块链的科技论文大数据抄袭检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101329677A (zh) * 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎
US7912827B2 (en) * 2004-12-02 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for searching text-based media content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912827B2 (en) * 2004-12-02 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for searching text-based media content
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101329677A (zh) * 2008-05-07 2008-12-24 裴亚军 基于图像内容的图像搜索引擎

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于边缘的模板匹配在零件检测中的应用》;王廷 等;《光学仪器》;20091031;第31卷(第5期);第20、21页 *

Also Published As

Publication number Publication date
CN104199950A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及系统
CN103207898B (zh) 一种基于局部敏感哈希的相似人脸快速检索方法
CN103530652B (zh) 一种基于人脸聚类的视频编目方法、检索方法及其系统
Chang et al. Columbia University TRECVID-2005 Video Search and High-Level Feature Extraction.
CN105184238A (zh) 一种人脸识别方法及系统
CN103996046B (zh) 基于多视觉特征融合的人员识别方法
CN103150375A (zh) 用于视频侦查的快速视频检索系统和方法
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
Kobyshev et al. Matching features correctly through semantic understanding
Gerónimo et al. Unsupervised surveillance video retrieval based on human action and appearance
Zhu et al. Deep residual text detection network for scene text
CN104199950B (zh) 一种基于图像相似度快速匹配的学术论文搜索方法
CN110309810A (zh) 一种基于批次中心相似度的行人重识别方法
Rathod et al. An algorithm for shot boundary detection and key frame extraction using histogram difference
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
CN107491521A (zh) 一种图像搜索系统与方法
CN112509009B (zh) 一种基于自然语言信息辅助的目标追踪方法
Jeong et al. Multi language text detection using fast stroke width transform
Pei-Xia et al. Learning discriminative CNN features and similarity metrics for image retrieval
Xu et al. A novel shot detection algorithm based on clustering
Protopapadakis et al. Semi-supervised image meta-filtering using relevance feedback in cultural heritage applications
CN104636330A (zh) 一种基于结构化数据的关联视频快速检索方法
Challa et al. Applications of image processing techniques on palm-leaf manuscripts—a survey
Yu et al. Automatic image captioning system using integration of N-cut and color-based segmentation method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180522

Address after: 100190 Room 502, 5 Building 4 South four street, Haidian District, Beijing, Zhongguancun.

Patentee after: Zhong kjia speed (Beijing) Information Technology Co., Ltd.

Address before: 100190 South four street, Zhongguancun, Haidian District, Beijing, 4

Patentee before: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE CO., LTD.

TR01 Transfer of patent right