CN105574063B - 基于视觉显著性的图像检索方法 - Google Patents

基于视觉显著性的图像检索方法 Download PDF

Info

Publication number
CN105574063B
CN105574063B CN201510523762.4A CN201510523762A CN105574063B CN 105574063 B CN105574063 B CN 105574063B CN 201510523762 A CN201510523762 A CN 201510523762A CN 105574063 B CN105574063 B CN 105574063B
Authority
CN
China
Prior art keywords
image
value
sliding window
gradient
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510523762.4A
Other languages
English (en)
Other versions
CN105574063A (zh
Inventor
郝红侠
何偲源
刘芳
焦李成
王爽
候彪
马晶晶
尚荣华
武杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510523762.4A priority Critical patent/CN105574063B/zh
Publication of CN105574063A publication Critical patent/CN105574063A/zh
Application granted granted Critical
Publication of CN105574063B publication Critical patent/CN105574063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视觉显著性的图像检索方法,对提取出的显著性区域的窗口的量化赋范梯度进行二元编码,主要解决现有大规模图像检索时不单独区分图像中物体的问题。其检索步骤为:(1)采用二值化赋范梯度BING目标检测方法,训练线性支持向量机SVM:(2)获取自然图像库图像滑窗的视觉显著性估值;(3)获取自然图像库中图像的哈希编码:(4)获取待检索自然图像滑窗的视觉显著性估值:(5)获取用于检索的滑窗:(6)获取待检索自然图像的哈希编码:(7)哈希编码值预处理:(8)度量相似度:(9)输出检索结果图像。

Description

基于视觉显著性的图像检索方法
技术领域
本发明属于图像处理技术领域,更进一步涉及大规模图像数据检索技术领域中的一种基于视觉显著性的图像检索方法。本发明通过模拟人的视觉特点,提取出图片中显著区域的窗口,对提取出的显著区域的窗口进行二元编码,可用于对自然图像的检索。
背景技术
图像检索一直是图像处理邻域的一个重要问题,该技术通过对待检索图像的特征信息进行计算和比较,检索出符合用户需求的结果图像。近年来感知哈希方法是基于内容检索的出色方法之一,它用一串较短的哈希值对整幅图像进行编码,但该哈希值不区分图像的具体内容,因此不能基于特定关注物体进行检索。而图像检索时人们的主要目的是在纷杂的背景中找到所关注的前景物体,并非背景或全部前景物体。本发明提出的图像检索方法根据人眼感知物体的方式,从图像中提取出当前用户感兴趣的关注物体,从而检索出包含该特定物体的结果图像。
深圳酷派技术有限公司申请的专利“图像检索方法、图像检索装置和终端”(申请号:201510044689.2,公开号:CN104573085A)公开了一种图像检索方法、一种图像检索装置和一种终端。该方法通过在接收到图像检索指令时,对原图像的前景特征和背景特征进行处理,以获取指定图像。根据所述指定图像和所述原图像,获取目标检索图像。根据所述目标检索图片在预设图像库中进行图像检索,以获取与所述原图像相匹配的匹配图像。该专利可以对图像的前景特征进行加权,背景特征进行抑制,从而加快图像检索速度,避免使用整个图像进行检索,并减少图像中背景特征对检索结果的负面影响,从而提高图像检索准确率。该专利申请提出的方法存在的不足之处是:通过前景抑制后,虽然有效降低背景干扰更好的凸显出物体,但是在搜索之中依旧是将前景作为一个整体进行检索。
中国科学院深圳先进技术研究院申请的专利“基于显著性模型的图像检索方法”(申请号:CN201410286038.X,公开号:CN104021220A)公开了一种基于显著性模型的图像检索方法。该方法通过对数据库中所有图像进行显著性建模,区分所有图像中的显著性区域和非显著性区域并保存。根据对待搜索图像进行显著性分析,区分待搜索图像的显著性区域。按照数据库中所有图像显著性区域和非显著性区域内与待搜索图像显著性区域内相同特征的个数标定图像分数。按照图像分数来对数据库中的图像排序,确定搜索结果。优点在于将图像显著性建模加入图像检索中,有针对的找到显著性区域,提取图像的重要表达区域进行检索,从而能够将检索结果按重要度分级,可以按搜索的不同主题进行搜索,检索结果可以区分主题、分类主次。该专利申请提出的方法存在的不足之处是:显著性模型的构建过于依赖于图像颜色直方图,在复杂图像或者颜色直方图类似的图像中,难以真正正确的区分出前景物体,在分离前景物体时的精度不够。
浪潮电子信息产业股份有限公司申请的专利“一种图像检索方法”(申请号:CN201410752515.7,公开号:CN104361135A)公开了一种图像检索方法。该方法通过将模板图像和源图像按照新分区思想提取灰度直方图信息,对将寻找模板图像最相似的的问题转化成通过改进的粒子群优化进行分类,通过对相似度大的那类图像进行继续按照上述步骤匹配得出最相似的图像。该专利申请提出的方法存在的不足之处是:在梯度图像之中采用通过模板匹配的方式进行图像前景目标的识别,但是在匹配时候进行的是物体的棱角部分的粒子群优化分类,而非将每个前景目标单独进行识别分类。
周艺华和王璇在文章“基于梯度阈值对象提取的图像检索技术研究”(in:计算机工程与设计COMPUTER ENGINEERING AND DESIGN,Vo1.34No.7,2013)中提出的基于梯度阈值对象提取的图像检索技术,该技术在二维灰度直方图上,通过对角线和参数迭代的方法来划分直方图中的4个区域,在背景边缘直方图特征和除去噪声干扰下寻找出前景目标。该方法的不足之处是:仅能对于图像中占有主导地位的目标能够进行背景去处的图像分割,并不能进行多个主导地位目标的分割。
上海交通大学申请的专利“基于视觉词组的图像检索方法”(申请号:CN201110205412.5公开号:CN102254015A)公开了一种基于视觉词组的图像检索方法。该方法通过对标准图像和待检索图像分别提取显著性区域,并在显著性区域中提取特征描述子,然后对标准图像库中的特征描述子采用随机kd树进行聚类,接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示,并根据标准图像的视觉词组创建二维倒排索引,最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量,给出最终检索结果。该专利申请提出的方法存在的不足之处是:在提取标准图和待检索图像之中采用的提取显著性区域的方法提取的不一定是当前检索用户所关注的区域,每个区域采用的是128维矢量的尺度旋转不变SIFT描述子,再经过kd树聚类后的形成的描述词汇,每个区域的描述子存储空间大,形成描述子的运算过程复杂度高,相似度度量二维排序时间复杂度较大,空间复杂度较大。
发明内容
本发明针对上述现有技术存在的不足,提出了一种基于视觉显著性的图像检索方法。本发明通过人眼对图像中前景物体的感知程度,给出若干包含关注物体的候选窗口,使用户能够根据不同的检索需求,得到包含特定物体的图像检索结果。
实现本发明的技术思路是,通过线性支持向量机获得图像中若干窗口的估计值,该估计值能够反映窗口中含有人眼所关注物体的概率,然后根据该估计值的大小选择合理的窗口提取量化的赋范梯度特征,以该特征来进行图像检索。
为实现上述目的,本发明主要步骤包括如下:
(1)采用二值化赋范梯度BING目标检测方法,训练线性支持向量机SVM:
(2)获取编号图像滑窗的视觉显著性估值;
(2a)输入自然图像库中图像,将其按照在自然图像库中存放顺序依次编号,得到编号图像;
(2b)将编号图像作为处理图像采用二值化赋范梯度BING的目标估计方法,对编号图像滑窗中每个像素进行量化,得到滑窗的二值化赋范梯度BING值;
(2c)对编号图像作为处理图像采用二值化赋范梯度BING的目标估计方法,将编号图像中每个滑窗的二值化赋范梯度BING值输入到已训练好的线性支持向量机SVM 中,获得编号图像每个滑窗的视觉显著性估值;
(3)获取编号图像的哈希编码:
(3a)将每幅编号图像滑窗的视觉显著性估值从高到低排序;
(3b)提取排序后每幅图像前s个滑窗作为待比较滑窗,s∈(5,10,15,...,100),∈表示属于符号,对待比较滑窗从1到s依次进行编号;
(3c)从每个待比较滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号;
(3d)按照下式,得到像素量化后的赋范梯度值:
其中,Gm表示编号为m的像素量化后的赋范梯度值,示向下取整操作, max(·)表示取最大值操作,m表示像素的编号,m的取值范围为m=1,2,...,32,gm表示编号为m的像素的二值化赋范梯度BING值;
(3e)按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素在压缩后的压缩哈希编码值,m表示像素的编号,m的取值范围为m=1,2,...,32,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号;
(3f)按照下式,生成待比较滑窗哈希编码值:
其中,K表示待比较滑窗哈希编码值,∑表示求和操作,Rx表示编号为x的压缩哈希编码值,x表示压缩后哈希编码值的编号;
(3g)按照下式,生成编号图像哈希编码值:
其中,A表示编号图像哈希编码值,∑表示求和符号,n表示滑窗的编号,n的取值为n=1,2,...,s,s表示待比较滑窗数目,Kn表示编号图像编号为n的待比较滑窗哈希编码值;
(4)获取待检索自然图像滑窗的视觉显著性估值:
(4a)输入一幅待检索自然图像;
(4b)将待检索自然图像作为处理图像采用二值化赋范梯度BING的目标估计方法,对待检索自然图像滑窗中每个像素进行量化,得到滑窗的二值化赋范梯度BING值;
(4c)将待检索自然图像作为处理图像,采用二值化赋范梯度BING的目标估计方法,将待检索自然图像每个滑窗的二值化赋范梯度BING值输入到已训练好的线性支持向量机SVM中,获得待检索自然图像每个滑窗的视觉显著性估值;
(5)获取用于检索的滑窗:
(5a)将待检索自然图像滑窗的视觉显著性估值从高到低排序,作为人眼观察图像的感知关注程度值;
(5b)提取排序后待检索自然图像的感知关注程度值高的前50个的滑窗;
(5c)以提取滑窗时与该滑窗所在的量化梯度图之间一一对应的关系作为依据,查找每个滑窗生成时每个滑窗的量化梯度图,得到每个滑窗的量化梯度图的长度和宽度;
(5d)将所提取的每个滑窗左上角第1个像素点横坐标的值、纵坐标的值分别作为该滑窗对应窗口的左边界值、上边界值;
(5e)按照下式,计算所提取滑窗对应图像窗口的右边界值;
其中,C表示所提取滑窗对应图像窗口的右边界值,[·]表示取整操作,i表示滑窗左上角第1个像素点的横坐标,W表示该滑窗生成时所在量化梯度图的长度,Wm表示待检索自然图像的长度;
(5f)按照下式,计算所提取滑窗对应图像窗口的下边界值;
其中,D表示所提取滑窗对应图像窗口的下边界值,[·]表示取整操作,j表示滑窗左上角第1个像素点的纵坐标,H表示该滑窗生成时所在量化梯度图的宽度,Hm表示待检索自然图像的宽度;
(5g)由每个滑窗求出的左边界值、右边界值、上边界值、下边界值共同确定一个窗口,从待检索自然图像中裁剪出50个滑窗所确定的50个窗口,将50个窗口分别以图片形式显示;
(5h)用户根据自身检索需求,从50个以图片形式显示的窗口中提取r个人眼关注程度高的窗口作为待检索窗口,r=1,2,...,20;
(5i)以滑窗与该滑窗对应图像窗口之间一一对应的关系作为依据,查找r个待检索窗口对应的r个滑窗,将查找到的滑窗作为用于检索的滑窗;
(6)获取待检索自然图像的哈希编码:
(6a)将r个用于检索的滑窗从1到r依次编号;
(6b)从用于检索的滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号;
(6c)按照下式,依次对提取的每个用于检索的滑窗进行量化:
其中,Gm表示编号为m的像素量化后的赋范梯度值,表示向下取整符号,max(·)表示取最大值操作,m表示像素的编号,gm表示编号为m像素的灰度值;
(6d)按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素压缩后的压缩哈希编码值,m的取值范围为m=1,2,...,32,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号;
(6e)按照下式,生成用于检索的滑窗的哈希编码值:
其中,H表示用于检索的滑窗的哈希编码值,∑表示求和操作,Rx表示编号为 x的压缩哈希编码值,x表示压缩后哈希编码值的编号;
(6f)按照下式,生成待检索图像的哈希编码值:
其中,B表示待检索图像的哈希编码值,∑表示求和符号,n表示滑窗的编号, r表示用于检索的滑窗的数目,Hn表示编号为n的用于检索的滑窗的哈希编码值;
(7)哈希编码值预处理:
(8)度量相似度:
(8a)令f=1,其中:f表示待检索目标序列、待比较目标序列从左到右的位数;
(8b)判断待检索目标序列从左到右的位数f是否与图像边缘像素所在位数皆不相同,若是,执行步骤(8c),否则,执行步骤(8f);
(8c)判断待检索目标序列从左到右第f位的值是否小于2,若是,执行步骤 (8d),否则执行步骤(8e);
(8d)判断待比较目标序列的第f位值是否小于2,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=1,执行步骤(8g),否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行步骤(8g);
(8e)判断待比较目标序列的从左到右第f-9位、第f-8位、第f-7位、第f-1 位、第f位、第f+1位、第f+7位、第f+8位的值中是否存在一个大于等于2的值,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=3,执行步骤(8g),否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行步骤(8g);
(8f)按照下式,计算待检索目标序列和待比较目标序列第f位相似度:
其中,Uf表示待比较目标序列和待检索目标序列第f位相似度,|·|表示取绝对值操作,f表示待检索目标序列、待比较图像目标序列从左到右的位数,If表示待检索目标序列第f位的数值,Of表示待比较目标序列第f位的数值;
(8g)判断待检索目标序列从左到右的位数f是否等于64,若是,执行步骤(8h),否则,令f=f+1后执行步骤(8b);
(8h)按照下式,计算最高相似度:
其中,表示第u个待检索目标序列与图像库中编号为i的图像的所有待比较目标序列之间的最高相似度,max(·)表示取最大值操作,u表示待检索目标序列的编号, u的取值为u=1,...,r,r表示用于检索的滑窗的数目,∑表示求和操作,Uf (u,t,i)表示第u个待检索目标序列和自然图像库中图像Vi的第t个待比较目标序列在第f位的相似度,t的取值为t=1,...,s,s表示待比较滑窗数目,f表示待比较目标序列和待检索目标序列的位数,i=1,2,...,N,N表示图像库中图像的总数;
(8i)按照下式,计算量化相似度:
其中,表示待检索目标序列第u个序列与图像库中编号为i的图像的所有待比较目标序列之间的量化相似度,u表示待检索目标序列的编号,u的取值为u=1,...,r,r表示用于检索的滑窗的数目,表示第u个待检索目标序列与图像库中编号为i的图像的所有待比较目标序列之间的最高相似度,N表示图像库中图像的总数,Z表示量化控制阈值,Z∈(45,51,....55);i=1,2,...,N,N表示图像库中图像的总数;
(8j)按照下式,计算两图像相似度并存放:
其中,P表示存放相似度的数组,P[i]表示用于存放待检索图像与自然图像库中编号为i的图像的量化相似度的位置,∑表示求和操作,r表示提取的用于检索的滑窗的数目,表示待检索目标序列第u个序列与图像库中编号为i图像的所有待比较目标序列之间的量化相似度,N表示图像库中图像的总数,u表示待检索目标序列的编号, u的取值为u=1,...,r;i=1,2,...,N,N表示图像库中图像的总数;
(9)输出检索结果图像:
(9a)将存放相似度的数组P中按从大到小的顺序进行排序,获取排序结果前20 数组P的下标;
(9b)从自然图像库中提取编号与排序结果前20数组P的下标数值相等的图像,将提取的20幅图像作为检索结果图像输出。
本发明与现有方法相比具有如下优点:
第一,本发明由于引入了视觉显著性估值的窗口,用于模拟人眼观察图像时优先对物体进行感知的方式,根据视觉显著性估值可生成包含若干感兴趣物体的候选窗口能够,有效的区分前景物体和背景,并且多个视觉显著性估值高的窗口足够覆盖图像中所有占主导地位的物体,克服了现有技术不能有效划分背景和前景物体,以及各个独立物体的划分不够准确或将前景作为一个整体的问题。
第二,本发明由于采用了完全以特定物体为目标的检索方式,对同一副图像可选取不同关注物的窗口或窗口组合,故用户可以根据不同需求得到不同的检索结果,克服了现有技术只能得到固定检索结果的问题。
第三,由于本发明中仅对所关注的特定物体采用量化赋范梯度特征进行检索,每个所关注的特定物体仅用64维标量的量化赋范梯度BING特征作为描述子,采用特征点匹配的方法,克服了现有技术中采用的图像特征描述子表达复杂、存储空间大和度量相似度中计算量大的缺点。
附图说明
图1为本发明的流程图;
图2为本发明对“飞机”量化后的二值化赋范梯度BING特征图;
图3为本发明对“飞机”的变化图像及变化图像量化后的二值化赋范梯度BING特征图;
图4为本发明在训练线性支持向量机SVM时所采样的包含物体的窗口图;
图5为本发明在哈希编码值预处理中涉及的图像边缘像素点图;
图6为本发明在检索图像过程中给用户的待选窗口图;
图7为本发明度量相似度步骤的流程图;
图8为本发明的仿真图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照附图1,对本发明实现的步骤作进一步的详细描述。
步骤1,采用二值化赋范梯度BING目标检测方法,训练线性支持向量机SVM。
从自然图像数据库的图像中随机采样200到500幅包含物体的图像窗口和与之相同数量的背景窗口,记录采样包含物体的图像窗口、背景窗口的长Wp、Hp
将包含物体的图像窗口、背景窗口调整为长、宽分别为W、H的窗口,其中W、 H∈{10,20,40,80,160,320},分别得到36种长宽组合下包含物体的图像窗口、背景窗口。
将36种长宽组合下包含物体的图像窗口、36种长宽组合下背景窗口分别转化为包含36种长宽组合下包含物体的灰度图、36种长宽组合下背景的灰度图。
采用一阶梯度的索贝尔Sobel算法,分别计算36种长宽组合下包含物体的灰度图、36种长宽组合下背景灰度图,得到36种长宽组合下包含物体的梯度图、36种长宽组合下背景的梯度图,其中:获得梯度图的方法不限于sobel算法,还可以采用 Roberts Cross算子,Prewitt算子,Sobel算子,Kirsch算子,罗盘算子, Marr-Hildreth,Canny算子,Laplacian算子。
保留36种长宽组合下包含物体的梯度图、36种长宽组合下背景的梯度图中每一个像素点灰度值的前4位,分别生成36种长宽组合下包含物体的量化梯度图、36种长宽组合下背景的量化梯度图。
采用最大等间隔取点的方式,分别从36种长宽组合下包含物体的量化梯度图、36种长宽组合下背景的量化梯度图中,提取8×8像素大小的36种长宽组合下包含物体的二值化赋范梯度BING特征、36种长宽组合下背景的二值化赋范梯度BING特征,其中:最大等间隔取点的方式,以图像左上角第一个像素为原点,其坐标为(1,1),水平方向以间隔α依次取点,第1行的取的点为(1+0×α,1)(1+1×α,1),(1+2 ×α,1),...,(1+7×α,1),竖直方向以间隔β依次取点,第一列的取点为(1,1+0 ×β),(1,1+1×β),(1,1+2×β),...,(1,1+7×β),按照水平间隔α与竖直间隔β,从量化梯度图中取出8×8的像素点阵,将该8×8的像素点阵作为该图像的二值化赋范梯度BING特征,水平间隔α表示水平方向的间隔,β表示竖直方向间隔,W、H表示一种长宽组合下量化梯度图的长、宽,Wp、Hp表示该量化梯度图在调整之前的长和宽,本实验中原点为(1,1),但是实际中可根据图像库图像大小进行原点移动,间隔可取10个点后将边缘像素点去除,保留更为宝贵的中间的8×8像素点信息。
设置36种线性支持向量机SVM,将不同长宽组合下的包含物体的二值化赋范梯度BING特征标记为不同长宽组合下的正样本,将不同长宽组合下背景的二值化赋范梯度BING特征标记为不同长宽组合下的负样本,每一个长宽组合的样本对应一种线性 SVM,共有36长宽组合的样本。
将不同长宽组合下的正样本和不同长宽组合下的负样本作为训练样本,训练线性支持向量机SVM的36种分类模型,每个分类模型仅采用一种长宽组合下的正负样本进行训练,其中训练的SVM的问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值,线性SVM采用的是线性核函数K(ω,g)=ω×g,通过标记样本值K(ω,g),和多维空间的训练数据g,获得一个最优的两种样分类面参数ω。
步骤2,获取自然图像库图像滑窗的视觉显著性估值,具体步骤。
输入自然图像库中图像,将其按照存放顺序依次编号。
将输入图像调整为长、宽分别为W、H的图像,其中W、H∈{10,20,40,80,160,320},分别得到36种长宽组合下的尺度调整后图像。
将36种长宽组合下的尺度调整后图像转换为36种长宽组合下的灰度图。
将采用一阶梯度的索贝尔Sobel算法,分别计算36种长宽组合下的灰度图,得到36种长宽组合下的梯度图,其中:获得梯度图的方法不限于sobel算法,还可以采用RobertsCross 算子,Prewitt算子,Sobel算子,Kirsch算子,罗盘算子,Marr-Hildreth,Canny算子,Laplacian算子。
保留36种长宽组合下的梯度图中每一个像素点灰度值的前4位,得到36种长宽组合下的量化梯度图。
设置一个8×8的滑窗,从36种长宽组合下的量化梯度图左上角开始,按照步长为一个像素的滑动方式,依次扫描图像的每一行,记录每个滑窗左上角第1个像素的坐标(i,j)、每个滑窗中的数值即该滑窗的二值化赋范梯度BING特征、每个滑窗与该滑窗所在的量化梯度图之间一一对应的关系。
按照下式,将滑窗中的数值依次输入到已训练好的36种支持向量机SVM:
L=ω×g
其中,L表示滑窗的视觉显著性估值,ω表示训练好的线性支持向量机SVM参数, g表示每个滑窗中的数值。
步骤3,获取自然图像库中图像的哈希编码,具体步骤。
将每幅图像滑窗的视觉显著性估值从高到低排序。
提取排序后每幅图像前s个滑窗作为待比较滑窗,s∈(5,10,15,...,100),∈表示属于符号,对待比较滑窗从1到s依次进行编号。
从每个待比较滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号。
按照下式,依次对提取的每个待比较滑窗进行量化:
其中,Gm表示编号为m的像素量化后的赋范梯度值,表示向下取整符号,max 表示取最大值操作,m表示像素的编号,m的取值范围为m=1,2,...,64,gm表示编号为 m的像素的二值化赋范梯度BING值,γ为量化幅度控制参数,γ∈(1,3,15),本实验中γ=3。
按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素在压缩后的编号x与m值相同的哈希编码值,m的取值范围为m=1,2,...,64,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号。
按照下式,生成待比较滑窗哈希编码值:
其中,K表示待比较滑窗哈希编码值,∑表示求和操作,Rx表示编号为x的压缩哈希编码值,x表示压缩后哈希编码值的编号。
按照下式,生成图像哈希编码值:
其中,R表示图像哈希编码值,∑表示求和符号,n表示滑窗的编号,n的取值为n=1,2,...,s,s表示待比较滑窗数目,Kn表示每幅图像下编号为n的待比较滑窗哈希编码值。
步骤4,获取待检索自然图像滑窗的视觉显著性估值。
输入一幅待检索自然图像。
将输入图像调整为长、宽分别为W、H的图像,其中W、H∈{10,20,40,80,160,320},分别得到36种长宽组合下的尺度调整后图像。
将36种长宽组合下的尺度调整后图像转换为36种长宽组合下的灰度图。
将采用一阶梯度的索贝尔Sobel算法,分别计算36种长宽组合下的灰度图,得到36种长宽组合下的梯度图,其中:获得梯度图的方法不限于sobel算法,还可以采用Roberts Cross算子,Prewitt算子,Sobel算子,Kirsch算子,罗盘算子,Marr-Hildreth,Canny算子,Laplacian算子。
保留36种长宽组合下的梯度图中每一个像素点灰度值的前4位,得到36种长宽组合下的量化梯度图。
设置一个8×8的滑窗,从36种长宽组合下的量化梯度图左上角开始,按照步长为一个像素的滑动方式,依次扫描图像的每一行,记录每个滑窗左上角第1个像素的坐标 (i,j)、每个滑窗中的数值即该滑窗的二值化赋范梯度BING特征、每个滑窗与该滑窗所在的量化梯度图之间一一对应的关系。
按照下式,将滑窗中的数值依次输入到已训练好的36种支持向量机SVM:
L=ω×g
其中,L表示滑窗的视觉显著性估值,ω表示训练好的线性支持向量机SVM参数, g表示每个滑窗中的数值。
步骤5,获取用于检索的滑窗,具体步骤。
将待检索自然图像滑窗的视觉显著性估值从高到低排序。
提取排序后待检索自然图像的前50个滑窗。
以提取滑窗时与该滑窗所在的量化梯度图之间一一对应的关系作为依据,查找每个滑窗生成时每个滑窗的量化梯度图,得到每个滑窗的量化梯度图的长度和宽度。
将所提取的每个滑窗左上角第1个像素点横坐标的值、纵坐标的值分别作为该滑窗对应窗口的左边界值、上边界值。
按照下式,计算所提取滑窗对应图像窗口的右边界值:
其中,C表示所提取滑窗对应图像窗口的右边界值,[·]表示取整操作,i表示滑窗左上角第1个像素点的横坐标,W表示该滑窗生成时所在量化梯度图的长度,Wm表示待检索自然图像的长度。
按照下式,计算所提取滑窗对应图像窗口的下边界值;
其中,D表示所提取滑窗对应图像窗口的下边界值,[·]表示取整操作,j表示滑窗左上角第1个像素点的纵坐标,H表示该滑窗生成时所在量化梯度图的宽度,Hm表示待检索自然图像的宽度。
由每个滑窗求出的左边界值、右边界值、上边界值、下边界值共同确定一个窗口,从待检索自然图像中裁剪出50个滑窗所确定的50个窗口,将50个窗口分别以图片形式显示。
用户根据自身检索需求,从50个以图片形式显示的窗口中提取r个窗口作为待检索窗口,r=1,2,...,10。
以滑窗与该滑窗对应图像窗口之间一一对应的关系作为依据,查找r个待检索窗口对应的r个滑窗,将查找到的滑窗作为用于检索的滑窗。
步骤6,获取待检索自然图像的哈希编码。
将r个用于检索的滑窗从1到r依次编号。
从用于检索的滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号。
按照下式,依次对提取的每个用于检索的滑窗进行量化:
其中,Gm表示编号为m的像素量化后的赋范梯度值,表示向下取整符号, max(·)表示取最大值操作,m表示像素的编号,gm表示编号为m像素的灰度值,γ为量化幅度控制参数,γ∈(1,3,15),本实验中γ=3。
按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素在压缩后的编号x与m值相同的哈希编码值,m的取值范围为m=1,2,...,64,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号。
按照下式,生成用于检索的滑窗的哈希编码值:
其中,H表示用于检索的滑窗的哈希编码值,∑表示求和操作,Rx表示编号为 x的压缩哈希编码值,x表示压缩后哈希编码值的编号。
按照下式,生成待检索图像的哈希编码值:
其中,Rw表示待检索图像的哈希编码值,∑表示求和符号,n表示滑窗的编号, r表示用于检索的滑窗的数目,Hn表示编号为n的用于检索的滑窗的哈希编码值。
步骤7,哈希编码值预处理。
将待检索图像的哈希编码值以32位进行拆分,得到与用于检索的滑窗的数目相同的待检索哈希序列。
将自然图像库中每幅图像的哈希编码值以32位进行拆分,每幅图像都得到与待比较滑窗数目相同的待比较图像哈希序列。
对每个待检索哈希序列、每幅图像的每个待比较图像哈希序列的每一位分别采用除 4向下取整和除4取余的计算方法,分别得到每个待检索哈希序列、每幅图像的每个待比较图像哈希序列中每一位数的向下取整商和余数。
将每个待检索哈希序列每一位数的向下取整商和余数以串联的方式依次连接,每个待检索哈希序列生成一个待检索目标序列,将待检索目标序列依次编号。
将每幅图像的每个待比较图像的哈希序列每一位数的向下取整商和余数以串联的方式依次连接,每幅图像的每个待比较图像哈希序列生成一个待比较目标序列,将每幅图像的待比较目标序列依次编号。
步骤8,度量相似度。
结合附图7,对本步骤做进一步的说明。
第1步,令f=1,其中:f表示待检索目标序列、待比较目标序列从左到右的位数。
第2步,判断待检索目标序列从左到右的位数f是否与图像边缘像素所在位数皆不相同,若是,执行本步骤的第3步,否则,执行本步骤的第6步。
第3步,判断待检索目标序列从左到右第f位的值是否小于2,若是,执行本步骤的第4步,否则,执行本步骤的第5步。
第4步,判断待比较目标序列的第f位值是否小于2,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=1,执行本步骤的第7步,否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行本步骤的第7步。
第5步,判断待比较目标序列的从左到右第f-9位、第f-8位、第f-7位、第f-1 位、第f位、第f+1位、第f+7位、第f+8位的值中是否存在一个大于等于2的值,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=3,执行本步骤的第7步,否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行本步骤的第7 步。
第6步,按照下式,计算待检索目标序列和待比较目标序列第f位相似度:
其中,Uf表示待比较目标序列和待检索目标序列第f位相似度,|·|表示取绝对值操作,f表示待检索目标序列、待比较图像目标序列从左到右的位数,If表示待检索目标序列第f位的数值,Of表示待比较目标序列第f位的数值。
第7步,判断待检索目标序列从左到右的位数f是否等于64,若是,执行本步骤的第8步,否则,令f=f+1,执行本步骤的第2步。
第8步,按照下式,计算最高相似度:
其中,表示第u个待检索目标序列与图像库中编号为i(i=1,2,...,N)的图像的所有待比较目标序列之间的最高相似度,max(·)表示取最大值操作,u表示待检索目标序列的编号,u的取值为u=1,...,r,r表示用于检索的滑窗的数目,∑表示求和操作,Uf (u,t,i)表示第u个待检索目标序列和自然图像库中图像Vi(i=1,2,...,N)的第t个待比较目标序列在第f位的相似度,t的取值为t=1,...,s,N是图像库中图像的总数,s表示待比较滑窗数目,f表示待比较目标序列和待检索目标序列的位数。
第9步,按照下式,计算量化相似度:
其中,表示待检索目标序列第u个序列与图像库中编号为i的图像的所有待比较目标序列之间的量化相似度,u表示待检索目标序列的编号,u的取值为u=1,...,r, r表示用于检索的滑窗的数目,表示第u个待检索目标序列与图像库中编号为i的图像的所有待比较目标序列之间的最高相似度,i=1,2,...,N,N表示图像库中图像的总数, Z表示量化控制阈值,Z∈(45,51,....55),i=1,2,...,N,N表示图像库中图像的总数。
第10步,按照下式,计算两图像相似度并存放:
其中,P表示存放相似度的数组,P[i]表示用于存放待检索图像与自然图像库中编号为i的图像的量化相似度的位置,∑表示求和操作,r表示提取的用于检索的滑窗的数目,表示待检索目标序列第u个序列与图像库中编号为i图像的所有待比较目标序列之间的量化相似度,u表示待检索目标序列的编号,u的取值为u=1,...,r,i=1,2,...,N,N表示图像库中图像的总数;。
步骤9,输出检索结果图像。
将存放相似度的数组P中按从大到小的顺序进行排序,获取排序结果前20数组P的下标。
从自然图像库中提取编号与排序结果前20数组P的下标数值相等的图像,将提取的20幅图像作为检索结果图像输出。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本实验的硬件测试平台是:i7 2600CPU,主频3.3Ghz,内存8GB,软件平台为:Windows 7操作系统、Matlab R2012b和Visual Studio 2013,数据库平台为:图像识别与物件分类的挑战数据库Proposals VOC2007。
2.仿真内容与结果:
本发明仿真实验的目的是寻找一种更能符合人体视觉的哈希值生成方式。表1给出了本发明在图像识别与物件分类的挑战数据库Proposals VOC2007中5000张图片作为检索集,从6类图像中各选取10幅图像作为待检索图像进行实验,每次实验将相似度数组对应的前20幅图像作为检索结果图像,计算出每次实验的所需要时间和查准率,待检索图像使用的窗口默认为视觉显著性估值从高到低排序的前15个。
图2给出的是选取不同量化控制幅度下“飞机”的二值化赋范梯度BING特征,图 2(a)和图2(c)为待检索飞机图像,图2(b为量化控制参数γ=1时的二值化赋范梯度BING 特征,它类似感知哈希方法仅由0和1两种灰度来表示一个64维标量,采用64个2 进制数表示窗口的方式,故存储量小,但特征模糊,图2(d)为量化控制参数γ=3时的二值化赋范梯度BING特征,相比γ=1时,窗口的特征更加明显,物体保留的信息更多,由0,1,2,3四种灰度表示,信息更全,但是存储空间更大,计算的时间复杂度也存储的空间复杂度也会上升。
图3(a)、图3(c)、图3(e)、图3(g)分别为待检索图像分别采用压缩10%,拉伸10%,强度为σ2=0.01的高斯噪声和强度为θ=0.05椒盐噪声方法处理后的图像,图3(b)、图 3(d)、图3(f)、图3(h)为对应形成的BING特征,可以观察到BING特征的变化并不大,依靠本发明的度量方法,可以拉近他们的相似度。
表1本发明的平均查准率1(%)、平均查准率2(%)和平均时间(秒)一览表
本发明表1所在仿真实验中,设定的返回图像数为20,用于检索的滑窗数目为显著性估值较高的前15幅图像。查准率会随着待检索图像的用于检索的滑窗数目增多,或由用户自行选择的关注物体的窗口包含内容更准确的情况下,查准率还会显著提升。
查准率=正确检索到的图像数/设定的返回图像数
由表1可见,对于大多数测试图像,本发明在不同尺度和噪声下的原图检索率和原图相似性检索取得了较好的结果。从所需运算时间上来看,在数据库图像的5000副图像下,在赋范梯度量化参数选择γ=3待比较窗口数目s选择10或15时,每副图像形成哈希值时间为0.172s,检索每幅图像占用时间仅为0.003s-0.0054s,BING方法所提供用于训练线性SVM时间每副图像为0.003s,最终达到每副图像从提取目标到最终检索仅需0.03s-0.054s的运算速度。从平均查准率上来看,本方法在γ=3时有着作为较好的查准率的同时运算时间较为合理,其中,平准查准率1是基于图像库中所有图像原图的查准率取平均值结果,平准查准率2基于扩展后图像库的查准率取平均值的结果,扩展图像库的方法是在原图像库加入四幅原待检索图像的变化图像,变化的四幅图像是对待检索图像采用压缩10%、拉伸10%、方差为σ2=0.01的高斯噪声和噪声密度为θ=0.05椒盐噪声方法处理后的图像,分别如图3(a)、图3(c)、图3(e)、图3(g)所示。
图5(a) 、图5(b) 、图5(c) 、图5(d) 、图5(e) 、图5(f) 分别描述的是多个人图像、单人作为主导的图像、牛、鹅、骑车人、飞机的梯度特征,它们可作为样本用于训练步骤1中的线性支持向量机SVM分类器,因为不同物体不同尺寸下拥有的梯度基本是不相同的,故它们在不同尺寸下的梯度图的二值化赋范梯度也是不同的。
图4 给出的是窗口边缘像素图,这里的像素通常为背景或其它干扰,因此对于边界部分像素的处理方法与中心像素不同,这些像素包括Ai(i=1,2,3,4,5,6,7,8,9,16,17,25,32,33,40,41,48,49,56,57,58,59,60,61,62,63,64)。
图6(a)、图6(b)、图6(c)分别为自然图像库中图像“飞机”、“树与牛”、“人骑马”用于待比较的窗口图,在形成自然图像库哈希编码过程时,用由图中的这些窗口生成待比较哈希编码,在检索时,用户可从图6(b)的所示的窗口中选择1个或多个形成待检索哈希编码,如选择第二行第二个窗口图像“熊”或第二行第三个窗口“树”或几个窗口都选取,从而进行不同需求的检索。
表2所在仿真实验中,设定的返回图像数为20,待检索图像的滑窗数目与用于检索的滑窗数目皆为显著性估值较高的前15幅图像。在多目标图像中,随着用户选择的用于检索的窗口关注的物体越单一,关注窗口越多,检索平均查准率将有显著性提升。
由表2可见,对于训练样本较多且图像梯度特征明显的图像,本方法拥有着良好的查准率,并随着量化参数γ的变化有着较大的改善。对于复杂和非复杂信息的图像都有较好的检索结果。并且随着最终参与者选取的窗口信息,如在图6(a)、图6(b)、图6(c) 所示的若干窗口中选取,这种平均查准率还有较大的提升,此平均查准率使用的窗口是带检测图像视觉显著性估值从高到低排序的前15个。在实验中,对每幅窗口也采用了基于传统的余弦DCT的感知哈希实验,但是结果只能对原图有较高的查准率,相似度查询并没有较好结果,分析原因在于,每幅窗口中可能存在的其他物体边缘或者窗口中物体位置的变换,会带来的哈希值差异。
表2本发明方法在不同类别下的平均查准率1(%)表
图8(a)为“马”图像的最终检索结果,图8(b)为“人骑马”图像仅选取与马相关的窗口的最终检索结果,8(c)为图像“人骑马”图像中人和马窗口都选取的最终检索结果,图8(d)为选取图像“飞机”部分细节窗口的最终检索结果,图8(e)为选取图像“飞机”的整体窗口的最终检索结果。由图8(b)、图8(c)的最终检索结果图可知:对于同一幅图像,在用户根据不同需求选取不同窗口的情况下,有根据所选的关注物马进行的检索结果优先是马,而人与马都关注的情况下,检索结果优先是人骑马,对同副图像关注物不同而又不同的检索结果。由图8(d)、图8(e)的最终检索结果图可知:对于同一幅图像中的同一物体,关注该物体不同部位的细节或整体,例如飞机的发动机等细节与关注飞机的整体外表,根据关注点的不同,对于同一物体也有着不同的搜索结果,更加符合人眼观察事物的方式。
由于现有图像检索方法都是对图像整体进行检索,没有人为选取图像局部进行检索。本发明不但考虑了含有的重要物体的图像局部信息,利用简单的一种赋范梯度特征,粗糙的提取出图像中若干物体目标窗口,而且在最终的窗口选取上加入人体视觉的选取,使检索过程和结果更符合人眼思想,本发明由于同幅图像的多个相似窗口在检索权衡之中占到了大量权重,从而提高了感知哈希方法对于椒盐噪声、拉伸压缩、原图像尺度变化等的能力。

Claims (5)

1.一种基于视觉显著性的图像检索方法,包括如下步骤:
(1)采用二值化赋范梯度BING目标检测方法,训练线性支持向量机SVM:
(2)获取编号图像滑窗的视觉显著性估值;
(2a)输入自然图像库中图像,将其按照在自然图像库中存放顺序依次编号,得到编号图像;
(2b)将编号图像作为处理图像采用二值化赋范梯度BING的目标估计方法,对编号图像滑窗中每个像素进行量化,得到滑窗的二值化赋范梯度BING值;
(2c)对编号图像作为处理图像采用二值化赋范梯度BING的目标估计方法,将编号图像中每个滑窗的二值化赋范梯度BING值输入到已训练好的线性支持向量机SVM中,获得编号图像每个滑窗的视觉显著性估值;
(3)获取编号图像的哈希编码:
(3a)将每幅编号图像滑窗的视觉显著性估值从高到低排序;
(3b)提取排序后每幅图像前s个滑窗作为待比较滑窗,s∈(5,10,15,...,100),∈表示属于符号,对待比较滑窗从1到s依次进行编号;
(3c)从每个待比较滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号;
(3d)按照下式,得到像素量化后的赋范梯度值:
其中,Gm表示编号为m的像素量化后的赋范梯度值,表示向下取整操作,max(·)表示取最大值操作,m表示像素的编号,m的取值范围为m=1,2,...,32,gm表示编号为m的像素的二值化赋范梯度BING值;
(3e)按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素在压缩后的压缩哈希编码值,m表示像素的编号,m的取值范围为m=1,2,...,32,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号;
(3f)按照下式,生成待比较滑窗哈希编码值:
其中,K表示待比较滑窗哈希编码值,∑表示求和操作,Rx表示编号为x的压缩哈希编码值,x表示压缩后哈希编码值的编号;
(3g)按照下式,生成编号图像哈希编码值:
其中,A表示编号图像哈希编码值,∑表示求和符号,n表示滑窗的编号,n的取值为n=1,2,...,s,s表示待比较滑窗数目,Kn表示编号图像编号为n的待比较滑窗哈希编码值;
(4)获取待检索自然图像滑窗的视觉显著性估值:
(4a)输入一幅待检索自然图像;
(4b)将待检索自然图像作为处理图像采用二值化赋范梯度BING的目标估计方法,对待检索自然图像滑窗中每个像素进行量化,得到滑窗的二值化赋范梯度BING值;
(4c)将待检索自然图像作为处理图像,采用二值化赋范梯度BING的目标估计方法,将待检索自然图像每个滑窗的二值化赋范梯度BING值输入到已训练好的线性支持向量机SVM中,获得待检索自然图像每个滑窗的视觉显著性估值;
(5)获取用于检索的滑窗:
(5a)将待检索自然图像滑窗的视觉显著性估值从高到低排序,作为人眼观察图像的感知关注程度值;
(5b)提取排序后待检索自然图像的感知关注程度值高的前50个的滑窗;
(5c)以提取滑窗时与该滑窗所在的量化梯度图之间一一对应的关系作为依据,查找每个滑窗生成时每个滑窗的量化梯度图,得到每个滑窗的量化梯度图的长度和宽度;
(5d)将所提取的每个滑窗左上角第1个像素点横坐标的值、纵坐标的值分别作为该滑窗对应窗口的左边界值、上边界值;
(5e)按照下式,计算所提取滑窗对应图像窗口的右边界值;
其中,C表示所提取滑窗对应图像窗口的右边界值,[·]表示取整操作,i表示滑窗左上角第1个像素点的横坐标,W表示该滑窗生成时所在量化梯度图的长度,Wm表示待检索自然图像的长度;
(5f)按照下式,计算所提取滑窗对应图像窗口的下边界值;
其中,D表示所提取滑窗对应图像窗口的下边界值,[·]表示取整操作,j表示滑窗左上角第1个像素点的纵坐标,H表示该滑窗生成时所在量化梯度图的宽度,Hm表示待检索自然图像的宽度;
(5g)由每个滑窗求出的左边界值、右边界值、上边界值、下边界值共同确定一个窗口,从待检索自然图像中裁剪出50个滑窗所确定的50个窗口,将50个窗口分别以图片形式显示;
(5h)用户根据自身检索需求,从50个以图片形式显示的窗口中提取r个人眼关注程度高的窗口作为待检索窗口,r=1,2,...,20;
(5i)以滑窗与该滑窗对应图像窗口之间一一对应的关系作为依据,查找r个待检索窗口对应的r个滑窗,将查找到的滑窗作为用于检索的滑窗;
(6)获取待检索自然图像的哈希编码:
(6a)将r个用于检索的滑窗从1到r依次编号;
(6b)从用于检索的滑窗左上角开始,按照从左到右、从上向下的顺序,对每一个像素依次进行编号;
(6c)按照下式,依次对提取的每个用于检索的滑窗进行量化:
其中,Gm表示编号为m的像素量化后的赋范梯度值,表示向下取整符号,max(·)表示取最大值操作,m表示像素的编号,gm表示编号为m像素的灰度值;
(6d)按照下式,生成压缩哈希编码:
Rx=dec2hex(G2m-1×22+G2m),x=m
其中,Rx表示编号为2m与2m-1两像素压缩后的压缩哈希编码值,m的取值范围为m=1,2,...,32,dec2hex(·)表示10进制转换16进制操作,G2m-1表示编号为2m-1像素在量化后的赋范梯度值,G2m表示编号为2m像素在量化后的赋范梯度值,x表示压缩后哈希编码值的编号;
(6e)按照下式,生成用于检索的滑窗的哈希编码值:
其中,H表示用于检索的滑窗的哈希编码值,∑表示求和操作,Rx表示编号为x的压缩哈希编码值,x表示压缩后哈希编码值的编号;
(6f)按照下式,生成待检索图像的哈希编码值:
其中,B表示待检索图像的哈希编码值,∑表示求和符号,n表示滑窗的编号,r表示用于检索的滑窗的数目,Hn表示编号为n的用于检索的滑窗的哈希编码值;
(7)哈希编码值预处理:
(8)度量相似度:
(8a)令f=1,其中:f表示待检索目标序列、待比较目标序列从左到右的位数;
(8b)判断待检索目标序列从左到右的位数f是否与图像边缘像素所在位数皆不相同,若是,执行步骤(8c),否则,执行步骤(8f);
(8c)判断待检索目标序列从左到右第f位的值是否小于2,若是,执行步骤(8d),否则执行步骤(8e);
(8d)判断待比较目标序列的第f位值是否小于2,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=1,执行步骤(8g),否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行步骤(8g);
(8e)判断待比较目标序列的从左到右第f-9位、第f-8位、第f-7位、第f-1位、第f位、第f+1位、第f+7位、第f+8位的值中是否存在一个大于等于2的值,若是,令待比较目标序列和待检索目标序列第f位相似度Uf=3,执行步骤(8g),否则,令待比较目标序列和待检索目标序列第f位相似度Uf=0,执行步骤(8g);
(8f)按照下式,计算待检索目标序列和待比较目标序列第f位相似度:
其中,Uf表示待比较目标序列和待检索目标序列第f位相似度,|·|表示取绝对值操作,f表示待检索目标序列、待比较图像目标序列从左到右的位数,If表示待检索目标序列第f位的数值,Of表示待比较目标序列第f位的数值;
(8g)判断待检索目标序列从左到右的位数f是否等于64,若是,执行步骤(8h),否则,令f=f+1后执行步骤(8b);
(8h)按照下式,计算最高相似度:
其中,表示第u个待检索目标序列与图像库中编号为i的图像的所有待比较目标序列之间的最高相似度,max(·)表示取最大值操作,u表示待检索目标序列的编号,u的取值为u=1,...,r,r表示用于检索的滑窗的数目,∑表示求和操作,Uf (u,t,i)表示第u个待检索目标序列和自然图像库中图像Vi的第t个待比较目标序列在第f位的相似度,t的取值为t=1,...,s,s表示待比较滑窗数目,f表示待比较目标序列和待检索目标序列的位数,i=1,2,...,N,N表示图像库中图像的总数;
(8i)按照下式,计算量化相似度:
其中,表示待检索目标序列第u个序列与图像库中编号为i的图像的所有待比较目标序列之间的量化相似度,u表示待检索目标序列的编号,u的取值为u=1,...,r,r表示用于检索的滑窗的数目,表示第u个待检索目标序列与图像库中编号为i的图像的所有待比较目标序列之间的最高相似度,Z表示量化控制阈值,Z∈(45,51,....55);i=1,2,...,N,N表示图像库中图像的总数;
(8j)按照下式,计算两图像相似度并存放:
其中,P表示存放相似度的数组,P[i]表示用于存放待检索图像与自然图像库中编号为i的图像的量化相似度的位置,∑表示求和操作,r表示提取的用于检索的滑窗的数目,表示待检索目标序列第u个序列与图像库中编号为i的图像的所有待比较目标序列之间的量化相似度;i=1,2,...,N,N表示图像库中图像的总数;
(9)输出检索结果图像:
(9a)将存放相似度的数组P中按从大到小的顺序进行排序,获取排序结果前20数组P的下标;
(9b)从自然图像库中提取编号与排序结果前20数组P的下标数值相等的图像,将提取的20幅图像作为检索结果图像输出。
2.根据权利要求1所述的基于视觉显著性的图像检索方法,其特征在于,步骤(1)中所述采用二值化赋范梯度BING目标检测方法,训练线性支持向量机SVM的具体步骤如下:
第1步,从自然图像数据库的图像中随机采样200到500幅包含物体的图像窗口和与之相同数量的背景窗口;
第2步,将包含物体的图像窗口、背景窗口调整为长、宽分别为W、H的窗口,其中W、H∈{10,20,40,80,160,320},分别得到36种长宽组合下包含物体的图像窗口、背景窗口;
第3步,将36种长宽组合下包含物体的图像窗口、36种长宽组合下背景窗口分别转化为包含36种长宽组合下包含物体的灰度图、36种长宽组合下背景的灰度图;
第4步,采用一阶梯度的索贝尔Sobel算法,分别计算36种长宽组合下包含物体的灰度图、36种长宽组合下背景灰度图,得到36种长宽组合下包含物体的梯度图、36种长宽组合下背景的梯度图;
第5步,保留36种长宽组合下包含物体的梯度图、36种长宽组合下背景的梯度图中每一个像素点灰度值的前4位,分别生成36种长宽组合下包含物体的量化梯度图、36种长宽组合下背景的量化梯度图;
第6步,以图像量化梯度图左上角第1个像素为起点,采用最大等间隔取点的方式,分别从36种长宽组合下包含物体的量化梯度图、36种长宽组合下背景的量化梯度图中,提取8×8像素大小的36种长宽组合下包含物体的二值化赋范梯度BING特征、36种长宽组合下背景的二值化赋范梯度BING特征;
第7步,设置36种线性支持向量机SVM,将不同长宽组合下的包含物体的二值化赋范梯度BING特征标记为不同长宽组合下的正样本,正样本标记值为1,将不同长宽组合下背景的二值化赋范梯度BING特征标记为不同长宽组合下的负样本,负样本标记值为0;
第8步,将不同长宽组合下的正样本和不同长宽组合下的负样本作为训练样本,训练线性支持向量机SVM的36种分类模型,每个分类模型仅采用一种长宽组合下的正负样本进行训练。
3.根据权利要求1所述的基于视觉显著性的图像检索方法,其特征在于,步骤(2b)、步骤(2c)、步骤(4b)、步骤(4c)中所述二值化赋范梯度BING的目标估计方法的具体步骤如下:
第1步,将处理图像的长宽分别记为Wm、Hm
第2步,将处理图像调整为长、宽分别为W、H的图像,其中W、H∈{10,20,40,80,160,320},分别得到36种长宽组合下的尺度调整后图像;
第3步,将36种长宽组合下的尺度调整后图像转换为36种长宽组合下的灰度图;
第4步,采用一阶梯度的索贝尔Sobel算法,分别计算36种长宽组合下的灰度图,得到36种长宽组合下的梯度图;
第5步,保留36种长宽组合下的梯度图中每一个像素点灰度值的前4位,得到36种长宽组合下的量化梯度图;
第6步,设置一个8×8的滑窗,从36种长宽组合下的量化梯度图左上角开始,按照步长为一个像素的滑动方式,依次扫描量化梯度图的每一行,记录每个滑窗左上角第1个像素的坐标(i,j)、每个滑窗与该滑窗所在的量化梯度图之间一一对应的关系,将每个滑窗中的数值作为该滑窗的二值化赋范梯度BING特征;
第7步,按照下式,计算滑窗的视觉显著性估值:
L=ωb×gb
其中,L表示滑窗的视觉显著性估值,ωb表示第b种长宽组合下训练好的线性支持向量机SVM分界面参数,b=1,2,...,36,gb表示第b种长宽组合下滑窗的二值化赋范梯度BING特征。
4.根据权利要求1所述的基于视觉显著性的图像检索方法,其特征在于,步骤(7)中所述哈希编码值预处理的具体步骤如下:
第1步,将待检索图像的哈希编码值以32位进行拆分,得到与用于检索的滑窗的数目相同的待检索哈希序列;
第2步,将编号图像的哈希编码值以32位进行拆分,每幅图像都得到与待比较滑窗数目相同的待比较图像哈希序列;
第3步,对每个待检索哈希序列、每幅编号图像的每个待比较图像哈希序列的每一位分别采用除4向下取整和除4取余的计算方法,分别得到每个待检索哈希序列、每幅图像的每个待比较图像哈希序列中每一位数的向下取整商和余数;
第4步,将每个待检索哈希序列每一位数的向下取整商和余数以串联的方式依次连接,每个待检索哈希序列生成一个待检索目标序列,将待检索目标序列依次编号;
第5步,将每幅图像的每个待比较图像的哈希序列每一位数的向下取整商和余数以串联的方式依次连接,每幅图像的每个待比较图像哈希序列生成一个待比较目标序列,将每幅图像的待比较目标序列依次编号。
5.根据权利要求1所述的基于视觉显著性的图像检索方法,其特征在于,步骤(8b)中所述图像边缘像素所在位数是指1,2,3,4,5,6,7,8,9,16,17,24,25,32,33,40,41,48,49,56,57,58,59,60,61,62,63,64。
CN201510523762.4A 2015-08-24 2015-08-24 基于视觉显著性的图像检索方法 Active CN105574063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510523762.4A CN105574063B (zh) 2015-08-24 2015-08-24 基于视觉显著性的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510523762.4A CN105574063B (zh) 2015-08-24 2015-08-24 基于视觉显著性的图像检索方法

Publications (2)

Publication Number Publication Date
CN105574063A CN105574063A (zh) 2016-05-11
CN105574063B true CN105574063B (zh) 2019-02-22

Family

ID=55884200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510523762.4A Active CN105574063B (zh) 2015-08-24 2015-08-24 基于视觉显著性的图像检索方法

Country Status (1)

Country Link
CN (1) CN105574063B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423309A (zh) * 2016-06-01 2017-12-01 国家计算机网络与信息安全管理中心 基于模糊哈希算法的海量互联网相似图片检测系统及方法
CN106295704B (zh) * 2016-08-16 2019-05-21 上海电力学院 基于图像库空域和频域特征的图像摘要获取方法
CN106484782B (zh) * 2016-09-18 2019-11-12 重庆邮电大学 一种基于多核哈希学习的大规模医学图像检索方法
JP6889865B2 (ja) * 2017-09-22 2021-06-18 オムロン株式会社 テンプレート作成装置、物体認識処理装置、テンプレート作成方法及びプログラム
CN108491498B (zh) * 2018-03-20 2021-06-25 济南神博信息技术有限公司 一种基于多特征检测的卡口图像目标搜索方法
CN108763261B (zh) * 2018-04-03 2021-08-27 南昌奇眸科技有限公司 一种图形检索方法
CN108763266B (zh) * 2018-04-03 2022-04-29 南昌奇眸科技有限公司 一种基于图像特征提取的商标检索方法
CN108897747A (zh) * 2018-04-03 2018-11-27 南昌奇眸科技有限公司 一种商标图形相似度比对方法
CN108764246A (zh) * 2018-04-03 2018-11-06 南昌奇眸科技有限公司 一种基于多尺度特征提取的图像检索方法
CN108763265B (zh) * 2018-04-03 2022-02-08 南昌奇眸科技有限公司 一种基于分块检索的图像识别方法
CN108897746B (zh) * 2018-04-03 2022-02-08 南昌奇眸科技有限公司 一种图像检索方法
CN108921130B (zh) * 2018-07-26 2022-03-01 聊城大学 基于显著性区域的视频关键帧提取方法
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110969202B (zh) * 2019-11-28 2023-12-19 上海观安信息技术股份有限公司 基于颜色分量和感知哈希算法的人像采集环境验证方法及系统
CN111528834B (zh) * 2020-03-25 2021-09-24 西安电子科技大学 一种实时sar图像目标检测系统及方法
CN111652292B (zh) * 2020-05-20 2022-12-06 贵州电网有限责任公司 一种基于ncs、ms的相似物体实时检测方法及系统
CN112115292A (zh) * 2020-09-25 2020-12-22 海尔优家智能科技(北京)有限公司 图片搜索方法及装置、存储介质、电子装置
CN113762254B (zh) * 2021-09-07 2022-11-11 重庆畅停智慧停车服务有限公司 一种车牌识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440494A (zh) * 2013-07-04 2013-12-11 中国科学院自动化研究所 一种基于视觉显著性分析的恐怖图像识别方法及系统
CN104198497A (zh) * 2014-09-12 2014-12-10 苏州大学 一种基于视觉显著图和支持向量机的表面缺陷检测方法
WO2015028842A1 (en) * 2013-08-28 2015-03-05 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi A semi automatic target initialization method based on visual saliency
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video
CN103440494A (zh) * 2013-07-04 2013-12-11 中国科学院自动化研究所 一种基于视觉显著性分析的恐怖图像识别方法及系统
WO2015028842A1 (en) * 2013-08-28 2015-03-05 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi A semi automatic target initialization method based on visual saliency
CN104198497A (zh) * 2014-09-12 2014-12-10 苏州大学 一种基于视觉显著图和支持向量机的表面缺陷检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视频的目标感知与行为识别;郭玉杰;《中国优秀硕士学位论文全文数据库》;20140815(第8期);第9-19页以及第37-46页

Also Published As

Publication number Publication date
CN105574063A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574063B (zh) 基于视觉显著性的图像检索方法
TWI651662B (zh) 影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體
Alsmadi et al. Fish recognition based on robust features extraction from size and shape measurements using neural network
Cheriyadat Unsupervised feature learning for aerial scene classification
CN107480620B (zh) 基于异构特征融合的遥感图像自动目标识别方法
Parisi-Baradad et al. Otolith shape contour analysis using affine transformation invariant wavelet transforms and curvature scale space representation
Quan et al. Lacunarity analysis on image patterns for texture classification
Alsmadi et al. Fish classification based on robust features extraction from color signature using back-propagation classifier
WO2016150240A1 (zh) 身份认证方法和装置
WO2017016240A1 (zh) 一种钞票冠字号识别方法
CN105243154B (zh) 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
Alsmadi et al. Fish recognition based on robust features extraction from color texture measurements using back-propagation classifier
Zawbaa et al. An automatic flower classification approach using machine learning algorithms
CN111414958B (zh) 一种视觉词袋金字塔的多特征图像分类方法及系统
CN107067037B (zh) 一种使用llc准则定位图像前景的方法
CN112767447A (zh) 基于深度霍夫优化投票的时敏单目标跟踪方法、存储介质和终端
CN104732534B (zh) 一种图像中显著目标的抠取方法及系统
Seidl et al. Automated classification of petroglyphs
CN110659374A (zh) 一种基于神经网络提取车辆特征值及属性的以图搜图方法
CN104361357A (zh) 基于图片内容分析的相片集分类系统及分类方法
Sivapalan et al. Histogram of weighted local directions for gait recognition
Liu et al. Geometric tight frame based stylometry for art authentication of van Gogh paintings
Jubair et al. Scale invariant feature transform based method for objects matching
CN110956157A (zh) 基于候选框选择的深度学习遥感影像目标检测方法及装置
CN117037049B (zh) 基于YOLOv5深度学习的图像内容检测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant