CN111723223B - 一种基于主体推断的多标签图像检索方法 - Google Patents

一种基于主体推断的多标签图像检索方法 Download PDF

Info

Publication number
CN111723223B
CN111723223B CN202010515544.7A CN202010515544A CN111723223B CN 111723223 B CN111723223 B CN 111723223B CN 202010515544 A CN202010515544 A CN 202010515544A CN 111723223 B CN111723223 B CN 111723223B
Authority
CN
China
Prior art keywords
image
objects
region
label image
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010515544.7A
Other languages
English (en)
Other versions
CN111723223A (zh
Inventor
李福亮
成汶霖
王兴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010515544.7A priority Critical patent/CN111723223B/zh
Publication of CN111723223A publication Critical patent/CN111723223A/zh
Application granted granted Critical
Publication of CN111723223B publication Critical patent/CN111723223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于主体推断的多标签图像检索方法,该方法包括多标签图像数据集的准备及预处理、初步特征提取、物体识别及粗粒度分割、物体关系特征提取、物体主次推断以及哈希编码。数据集包含的物体类别及位置标签用于图像中物体识别和粗粒度分割过程的训练,而图像所属类别标签用于物体主体推断和哈希编码过程的训练。本发明方法能够通过对多标签图像中多物体的关系进行分析推断,得到多物体的主次关系,并编码到哈希码中,从而有效提高了多标签图像检索的准确性。

Description

一种基于主体推断的多标签图像检索方法
技术领域
本发明属于多标签图像检索的计算机分析技术领域,涉及一种基于主体推断的多标签图像检索方法。
背景技术
多标签图像检索是基于内容的图像检索技术中一个重要研究点,基于此技术,以图搜图、网购找同款等应用得到大量普及和发展。
多标签图像因包含多类物体而使得难以对图像的类别进行准确判断,进而用于查询时就难以得到准确的检索结果。针对此问题,现有方法大都基于深度学习方法直接学习得到哈希编码,其要么综合多层次图像特征,要么利用用户查询会话的上下文信息等提高哈希编码的准确性,然而,尚未考虑到图像中多个物体的主要次要关系,而这对检索的准确度是非常重要的。本发明通过推断多物体的主次关系,进而可以按照重要性进行排序,相对已有方法能得到更准确的检索结果。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于主体推断的多标签图像检索方法,该方法可以根据物体间的位置关系等有效推断出物体主次关系,并将其编码到哈希码中,实现准确高效的多标签图像检索。
本发明的一种基于主体推断的多标签图像检索方法,包括:
步骤1:多标签图像样本数据集的准备和预处理,包括公共数据集的样本筛选、尺度归一化处理、去均值处理和增强处理;
步骤2:对预处理后的多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割;
步骤3:对多标签图像的粗粒度分割结果,提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征,且都构造成等长向量的形式;
步骤4:利用四种物体关系特征进行基于GRU的主体推断,得到多标签图像中多个物体的主次关系,主次关系体现了物体对图像所属类别的贡献程度;
步骤5:基于物体主次关系构造用于检索的哈希编码;
步骤6:多标签图像检索。
在本发明的基于主体推断的多标签图像检索方法中,所述步骤1中的样本筛选要从公开数据集中筛选出具有多个物体标签的图像。
在本发明的基于主体推断的多标签图像检索方法中,所述步骤2具体包括:
步骤2.1:基于卷积神经网络的初步图像特征提取,得到一列特征图;
步骤2.2:对步骤2.1得的特征图经过1×1卷积变换成一个特征图F,再按式(1)对F中所有像素进行Softmax归一化处理,得到特征图S,进而通过阈值函数(2)将其变换为二值特征图T:
Figure GDA0002585658460000021
Figure GDA0002585658460000022
其中,si,j和fi,j分别表示S和F中第i行j列的像素值,
Figure GDA0002585658460000023
是预定义参数;
步骤2.3:基于RPN网络对图像进行边框提议,将得到的候选框与全图的二值特征图进行交运算,候选框能够辅助二值特征图分隔出每个物体区域,二值特征图也能反过来辅助筛选出候选框;
步骤2.4:对候选框,用平滑一范数损失函数进行边框回归,得到能更准确指明物体位置的矩形标定框;
步骤2.5:对筛选出的标定框,通过交叉熵损失函数,进行Softmax分类。
在本发明的基于主体推断的多标签图像检索方法中,,所述步骤3具体包括:
步骤3.1:统计多标签图像中同类物体的数目,构造物体数目长度的同类物体数目特征向量如下式(3)所示:
Figure GDA0002585658460000031
其中,m为图像数据集总包含物体类别数目,n为一幅图像中识别出的物体总数,图像中m个类别的物体数目分别为n1,n2,...,nm
步骤3.2:以物体区域的重心到图像中心的距离cl作为物体居中程度的衡量标准,构造出的物体居中程度向量如式(4)所示:
Cobject=(c1,c2,...,cn) (4)
其中,cl定义如式(5)所示:
Figure GDA0002585658460000032
其中,(xl,yl)为物体区域的重心坐标,(xk,yk)为图像中心坐标,
Figure GDA0002585658460000033
为第l个物体区域内的像素点数目,物体区域由二值特征图区域和物体矩形标定框的交集决定;
步骤3.3:以物体区域内的像素点数目衡量物体区域大小,如式(6)所示:
Figure GDA0002585658460000034
步骤3.4:获取物体相对远近关系,利用卷积神经网络估计像素点的相对远近,即深度,得到表征像素点深度的深度图,通过物体区域内所有像素点深度值的中位数来衡量该物体的深度,进而构造出所有物体的相对远近关系向量如式(7)所示:
Dobject=(d1,d2,...,dn) (7)
其中,
Figure GDA0002585658460000035
为物体l区域内所有numPl个像素点深度值得中位数。
在本发明的基于主体推断的多标签图像检索方法中,所述步骤5具体包括:
步骤5.1:根据物体的主次关系构造加权高斯分布图,其(x,y)处的值如式(8)所示,越重要的物体,各个物体所代表的高斯分布峰值直观表征了物体的重要程度:
Figure GDA0002585658460000041
其中,
Figure GDA0002585658460000042
是物体l的重心点坐标,协方差矩阵∑取为式(9)所示:
Figure GDA0002585658460000043
其中,
Figure GDA0002585658460000044
Figure GDA0002585658460000045
分别为目标l的标定框的宽和高,这可以使高斯分布的1.96σ区域尽量落在物体所在区域,可以在突出目标区域特征的同时,有效避免引入背景区域过多的特征。
步骤5.2:计算图像的哈希编码如式(10)所示:
Figure GDA0002585658460000046
其中,
Figure GDA0002585658460000047
表示输入为C维,输出为m维的全连接操作,x=(x1,x2,...xc)为加权高斯分布图和步骤2.1的C个特征图加权平均池化所得的C维特征向量。
本发明的一种基于主体推断的多标签图像检索方法,可以通过对多标签图像中多个物体的关系进行分析,推断出物体的主次关系,有利于判断图像所要表达的物体类别,能一定程度解决多标签图像语义表达不清晰的问题;并且利用主次关系对检索结果进行排序,也能保留次要物体的信息,提高结果的总体得分。
附图说明
图1为本发明的一种基于主体推断的多标签图像检索方法的流程图;
图2为多标签图像关系特征提取流程图;
图3为基于关系特征的主体推断流程图;
图4方法测试结果图。
具体实施方式
本发明提出了一种基于主体推断的多标签图像检索方法。该方法利用深度卷积神经网络来提取多标签图像中的物体关系特征,进而利用循环神经网络推断多个物体的主次关系,在此基础上将主次关系进行哈希编码,用于图像的检索。以下详细说明本发明方法涉及的关键步骤。
如图1所示,本发明的一种基于主体推断而定多标签图像检索方法,包括如下几方面内容:
一、关系特征提取部分:
请参阅图2所示的多标签图像关系特征提取流程,具体包括如下步骤:
步骤1,图像预处理:用于模型训练的多标签图像数据集包含用于训练的标签有:物体类别(体现了多标签)、物体位置坐标、图像类别标签,其中前两者用于图像关系特征提取的训练,后一个用于主次推断以及哈希编码的训练。
多标签图像样本数据集的预处理,包括从公共数据集中筛选出包含有多个物体的样本、图像尺度归一化、训练集和测试集去均值、图像增强用于扩增数据集。
步骤2,图像颗粒度分割:对多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割,所述步骤2具体包括:
步骤2.1:基于GoogLeNet卷积神经网络的初步图像特征提取,得到一列C个特征图;
步骤2.2:对步骤2.1得的C个特征图经过1×1卷积变换成一个特征图F,再按式(1)对F中所有像素进行Softmax归一化处理,得到特征图S,进而通过阈值函数(2)将其变换为二值特征图T:
Figure GDA0002585658460000061
Figure GDA0002585658460000062
其中,si,j和fi,j分别表示S和F中第i行j列的像素值,
Figure GDA0002585658460000063
是预定义参数。
二值特征图通过将物体和背景区域分别取值为1和0,可以用于表征图像中物体的大致所占区域,但是其仅仅能将物体从背景中分离出来,相互靠近的物体所处的区域是融合到一起的,并不能将图像中包含的多个物体分隔开,不具备区分物体的能力。
步骤2.3:为了区分不同的物体,基于RPN网络对图像进行边框提议,将得到的候选框与全图的二值特征图进行交运算,候选框能够辅助二值特征图分隔出每个物体区域,二值特征图也能反过来辅助筛选出候选框,从而降低后续定位和识别的难度;
步骤2.4:对筛选出的候选框,用平滑一范数损失函数进行边框回归,得到能更准确指明物体位置的矩形标定框;
步骤2.5:对筛选出的标定框,通过交叉熵损失函数,进行Softmax分类。交叉熵损失函数配合Softmax分类可以极大地简化训练过程反向传播梯度的计算,降低计算量。
步骤3,关系特征提取:对多标签图像的粗粒度分割结果,提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征,且都构造成等长向量的形式;所述步骤3具体包括:
步骤3.1,同类物体数目:统计多标签图像中同类物体的数目,构造物体数目长度的同类物体数目特征向量如下式(3)所示:
Figure GDA0002585658460000071
其中,m为图像数据集总包含物体类别数目,n为一幅图像中识别出的物体总数,图像中m个类别的物体数目分别为n1,n2,...,nm
步骤3.2,物体居中程度:以物体区域的重心到图像中心的距离cl作为物体居中程度的衡量标准,构造出的物体居中程度向量如式(4)所示:
Cobject=(c1,c2,...,cn) (4)
其中,cl定义如式(5)所示:
Figure GDA0002585658460000072
其中,(xl,yl)为物体区域的重心坐标,(xk,yk)为图像中心坐标,
Figure GDA0002585658460000073
为第l个物体区域内的像素点数目,物体区域由二值特征图区域和物体矩形标定框的交集决定;
步骤3.3,物体区域大小:以物体区域内的像素点数目衡量物体区域大小,如式(6)所示:
Figure GDA0002585658460000074
步骤3.4,相对远近关系:获取物体相对远近关系,利用卷积神经网络估计像素点的相对远近,即深度,得到表征像素点深度的深度图,通过物体区域内所有像素点深度值的中位数来衡量该物体的深度,进而构造出所有物体的相对远近关系向量如式(7)所示:
Dobject=(d1,d2,...,dn) (7)
其中,
Figure GDA0002585658460000075
为物体l区域内所有numPl个像素点深度值得中位数。
二、主体推断部分
请参阅图3的基于关系特征的主体推断流程。首先将图像中检测出的物体映射为图模型G=(V,E),如图3左侧映射所示,其中节点v∈V代表检测到的目标所在区域,e∈E代表每对目标间的关系,包括关系特征提取部分所提取的同类目标数目、目标居中程度、目标区域大小、相对远近关系以及目标的其他一些关系属性。
步骤4:利用四种物体关系特征进行基于GRU的主体推断,得到多标签图像中多个物体的主次关系,主次关系体现了物体对图像所属类别的贡献程度;
三、哈希编码部分:
为了能实现高效的检索,本发明采用简洁高效的哈希编码方式。为了使本发明获取到的物体主次关系能在检索时起到作用,本发明通过构造一个加权高斯分布图将其编码到哈希码中。具体参见步骤5:
步骤5:基于物体主次关系构造用于检索的哈希编码,具体包括:
步骤5.1,加权高斯分布图:根据物体的主次关系构造加权高斯分布图,其(x,y)处的值如式(8)所示,越重要的物体,各个物体所代表的高斯分布峰值直观表征了物体的重要程度:
Figure GDA0002585658460000081
其中,
Figure GDA0002585658460000082
是物体l的重心点坐标,协方差矩阵∑取为式(9)所示:
Figure GDA0002585658460000083
其中,
Figure GDA0002585658460000084
Figure GDA0002585658460000085
分别为目标l的标定框的宽和高,这可以使高斯分布的1.96σ区域尽量落在物体所在区域,可以在突出目标区域特征的同时,有效避免引入背景区域过多的特征。
步骤5.2,哈希编码:由于高斯分布图仅仅包含了图像中物体的主次关系信息,为了将图像本身的视觉特征也包含进哈希码中,本发明通过将1.2.1步的C个特征图和高斯分布图进行加权平均池化,以将特征融合到一起后再进行哈希编码。
计算图像的哈希编码如式(10)所示:
Figure GDA0002585658460000086
其中,
Figure GDA0002585658460000091
表示输入为C维,输出为m维的全连接操作,x=(x1,x2,...xc)为加权高斯分布图和步骤2.1的C个特征图加权平均池化所得的C维特征向量。
步骤6:多标签图像检索。
用例评价
本专利在公开数据集PASCAL VOC2007和PASCAL VOC2012上进行了测试实验。
1、评价指标
本专利采用了多标签图像检索任务中普遍使用的四种检索性能评价指标,包括:归一化折损累积收益(Normalized Discounted Cumulative Gains,NDCG)、平均累积收益(Average Cumulative Gains,ACG)、均值平均准确度(Mean Average Precision,MAP)、加权均值平均准确度(Weighted MAP)。
其中,NDGG是一个对检索结果排序质量进行评估的指标;ACG用来表示一次检索结果图像列表中前k幅图像与用户查询图像的平均相似度;MAP表示的是一系列检索结果图像的精确度分数平均值,其是为了能兼顾评价准确率和召回率而设计的综合指标;加权MAP是专门针对多标签数据设计的一种MAP的加权变体。
此四个指标均是取值越高,检索性能越好。
2、评价结果
本专利在数据集PASCAL VOC2007和PASCAL VOC2012上,分别从NDCG、ACG、MAP和Weighted MAP四个方面,取了四种哈希编码长度,进行了方法的测试,测试结果请参阅图4方法测试结果。
本发明在NDCG、MAP和加权MAP方面都较优于目前的多标签图像检索方法,说明了本发明在综合性能、排序效果上的有益效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明的思想,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于主体推断的多标签图像检索方法,其特征在于,包括:
步骤1:多标签图像样本数据集的准备和预处理,包括公共数据集的样本筛选、尺度归一化处理、去均值处理和增强处理;
步骤2:对预处理后的多标签图像进行基于二值特征图和边框提议的多物体粗粒度分割;
步骤3:对多标签图像的粗粒度分割结果,提取同类物体数目、物体居中程度、物体区域大小以及物体相对远近关系四种多物体关系特征,且都构造成等长向量的形式;
步骤4:利用四种物体关系特征进行基于GRU的主体推断,得到多标签图像中多个物体的主次关系,主次关系体现了物体对图像所属类别的贡献程度;
步骤5:基于物体主次关系构造用于检索的哈希编码,具体包括:
步骤5.1:根据物体的主次关系构造加权高斯分布图,其(x,y)处的值如式(8)所示,各个物体所代表的高斯分布峰值直观表征了物体的重要程度:
Figure FDA0002979489500000011
其中,
Figure FDA0002979489500000012
是物体l的重心点坐标,协方差矩阵∑取为式(9)所示:
Figure FDA0002979489500000013
其中,
Figure FDA0002979489500000014
Figure FDA0002979489500000015
分别为目标l的标定框的宽和高,使高斯分布的1.96σ区域尽量落在物体所在区域,在突出目标区域特征的同时,有效避免引入背景区域过多的特征;
步骤5.2:计算图像的哈希编码如式(10)所示:
Figure FDA0002979489500000021
其中,
Figure FDA0002979489500000022
表示输入为C维,输出为m维的全连接操作,x=(x1,x2,...xc)为加权高斯分布图和步骤2的C个特征图加权平均池化所得的C维特征向量;
步骤6:多标签图像检索。
2.如权利要求1所述的基于主体推断的多标签图像检索方法,其特征在于,所述步骤1中的样本筛选要从公开数据集中筛选出具有多个物体标签的图像。
3.如权利要求1所述的基于主体推断的多标签图像检索方法,其特征在于,所述步骤2具体包括:
步骤2.1:基于卷积神经网络的初步图像特征提取,得到一列特征图;
步骤2.2:对步骤2.1得的特征图经过1×1卷积变换成一个特征图F,再按式(1)对F中所有像素进行Softmax归一化处理,得到特征图S,进而通过阈值函数(2)将其变换为二值特征图T:
Figure FDA0002979489500000023
Figure FDA0002979489500000024
其中,si,j和fi,j分别表示S和F中第i行j列的像素值,
Figure FDA0002979489500000025
是预定义参数;
步骤2.3:基于RPN网络对图像进行边框提议,将得到的候选框与全图的二值特征图进行交运算,候选框能够辅助二值特征图分隔出每个物体区域,二值特征图也能反过来辅助筛选出候选框;
步骤2.4:对候选框,用平滑一范数损失函数进行边框回归,得到能更准确指明物体位置的矩形标定框;
步骤2.5:对筛选出的标定框,通过交叉熵损失函数,进行Softmax分类。
4.如权利要求1所述的基于主体推断的多标签图像检索方法,其特征在于,所述步骤3具体包括:
步骤3.1:统计多标签图像中同类物体的数目,构造物体数目长度的同类物体数目特征向量如下式(3)所示:
Figure FDA0002979489500000031
其中,m为图像数据集总包含物体类别数目,n为一幅图像中识别出的物体总数,图像中m个类别的物体数目分别为n1,n2,...,nm
步骤3.2:以物体区域的重心到图像中心的距离cl作为物体居中程度的衡量标准,构造出的物体居中程度向量如式(4)所示:
Cobject=(c1,c2,...,cn) (4)
其中,cl定义如式(5)所示:
Figure FDA0002979489500000032
其中,(xl,yl)为物体区域的重心坐标,(xk,yk)为图像中心坐标,
Figure FDA0002979489500000033
为第l个物体区域内的像素点数目,物体区域由二值特征图区域和物体矩形标定框的交集决定;
步骤3.3:以物体区域内的像素点数目衡量物体区域大小,如式(6)所示:
Figure FDA0002979489500000034
步骤3.4:获取物体相对远近关系,利用卷积神经网络估计像素点的相对远近,即深度,得到表征像素点深度的深度图,通过物体区域内所有像素点深度值的中位数来衡量该物体的深度,进而构造出所有物体的相对远近关系向量如式(7)所示:
Dobject=(d1,d2,...,dn) (7)
其中,
Figure FDA0002979489500000035
为物体l区域内所有numPl个像素点深度值的中位数。
CN202010515544.7A 2020-06-09 2020-06-09 一种基于主体推断的多标签图像检索方法 Active CN111723223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010515544.7A CN111723223B (zh) 2020-06-09 2020-06-09 一种基于主体推断的多标签图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010515544.7A CN111723223B (zh) 2020-06-09 2020-06-09 一种基于主体推断的多标签图像检索方法

Publications (2)

Publication Number Publication Date
CN111723223A CN111723223A (zh) 2020-09-29
CN111723223B true CN111723223B (zh) 2021-05-18

Family

ID=72566255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010515544.7A Active CN111723223B (zh) 2020-06-09 2020-06-09 一种基于主体推断的多标签图像检索方法

Country Status (1)

Country Link
CN (1) CN111723223B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659259B2 (en) * 2014-12-20 2017-05-23 Microsoft Corporation Latency-efficient multi-stage tagging mechanism
CN108764232A (zh) * 2018-03-30 2018-11-06 腾讯科技(深圳)有限公司 标签位置获取方法及装置
CN110457514A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种基于深度哈希的多标签图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659259B2 (en) * 2014-12-20 2017-05-23 Microsoft Corporation Latency-efficient multi-stage tagging mechanism
CN108764232A (zh) * 2018-03-30 2018-11-06 腾讯科技(深圳)有限公司 标签位置获取方法及装置
CN110457514A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种基于深度哈希的多标签图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多标签判别字典学习的图像自动标注;杨晓玲等;《计算机应用》;20180510;全文 *

Also Published As

Publication number Publication date
CN111723223A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN110309867B (zh) 一种基于卷积神经网络的混合气体识别方法
CN111259140B (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN101893704A (zh) 一种基于粗糙集的雷达辐射源信号识别方法
CN112149758B (zh) 一种基于欧式距离和深度学习的高光谱开放集分类方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及系统
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
Mohammadpoor et al. An intelligent technique for grape fanleaf virus detection
CN104615635B (zh) 基于方向特征的手掌静脉分类索引构建方法
CN111815582A (zh) 改进背景先验和前景先验的二维码区域检测方法
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
Pratiwi et al. The application of graphology and enneagram techniques in determining personality type based on handwriting features
CN108319935B (zh) 基于区域稀疏的人脸群体识别方法
CN117493998A (zh) 一种基于大数据的问卷调查事件智能分类管理方法及系统
CN110119693A (zh) 一种基于改进vgg-16模型的英文笔迹鉴别方法
Pratiwi et al. Personality type assessment system by using enneagram-graphology techniques on digital handwriting
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN105844299B (zh) 一种基于词袋模型的图像分类方法
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN111723223B (zh) 一种基于主体推断的多标签图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant