CN110503643A - 一种基于多尺度快速场景检索的目标检测方法和装置 - Google Patents
一种基于多尺度快速场景检索的目标检测方法和装置 Download PDFInfo
- Publication number
- CN110503643A CN110503643A CN201910786124.XA CN201910786124A CN110503643A CN 110503643 A CN110503643 A CN 110503643A CN 201910786124 A CN201910786124 A CN 201910786124A CN 110503643 A CN110503643 A CN 110503643A
- Authority
- CN
- China
- Prior art keywords
- image block
- sample image
- positive sample
- bounding box
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
发明人提出了一种基于多尺度快速场景检索的目标检测方法,包括步骤:获取输入图像;基于输入图像获取输入正样本图像块;使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,并获得经特征降维处理的特征向量;对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;对符合预设条件的训练数据正样本图像块,将其包含的地真标注边界盒进行尺度变换后,迁移到输入图像中,获得迁移后边界盒;将所述迁移后边界盒与目标检测算法的边界盒进行后融合。本技术方案将训练数据中蕴含的此类先验信息融合到目标检测方法中,可提高目标检测的准确率和召回率。
Description
技术领域
本发明涉及计算机软件领域,特别涉及一种基于多尺度快速场景检索的目标检测方法和装置。
背景技术
伴随着手机摄像头、监控摄像头、行车记录仪、无人机等视频图像捕捉设备的大量普及,这些设备采集了大量包含各类日常生活中常见物体的图像和视频数据。对此类视频和图像进行实时分析,特别是对感兴趣的物体目标(如室外的行人、汽车以及室内的桌子、椅子等)进行检测,是目前工业界和学术界都高度关注的问题。
目标检测(Object Detection)作为一种视频和图像分析中的基础技术,是目标跟踪、行为分析等更高级的场景理解方法中不可或缺的模块。目前,包含目标检测在内的技术所采用的主流解决方案是神经网络,大致上分为以Faster RCNN、R-FCN等为代表的基于目标题名(Object Proposals)的方法,以及以YOLO、SSD、DSOD等为代表的单次(One-shot)方法。此外,还有基于角点、中心点等关键点检测的方法。上述各类方法都没有直接考虑场景的布局,即根据场景的类型和背景物体的方位和布局来推断感兴趣物体大体上可能出现的位置。例如,在室外场景中,汽车、行人等往往出现在地面上,室内场景中桌子和椅子的摆放往往遵循一定规律。设计一种针对目标检测的场景检索方法,将训练数据中蕴含的此类先验信息融合到目标检测方法中,可提高目标检测的准确率和召回率。
场景在空间中没有固定的范围,并且还将随着摄像机的视野大小变化而变化。例如,对于一个学校的教室场景,在某些特定角度可以看到整个教室的全貌,而在某些其它的角度观察时只能看到教室的某一部分。此外,目标检测算法所关注的一个重要问题是算法的实时性。在设计场景建模方法时,需要考虑场景模型的检索效率,不能使得其检索效率影响到算法的整体实时性。
发明内容
基于此,有必要发明一种用于目标检测的、带有多尺度自适应性的场景建模技术方案,以克服上述局限性。
发明人提出了一种基于多尺度快速场景检索的目标检测方法,包括如下步骤:
获取输入图像;
基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,并获得经特征降维处理的特征向量;
对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;
若一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值,将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换后,迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
进一步地,所述的基于多尺度快速场景检索的目标检测方法中,步骤“获得经特征降维处理的特征向量”具体包括:
使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
进一步地,所述的基于多尺度快速场景检索的目标检测方法中,步骤“对输入图像本身以及每个正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码”中,式B=sgn(fW)中的W为由迭代量化法获取的编码矩阵。
进一步地,所述的基于多尺度快速场景检索的目标检测方法中,步骤“若一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值”中,比较一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。
进一步地,所述的基于多尺度快速场景检索的目标检测方法中,步骤“将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换”中,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
进一步地,所述的基于多尺度快速场景检索的目标检测方法中,步骤“将所述迁移后边界盒与目标检测算法的边界盒进行后融合”具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
发明人同时还提出了一种基于多尺度快速场景检索的目标检测装置,包括输入图像获取单元、输入正样本图像块获取单元、区域提名单元、特征向量获取单元、哈希编码获取单元、哈希编码判定单元、尺度变换单元、迁移单元、后融合单元:
所述输入图像获取单元用于获取输入图像;
所述输入正样本图像块获取单元用于基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述区域提名单元用于使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,所述特征向量获取单元用于获得经特征降维处理的特征向量;
所述哈希编码获取单元用于对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;
所述哈希编码判定单元用于判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值,当哈希编码判定单元判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值时,尺度变换单元用于将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换,然后由迁移单元迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述后融合单元用于将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,所述特征向量获取单元包括归一化模块和特征降维模块;所述特征向量获取单元获得经特征降维处理的特征向量具体包括:
所述归一化模块使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
所述特征降维模块以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,所述哈希编码获取单元“对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B”的式B=sgn(fW)中,W为由迭代量化法获取的编码矩阵。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,哈希编码判定单元判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,尺度变换单元将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换时,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,后融合单元将所述迁移后边界盒与目标检测算法的边界盒进行后融合具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
区别于现有技术,上述技术方案提出了一种用于目标检测的、带有多尺度自适应性的快速场景检索方案,通过共享目标检测算法(如Faster RCNN、SSD等)的卷积神经网络的特征层,在目标检测的同时得到不同尺度下图像中包含空间上下文(Spatial Context)语义信息的图像块的二值哈希编码,对多尺度下的图像块通过哈希编码将其与训练集中的图像块进行快速匹配,并对匹配得到的目标边界盒进行尺度变换后,通过非参数的方式迁移到待进行目标检测的输入图像中,与目标检测器的输出融合。
本发明技术方案将训练数据中蕴含的此类先验信息融合到目标检测方法中,可提高目标检测的准确率和召回率。同时考虑了场景的视角尺度特性,对不同尺度下观测到的场景能有较强的自适应性,并具有令人满意的算法整体实时性和场景模型检索效率。
附图说明
图1为本发明一实施方式所述的基于多尺度快速场景检索的目标检测方法的流程图;
图2为本发明一实施方式所述的基于多尺度快速场景检索的目标检测装置的结构示意图。
附图标记说明:
1-输入图像获取单元
2-输入正样本图像块获取单元
3-区域提名单元
4-特征向量获取单元;41-归一化模块;42-特征降维模块
5-哈希编码获取单元
6-哈希编码判定单元
7-尺度变换单元
8-迁移单元
9-后融合单元:
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的基于多尺度快速场景检索的目标检测方法的流程图;所述方法包括如下步骤:
S1、获取输入图像;
S2、基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
S3、使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,并获得经特征降维处理的特征向量;
本实施方式中,获取特征向量的过程又包括如下分步骤:
S31、使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
S32、以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
S4、对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;式中的W为由迭代量化法获取的编码矩阵;
S5、若一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值,将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换后,迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
本实施方式中,比较一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。即,对于汉明距离dH小于阈值的训练集图像块,将图像块内包含的地真标注边界盒进行尺度变换后,迁移到待目标检测的图像中。
本实施方式中,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
S6、将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
本实施方式中,“将所述迁移后边界盒与目标检测算法的边界盒进行后融合”具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
本实施方式所述的方法在应用到具体案例时,还需要进行模型训练这一具体处理过程。下面对模型训练的方式做简要说明:
准备带有地真标注的训练数据库,如公开的数据库MIO-TCD、KITTI等,或其他任何人工标注边界盒的数据库,并确定训练集和测试集。同时需要确定所结合使用的目标检测算法,如Faster RCNN、YOLO、DSOD等,下面以Faster RCNN为例。首先,按照Faster RCNN的算法标准训练流程,使用VGG-16作为基础网络,按照三步训练法对模型进行训练。第二,对训练数据集中的地真边界盒按照其所对应的训练数据正样本图像块的要求进行变换,得到包含空间上下文语义信息的训练数据正样本图像块(即对地真边界盒进行扩大处理)。第三,建立一个与Faster RCNN中的区域提名网络结构相同的另一个区域提名网络,并使用原区域提名网络的参数对该区域提名网络进行初始化。对该区域提名网络(即训练数据正样本图像块的二分类器)进行训练。同时,对训练数据正样本图像块的特征降维模块进行训练。第四,使用迭代量化法,通过训练数据正样本图像块确定哈希编码矩阵W。确定编码矩阵后对每个训练数据正样本图像块计算B=sgn(fW),并进行缓存。
请参阅图2,为本发明一实施例所述基于多尺度快速场景检索的目标检测装置的结构示意图;所述装置包括输入图像获取单元1、输入正样本图像块获取单元2、区域提名单元3、特征向量获取单元4、哈希编码获取单元5、哈希编码判定单元6、尺度变换单元7、迁移单元8、后融合单元9:
所述输入图像获取单元1用于获取输入图像;
所述输入正样本图像块获取单元2用于基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述区域提名单元3用于使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,所述特征向量获取单元4用于获得经特征降维处理的特征向量;
所述哈希编码获取单元5用于对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;
所述哈希编码判定单元6用于判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值,当哈希编码判定单元6判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值时,尺度变换单元7用于将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换,然后由迁移单元8迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述后融合单元9用于将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,所述特征向量获取单元4包括归一化模块41和特征降维模块42;所述特征向量获取单元4获得经特征降维处理的特征向量具体包括:
所述归一化模块41使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
所述特征降维模块42以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,所述哈希编码获取单元5“对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B”的式B=sgn(fW)中,W为由迭代量化法获取的编码矩阵。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,哈希编码判定单元6判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。即,对于汉明距离dH小于阈值的训练集图像块,尺度变换单元7将图像块内包含的地真标注边界盒进行尺度变换后,由迁移单元8迁移到待目标检测的图像中。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,尺度变换单元7将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换时,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
进一步地,所述的基于多尺度快速场景检索的目标检测装置中,后融合单元9将所述迁移后边界盒与目标检测算法的边界盒进行后融合具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
本实施方式所述的目标检测装置在具体案例中实现目标检测方法时,还需要模型训练这一处理过程。下面对模型训练的方式做简要说明:
准备带有地真标注的训练数据库,如公开的数据库MIO-TCD、KITTI等,或其他任何人工标注边界盒的数据库,并确定训练集和测试集。同时需要确定所结合使用的目标检测算法,如FasterRCNN、YOLO、DSOD等,下面以Faster RCNN为例。首先,按照Faster RCNN的算法标准训练流程,使用VGG-16作为基础网络,按照三步训练法对模型进行训练。第二,对训练数据集中的地真边界盒按照其所对应的训练数据正样本图像块的要求进行变换,得到包含空间上下文语义信息的训练数据正样本图像块(即对地真边界盒进行扩大处理)。第三,建立一个与FasterRCNN中的区域提名网络结构相同的另一个区域提名网络,并使用原区域提名网络的参数对该区域提名网络进行初始化。对该区域提名网络(即训练数据正样本图像块的二分类器)进行训练。同时,对训练数据正样本图像块的特征降维模块进行训练。第四,使用迭代量化法,通过训练数据正样本图像块确定哈希编码矩阵W。确定编码矩阵后对每个训练数据正样本图像块计算B=sgn(fW),并进行缓存。
区别于现有技术,上述技术方案提出了一种用于目标检测的、带有多尺度自适应性的快速场景检索方案,通过共享目标检测算法(如Faster RCNN、SSD等)的卷积神经网络的特征层,在目标检测的同时得到不同尺度下图像中包含空间上下文(Spatial Context)语义信息的图像块的二值哈希编码,对多尺度下的图像块通过哈希编码将其与训练集中的图像块进行快速匹配,并对匹配得到的目标边界盒进行尺度变换后,通过非参数的方式迁移到待进行目标检测的输入图像中,与目标检测器的输出融合。
本发明技术方案将训练数据中蕴含的此类先验信息融合到目标检测方法中,可提高目标检测的准确率和召回率。同时考虑了场景的视角尺度特性,对不同尺度下观测到的场景能有较强的自适应性,并具有令人满意的算法整体实时性和场景模型检索效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (12)
1.一种基于多尺度快速场景检索的目标检测方法,其特征在于,包括如下步骤:
获取输入图像;
基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,并获得经特征降维处理的特征向量;
对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;
若一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值,将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换后,迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
2.如权利要求1所述的基于多尺度快速场景检索的目标检测方法,其特征在于,步骤“获得经特征降维处理的特征向量”具体包括:
使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
3.如权利要求1或2所述的基于多尺度快速场景检索的目标检测方法,其特征在于,步骤“对输入图像本身以及每个正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码”中,式B=sgn(fW)中的W为由迭代量化法获取的编码矩阵。
4.如权利要求1或2所述的基于多尺度快速场景检索的目标检测方法,其特征在于,步骤“若一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值”中,比较一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。
5.如权利要求1或2所述的基于多尺度快速场景检索的目标检测方法,其特征在于,步骤“将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换”中,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
6.如权利要求1或2所述的基于多尺度快速场景检索的目标检测方法,其特征在于,步骤“将所述迁移后边界盒与目标检测算法的边界盒进行后融合”具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
7.一种基于多尺度快速场景检索的目标检测装置,其特征在于,包括输入图像获取单元、输入正样本图像块获取单元、区域提名单元、特征向量获取单元、哈希编码获取单元、哈希编码判定单元、尺度变换单元、迁移单元、后融合单元:
所述输入图像获取单元用于获取输入图像;
所述输入正样本图像块获取单元用于基于输入图像获取输入正样本图像块,所述输入正样本图像块包括特征:具有边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述区域提名单元用于使用区域提名网络对所述输入正样本图像块进行训练和提名,获得上下文区域提名网络,所述特征向量获取单元用于获得经特征降维处理的特征向量;
所述哈希编码获取单元用于对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B;
所述哈希编码判定单元用于判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值,当哈希编码判定单元判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别小于预设阈值时,尺度变换单元用于将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换,然后由迁移单元迁移到输入图像中,获得迁移后边界盒;其中,所述训练数据正样本图像块为基于训练数据集且具有如下特征的图像块:具有地真边界盒;以边界盒为中心;与边界盒的长宽比一致;面积为边界盒的2倍;
所述后融合单元用于将所述迁移后边界盒与目标检测算法的边界盒进行后融合。
8.如权利要求7所述的基于多尺度快速场景检索的目标检测装置,其特征在于,所述特征向量获取单元包括归一化模块和特征降维模块;所述特征向量获取单元获得经特征降维处理的特征向量具体包括:
所述归一化模块使用ROIPooling层将正样本图像块所对应的深度神经网络特征图归一化到预设尺寸;
所述特征降维模块以分别带有4096和2048个元素的全连接层对所述经归一化到预设尺寸的正样本图像块对应的深度神经网络特征图进行特征降维,得到2048维的特征向量。
9.如权利要求7或8所述的基于多尺度快速场景检索的目标检测装置,其特征在于,所述哈希编码获取单元“对输入图像本身以及每个输入正样本图像块,通过其特征向量以及式B=sgn(fW)获取其二值哈希编码B”的式B=sgn(fW)中,W为由迭代量化法获取的编码矩阵。
10.如权利要求7或8所述的基于多尺度快速场景检索的目标检测装置,其特征在于,哈希编码判定单元判定一输入正样本图像块的哈希编码与训练数据集中的任一训练数据正样本图像块的哈希编码的差别是否小于预设阈值的具体方式是:计算一输入正样本图像块的哈希编码B与任一训练数据正样本图像块的哈希编码B之间的汉明距离dH。
11.如权利要求7或8所述的基于多尺度快速场景检索的目标检测装置,其特征在于,尺度变换单元将训练数据正样本图像块内包含的地真标注边界盒进行尺度变换时,尺度变换的系数为Δs=st/ss,其中st表示输入正样本图像块的尺度,ss表示训练数据正样本图像块的尺度。
12.如权利要求7或8所述的基于多尺度快速场景检索的目标检测装置,其特征在于,后融合单元将所述迁移后边界盒与目标检测算法的边界盒进行后融合具体包括:
对于目标检测算法得到的输出置信度为Sd的边界盒bd,其最终输出置信度S'd如下式:
其中bc为迁移后边界盒,α为权重系数,IoU表示两边界盒的交并比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786124.XA CN110503643B (zh) | 2019-08-23 | 2019-08-23 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786124.XA CN110503643B (zh) | 2019-08-23 | 2019-08-23 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503643A true CN110503643A (zh) | 2019-11-26 |
CN110503643B CN110503643B (zh) | 2021-10-01 |
Family
ID=68589176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910786124.XA Active CN110503643B (zh) | 2019-08-23 | 2019-08-23 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503643B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144363A (zh) * | 2019-12-31 | 2020-05-12 | 北京理工大学 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
CN112836670A (zh) * | 2021-02-24 | 2021-05-25 | 复旦大学 | 基于自适应图网络的行人动作检测方法及装置 |
CN113379634A (zh) * | 2021-06-18 | 2021-09-10 | 武汉大学 | 一种基于两阶段图像上下文识别网络及单图像阴影去除方法 |
CN114581686A (zh) * | 2022-01-26 | 2022-06-03 | 南京富岛油气智控科技有限公司 | 一种基于示功图哈希查找的抽油工况融合推理识别方法 |
US11573942B2 (en) * | 2011-03-01 | 2023-02-07 | Mongodb, Inc. | System and method for determining exact location results using hash encoding of multi-dimensioned data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN108334830A (zh) * | 2018-01-25 | 2018-07-27 | 南京邮电大学 | 一种基于目标语义和深度外观特征融合的场景识别方法 |
US10133951B1 (en) * | 2016-10-27 | 2018-11-20 | A9.Com, Inc. | Fusion of bounding regions |
CN109284704A (zh) * | 2018-09-07 | 2019-01-29 | 中国电子科技集团公司第三十八研究所 | 基于cnn的复杂背景sar车辆目标检测方法 |
-
2019
- 2019-08-23 CN CN201910786124.XA patent/CN110503643B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133951B1 (en) * | 2016-10-27 | 2018-11-20 | A9.Com, Inc. | Fusion of bounding regions |
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN108334830A (zh) * | 2018-01-25 | 2018-07-27 | 南京邮电大学 | 一种基于目标语义和深度外观特征融合的场景识别方法 |
CN109284704A (zh) * | 2018-09-07 | 2019-01-29 | 中国电子科技集团公司第三十八研究所 | 基于cnn的复杂背景sar车辆目标检测方法 |
Non-Patent Citations (3)
Title |
---|
ROSS GIRSHICK ET AL.: "Region-Based Convolutional Networks for Accurate Object Detection and Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
TAO WANG ET AL.: "Efficient Scene Layout Aware Object Detection for Traffic Surveillance", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 * |
余震 等: "基于融合鲁棒特征与多维尺度变换的紧凑图像哈希算法", 《包装工程》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11573942B2 (en) * | 2011-03-01 | 2023-02-07 | Mongodb, Inc. | System and method for determining exact location results using hash encoding of multi-dimensioned data |
CN111144363A (zh) * | 2019-12-31 | 2020-05-12 | 北京理工大学 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
CN111144363B (zh) * | 2019-12-31 | 2023-02-28 | 北京理工大学 | 一种基于场景和物体信息的第一视角下的行为识别方法 |
CN112836670A (zh) * | 2021-02-24 | 2021-05-25 | 复旦大学 | 基于自适应图网络的行人动作检测方法及装置 |
CN113379634A (zh) * | 2021-06-18 | 2021-09-10 | 武汉大学 | 一种基于两阶段图像上下文识别网络及单图像阴影去除方法 |
CN113379634B (zh) * | 2021-06-18 | 2022-11-15 | 武汉大学 | 一种基于两阶段图像上下文识别网络及单图像阴影去除方法 |
CN114581686A (zh) * | 2022-01-26 | 2022-06-03 | 南京富岛油气智控科技有限公司 | 一种基于示功图哈希查找的抽油工况融合推理识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110503643B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503643A (zh) | 一种基于多尺度快速场景检索的目标检测方法和装置 | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN113362382A (zh) | 三维重建方法和三维重建装置 | |
CN112990010B (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN103218825A (zh) | 一种尺度不变的时空兴趣点快速检测方法 | |
Vishal et al. | Accurate localization by fusing images and GPS signals | |
CN111831844A (zh) | 图像检索方法、图像检索装置、图像检索设备及介质 | |
CN106682092A (zh) | 一种目标检索方法及终端 | |
CN113705297A (zh) | 检测模型的训练方法、装置、计算机设备和存储介质 | |
CN106250918B (zh) | 一种基于改进的推土距离的混合高斯模型匹配方法 | |
Wu et al. | An efficient visual loop closure detection method in a map of 20 million key locations | |
Wu et al. | A multi-level descriptor using ultra-deep feature for image retrieval | |
CN114743139A (zh) | 视频场景检索方法、装置、电子设备及可读存储介质 | |
CN106033613B (zh) | 目标跟踪方法及装置 | |
CN116884045B (zh) | 身份识别方法、装置、计算机设备和存储介质 | |
Shanmugavadivu et al. | FOSIR: fuzzy-object-shape for image retrieval applications | |
CN112015937A (zh) | 一种图片地理定位方法及系统 | |
Sathiyaprasad et al. | Content based video retrieval using Improved gray level Co-occurrence matrix with region-based pre convoluted neural network–RPCNN | |
Liu et al. | Application of bitter gourd leaf disease detection based on faster r-cnn | |
Liang et al. | The Design of an Intelligent Monitoring System for Human Action | |
Thota et al. | Classify vehicles: Classification or clusterization? | |
Liping et al. | Image classification algorithm based on sparse coding | |
Guo et al. | Indoor visual positioning based on image retrieval in dense connected convolutional network | |
Ding et al. | Weakly structured information aggregation for upper-body posture assessment using ConvNets | |
Wang et al. | Method for online matching of multiple identical targets using local homography matrix based on moving DLT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |