CN112052856A - 一种基于图像特征编码的目标检测方法 - Google Patents
一种基于图像特征编码的目标检测方法 Download PDFInfo
- Publication number
- CN112052856A CN112052856A CN201910520470.3A CN201910520470A CN112052856A CN 112052856 A CN112052856 A CN 112052856A CN 201910520470 A CN201910520470 A CN 201910520470A CN 112052856 A CN112052856 A CN 112052856A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- distance
- feature
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于图像特征编码的目标检测方法,包括以下步骤:(1)训练变分自编码器;(2)获得检测目标的特征编码;(3)切割待分析图像,计算各分割图块的特征编码;(4)计算目标图像特征编码与分割图块特征编码的距离;(5)判别切割图块是否包含目标,由此完成图像目标检测。本发明对检测目标仅需要少量图像样本,而且对新增目标检测类别,无需重新训练检测模型。
Description
技术领域
本发明涉及一种基于图像特征编码的目标检测方法。
背景技术
本发明的一种基于图像特征编码的目标检测方法主要是面向目标图像样本数量少或极少的图像目标检测领域。
本发明所述目标检测是指计算机图像处理的一个领域,目标检测技术大致可以分为两类:第一类是利用人工设计提取图像特征技术,一方面提取目标特征,另一方面提取待分析图像特征,两者进行比对,从而完成目标对象在分析图像中定位和类别判定;第二类是利用深度神经网络自动提取图像的特征,输入待分析图像,上述神经网络能够直接给出目标位置信息和类别信息。这两种方法各有优缺点,上述第一类方法,不需要样本学习,没有繁琐的样本标注过程,但鲁棒性不够,图像一经变化,目标检测错误率就会急剧增加;上述第二类方法则需要大量的学习样本,但对图像变化的适应度远远超过上述第一类方法。在本发明所面对的场合下,只有少数目标样本,而待分析图像变化大,则上述两种方法均不合适。
为解决上述问题,本发明提出一种通过变分自编码技术提取目标特征编码的方法,结合计算图像特征编码间距离的方法,既可解决了目标样本数量少的问题,又实现了目标检测。
发明内容
本发明所解决问题在于提供一种基于图像特征编码的目标检测方法,以解决上述背景技术中的缺点。
一种基于图像特征编码的目标检测方法,包括以下步骤:
为详细介绍本发明内容,下面对一些概念进行阐述或定义:
定义一:变分自编码器(Variational Auto-Encoder),是深度学习神经网络的一个分支,由三部分构成:第一部分为由深度神经网络构成的编码器;第二部分为随机分布的隐变量,一般该随机分布为多维正态随机分布,各维相互独立;第三部分为深度神经网络构成的解码器;
一种基于图像特征编码的目标检测方法包括如下步骤:
步骤一:训练变分自编码器(上述定义一),即说明书附图1模块1,变分自编码器训练时采用的损失函数是:
其中,N是小批次(mini-batch)样本的数量;Dz是隐变量正态分布的为数;和是第i样本对应的隐变量第j维的期望和方差;xi是小批次样本的第i个样本;N是隐随机变量的抽样次数;zl是隐随机变量的第l个抽样;p(xi|zl)是给定 zl条件下xi的条件分布,通过上述损失函数,对变分自编码器进行训练,直至收敛;
步骤二:获得检测目标的特征编码,即说明书附图1模块2,将图像输入步骤一训练好的变分自编码器,在变分自编码器的第一个部分,即深度神经网络构成的编码器的输出是一个实数序列,该序列构成了目标的特征编码,其特征编码矢量是:
C=[μ1 σ1 μ2 σ2 … μn σn]T
其中,μi和σi分别表示隐变量的第i维的正态分布的期望和均方差;
步骤三:切割待分析图像,计算各分割后图块的特征编码,即说明书附图 1模块3,将图像均匀分割成若干个图块,图块尺寸大小根据实际图像大小决定,将分割后图块处理成变分自编码器输入图像尺寸要求,逐一输入编码器,由此得到各图块的特征编码矢量;
步骤四:计算目标图像特征编码与分割图块特征编码的距离,即说明书附图1模块4,所述编码距离是两个特征编码矢量的距离,可采用欧拉距离定义两个编码矢量的距离,如下:
其中C1和C2分别对应两个特征编码矢量,用步骤二得到的目标特征编码与步骤三所得的各切割图块特征编码代入上述距离公式,计算特征编码间距离;
步骤五:根据步骤4计算的距离,判别步骤三的切割图块是否包含目标,即说明书附图1模块5,通过将步骤四得到的各特征编码矢量距离分别与门限距离做比较,小于门限的,表示所述分割图块包含目标,大于门限的,表示该切割图块不包含目标,由此,包含目标的图块原来在待分析图像中的位置就是目标位置;
完成上述五个步骤即可实现目标在待分析图像中的检测。
有益效果:
本发明对新检测目标仅需要少量图像样本,在增加新目标检测类别时,无需重新训练变分自编码器。
附图说明:
图1为本发明的处理流程
具体实施方式:
为了使本发明的技术手段、创作特征、工作流程、使用方法达到目的,以及功效易于明白了解,下面结合具体实施例,进一步阐述本发明。
定义一:变分自编码器(Variational Auto-Encoder),是深度学习神经网络的一个分支,由三部分构成:第一部分为由深度神经网络构成的编码器;第二部分为随机分布的隐变量,一般该随机分布为多维正态随机分布,各维相互独立;第三部分为深度神经网络构成的解码器;
一种基于图像特征编码的目标检测方法,包括以下步骤:
步骤一:训练变分自编码器(上述定义一),即说明书附图1模块1,变分自编码器的编码器部分可以通过常见的深度神经网络来构建,比如ResNet模型,本发明所述变分自编码器的编码器部分的输出可以选择为40维,但不限定;变分自编码器的解码器可以由反卷积深度神经网络组成;变分自编码器训练时采用的损失函数是:
其中,N是小批次(mini-batch)样本的数量;Dz是隐变量正态分布的维数;和是第i样本对应的隐变量第j维的期望和方差;xi是小批次样本的第i个样本;N是隐随机变量的抽样次数,在本发明中N可取12,但不限定;zl是隐随机变量的第1个抽样;p(xi|zl)是给定zl条件下xi的条件分布,通过上述损失函数,对变分自编码器进行训练,直至收敛;
步骤二:获得检测目标的特征编码,即说明书附图1模块2,将图像输入步骤一训练好的变分自编码器,在变分自编码器的第一个部分,即深度神经网络构成的编码器的输出是一个实数序列,该序列构成了目标的特征编码,其特征编码矢量是:
C=[μ1 σ1 μ2 σ2 … μn σn]T
本发明所述特征编码矢量可取20组(μi,σi)作为特征矢量,即特征矢量的长度这时为40,但不限定;
步骤三:切割待分析图像,计算各切割后图块的特征编码,即说明书附图 1模块3,本发明可将图像横切成n块,竖切成n块,n的大小根据实际图像大小决定,这样待分析图像就被切割成n*n个图块,将分割后图块处理成变分自编码器输入图像尺寸要求,本发明输入图块要求的大小可选择200*200像素,但不限定,经尺寸变换后的图块逐一输入编码器,由此得到各图块的特征编码矢量;
步骤四:计算目标图像特征编码与分割图块特征编码的距离,即说明书附图1模块4,所述编码距离是两个特征编码矢量的距离,可采用欧拉距离定义两个编码矢量的距离,如下:
其中C1和C2分别对应两个特征编码矢量,用步骤二得到的目标特征编码与步骤三所得的各切割图块特征编码代入上述距离公式,计算特征编码间距离;
步骤五:根据步骤4计算的距离,判别步骤三的切割图块是否包含目标,即说明书附图1模块5,通过将步骤四得到的各特征编码矢量距离分别与门限距离做比较,小于门限的,表示所述分割图块包含目标,大于门限的,表示该切割图块不包含目标,由此,包含目标的图块在待分析图像中的位置为目标位置。
Claims (1)
1.一种基于图像特征编码的目标检测方法,其特征在于,包括以下步骤:
(1)训练变分自编码器,训练时采用的损失函数是:
其中,L表示隐变量的抽样次数,为适应目标图像样本数较少,它应该大于1,对变分自编码器进行训练,直至收敛;
(2)获得检测目标的特征编码,将目标图像输入训练好的变分自编码器,在编码器的输出端得到一个实数序列,该序列构成了目标的特征编码,其特征编码矢量是:
C=[μ1 σ1 μ2 σ2 … μn σn]T;
(3)切割待分析图像,计算各分割后图块的特征编码;
(4)计算目标图像特征编码与分割图块特征编码的距离,特征编码矢量间的距离可采用欧拉距离定义:
其中C1和C2分别对应两个特征编码矢量,分别计算目标特征编码与各切割图块特征编码的距离;
(5)判别步骤(3)得到的切割图块是否包含目标对象:将步骤(4)得到的目标编码与各图块编码的距离分别与门限距离比较,小于门限的,表示该图块包含目标,大于门限的,表示该图块不包含目标,由此,包含目标的图块原来所在图像中的位置就是目标对象的位置,由此就完成了目标检测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520470.3A CN112052856A (zh) | 2019-06-05 | 2019-06-05 | 一种基于图像特征编码的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520470.3A CN112052856A (zh) | 2019-06-05 | 2019-06-05 | 一种基于图像特征编码的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052856A true CN112052856A (zh) | 2020-12-08 |
Family
ID=73609386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910520470.3A Pending CN112052856A (zh) | 2019-06-05 | 2019-06-05 | 一种基于图像特征编码的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052856A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101859326A (zh) * | 2010-06-09 | 2010-10-13 | 南京大学 | 一种图像检索方法 |
CN107679556A (zh) * | 2017-09-18 | 2018-02-09 | 天津大学 | 基于变分自动编码器的零样本图像分类方法 |
CN107679474A (zh) * | 2017-09-25 | 2018-02-09 | 北京小米移动软件有限公司 | 人脸匹配方法及装置 |
CN109635657A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
-
2019
- 2019-06-05 CN CN201910520470.3A patent/CN112052856A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101859326A (zh) * | 2010-06-09 | 2010-10-13 | 南京大学 | 一种图像检索方法 |
CN107679556A (zh) * | 2017-09-18 | 2018-02-09 | 天津大学 | 基于变分自动编码器的零样本图像分类方法 |
CN107679474A (zh) * | 2017-09-25 | 2018-02-09 | 北京小米移动软件有限公司 | 人脸匹配方法及装置 |
CN109635657A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
DIEDERIK P. KINGMA ET AL.: "Auto-Encoding Variational Bayes", 《HTTPS://ARXIV.ORG/ABS/1312.6114》 * |
李旭东等: "基于卷积神经网络的目标检测研究综述", 《计算机应用研究》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847302B (zh) | 基于卷积神经网络的单通道混合语音时域分离方法 | |
CN108805196B (zh) | 用于图像识别的自动增量学习方法 | |
CN113838054B (zh) | 基于人工智能的机械零件表面损伤检测方法 | |
CN111126386A (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110705516B (zh) | 一种基于协同网络结构的鞋底花纹图像聚类方法 | |
US11222431B2 (en) | Feature processing method and device for motion trajectory, and computer storage medium | |
CN106709509B (zh) | 一种基于时间序列特殊点的卫星遥测数据聚类方法 | |
CN109284779A (zh) | 基于深度全卷积网络的物体检测方法 | |
CN112102323B (zh) | 基于生成对抗网络和Caps-Unet网络的粘连细胞核分割方法 | |
CN111738367B (zh) | 一种基于图像识别的零件分类方法 | |
CN114331869A (zh) | 一种坝面裂缝语义分割方法 | |
CN109145738B (zh) | 基于加权非凸正则化和迭代重约束低秩表示的动态视频分割方法 | |
CN112052856A (zh) | 一种基于图像特征编码的目标检测方法 | |
CN111539931A (zh) | 一种基于卷积神经网络和边界限定优化的外观异常检测方法 | |
CN113012158B (zh) | 基于深度稠密网络与边缘距离图加权的图像协同分割方法 | |
CN112014821B (zh) | 一种基于雷达宽带特征的未知车辆目标识别方法 | |
CN113159082B (zh) | 一种增量式学习目标检测网络模型构建及权重更新方法 | |
CN111883177B (zh) | 基于深度学习的语音关键信息分离方法 | |
CN111609812B (zh) | 用于检测转向器输入轴弯曲的检测系统 | |
CN111488907B (zh) | 一种基于稠密PCANet的鲁棒图像识别方法 | |
CN111126455B (zh) | 一种基于Lightweight CNN与SVM的磨粒两阶段识别方法 | |
CN112348106A (zh) | 一种基于关键点学习的乳腺超声影像分类方法 | |
CN111126507A (zh) | 一种基于卷积神经网络的绘画作品作者识别方法 | |
CN111488906B (zh) | 一种基于通道相关式PCANet的低分辨率图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201208 |