CN113255830A - 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 - Google Patents
基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 Download PDFInfo
- Publication number
- CN113255830A CN113255830A CN202110683176.1A CN202110683176A CN113255830A CN 113255830 A CN113255830 A CN 113255830A CN 202110683176 A CN202110683176 A CN 202110683176A CN 113255830 A CN113255830 A CN 113255830A
- Authority
- CN
- China
- Prior art keywords
- cell
- image
- encoder
- network
- unsupervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于变分自编码器与高斯混合模型的无监督目标检测方法和系统,通过骨干网络将输入图像转化一个H*W维度,即H*W个单元格的特征图,再将该特征图编码为先验分布符合高斯混合模型的隐变量,然后由解码器根据隐变量进行图像重构,并将重构的图像与输入图像进行比较并计算损失函数,从而训练神经网络,编码器得到图像中物体的类别与位置等信息,从而实现无监督目标检测。本发明结合了空间注意力机制和高斯混合模型,不仅能够实现端到端的目标检测与分类,同时在存在大量物体的情况下仍有较好的性能,具有较好的扩展性。
Description
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种基于变分自编码器与高斯混合模型的无监督目标检测方法及系统。
背景技术
目前的有监督学习仍需要大量经过标记的数据集,而这种处理需要大量的工作量,从而使得有用的数据集变得难以获取。同时,有监督学习得到的深度学习模型的泛用性较差,在不同的数据集上的性能可能会衰减。相比之下,无监督学习的最大特点就是不需要对数据进行标记,这大大减少了工作量。同时,无监督学习致力于得到通用的模型,提高模型的泛用性。而在无监督学习领域中,变分自编码器是一类非常重要的框架,虽然目前该框架基础上提出的AIR(Attend,Infer,Repeat)、SPAIR(Spatially Invariant Attend,Infer,Repeat)等模型具有一定效果,但仍存在只能在少量物体的场景下工作的弊端。
发明内容
本发明针对现有无监督学习的目标检测对于分类与多物体场景下检测精度不足的问题以及现有基于变分自编码器的目标检测框架难以应对有大量物体的场景和对物体种类信息不敏感的缺陷,提出一种基于变分自编码器与高斯混合模型的无监督目标检测方法和系统,结合了空间注意力机制和高斯混合模型,不仅能够实现端到端的目标检测与分类,同时在存在大量物体的情况下仍有较好的性能,具有较好的扩展性。
本发明是通过以下技术方案实现的:
本发明涉及一种基于变分自编码器与高斯混合模型的无监督目标检测方法,通过骨干网络将输入图像转化一个H*W维度,即H*W个单元格的特征图,再将该特征图编码为先验分布符合高斯混合模型的隐变量,然后由解码器根据隐变量进行图像重构,并将重构的图像与输入图像进行比较并计算损失函数,从而训练神经网络,编码器得到图像中物体的类别与位置等信息,从而实现无监督目标检测。
所述的骨干网络是指:由深度残差网络连接反卷积层形成的提取图像特征的神经网络。
所述的隐变量包括:每个单元格中物体的类别、特征、位置、深度、出现概率信息。
,其中:二元变量zpres用于表示物体是否存在,zpres=1表示物体存在于图像中;zwhere可以被分解为(zy,zx,zh,zw),zy与zx是该单元格中所包含物体的中心位置,zw与zh是该物体的宽和高;zdepth为物体在图像中的深度信息,用来处理物体堆叠的问题,zcat是一个为物体类别的C维的一位有效编码,C是图像集中物体总的类别数;zwhat是一个分布符合高斯混合模型的物体特征向量的A维编码,具体为: 是高斯分布的概率密度函数,μk与是第k个类别的高斯分布的期望与方差,μk与作为可学习的参数。
在重构图像中,深度信息更低的物体会出现在更高的物体上面。
技术效果
本发明整体解决了现有无监督目标检测技术的不能同时完成物体定位于聚类的缺陷;与现有技术相比,本发明结合空间注意力机制和高斯混合模型,使得目标定位与聚类两个任务可并行完成,并使得两个任务均有较好的效果。同时在场景中存在大量物体的情况下仍有较好的性能。
附图说明
图1为本发明网络结构示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于变分自编码器与高斯混合模型的无监督目标检测系统,包括:骨干网络以及分别与之相连的pres-预测头、depth预测头和where-预测头;空间转换网络以及分别与之相连的what-编码器和cat-编码器;单元格解码器、what先验网络以及可微分渲染器,其中:骨干网络对输入图像进行预处理得到特征图,pres-预测头、depth预测头和where-预测头分别根据特征图得到zpres隐变量、zwhere隐变量和zdepth隐变量,空间转换网络根据输入图像和zwhere隐变量进行空间变换处理并分别输出单元格信息至cat-编码器和what-编码器,cat-编码器根据单元格信息得到zcat隐变量,what-编码器根据每个单元格与其对应的zcat隐变量拼接后得到zwhat隐变量,单元格解码器根据zwhat隐变量重新生成单元格,可微分渲染器根据zpres隐变量、zwhere隐变量、zdepth隐变量和重新生成的单元格,经渲染并输出重构图像,what先验网络根据zcat隐变量生成zwhat隐变量的先验分布。
所有的神经网络参数通过最小化损失函数进行训练;训练后的pres-预测头输出的zpres隐变量即代表每个单元格是否存在物体,训练后的where-预测头输出的zwhere隐变量即代表存在物体时每个单元格中物体的具体位置;训练后的cat-预测头输出的zcat隐变量即为存在物体时每个单元格中物体的类别,从而完成在统一的网络结构中,对图像中的物体进行无监督,即用于训练数据集中的数据不需要人工标注的目标检测,获得图片中所关注物体的位置与类别信息。
所述的损失函数为重构损失与正则化损失之和,其中:重构损失为原图与重构图像间的二值交叉熵,正则化损失为每个隐变量的分布q(z*|x)与其预设的先验分布p(z*)的KL散度。其中zwhat隐变量的先验分布由what先验网络生成。
所述的二值交叉熵描述原图与重构图像间的差异,其越小表示原图与重构图像间差异越小。
本实施例中的pres-预测头、depth-预测头、where-预测头均为四层卷积神经网络,其具体网络结构参数如表1所示。
表1 pres-检测头、depth-检测头与where-检测头的结构参数
所述的空间转换网络内含一个空间变换处理模块,该空间变换处理模块读取where-预测头输出的zwhere隐变量并得到每个单元格中表征物体具体位置的一个矩形框的预判后,通过把该矩形框平移到原点,并放缩到固定大小32×32得到各单元格信息。
所述的what-编码器与cat-编码器为多层感知机,其具体结构参数如表2所示。
表2 what-编码器与cat-编码器的结构参数
所述的单元格解码器为深度卷积神经网络,其具体结构参数如表3所示。
表3 单元格解码器的结构参数
所述的what先验网络为两个独立的单层感知机,大小各为10×256。
所述的可微分渲染器通过表征位置信息的zwhere隐变量将重新生成的单元格还原到其预判的位置;然后设置单元格中每个像素的值为所有覆盖它的单元格对应值,即zpres隐变量与其深度,即zdepth隐变量的加权平均。
经过具体实际实验,以表4所示参数设置损失函数进行网络训练。在MultiMNIST数据集下,定位平均准确度为97.3±0.10,聚类准确度为80.4±0.48,聚类归一化互信息指标(NMI)为75.5±0.66。在Fruit2D数据集下定位平均准确度为84.9±1.56,聚类准确度为90.9±0.32,聚类NMI为85.7±1.25,x±y中,x与y分别代表取多次随机因子下,实验结果的平均值与标准差。
表4 先验分布参数设置
与现有技术相比,本系统在不损失定位精度与聚类准确度的前提下,同时完成无监督目标检测的定位与聚类任务。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (10)
1.一种基于变分自编码器与高斯混合模型的无监督目标检测方法,其特征在于,通过骨干网络将输入图像转化一个H*W维度,即H*W个单元格的特征图,再将该特征图编码为先验分布符合高斯混合模型的隐变量,然后由解码器根据隐变量进行图像重构,并将重构的图像与输入图像进行比较并计算损失函数,从而训练神经网络,编码器得到图像中物体的类别与位置等信息,从而实现无监督目标检测;
所述的骨干网络是指:由深度残差网络连接反卷积层形成的提取图像特征的神经网络;
所述的隐变量包括:每个单元格中物体的类别、特征、位置、深度、出现概率信息。
2.根据权利要求1所述的基于变分自编码器与高斯混合模型的无监督目标检测方法,其特征是,所述的转化,具体过程为:
3.一种实现权利要求1或2所述方法的基于变分自编码器与高斯混合模型的无监督目标检测系统,其特征在于,包括:骨干网络以及分别与之相连的pres-预测头、depth预测头和where-预测头;空间转换网络以及分别与之相连的what-编码器和cat-编码器;单元格解码器、what先验网络以及可微分渲染器,其中:骨干网络对输入图像进行预处理得到特征图,pres-预测头、depth预测头和where-预测头分别根据特征图得到zpres隐变量、zwhere隐变量和zdepth隐变量,空间转换网络根据输入图像和zwhere隐变量进行空间变换处理并分别输出单元格信息至cat-编码器和what-编码器,cat-编码器根据单元格信息得到zcat隐变量,what-编码器根据每个单元格与其对应的zcat隐变量拼接后得到zwhat隐变量,单元格解码器根据zwhat隐变量重新生成单元格,可微分渲染器根据zpres隐变量、zwhere隐变量、zdepth隐变量和重新生成的单元格,经渲染并输出重构图像,what先验网络根据zcat隐变量生成zwhat隐变量的先验分布。
4.根据权利要求3所述的无监督目标检测系统,其特征是,所有的神经网络参数通过最小化损失函数进行训练;训练后的pres-预测头输出的zpres隐变量即代表每个单元格是否存在物体,训练后的where-预测头输出的zwhere隐变量即代表存在物体时每个单元格中物体的具体位置;训练后的cat-预测头输出的zcat隐变量即为存在物体时每个单元格中物体的类别,从而完成在统一的网络结构中,对图像中的物体进行无监督,即用于训练数据集中的数据不需要人工标注的目标检测,获得图片中所关注物体的位置与类别信息;
所述的损失函数为重构损失与正则化损失之和,其中:重构损失为原图与重构图像间的二值交叉熵,正则化损失为每个隐变量的分布q(z*|x)与其预设的先验分布p(z*)的KL散度,其中zwhat隐变量的先验分布由what先验网络生成。
5.根据权利要求3所述的无监督目标检测系统,其特征是,所述的pres-预测头、depth-预测头、where-预测头均为四层卷积神经网络。
6.根据权利要求3所述的无监督目标检测系统,其特征是,所述的空间转换网络内含一个空间变换处理模块,该空间变换处理模块读取where-预测头输出的zwhere隐变量并得到每个单元格中表征物体具体位置的一个矩形框的预判后,通过把该矩形框平移到原点,并放缩到固定大小32×32得到各单元格信息。
7.根据权利要求3所述的无监督目标检测系统,其特征是,所述的what-编码器与cat-编码器为多层感知机。
8.根据权利要求3所述的无监督目标检测系统,其特征是,所述的单元格解码器为深度卷积神经网络。
9.根据权利要求3所述的无监督目标检测系统,其特征是,所述的what先验网络为两个独立的单层感知机,大小各为10×256。
10.根据权利要求3所述的无监督目标检测系统,其特征是,所述的可微分渲染器通过表征位置信息的zwhere隐变量将重新生成的单元格还原到其预判的位置;然后设置单元格中每个像素的值为所有覆盖它的单元格对应值,即zpres隐变量与其深度,即zdepth隐变量的加权平均。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110683176.1A CN113255830A (zh) | 2021-06-21 | 2021-06-21 | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110683176.1A CN113255830A (zh) | 2021-06-21 | 2021-06-21 | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255830A true CN113255830A (zh) | 2021-08-13 |
Family
ID=77188795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110683176.1A Pending CN113255830A (zh) | 2021-06-21 | 2021-06-21 | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255830A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022442A (zh) * | 2021-11-03 | 2022-02-08 | 武汉智目智能技术合伙企业(有限合伙) | 一种基于无监督学习的织物疵点检测算法 |
CN114298240A (zh) * | 2021-12-30 | 2022-04-08 | 中山大学 | 一种针对多元时间序列的主动异常检测方法及其相关装置 |
CN114373097A (zh) * | 2021-12-15 | 2022-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种基于无监督的图像分类方法、终端设备及存储介质 |
CN114638905A (zh) * | 2022-01-30 | 2022-06-17 | 中国科学院自动化研究所 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
CN114978264A (zh) * | 2022-06-29 | 2022-08-30 | 内蒙古大学 | 基于太赫兹mimo系统的混合预编码方法 |
CN116029340A (zh) * | 2023-01-13 | 2023-04-28 | 香港中文大学(深圳) | 一种基于深度学习网络的图像及语义信息传输方法 |
CN116958712A (zh) * | 2023-09-20 | 2023-10-27 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
CN117036862A (zh) * | 2023-08-21 | 2023-11-10 | 武汉纺织大学 | 基于高斯混合变分自编码器的图像生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126359A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于自编码器与yolo算法的高清图像小目标检测方法 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
CN112231582A (zh) * | 2020-11-10 | 2021-01-15 | 南京大学 | 一种基于变分自编码数据融合的网站推荐方法和设备 |
CN112488148A (zh) * | 2020-10-27 | 2021-03-12 | 清华大学 | 基于变分自编码器的聚类方法和装置 |
-
2021
- 2021-06-21 CN CN202110683176.1A patent/CN113255830A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126359A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于自编码器与yolo算法的高清图像小目标检测方法 |
CN111243045A (zh) * | 2020-01-10 | 2020-06-05 | 杭州电子科技大学 | 一种基于高斯混合模型先验变分自编码器的图像生成方法 |
CN112488148A (zh) * | 2020-10-27 | 2021-03-12 | 清华大学 | 基于变分自编码器的聚类方法和装置 |
CN112231582A (zh) * | 2020-11-10 | 2021-01-15 | 南京大学 | 一种基于变分自编码数据融合的网站推荐方法和设备 |
Non-Patent Citations (1)
Title |
---|
WEIJIN ZHU: ""GMAIR : Unsupervised Object Detection Based on Spatial Attention and Gaussian Mixture"", 《ARXIV》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022442A (zh) * | 2021-11-03 | 2022-02-08 | 武汉智目智能技术合伙企业(有限合伙) | 一种基于无监督学习的织物疵点检测算法 |
CN114373097A (zh) * | 2021-12-15 | 2022-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种基于无监督的图像分类方法、终端设备及存储介质 |
CN114298240A (zh) * | 2021-12-30 | 2022-04-08 | 中山大学 | 一种针对多元时间序列的主动异常检测方法及其相关装置 |
CN114638905A (zh) * | 2022-01-30 | 2022-06-17 | 中国科学院自动化研究所 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
CN114638905B (zh) * | 2022-01-30 | 2023-02-21 | 中国科学院自动化研究所 | 图像生成方法、装置、设备及存储介质 |
CN114978264A (zh) * | 2022-06-29 | 2022-08-30 | 内蒙古大学 | 基于太赫兹mimo系统的混合预编码方法 |
CN114978264B (zh) * | 2022-06-29 | 2023-07-25 | 内蒙古大学 | 基于太赫兹mimo系统的混合预编码方法 |
CN116029340A (zh) * | 2023-01-13 | 2023-04-28 | 香港中文大学(深圳) | 一种基于深度学习网络的图像及语义信息传输方法 |
CN117036862A (zh) * | 2023-08-21 | 2023-11-10 | 武汉纺织大学 | 基于高斯混合变分自编码器的图像生成方法 |
CN117036862B (zh) * | 2023-08-21 | 2024-03-22 | 武汉纺织大学 | 基于高斯混合变分自编码器的图像生成方法 |
CN116958712A (zh) * | 2023-09-20 | 2023-10-27 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
CN116958712B (zh) * | 2023-09-20 | 2023-12-15 | 山东建筑大学 | 基于先验概率分布的图像生成方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255830A (zh) | 基于变分自编码器与高斯混合模型的无监督目标检测方法及系统 | |
CN112116030B (zh) | 一种基于向量标准化和知识蒸馏的图像分类方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN109919204B (zh) | 一种面向噪声图像的深度学习聚类方法 | |
CN110717526B (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN111680614B (zh) | 一种基于视频监控中的异常行为检测方法 | |
CN110097605B (zh) | 一种基于支持向量机的点云压缩编码器关键参数优化方法 | |
CN106251375B (zh) | 一种通用隐写分析的深度学习堆栈式自动编码方法 | |
CN114419014A (zh) | 基于特征重构的表面缺陷检测方法 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN115578574B (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN114332008A (zh) | 一种基于多层次特征重构的无监督缺陷检测与定位方法 | |
CN114006870A (zh) | 一种基于自监督卷积子空间聚类网络的网络流量识别方法 | |
CN104036296A (zh) | 一种图像的表示和处理方法及装置 | |
CN116935126A (zh) | 一种基于经典—量子混合机器学习的医学图像分类方法 | |
CN117474883A (zh) | 基于残差偏移网络自适应优化的绝缘子状态检测方法 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN113569814A (zh) | 一种基于特征一致性的无监督行人重识别方法 | |
CN117131348A (zh) | 基于差分卷积特征的数据质量分析方法及系统 | |
CN117058641A (zh) | 一种基于深度学习的全景驾驶感知方法 | |
CN116503314A (zh) | 用于门制造的质量检测系统及方法 | |
CN116894940A (zh) | 一种基于特征融合与注意机制的点云语义分割方法 | |
CN116012299A (zh) | 一种基于目标识别的复合绝缘子憎水性等级检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |