CN113657415B - 一种面向示意图的对象检测方法 - Google Patents
一种面向示意图的对象检测方法 Download PDFInfo
- Publication number
- CN113657415B CN113657415B CN202111224290.4A CN202111224290A CN113657415B CN 113657415 B CN113657415 B CN 113657415B CN 202111224290 A CN202111224290 A CN 202111224290A CN 113657415 B CN113657415 B CN 113657415B
- Authority
- CN
- China
- Prior art keywords
- information
- position information
- schematic diagram
- superpixel
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 104
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000005259 measurement Methods 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 60
- 238000013528 artificial neural network Methods 0.000 claims description 55
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000005764 inhibitory process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 239000003086 colorant Substances 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000004880 explosion Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于计算机视觉和数据识别技术领域,具体属于一种面向示意图的对象检测方法。
背景技术
示意图是一种高度抽象的知识载体,通常由点、线、矩形等几何形状或简笔画构成,用于刻画事物的结构、原理或机制。示意图广泛分布在MOOC网站、教学课件、技术文档等各类知识资源中;对这类特殊图像的分析与理解是跨媒体知识融合、智能答疑等知识密集型任务的重要基础,也是跨媒体智能的重要组成部分。
示意图中的对象检测是示意图理解的基础。但已有的对象检测方法主要针对自然图像,无法适用示意图。主要原因在于两者具有迥异的视觉特性:一是示意图的视觉信息稀疏,示意图在SIFT、SURF、FAST特征点的数量明显少于相同尺寸的自然图像;二是示意图存在“同形不同义、同义不同形”现象,即视觉上相同或相似的示意图可能表达不同语义,而视觉上差异较大的示意图也可能表达相同语义。传统的对象检测方法未考虑上述特性,因此导致传统的对象检测方法不能准确识别示意图,影响技术人员对技术的推理。
发明内容
为了解决现有技术中存在的问题,本发明提供一种面向示意图的对象检测方法,解决目前传统对象检测无法准确识别示意图的问题。
为实现上述目的,本发明提供如下技术方案:一种面向示意图的对象检测方法,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
通过预设的编码器神经网络获得所述编码信息对应的位置信息,在所述编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将所述同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
进一步的,所述根据均值向量和标准差向量依据重参数化技巧计算完编码信息后,还包括,将所述编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
在所述形成大超像素块的特征信息和位置信息后,还包括,将所述同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将所述特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签;
在所述示意图的对象检测完成后,还包括,将所述大超像素块的对象标签和位置信息与重建示意图上特征信息和符合真实数据的位置信息进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练。
进一步的,所述模型损失的公式如下:
进一步的,所述梯度信息进行抑制的公式为:
进一步的,对所述二值化后的特征信息和参数矩阵的位运算和向量内积运算的公式如下:
式中:表示先经过位运算,再计算有多少个1实现的向量内积运算,是大超像素块的特征信息的特征编码,是浮点数权重,是参数矩阵保留的浮点数缩放因子,是大超像素块保留的浮点数缩放因子,是二值化后的特征编码,是二值化后的参数矩阵。
进一步的,所述依据聚类中心点构造度量标准的公式如下:
所述根据度量标准更新所有聚类中心点的具体步骤如下:
将所述特征图通过一组全连接神经网络得到的特征图,的特征图送入预设的VGG16神经网络的前13层模型中得到的特征图,将的特征图进行平均池化处理得到512维的特征向量,再经过一组预设的全连接神经网络得到均值向量和标准差向量;根据均值向量和标准差向量以及正态分布中采样得到误差来计算编码信息。
进一步的,所述形成大超像素块的特征信息和位置信息的具体步骤如下:
在预设的编码器神经网络获取所述编码信息和编码信息对应的位置信息,在所述编码信息和位置信息中分别随机选取聚类中心点;将每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点进行计算相似度,将所述编码信息和位置信息分别分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;
多次迭代进行聚类中心点更新和编码信息以及位置信息的分配,直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
进一步的,所述保留最符合真实数据的位置信息的具体步骤如下:
在剩下的未标记边界框中多次迭代直到所有边界框都被标记,将标记的边界框输出即为最符合真实数据的位置信息。
与现有技术相比,本发明至少具有以下有益效果:本发明提供了一种面向示意图的对象检测方法,通过将图像按照颜色、距离特征信息进行超像素分割,从超像素中提取特征图,利用特征图获取示意图中超像素的编码信息,并利用编码信息得到聚类簇,并将同一聚类簇中的编码信息和编码信息对应的位置进行融合,最后得到示意图上图形信息,针对了示意图中图形稀疏且不具有复杂背景信息的特点,避免了检测对象和背景信息之间的相互遮盖,提高检测速度。而且本发明还通过对同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大值抑制算法抑制示意图上检测对象周围不必要的边界框,得到了保留最符合真实数据的位置信息,来针对示意图数据稀少和神经网络的巨大时空开销问题,降低了模型对示意图数据规模的依赖,提高神经网络训练速度。本发明使用分割后的超像素区域进行训练,增强了模型对示意图图像关键局部特征信息的学习能力,使得本发明对示意图的识别更加准确。
附图说明
图1为本发明的示意图检测过程示意图;
图2为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供了一种面向示意图的对象检测方法,如图1所示,1、2、3、4、5、6元素代表示意图本身的信息,其中,6的Push和6的pop分别表示6元素进入堆栈和6元素弹出堆栈,text代表图片上检测对象为文本,Stack代表图片上检测对象为堆栈,以图1从左向右方向,第一幅图代表原始示意图,原始示意图经过图形抽取步骤,其中图像抽取步骤依次包括超像素分割、抽取特征图、重建图像和超像素融合。在经过图形抽取后得到结果图片,第二附图中多个方框代表检测出的对象,即为示意图中待检测对象的位置信息和待检测对象周围不必要的位置信息,接着第二幅图需经对象识别,其中对象识别依次包括边界框抑制、网络参数二值量化、梯度信息抑制三个阶段。第二幅图经过对象识别步骤后得到对象识别后的结果图片,对象识别后的结果图片的最外围方框表示检测边界,Stack和text为检测对象分类,对象识别后的结果图片去除了示意图中待检测对象周围不必要的位置信息,保留最符合真实数据的位置信息。
如图2所示,本发明提供的一种面向示意图的对象检测方法,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
具体的,上述步骤的详细过程如下:STEP1:图形抽取
针对示意图中图形的特征稀疏性且不具有复杂的背景信息,通过一个基于反卷积的变分图形编码器来抽取出示意图中所包含的图形及其特征信息。
STEP1.1超像素分割:本发明以尺寸为示意图图像 (其中代表宽度,代表高度,3表示颜色通道数量);将示意图转化为CIELAB颜色空间(又写为L*a*b*,是国际照明委员会(缩写为CIE)在1976年定义的色彩空间。它将颜色用三个值表达:“L*”代表感知的亮度、“a*”和“b*”代表人类视觉的四种独特颜色:红色、绿色、蓝色和黄色)并引入XY坐标,得到维特征信息;根据示意图中像素的颜色和距离特征信息生成若干个超像素区域;具体的,先预设示意图中的超像素区域个数,在超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,完成示意图的超像素分割,得到若干个超像素区域;
具体的,首先,将示意图图像从RGB色彩空间(RGB色彩空间由红绿蓝三原色的色度定义,借此可以定义出相应的色三角,生成其它颜色)的3维特征信息转化为CIELAB颜色空间(又写为L*a*b*,是国际照明委员会(缩写为CIE)在1976年定义的色彩空间。它将颜色用三个值表达:“L*”代表感知的亮度、“a*”和“b*”代表人类视觉的四种独特颜色:红色、绿色、蓝色和黄色)并引入XY坐标,得到维特征信息,其中表示图像上第个像素点。接着使用简单线性迭代聚类SLIC(simple lineariterative clustering)算法根据示意图中像素的颜色距离和空间距离生成紧凑近似均匀的超像素区域,SLIC算法需要设置的参数非常少,一般只需要设置一个预分割的超像素的数量,而且可以生成如同细胞一般紧凑整齐、邻域特征比较容易表达的超像素。
然后,将所有聚类中心点i转移到附近n×n的区域中梯度值最小的点(n=3),附近的像素点相对于聚类中心点,按照颜色、空间距离等标准构造度量标准D ’ 如公式(2)所示。
最后按照度量标D ’ 对所有聚类中心点周围范围进行计算确定范围内所有像素点所属聚类,对范围所有像素点计算完成之后,根据每一超像素区域中计算结果更新所有聚类中心点,再不断进行迭代直到不再变化。完成示意图的超像素分割,得到若干个超像素区域。
STEP1.2抽取特征图:将每个超像素区域划分为块矩形,通过双线性插值算法得到块矩形中每块矩形所需位置的特征信息,对块矩形进行最大值池化操作,得到规模为的特征图;其中本发明利用ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)算法对每一块超像素提取相同尺寸的特征信息,避免了取整操作,保存了原始ROI的空间分布,有效避免了误差的产生。
具体的,由于ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)只能对矩形区域进行操作,首先需要将每块超像素处理为矩形区域;
其中表示超像素块,表示超像素块生成的矩形,表示点乘运算。之后将所得到的矩形均匀划分为块矩形,由于和所得到结果有可能不为整数,需采用双线性插值算法计算不能整除坐标上的特征信息,进而可以得到每块矩形区域所需位置的特征信息,计算方法如公式(6)所示。最后,对所划分的块矩形中分别进行最大值池化处理,得到一组规模为的特征图。
至此,通过公式(5)以及ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)提取得到一组规模为的特征图。最后将所得到的特征图通过一组全连接神经网络得到的特征图作为下一步输入。
STEP1.3重建图像:将的特征图输入预设的全连接神经网络和以VGG16模型为基础的编码器神经网络得到均值向量和标准差向量,根据均值向量和标准差向量采用reparametrisation trick(重参数化技巧)计算编码信息;同时将编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
具体的,将STEP1.2得到的规模为的特征图先送入VGG16神经网络的前13层模型中得到的特征图,再进行平均池化处理可以得到512维的特征向量,再经过一组全连接神经网络可以得到均值向量和标准差向量两组向量,用于增强编码器的泛化性能;从正态分布中采样得到误差来计算由超像素得到的编码信息z,计算方法如公式(9)所示。
STEP1.4超像素融合:通过预设的编码器神经网络获取编码信息和编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;将每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点进行计算相似度,将编码信息和位置信息分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;多次迭代进行聚类中心点更新和信息的分配直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
具体的,首先,根据基于反卷积的变分图形编码器(Deconvolution basedVariation Diagram Encoder)中编码器可以得到每块超像素对应的编码信息。其次,本发明引入k均值聚类(k-Means Clustering)算法来实现相邻超像素块间的融合操作得到更大的超像素块,k-Means Clustering算法同样一般也只需要设置一个聚类簇数量,而且根据编码信息和位置信息进行融合形成大超像素块,不仅具有收敛速度快、可解释性强的优点,而且避免了将特征相似但位置较远的目标进行融合。
随机选取块超像素作为初始的聚类中心,表示为,每块超像素均对应一组编码信息和一组位置信息。之后针对每组编码信息样本和与之对应的位置信息计算到个聚类中心的距离并将其划分到距离最小的聚类中心所对应的类别中,计算方法如公式(10)。
最后,将上述过程多次迭代,直到所有聚类中心不再发生变化为止;根据聚类簇中结果信息,将同一聚类簇中超像素块进行融合,得到示意图中大超像素块的特征信息和位置信息;在此基础上,可以得到检测边框中示意图对象的特征编码。
STEP2:对象识别
得到示意图中各个图形的特征编码后,采用一个基于网络参数量化的深度残差网络来识别示意图中存在的对象类别。所提模型通过对网络参数进行二值量化,减少了网络的计算量和参数的存储量,并缓解了由示意图训练数据数量不足的问题。
STEP2.1边界框抑制:将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息。
具体的,由于在待检测对象附近往往会同时生成多个边界框,需要选择其中最准确的边界框作为最后的检测结果。因此先按照置信度大小对多个大超像素块的位置信息所在的边界框进行排序,选出其中置信度最高的边界框,将其标记为保留的边界框。
最后在剩下的未标记边界框中多次迭代直到所有边界框都被标记,将标记的边界框输出即为最符合真实数据的位置信息,即检测对象的边界信息。
STEP2.2 网络参数二值量化:在得到大超像素块的特征信息和位置信息后,将同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签。
为了降低资源开销和时间开销,使用符号函数对网络参数进行量化,计算方法如公式(15)所示。
此时残差神经网络中卷积操作就可以按照公式(17)进行计算,将点乘运算改为位运算和向量内积运算,降低了时间开销和资源开销。
STEP2.3梯度信息抑制:在示意图的对象检测完成后,将大超像素块的对象标签和位置信息与示意图上特征信息和位置信息的真实数据进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练,其中通过梯度信息算法抑制神经网络训练传递过程中的过大和过小梯度信息避免“梯度爆炸”和“梯度消失”现象。
在本实施例中,考虑到神经网络的训练过程中,由于网络是多层非线性函数的堆砌,整个深度网络可以视为是一个复合的非线性多元函数,对损失函数求不同层的权值偏导,相当于应用梯度下降的链式法则,链式法则是一个连乘的形式,所以当层数越深的时候,梯度将以指数传播。如果接近输出层的激活函数求导后梯度值大1,那么层数增多的时候,最终求出的梯度很容易指数级增长,就会产生梯度爆炸;相反,如果小于1,那么经过链式法则的连乘形式,也会很容易衰减至0,就会产生梯度消失。
为避免梯度爆炸和梯度消失两种现象,在网络训练过程中,保留绝对值较小参数的梯度而抑制绝对值较大参数的梯度,通过梯度抑制避免由于数据集规模较小且图像上特征较为集中导致的梯度爆炸和梯度消失,保证了训练过程的正常进行。梯度公式可用如公式(19)表示。
本发明通过将传统机器学习算法、计算机视觉算法与神经网络模型相结合,仅需要调节少量参数的同时减少了整体模型对示意图数据样本规模的要求,通过少量样本可以迅速高效地完成示意图上目标检测任务。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于示意图的对象检测的操作,包括:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关示意图的对象检测的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
Claims (10)
1.一种面向示意图的对象检测方法,其特征在于,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
通过预设的编码器神经网络获得所述编码信息对应的位置信息,在所述编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将所述同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
2.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述根据均值向量和标准差向量依据重参数化技巧计算完编码信息后,还包括,将所述编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
在所述形成大超像素块的特征信息和位置信息后,还包括,将所述同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将所述特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签;
在所述示意图的对象检测完成后,还包括,将所述大超像素块的对象标签和位置信息与重建示意图上特征信息和符合真实数据的位置信息进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练。
9.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述形成大超像素块的特征信息和位置信息的具体步骤如下:
在预设的编码器神经网络获取所述编码信息和编码信息对应的位置信息,在所述编码信息和位置信息中分别随机选取聚类中心点;使用每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点计算相似度,将所述编码信息和位置信息分别分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;
多次迭代进行聚类中心点更新和编码信息以及位置信息的分配,直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224290.4A CN113657415B (zh) | 2021-10-21 | 2021-10-21 | 一种面向示意图的对象检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224290.4A CN113657415B (zh) | 2021-10-21 | 2021-10-21 | 一种面向示意图的对象检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657415A CN113657415A (zh) | 2021-11-16 |
CN113657415B true CN113657415B (zh) | 2022-01-25 |
Family
ID=78484357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111224290.4A Expired - Fee Related CN113657415B (zh) | 2021-10-21 | 2021-10-21 | 一种面向示意图的对象检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657415B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781604B (zh) * | 2022-04-13 | 2024-02-20 | 广州安凯微电子股份有限公司 | 神经网络权重参数的编码方法、编码器及神经网络处理器 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996488B (zh) * | 2010-11-04 | 2013-05-22 | 上海美慧软件有限公司 | 一种适合交通信息表达的示意图绘制方法 |
US9013536B2 (en) * | 2013-03-13 | 2015-04-21 | Futurewei Technologies, Inc. | Augmented video calls on mobile devices |
DE102013108104B4 (de) * | 2013-07-29 | 2019-10-17 | Windmöller & Hölscher Kg | Verfahren und Kontrollvorrichtung für die Kontrolle einer Wickelvorrichtung |
KR102279026B1 (ko) * | 2014-11-07 | 2021-07-19 | 삼성전자주식회사 | 적어도 하나의 객체를 포함하는 영상에서 객체를 추출하여 보정한 영상을 제공하는 장치 및 방법 |
CN105426914B (zh) * | 2015-11-19 | 2019-03-15 | 中国人民解放军信息工程大学 | 一种面向位置识别的图像相似度检测方法 |
CN106296695B (zh) * | 2016-08-12 | 2019-05-24 | 西安理工大学 | 基于显著性的自适应阈值自然目标图像分割抽取算法 |
CN106331491A (zh) * | 2016-08-29 | 2017-01-11 | 广东欧珀移动通信有限公司 | 一种拍照方法及装置 |
CN107392925B (zh) * | 2017-08-01 | 2020-07-07 | 西安电子科技大学 | 基于超像素编码和卷积神经网络的遥感影像地物分类方法 |
US11468550B2 (en) * | 2019-07-22 | 2022-10-11 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
CN110634142B (zh) * | 2019-08-20 | 2024-02-02 | 长安大学 | 一种复杂车路图像边界优化方法 |
CN110689028A (zh) * | 2019-10-09 | 2020-01-14 | 中国人民公安大学 | 现场图测评方法、现场勘查记录测评方法及其装置 |
CN112819006B (zh) * | 2020-12-31 | 2023-12-22 | 北京声智科技有限公司 | 图像处理方法、装置及电子设备 |
-
2021
- 2021-10-21 CN CN202111224290.4A patent/CN113657415B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN113657415A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689599B (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN116258719B (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
CN111986125B (zh) | 一种用于多目标任务实例分割的方法 | |
CN109919013A (zh) | 视频图像中基于深度学习的人脸检测方法及装置 | |
CN111695633B (zh) | 基于rpf-cam的低照度目标检测方法 | |
CN109949255A (zh) | 图像重建方法及设备 | |
Ghorai et al. | Multiple pyramids based image inpainting using local patch statistics and steering kernel feature | |
CN106296695A (zh) | 基于显著性的自适应阈值自然目标图像分割抽取算法 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN108829711B (zh) | 一种基于多特征融合的图像检索方法 | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
Liu et al. | SAR image segmentation based on hierarchical visual semantic and adaptive neighborhood multinomial latent model | |
CN113436220B (zh) | 一种基于深度图分割的图像背景估计方法 | |
CN113822794A (zh) | 一种图像风格转换方法、装置、计算机设备和存储介质 | |
CN111178312B (zh) | 基于多任务特征学习网络的人脸表情识别方法 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN113657415B (zh) | 一种面向示意图的对象检测方法 | |
CN112257496A (zh) | 一种基于深度学习的输电通道周围环境分类方法及系统 | |
WO2022127865A1 (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN117934524A (zh) | 建筑物轮廓提取方法及装置 | |
CN117078556A (zh) | 一种水域自适应水下图像增强方法 | |
CN114898417A (zh) | 一种基于协调注意力深度神经网络的菊头蝠识别方法 | |
CN117957577A (zh) | 用于神经渲染的多核系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220125 |