CN113657415B - 一种面向示意图的对象检测方法 - Google Patents

一种面向示意图的对象检测方法 Download PDF

Info

Publication number
CN113657415B
CN113657415B CN202111224290.4A CN202111224290A CN113657415B CN 113657415 B CN113657415 B CN 113657415B CN 202111224290 A CN202111224290 A CN 202111224290A CN 113657415 B CN113657415 B CN 113657415B
Authority
CN
China
Prior art keywords
information
position information
schematic diagram
superpixel
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202111224290.4A
Other languages
English (en)
Other versions
CN113657415A (zh
Inventor
何绯娟
张新宇
陈周国
缪相林
刘荟荟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Xian Jiaotong University City College
Original Assignee
CETC 30 Research Institute
Xian Jiaotong University City College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute, Xian Jiaotong University City College filed Critical CETC 30 Research Institute
Priority to CN202111224290.4A priority Critical patent/CN113657415B/zh
Publication of CN113657415A publication Critical patent/CN113657415A/zh
Application granted granted Critical
Publication of CN113657415B publication Critical patent/CN113657415B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向示意图的对象检测方法,属于数据识别技术领域,包括:根据示意图生成若干个超像素区域,依据超像素区域中聚类中心点构造度量标准并更新聚类中心点;超像素划分为
Figure 965695DEST_PATH_IMAGE002
块矩形并经最大值池化处理,得到
Figure 17965DEST_PATH_IMAGE002
的特征图并根据其得到编码信息;随机选聚类中心点,利用编码信息、位置信息与聚类中心点的相似度得到编码信息和位置信息形成的聚类簇;将同一聚类簇的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;将同一聚类簇的大超像素块的位置信息进行排序;将待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。本发明对示意图的识别更加准确。

Description

一种面向示意图的对象检测方法
技术领域
本发明属于计算机视觉和数据识别技术领域,具体属于一种面向示意图的对象检测方法。
背景技术
示意图是一种高度抽象的知识载体,通常由点、线、矩形等几何形状或简笔画构成,用于刻画事物的结构、原理或机制。示意图广泛分布在MOOC网站、教学课件、技术文档等各类知识资源中;对这类特殊图像的分析与理解是跨媒体知识融合、智能答疑等知识密集型任务的重要基础,也是跨媒体智能的重要组成部分。
示意图中的对象检测是示意图理解的基础。但已有的对象检测方法主要针对自然图像,无法适用示意图。主要原因在于两者具有迥异的视觉特性:一是示意图的视觉信息稀疏,示意图在SIFT、SURF、FAST特征点的数量明显少于相同尺寸的自然图像;二是示意图存在“同形不同义、同义不同形”现象,即视觉上相同或相似的示意图可能表达不同语义,而视觉上差异较大的示意图也可能表达相同语义。传统的对象检测方法未考虑上述特性,因此导致传统的对象检测方法不能准确识别示意图,影响技术人员对技术的推理。
发明内容
为了解决现有技术中存在的问题,本发明提供一种面向示意图的对象检测方法,解决目前传统对象检测无法准确识别示意图的问题。
为实现上述目的,本发明提供如下技术方案:一种面向示意图的对象检测方法,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
将每个所述超像素区域划分为
Figure 267145DEST_PATH_IMAGE001
块矩形,并对所述
Figure 328642DEST_PATH_IMAGE002
块矩形进行最大值池化处理,得到规模为
Figure 81834DEST_PATH_IMAGE003
的特征图;
将所述
Figure 432044DEST_PATH_IMAGE003
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据所述均值向量和标准差向量依据重参数化技巧计算编码信息;
通过预设的编码器神经网络获得所述编码信息对应的位置信息,在所述编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将所述同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
进一步的,所述根据均值向量和标准差向量依据重参数化技巧计算完编码信息后,还包括,将所述编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
在所述形成大超像素块的特征信息和位置信息后,还包括,将所述同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将所述特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签;
在所述示意图的对象检测完成后,还包括,将所述大超像素块的对象标签和位置信息与重建示意图上特征信息和符合真实数据的位置信息进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练。
进一步的,所述模型损失的公式如下:
Figure 194464DEST_PATH_IMAGE004
式中:重建损失
Figure 844888DEST_PATH_IMAGE005
用于衡量重建图像与原图像的相似程度,精度损失
Figure 267517DEST_PATH_IMAGE006
用于约束采样编码的分布,
Figure 370602DEST_PATH_IMAGE007
表示平衡因子,
Figure 405554DEST_PATH_IMAGE008
表示从输入图像
Figure 910485DEST_PATH_IMAGE009
到编码信息
Figure 5480DEST_PATH_IMAGE010
的过程,
Figure 392599DEST_PATH_IMAGE011
表示从编码信息
Figure 231242DEST_PATH_IMAGE012
到输入图像
Figure 856258DEST_PATH_IMAGE013
的分布,
Figure 122155DEST_PATH_IMAGE014
表示编码信息
Figure 698367DEST_PATH_IMAGE015
的分布。
进一步的,所述梯度信息进行抑制的公式为:
Figure 75122DEST_PATH_IMAGE016
式中:
Figure 289066DEST_PATH_IMAGE017
表示神经网络的模型参数。
进一步的,对所述二值化后的特征信息和参数矩阵的位运算和向量内积运算的公式如下:
Figure 725863DEST_PATH_IMAGE018
式中:
Figure 290837DEST_PATH_IMAGE019
表示先经过位运算,再计算有多少个1实现的向量内积运算,
Figure 268020DEST_PATH_IMAGE020
是大超像素块的特征信息的特征编码,
Figure 867629DEST_PATH_IMAGE021
是浮点数权重,
Figure 475327DEST_PATH_IMAGE022
是参数矩阵保留的浮点数缩放因子,
Figure 262018DEST_PATH_IMAGE023
是大超像素块保留的浮点数缩放因子,
Figure 744689DEST_PATH_IMAGE024
是二值化后的特征编码,
Figure 198805DEST_PATH_IMAGE025
是二值化后的参数矩阵。
进一步的,所述依据聚类中心点构造度量标准的公式如下:
Figure 711825DEST_PATH_IMAGE026
式中:
Figure 251391DEST_PATH_IMAGE027
表示颜色距离,
Figure 508060DEST_PATH_IMAGE028
表示空间距离,
Figure 816682DEST_PATH_IMAGE029
表示类内最大空间距离,
Figure 766183DEST_PATH_IMAGE030
表示相邻聚类中心点之间近似距离;
所述根据度量标准更新所有聚类中心点的具体步骤如下:
按照度量标准
Figure 58624DEST_PATH_IMAGE031
对所有聚类中心点周围
Figure 617519DEST_PATH_IMAGE032
范围进行计算确定
Figure 46227DEST_PATH_IMAGE033
范围内所有像素点所属聚类,对
Figure 166629DEST_PATH_IMAGE034
范围所有像素点计算完成之后,根据每一超像素区域中计算结果更新所有聚类中心点。
进一步的,所述将每个超像素区域划分为
Figure 415208DEST_PATH_IMAGE035
块矩形的具体步骤如下:
将每个所述超像素区域的边界信息分别选取横纵坐标上的最大值和最小值得到
Figure 279259DEST_PATH_IMAGE036
,其中
Figure 296894DEST_PATH_IMAGE037
Figure 588198DEST_PATH_IMAGE038
;根据所得到的
Figure 324072DEST_PATH_IMAGE039
确定超像素区域所对应的矩形以及用于确定原超像素块的掩码
Figure 490349DEST_PATH_IMAGE040
在得到所述
Figure 628070DEST_PATH_IMAGE035
块矩形后,需采用双线性插值算法计算不能整除坐标上的特征信息,进而得到每块矩形区域所需位置的特征信息,接着对所述
Figure 887013DEST_PATH_IMAGE035
块矩形进行最大值池化处理,得到规模为
Figure 110184DEST_PATH_IMAGE041
的特征图。
进一步的,所述将
Figure 581616DEST_PATH_IMAGE035
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据所述均值向量和标准差向量依据重参数化技巧计算编码信息的具体计算过程如下:
将所述
Figure 573843DEST_PATH_IMAGE035
特征图通过一组全连接神经网络得到
Figure 206950DEST_PATH_IMAGE042
的特征图,
Figure 917417DEST_PATH_IMAGE043
的特征图送入预设的VGG16神经网络的前13层模型中得到
Figure 926961DEST_PATH_IMAGE044
的特征图,将
Figure 295667DEST_PATH_IMAGE045
的特征图进行平均池化处理得到512维的特征向量,再经过一组预设的全连接神经网络得到均值向量
Figure 99675DEST_PATH_IMAGE046
和标准差向量
Figure 297438DEST_PATH_IMAGE047
;根据均值向量
Figure 110673DEST_PATH_IMAGE048
和标准差向量
Figure 811913DEST_PATH_IMAGE049
以及正态分布
Figure 786822DEST_PATH_IMAGE050
中采样得到误差
Figure 206302DEST_PATH_IMAGE051
来计算编码信息
Figure 557649DEST_PATH_IMAGE052
进一步的,所述形成大超像素块的特征信息和位置信息的具体步骤如下:
在预设的编码器神经网络获取所述编码信息和编码信息对应的位置信息,在所述编码信息和位置信息中分别随机选取聚类中心点;将每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点进行计算相似度,将所述编码信息和位置信息分别分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;
多次迭代进行聚类中心点更新和编码信息以及位置信息的分配,直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
进一步的,所述保留最符合真实数据的位置信息的具体步骤如下:
所述大超像素块的位置信息所在边界框按照置信度大小进行排序,选出置信度最高的边界框
Figure 877510DEST_PATH_IMAGE053
,将其标记为保留的边界框;
计算置信度最高的边界框
Figure 288900DEST_PATH_IMAGE054
与其它边界框的
Figure 992413DEST_PATH_IMAGE055
,并删除
Figure 147451DEST_PATH_IMAGE056
大于所设定的阈值
Figure 823283DEST_PATH_IMAGE057
的边界框;
从剩下的未标记边界框中选出置信度最高的边界框
Figure 405574DEST_PATH_IMAGE058
并标记为保留的边界框,再计算置信度最高的边界框
Figure 799646DEST_PATH_IMAGE059
与其它边界框的
Figure 492796DEST_PATH_IMAGE060
,并删除
Figure 23134DEST_PATH_IMAGE061
大于所设定的阈值
Figure 9283DEST_PATH_IMAGE062
的边界框;
在剩下的未标记边界框中多次迭代直到所有边界框都被标记,将标记的边界框输出即为最符合真实数据的位置信息。
与现有技术相比,本发明至少具有以下有益效果:本发明提供了一种面向示意图的对象检测方法,通过将图像按照颜色、距离特征信息进行超像素分割,从超像素中提取特征图,利用特征图获取示意图中超像素的编码信息,并利用编码信息得到聚类簇,并将同一聚类簇中的编码信息和编码信息对应的位置进行融合,最后得到示意图上图形信息,针对了示意图中图形稀疏且不具有复杂背景信息的特点,避免了检测对象和背景信息之间的相互遮盖,提高检测速度。而且本发明还通过对同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大值抑制算法抑制示意图上检测对象周围不必要的边界框,得到了保留最符合真实数据的位置信息,来针对示意图数据稀少和神经网络的巨大时空开销问题,降低了模型对示意图数据规模的依赖,提高神经网络训练速度。本发明使用分割后的超像素区域进行训练,增强了模型对示意图图像关键局部特征信息的学习能力,使得本发明对示意图的识别更加准确。
附图说明
图1为本发明的示意图检测过程示意图;
图2为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供了一种面向示意图的对象检测方法,如图1所示,1、2、3、4、5、6元素代表示意图本身的信息,其中,6的Push和6的pop分别表示6元素进入堆栈和6元素弹出堆栈,text代表图片上检测对象为文本,Stack代表图片上检测对象为堆栈,以图1从左向右方向,第一幅图代表原始示意图,原始示意图经过图形抽取步骤,其中图像抽取步骤依次包括超像素分割、抽取特征图、重建图像和超像素融合。在经过图形抽取后得到结果图片,第二附图中多个方框代表检测出的对象,即为示意图中待检测对象的位置信息和待检测对象周围不必要的位置信息,接着第二幅图需经对象识别,其中对象识别依次包括边界框抑制、网络参数二值量化、梯度信息抑制三个阶段。第二幅图经过对象识别步骤后得到对象识别后的结果图片,对象识别后的结果图片的最外围方框表示检测边界,Stack和text为检测对象分类,对象识别后的结果图片去除了示意图中待检测对象周围不必要的位置信息,保留最符合真实数据的位置信息。
如图2所示,本发明提供的一种面向示意图的对象检测方法,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
将每个超像素区域划分为
Figure 890651DEST_PATH_IMAGE035
块矩形,并对
Figure 387491DEST_PATH_IMAGE035
块矩形进行最大值池化处理,得到规模为
Figure 37916DEST_PATH_IMAGE041
的特征图;
Figure 962009DEST_PATH_IMAGE035
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据均值向量和标准差向量依据重参数化技巧计算编码信息;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
具体的,上述步骤的详细过程如下:STEP1:图形抽取
针对示意图中图形的特征稀疏性且不具有复杂的背景信息,通过一个基于反卷积的变分图形编码器来抽取出示意图中所包含的图形及其特征信息。
STEP1.1超像素分割:本发明以尺寸为
Figure 861832DEST_PATH_IMAGE063
示意图图像 (其中
Figure 896784DEST_PATH_IMAGE064
代表宽度,
Figure 667294DEST_PATH_IMAGE065
代表高度,3表示颜色通道数量);将示意图转化为CIELAB颜色空间(又写为L*a*b*,是国际照明委员会(缩写为CIE)在1976年定义的色彩空间。它将颜色用三个值表达:“L*”代表感知的亮度、“a*”和“b*”代表人类视觉的四种独特颜色:红色、绿色、蓝色和黄色)并引入XY坐标,得到
Figure 762289DEST_PATH_IMAGE066
维特征信息;根据示意图中像素的颜色和距离特征信息生成若干个超像素区域;具体的,先预设示意图中的超像素区域个数,在超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,完成示意图的超像素分割,得到若干个超像素区域;
具体的,首先,将示意图图像从RGB色彩空间(RGB色彩空间由红绿蓝三原色的色度定义,借此可以定义出相应的色三角,生成其它颜色)的3维特征信息
Figure 851206DEST_PATH_IMAGE067
转化为CIELAB颜色空间(又写为L*a*b*,是国际照明委员会(缩写为CIE)在1976年定义的色彩空间。它将颜色用三个值表达:“L*”代表感知的亮度、“a*”和“b*”代表人类视觉的四种独特颜色:红色、绿色、蓝色和黄色)并引入XY坐标,得到
Figure 424269DEST_PATH_IMAGE068
维特征信息
Figure 49286DEST_PATH_IMAGE069
,其中
Figure 315182DEST_PATH_IMAGE070
表示图像上第
Figure 392860DEST_PATH_IMAGE071
个像素点。接着使用简单线性迭代聚类SLIC(simple lineariterative clustering)算法根据示意图中像素的颜色距离和空间距离生成紧凑近似均匀的超像素区域,SLIC算法需要设置的参数非常少,一般只需要设置一个预分割的超像素的数量,而且可以生成如同细胞一般紧凑整齐、邻域特征比较容易表达的超像素。
具体的,设定超像素区域的个数为
Figure 769614DEST_PATH_IMAGE072
,在超像素区域内均匀分配聚类中心点可以得到每块超像素的大小为
Figure 514716DEST_PATH_IMAGE073
且相邻聚类中心点之间近似距离为
Figure 685935DEST_PATH_IMAGE074
满足公式(1)。
Figure 749443DEST_PATH_IMAGE075
然后,将所有聚类中心点i转移到附近n×n的区域中梯度值最小的点(n=3),附近的像素点相对于聚类中心点,按照颜色、空间距离等标准构造度量标准D 如公式(2)所示。
Figure 929889DEST_PATH_IMAGE076
其中,
Figure 263918DEST_PATH_IMAGE077
表示颜色距离,如公式(3)所示,
Figure 871617DEST_PATH_IMAGE078
表示空间距离如公式(4)所示,
Figure 923887DEST_PATH_IMAGE079
表示类内最大空间距离(取值为10),
Figure 908023DEST_PATH_IMAGE080
表示相邻聚类中心点之间近似距离。
Figure 96559DEST_PATH_IMAGE081
Figure 671897DEST_PATH_IMAGE082
其中i表示每个聚类簇中的聚类中心点,j表示聚类中心点周围
Figure 211463DEST_PATH_IMAGE083
范围中的其他点。
最后按照度量标D 对所有聚类中心点周围
Figure 232246DEST_PATH_IMAGE084
范围进行计算确定
Figure 540868DEST_PATH_IMAGE084
范围内所有像素点所属聚类,对
Figure 490369DEST_PATH_IMAGE084
范围所有像素点计算完成之后,根据每一超像素区域中计算结果更新所有聚类中心点,再不断进行迭代直到不再变化。完成示意图的超像素分割,得到若干个超像素区域。
STEP1.2抽取特征图:将每个超像素区域划分为
Figure 517231DEST_PATH_IMAGE085
块矩形,通过双线性插值算法得到
Figure 577591DEST_PATH_IMAGE086
块矩形中每块矩形所需位置的特征信息,对
Figure 740719DEST_PATH_IMAGE086
块矩形进行最大值池化操作,得到规模为
Figure 126701DEST_PATH_IMAGE086
的特征图;其中本发明利用ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)算法对每一块超像素提取相同尺寸的特征信息,避免了取整操作,保存了原始ROI的空间分布,有效避免了误差的产生。
具体的,由于ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)只能对矩形区域进行操作,首先需要将每块超像素处理为矩形区域;
根据每块超像素的边界信息分别选取横纵坐标上的最大值和最小值得到
Figure 375280DEST_PATH_IMAGE087
,其中
Figure 737866DEST_PATH_IMAGE088
Figure 755500DEST_PATH_IMAGE089
;接下来根据所得到的
Figure 46804DEST_PATH_IMAGE090
确定超像素块所对应的矩形以及用于确定原超像素块的掩码
Figure 782679DEST_PATH_IMAGE091
,满足公式(5)。
Figure 450421DEST_PATH_IMAGE092
其中
Figure 384879DEST_PATH_IMAGE093
表示超像素块,
Figure 847084DEST_PATH_IMAGE094
表示超像素块生成的矩形,
Figure 70255DEST_PATH_IMAGE095
表示点乘运算。之后将所得到的矩形均匀划分为
Figure 276109DEST_PATH_IMAGE096
块矩形,由于
Figure 501291DEST_PATH_IMAGE097
Figure 399977DEST_PATH_IMAGE098
所得到结果有可能不为整数,需采用双线性插值算法计算不能整除坐标上的特征信息,进而可以得到每块矩形区域所需位置的特征信息,计算方法如公式(6)所示。最后,对所划分的
Figure 110444DEST_PATH_IMAGE099
块矩形中分别进行最大值池化处理,得到一组规模为
Figure 854409DEST_PATH_IMAGE100
的特征图。
Figure 966722DEST_PATH_IMAGE101
Figure 770730DEST_PATH_IMAGE102
Figure 765230DEST_PATH_IMAGE103
其中,P表示均匀划分后不能整除的网格点记为
Figure 312886DEST_PATH_IMAGE104
Figure 279705DEST_PATH_IMAGE105
分别表示矩形区域左下、右下、左上、右上四个点的坐标,依次记为
Figure 18729DEST_PATH_IMAGE106
Figure 438209DEST_PATH_IMAGE107
Figure 789556DEST_PATH_IMAGE108
Figure 610882DEST_PATH_IMAGE109
Figure 22271DEST_PATH_IMAGE110
Figure 663468DEST_PATH_IMAGE111
分别记为
Figure 552927DEST_PATH_IMAGE112
Figure 494338DEST_PATH_IMAGE113
至此,通过公式(5)以及ROI(Region of Interest) Align(使用双线性插值算法得到精确度高的特征图)提取得到一组规模为
Figure 575164DEST_PATH_IMAGE114
的特征图。最后将所得到的
Figure 969236DEST_PATH_IMAGE115
特征图通过一组全连接神经网络得到
Figure 662386DEST_PATH_IMAGE116
的特征图作为下一步输入。
STEP1.3重建图像:将
Figure 192724DEST_PATH_IMAGE114
的特征图输入预设的全连接神经网络和以VGG16模型为基础的编码器神经网络得到均值向量和标准差向量,根据均值向量和标准差向量采用reparametrisation trick(重参数化技巧)计算编码信息;同时将编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
具体的,将STEP1.2得到的规模为
Figure 742654DEST_PATH_IMAGE117
的特征图先送入VGG16神经网络的前13层模型中得到
Figure 624023DEST_PATH_IMAGE118
的特征图,再进行平均池化处理可以得到512维的特征向量,再经过一组全连接神经网络可以得到均值向量
Figure 120863DEST_PATH_IMAGE119
和标准差向量
Figure 771287DEST_PATH_IMAGE120
两组向量,用于增强编码器的泛化性能;从正态分布
Figure 164223DEST_PATH_IMAGE121
中采样得到误差
Figure 31422DEST_PATH_IMAGE123
来计算由超像素得到的编码信息z,计算方法如公式(9)所示。
Figure 66374DEST_PATH_IMAGE124
其次,将编码信息Z输入到一组全连接神经网络得到784维的特征信息,再将其变成
Figure 836884DEST_PATH_IMAGE125
的特征图,再送入卷积核尺度为
Figure 666300DEST_PATH_IMAGE126
、步长为
Figure 522260DEST_PATH_IMAGE127
的反卷积神经网络迭代5次,用于重建相同尺寸的图像信息。
STEP1.4超像素融合:通过预设的编码器神经网络获取编码信息和编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;将每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点进行计算相似度,将编码信息和位置信息分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;多次迭代进行聚类中心点更新和信息的分配直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
具体的,首先,根据基于反卷积的变分图形编码器(Deconvolution basedVariation Diagram Encoder)中编码器可以得到每块超像素对应的编码信息
Figure 157641DEST_PATH_IMAGE128
。其次,本发明引入k均值聚类(k-Means Clustering)算法来实现相邻超像素块间的融合操作得到更大的超像素块,k-Means Clustering算法同样一般也只需要设置一个聚类簇数量,而且根据编码信息和位置信息进行融合形成大超像素块,不仅具有收敛速度快、可解释性强的优点,而且避免了将特征相似但位置较远的目标进行融合。
随机选取
Figure 517078DEST_PATH_IMAGE129
块超像素作为初始的聚类中心,表示为
Figure 782975DEST_PATH_IMAGE130
,每块超像素
Figure 860652DEST_PATH_IMAGE131
均对应一组编码信息
Figure 1521DEST_PATH_IMAGE132
和一组位置信息
Figure 481044DEST_PATH_IMAGE133
。之后针对每组编码信息样本
Figure 652262DEST_PATH_IMAGE134
和与之对应的位置信息
Figure 217236DEST_PATH_IMAGE135
计算到
Figure 397681DEST_PATH_IMAGE136
个聚类中心的距离
Figure 731711DEST_PATH_IMAGE137
并将其划分到距离最小的聚类中心所对应的类别中,计算方法如公式(10)。
Figure 136147DEST_PATH_IMAGE138
其中,
Figure 188417DEST_PATH_IMAGE139
用于衡量超像素编码之间的相似性,
Figure 906974DEST_PATH_IMAGE140
用于衡量超像素位置信息之间的相近性,
Figure 859625DEST_PATH_IMAGE141
表示用于调节不同距离重要程度。
接下来针对每组聚类簇,重新计算聚类簇的聚类中心
Figure 638225DEST_PATH_IMAGE142
的编码信息(如公式(11))和位置信息(如公式(12)),用于表示新的聚类簇。
Figure 177790DEST_PATH_IMAGE143
Figure 700039DEST_PATH_IMAGE144
其中,
Figure 743081DEST_PATH_IMAGE145
表示以
Figure 692582DEST_PATH_IMAGE146
为聚类中心的聚类簇,
Figure 453865DEST_PATH_IMAGE147
表示聚类簇
Figure 779804DEST_PATH_IMAGE148
中拥有编码信息的数量。
最后,将上述过程多次迭代,直到所有聚类中心不再发生变化为止;根据聚类簇中结果信息,将同一聚类簇中超像素块进行融合,得到示意图中大超像素块的特征信息和位置信息;在此基础上,可以得到检测边框中示意图对象的特征编码
Figure 441467DEST_PATH_IMAGE149
STEP2:对象识别
得到示意图中各个图形的特征编码
Figure 358608DEST_PATH_IMAGE150
后,采用一个基于网络参数量化的深度残差网络来识别示意图中存在的对象类别。所提模型通过对网络参数进行二值量化,减少了网络的计算量和参数的存储量,并缓解了由示意图训练数据数量不足的问题。
STEP2.1边界框抑制:将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息。
具体的,由于在待检测对象附近往往会同时生成多个边界框,需要选择其中最准确的边界框作为最后的检测结果。因此先按照置信度大小对多个大超像素块的位置信息所在的边界框进行排序,选出其中置信度最高的边界框
Figure 872766DEST_PATH_IMAGE151
,将其标记为保留的边界框。
其次计算置信度最高的边界框
Figure 736817DEST_PATH_IMAGE152
与其它候选框的
Figure 754451DEST_PATH_IMAGE153
,并删除
Figure 311334DEST_PATH_IMAGE154
大于所设定的阈值
Figure 47209DEST_PATH_IMAGE155
的边界框,计算方法如公式(13)所示。
Figure 714951DEST_PATH_IMAGE156
其中AB分别表示边界框
Figure 321513DEST_PATH_IMAGE152
与其它候选框,
Figure 547833DEST_PATH_IMAGE157
Figure 771004DEST_PATH_IMAGE158
分别表示相交部分的面积和相并部分的面积。
接下来再从剩下的未标记边界框中选出置信度最高的边界框
Figure 976857DEST_PATH_IMAGE159
,将其标记为保留的边界框。之后按照再计算置信度最高的边界框
Figure 765821DEST_PATH_IMAGE160
与其它边界框的
Figure 664507DEST_PATH_IMAGE161
,并删除
Figure 109395DEST_PATH_IMAGE161
大于所设定的阈值
Figure 118939DEST_PATH_IMAGE162
的边界框。
最后在剩下的未标记边界框中多次迭代直到所有边界框都被标记,将标记的边界框输出即为最符合真实数据的位置信息,即检测对象的边界信息。
STEP2.2 网络参数二值量化:在得到大超像素块的特征信息和位置信息后,将同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签。
具体的,残差神经网络共有K层,其中第k层的权值参数矩阵为
Figure 231252DEST_PATH_IMAGE163
,其中
Figure 35260DEST_PATH_IMAGE164
为卷积核边长,
Figure 465979DEST_PATH_IMAGE165
为通道数。每次神经网络进行传播时都需要进行如公式(14)的乘法操作。
Figure 13635DEST_PATH_IMAGE166
其中
Figure 980454DEST_PATH_IMAGE167
表示非线性激活函数。
为了降低资源开销和时间开销,使用符号函数对网络参数进行量化,计算方法如公式(15)所示。
Figure 955363DEST_PATH_IMAGE168
通过将权重
Figure 640422DEST_PATH_IMAGE169
二值化为
Figure 991769DEST_PATH_IMAGE170
并保留一个浮点数缩放因子可以将降低后续计算开销。浮点数缩放因子
Figure 813095DEST_PATH_IMAGE171
的计算过程如公式(16)所示。
Figure 224485DEST_PATH_IMAGE172
其中,
Figure 927998DEST_PATH_IMAGE173
是浮点数权重,
Figure 339430DEST_PATH_IMAGE174
是取值仅为+1或-1的二值权重矩阵。
同理对
Figure 280841DEST_PATH_IMAGE175
进行相同操作将
Figure 597553DEST_PATH_IMAGE176
二值化为
Figure 991625DEST_PATH_IMAGE177
并保留一个浮点数缩放因子
Figure 684774DEST_PATH_IMAGE178
此时残差神经网络中卷积操作就可以按照公式(17)进行计算,将点乘运算改为位运算和向量内积运算,降低了时间开销和资源开销。
Figure 215113DEST_PATH_IMAGE179
其中,
Figure 233884DEST_PATH_IMAGE180
表示先经过位运算 XNOR (异或非门),再经过 BitCount (计算有多少个1)实现的向量内积运算得到超像素块的对象标签。
STEP2.3梯度信息抑制:在示意图的对象检测完成后,将大超像素块的对象标签和位置信息与示意图上特征信息和位置信息的真实数据进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练,其中通过梯度信息算法抑制神经网络训练传递过程中的过大和过小梯度信息避免“梯度爆炸”和“梯度消失”现象。
具体的,基于重建的示意图与超像素块计算损失
Figure 115253DEST_PATH_IMAGE181
;根据重建图像与输入图像计算损失
Figure 845049DEST_PATH_IMAGE182
用于指导模型进一步训练,计算方法如公式(18);
Figure 495473DEST_PATH_IMAGE183
其中,重建损失
Figure 419567DEST_PATH_IMAGE184
用于衡量重建图像与原图像的相似程度,精度损失
Figure 991494DEST_PATH_IMAGE185
用于约束采样编码的分布,
Figure 823184DEST_PATH_IMAGE186
表示平衡因子,
Figure 531377DEST_PATH_IMAGE187
表示从输入图像x到编码信息z的过程,
Figure 423109DEST_PATH_IMAGE188
表示从编码信息z到输入图像x的分布,
Figure 980867DEST_PATH_IMAGE189
表示编码信息z的分布。
在本实施例中,考虑到神经网络的训练过程中,由于网络是多层非线性函数的堆砌,整个深度网络可以视为是一个复合的非线性多元函数,对损失函数求不同层的权值偏导,相当于应用梯度下降的链式法则,链式法则是一个连乘的形式,所以当层数越深的时候,梯度将以指数传播。如果接近输出层的激活函数求导后梯度值大1,那么层数增多的时候,最终求出的梯度很容易指数级增长,就会产生梯度爆炸;相反,如果小于1,那么经过链式法则的连乘形式,也会很容易衰减至0,就会产生梯度消失。
为避免梯度爆炸和梯度消失两种现象,在网络训练过程中,保留绝对值较小参数的梯度而抑制绝对值较大参数的梯度,通过梯度抑制避免由于数据集规模较小且图像上特征较为集中导致的梯度爆炸和梯度消失,保证了训练过程的正常进行。梯度公式
Figure 22773DEST_PATH_IMAGE190
可用如公式(19)表示。
Figure 647789DEST_PATH_IMAGE191
本发明通过将传统机器学习算法、计算机视觉算法与神经网络模型相结合,仅需要调节少量参数的同时减少了整体模型对示意图数据样本规模的要求,通过少量样本可以迅速高效地完成示意图上目标检测任务。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于示意图的对象检测的操作,包括:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
将每个超像素区域划分为
Figure 320210DEST_PATH_IMAGE035
块矩形,并对
Figure 896422DEST_PATH_IMAGE035
块矩形进行最大值池化处理,得到规模为
Figure 538756DEST_PATH_IMAGE041
的特征图;
Figure 283858DEST_PATH_IMAGE035
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据均值向量和标准差向量依据重参数化技巧计算编码信息;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关示意图的对象检测的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
将每个超像素区域划分为
Figure 861601DEST_PATH_IMAGE002
块矩形,并对
Figure 426575DEST_PATH_IMAGE002
块矩形进行最大值池化处理,得到规模为
Figure 308818DEST_PATH_IMAGE192
的特征图;
Figure 908427DEST_PATH_IMAGE003
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据均值向量和标准差向量依据重参数化技巧计算编码信息;
通过预设的编码器神经网络获得编码信息对应的位置信息,在编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法抑制将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (10)

1.一种面向示意图的对象检测方法,其特征在于,包括以下步骤:
预设示意图中的超像素区域,在预设的超像素区域中均匀分配聚类中心点,依据聚类中心点构造度量标准,根据度量标准更新所有聚类中心点,得到若干个超像素区域;
将每个所述超像素区域划分为
Figure 215327DEST_PATH_IMAGE001
块矩形,并对所述
Figure 429271DEST_PATH_IMAGE001
块矩形进行最大值池化处 理,得到规模为
Figure 662806DEST_PATH_IMAGE002
的特征图;
将所述
Figure 211468DEST_PATH_IMAGE004
的特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标 准差向量,根据所述均值向量和标准差向量依据重参数化技巧计算编码信息;
通过预设的编码器神经网络获得所述编码信息对应的位置信息,在所述编码信息和编码信息对应的位置信息中分别随机选取聚类中心点;利用每一编码信息和位置信息与所有聚类中心点的相似度得到所有编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息;
将所述同一聚类簇中所形成的大超像素块的位置信息按照置信度进行排序;通过非极大抑制算法将示意图中待检测对象周围不必要的位置信息进行去除,保留最符合真实数据的位置信息;完成示意图的对象检测。
2.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述根据均值向量和标准差向量依据重参数化技巧计算完编码信息后,还包括,将所述编码信息输入基于反卷积模型的解码器神经网络重建示意图的特征信息;
在所述形成大超像素块的特征信息和位置信息后,还包括,将所述同一聚类簇中所形成的大超像素块的特征信息输入二值量化残差神经网络,将所述特征信息和残差神经网络中参数矩阵进行二值化并保留一个浮点数缩放因子;通过对二值化后的特征信息和参数矩阵的位运算和向量内积运算得到超像素块的对象标签;
在所述示意图的对象检测完成后,还包括,将所述大超像素块的对象标签和位置信息与重建示意图上特征信息和符合真实数据的位置信息进行计算得到模型损失,并根据模型损失计算梯度信息;对梯度信息进行抑制后利用反向传播算法将梯度信息传递来指导上述所有步骤中的神经网络进行训练。
3.根据权利要求2所述的一种面向示意图的对象检测方法,其特征在于,所述模型损失的公式如下:
Figure 188651DEST_PATH_IMAGE005
式中:重建损失
Figure 257101DEST_PATH_IMAGE006
用于衡量重建图像与原图像的相似程度,精度损失
Figure 661538DEST_PATH_IMAGE007
用于约束采样编码的分布,
Figure 448228DEST_PATH_IMAGE008
表示平衡因子,
Figure 963523DEST_PATH_IMAGE009
表示从输入图像
Figure 152059DEST_PATH_IMAGE010
到编码 信息
Figure 727397DEST_PATH_IMAGE011
的过程,
Figure 250651DEST_PATH_IMAGE012
表示从编码信息
Figure 569637DEST_PATH_IMAGE013
到输入图像
Figure 612679DEST_PATH_IMAGE015
的分布,
Figure 358919DEST_PATH_IMAGE016
表示编码信息
Figure 854622DEST_PATH_IMAGE018
的分布。
4.根据权利要求2所述的一种面向示意图的对象检测方法,其特征在于,所述梯度信息进行抑制的公式为:
Figure 977299DEST_PATH_IMAGE019
式中:
Figure 874848DEST_PATH_IMAGE020
表示神经网络的模型参数。
5.根据权利要求2所述的一种面向示意图的对象检测方法,其特征在于,对所述二值化后的特征信息和参数矩阵的位运算和向量内积运算的公式如下:
Figure 526409DEST_PATH_IMAGE021
式中:
Figure 837304DEST_PATH_IMAGE023
表示先经过位运算,再计算有多少个1实现的向量内积运算,
Figure 944763DEST_PATH_IMAGE024
是大超像素块的 特征信息的特征编码,
Figure 493556DEST_PATH_IMAGE025
是浮点数权重,
Figure 784860DEST_PATH_IMAGE026
是参数矩阵保留的浮点数缩放因子,
Figure 317473DEST_PATH_IMAGE028
是大超像素 块保留的浮点数缩放因子,
Figure 719635DEST_PATH_IMAGE029
是二值化后的特征编码,
Figure 388514DEST_PATH_IMAGE030
是二值化后的参数矩阵。
6.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述依据聚类中心点构造度量标准的公式如下:
Figure 850720DEST_PATH_IMAGE031
式中:
Figure 870628DEST_PATH_IMAGE032
表示颜色距离,
Figure 60170DEST_PATH_IMAGE033
表示空间距离,
Figure 849134DEST_PATH_IMAGE034
表示类内最大空间距离,
Figure 482241DEST_PATH_IMAGE035
表示相邻聚类中 心点之间近似距离;
所述根据度量标准更新所有聚类中心点的具体步骤如下:
按照度量标准
Figure 723867DEST_PATH_IMAGE036
对所有聚类中心点周围
Figure 467832DEST_PATH_IMAGE037
范围进行计算确定
Figure 376882DEST_PATH_IMAGE037
范围内所有像 素点所属聚类,对
Figure 915311DEST_PATH_IMAGE037
范围所有像素点计算完成之后,根据每一超像素区域中计算结果更 新所有聚类中心点。
7.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述将每个超 像素区域划分为
Figure 909811DEST_PATH_IMAGE038
块矩形的具体步骤如下:
将每个所述超像素区域的边界信息分别选取横纵坐标上的最大值和最小值得到
Figure 441156DEST_PATH_IMAGE039
,其中
Figure 939133DEST_PATH_IMAGE040
Figure 710780DEST_PATH_IMAGE041
;根据所得到的
Figure 130260DEST_PATH_IMAGE042
确定超像素区域 所对应的矩形以及用于确定原超像素块的掩码
Figure 278345DEST_PATH_IMAGE043
在得到所述
Figure 834091DEST_PATH_IMAGE044
块矩形后,需采用双线性插值算法计算不能整除坐标上的特征信息, 进而得到每块矩形区域所需位置的特征信息,接着对所述
Figure 42218DEST_PATH_IMAGE044
块矩形进行最大值池化处 理,得到规模为
Figure 683415DEST_PATH_IMAGE044
的特征图。
8.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述将
Figure 369612DEST_PATH_IMAGE044
的 特征图输入预设的全连接神经网络和编码器神经网络得到均值向量和标准差向量,根据所 述均值向量和标准差向量依据重参数化技巧计算编码信息的具体计算过程如下:
将所述
Figure 294711DEST_PATH_IMAGE044
特征图通过一组全连接神经网络得到
Figure 408161DEST_PATH_IMAGE045
的特征图,
Figure 536654DEST_PATH_IMAGE045
的 特征图送入预设的VGG16神经网络的前13层模型中得到
Figure 26541DEST_PATH_IMAGE046
的特征图,将
Figure 556879DEST_PATH_IMAGE047
的特 征图进行平均池化处理得到512维的特征向量,再经过一组预设的全连接神经网络得到均 值向量
Figure 841230DEST_PATH_IMAGE048
和标准差向量
Figure 519336DEST_PATH_IMAGE049
;根据均值向量
Figure 485018DEST_PATH_IMAGE048
和标准差向量
Figure 932180DEST_PATH_IMAGE049
以及正态分布
Figure 839962DEST_PATH_IMAGE050
中采样得到的 误差
Figure 5364DEST_PATH_IMAGE051
来计算编码信息
Figure 774737DEST_PATH_IMAGE052
9.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述形成大超像素块的特征信息和位置信息的具体步骤如下:
在预设的编码器神经网络获取所述编码信息和编码信息对应的位置信息,在所述编码信息和位置信息中分别随机选取聚类中心点;使用每一编码信息和与编码信息对应的位置信息分别对所有聚类中心点计算相似度,将所述编码信息和位置信息分别分配到与编码信息和位置信息相似度最高的聚类中心点所形成的聚类簇中,完成对编码信息和位置信息的分配;在形成的聚类簇中根据编码信息和位置信息进行聚类中心点的更新;
多次迭代进行聚类中心点更新和编码信息以及位置信息的分配,直到聚类中心点不再改变,得到编码信息和位置信息所形成的聚类簇;将同一聚类簇中的编码信息和位置信息分别进行融合形成大超像素块的特征信息和位置信息。
10.根据权利要求1所述的一种面向示意图的对象检测方法,其特征在于,所述保留最符合真实数据的位置信息的具体步骤如下:
所述大超像素块的位置信息所在边界框按照置信度大小进行排序,选出置信度最高的 边界框
Figure 76405DEST_PATH_IMAGE053
,将其标记为保留的边界框;
计算置信度最高的边界框
Figure 905821DEST_PATH_IMAGE054
与其它边界框的
Figure 558519DEST_PATH_IMAGE055
,并删除
Figure 866004DEST_PATH_IMAGE055
大于所设定的阈值
Figure 287758DEST_PATH_IMAGE056
的边界框;
从剩下的未标记边界框中选出置信度最高的边界框
Figure 537342DEST_PATH_IMAGE058
并标记为保留的边界框,再计 算置信度最高的边界框
Figure 411758DEST_PATH_IMAGE058
与其它边界框的
Figure 788512DEST_PATH_IMAGE059
,并删除
Figure 64773DEST_PATH_IMAGE060
大于所设定的阈值
Figure 235991DEST_PATH_IMAGE056
的边 界框;
在剩下的未标记边界框中多次迭代直到所有边界框都被标记,将标记的边界框输出即为最符合真实数据的位置信息。
CN202111224290.4A 2021-10-21 2021-10-21 一种面向示意图的对象检测方法 Expired - Fee Related CN113657415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111224290.4A CN113657415B (zh) 2021-10-21 2021-10-21 一种面向示意图的对象检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111224290.4A CN113657415B (zh) 2021-10-21 2021-10-21 一种面向示意图的对象检测方法

Publications (2)

Publication Number Publication Date
CN113657415A CN113657415A (zh) 2021-11-16
CN113657415B true CN113657415B (zh) 2022-01-25

Family

ID=78484357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111224290.4A Expired - Fee Related CN113657415B (zh) 2021-10-21 2021-10-21 一种面向示意图的对象检测方法

Country Status (1)

Country Link
CN (1) CN113657415B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781604B (zh) * 2022-04-13 2024-02-20 广州安凯微电子股份有限公司 神经网络权重参数的编码方法、编码器及神经网络处理器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996488B (zh) * 2010-11-04 2013-05-22 上海美慧软件有限公司 一种适合交通信息表达的示意图绘制方法
US9013536B2 (en) * 2013-03-13 2015-04-21 Futurewei Technologies, Inc. Augmented video calls on mobile devices
DE102013108104B4 (de) * 2013-07-29 2019-10-17 Windmöller & Hölscher Kg Verfahren und Kontrollvorrichtung für die Kontrolle einer Wickelvorrichtung
KR102279026B1 (ko) * 2014-11-07 2021-07-19 삼성전자주식회사 적어도 하나의 객체를 포함하는 영상에서 객체를 추출하여 보정한 영상을 제공하는 장치 및 방법
CN105426914B (zh) * 2015-11-19 2019-03-15 中国人民解放军信息工程大学 一种面向位置识别的图像相似度检测方法
CN106296695B (zh) * 2016-08-12 2019-05-24 西安理工大学 基于显著性的自适应阈值自然目标图像分割抽取算法
CN106331491A (zh) * 2016-08-29 2017-01-11 广东欧珀移动通信有限公司 一种拍照方法及装置
CN107392925B (zh) * 2017-08-01 2020-07-07 西安电子科技大学 基于超像素编码和卷积神经网络的遥感影像地物分类方法
US11468550B2 (en) * 2019-07-22 2022-10-11 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
CN110634142B (zh) * 2019-08-20 2024-02-02 长安大学 一种复杂车路图像边界优化方法
CN110689028A (zh) * 2019-10-09 2020-01-14 中国人民公安大学 现场图测评方法、现场勘查记录测评方法及其装置
CN112819006B (zh) * 2020-12-31 2023-12-22 北京声智科技有限公司 图像处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN113657415A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN116258719B (zh) 基于多模态数据融合的浮选泡沫图像分割方法和装置
CN111986125B (zh) 一种用于多目标任务实例分割的方法
CN109919013A (zh) 视频图像中基于深度学习的人脸检测方法及装置
CN111695633B (zh) 基于rpf-cam的低照度目标检测方法
CN109949255A (zh) 图像重建方法及设备
Ghorai et al. Multiple pyramids based image inpainting using local patch statistics and steering kernel feature
CN106296695A (zh) 基于显著性的自适应阈值自然目标图像分割抽取算法
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN108829711B (zh) 一种基于多特征融合的图像检索方法
CA3137297C (en) Adaptive convolutions in neural networks
Liu et al. SAR image segmentation based on hierarchical visual semantic and adaptive neighborhood multinomial latent model
CN113436220B (zh) 一种基于深度图分割的图像背景估计方法
CN113822794A (zh) 一种图像风格转换方法、装置、计算机设备和存储介质
CN111178312B (zh) 基于多任务特征学习网络的人脸表情识别方法
CN112884758A (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN113657415B (zh) 一种面向示意图的对象检测方法
CN112257496A (zh) 一种基于深度学习的输电通道周围环境分类方法及系统
WO2022127865A1 (zh) 视频处理方法、装置、电子设备及存储介质
CN117934524A (zh) 建筑物轮廓提取方法及装置
CN117078556A (zh) 一种水域自适应水下图像增强方法
CN114898417A (zh) 一种基于协调注意力深度神经网络的菊头蝠识别方法
CN117957577A (zh) 用于神经渲染的多核系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220125