CN111914774A - 基于稀疏卷积神经网络的3d物体检测方法及装置 - Google Patents
基于稀疏卷积神经网络的3d物体检测方法及装置 Download PDFInfo
- Publication number
- CN111914774A CN111914774A CN202010786993.5A CN202010786993A CN111914774A CN 111914774 A CN111914774 A CN 111914774A CN 202010786993 A CN202010786993 A CN 202010786993A CN 111914774 A CN111914774 A CN 111914774A
- Authority
- CN
- China
- Prior art keywords
- feature map
- network
- sub
- sparse
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 158
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 56
- 238000010586 diagram Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims description 58
- 238000010606 normalization Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 30
- 239000000126 substance Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 20
- 238000001994 activation Methods 0.000 description 48
- 230000004913 activation Effects 0.000 description 47
- 230000006870 function Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000007689 inspection Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种基于稀疏卷积神经网络的3D物体检测方法及装置,所述稀疏卷积神经网络包括预处理子网络、稀疏卷积子网络及检测子网络,所述方法包括:通过预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,待检测的3D图像是通过X射线对待检测的物体进行重建得到的;通过稀疏卷积子网络,对第一特征图进行特征提取,得到第二特征图;通过检测子网络,对第二特征图进行检测,得到3D图像的物体检测结果,物体检测结果包括物体的边界信息、物体的类别及物体置信度。本公开的实施例可实现端到端的3D图像的物体检测,不仅可节省计算资源,简化检测流程,还可提高3D物体检测的速度及准确性。
Description
本申请要求在2020年5月7日提交中国专利局、申请号为202010378865.7、申请名称为“基于稀疏卷积神经网络的3D物体检测方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本公开涉及人工智能领域,尤其涉及一种基于稀疏卷积神经网络的3D物体检测方法及装置。
背景技术
在机场、地铁等场景中,通常需要对箱包等物品进行安检,安检设备通常会生成类似于RGB(Red Green Blue,红绿蓝)图片的伪彩色箱包图片,以供安检员进行危险品的检查。安检的自动化可以帮助加快安检的流程,避免安检的错误,减少安检的人力,因此具有重要意义。
现有的新型安检设备已经能够快速重建出分辨率较高的3D(3-Dimensional,三维)箱包图像(一种伪彩色的显示如图1所示),而3D图像虽然提供了更多的视觉信息,但是不仅可视化困难,而且即使可视化成功也需要操作员的额外操作,反而减缓了安检流程的速度。
目前,实现3D图像上的物体检测主要有两种方法。一种方法是通过拓展2D卷积为3D卷积,将现有2D检测模型直接改造成3D检测模型,并在已有的3D数据集上进行训练,但由于3D数据立方级的增长量,直接迁移2D检测模型面临着计算资源不足的困难,例如GPU(Graphics Processing Unit,图形处理器)的显存、计算时间都不能够满足实际场景的需求。另一种方法是将3D图像通过多视角投影转化为多个视角下的2D图片,在多个视角的2D图片上进行检测,再利用反投影操作得到最终的3D检测结果,但该方法忽略了数据中内在的三维结构,且具有过于复杂的处理流程,此外,人为选择的有限的视角导致特定方向上物体位置坐标的估计非常不准确。
发明内容
有鉴于此,本公开提出了一种基于稀疏卷积神经网络的3D物体检测技术方案,可实现直接利用原始X射线重建的3D箱包图像作为输入进行端到端的物体检测,提高物体检测的速度及准确性。
根据本公开的一方面,提供了一种基于稀疏卷积神经网络的3D物体检测方法,所述稀疏卷积神经网络包括预处理子网络、稀疏卷积子网络及检测子网络,所述方法包括:
通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的;
通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图;
通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
在一种可能的实现方式中,所述通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,包括:
对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;
对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;
通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图。
在一种可能的实现方式中,所述通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,包括:
根据预设的锚框的种类数及预设的物体的类别数,通过所述检测子网络,对所述第二特征图进行特征提取,得到第五特征图,所述第五特征图为稠密存储格式,所述第五特征图中的每个空间点对应多个锚框,每个锚框与变换参数、物体置信度及物体属于各个类别的概率相对应;
根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果。
在一种可能的实现方式中,所述根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果,包括:
对于任一锚框,根据与所述锚框对应的变换参数,对所述锚框进行变换,得到与所述锚框对应的检测框;
根据与所述锚框对应的物体置信度,确定与所述检测框对应的物体分值;
在所述物体分值大于或等于预设的分值阈值的情况下,根据所述检测框,确定检测到的物体的边界信息;
根据与所述锚框对应的物体置信度及物体属于各个类别的概率,确定检测到的物体置信度及及物体的类别。
在一种可能的实现方式中,所述稀疏卷积子网络包括第一卷积子网络及第二卷积子网络,所述第二卷积子网络为U型网络,
所述通过稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图,包括:
通过所述第一卷积子网络,对所述第一特征图进行残差稀疏卷积,得到第六特征图;
通过所述第二卷积子网络,对所述第六特征图进行特征提取,得到第二特征图。
在一种可能的实现方式中,所述第四特征图为稀疏存储格式,所述稀疏存储的空间坐标与通道特征相分离。
根据本公开的另一方面,提供了一种基于稀疏卷积神经网络的3D物体检测装置,所述稀疏卷积神经网络包括预处理子网络、稀疏卷积子网络及检测子网络,所述装置包括:
预处理模块,用于通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的;
特征提取模块,用于通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图;
检测模块,用于通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
在一种可能的实现方式中,所述预处理模块,包括:
第一特征提取子模块,用于对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;
归一化处理子模块,用于对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;
第二特征提取子模块,用于通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图,所述预处理子网络至少包括子流形稀疏卷积层。
根据本公开的另一方面,提供了一种基于稀疏卷积神经网络的3D物体检测装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
根据本公开的实施例,能够通过稀疏卷积神经网络的预处理子网络,对待检测的3D图像进行预处理,得到第一特征图;通过稀疏卷积神经网络的稀疏卷积子网络对第一特征图进行特征提取,得到第二特征图;并通过稀疏卷积神经网络的检测子网络,对第二特征图进行检测,得到3D图像的物体检测结果,从而通过稀疏卷积神经网络实现端到端的3D图像的物体检测,不仅节省了大量的计算资源,降低了3D物体检测的复杂度,简化了检测流程,还提高了3D物体检测的速度及准确性。本公开的实施例所述的基于稀疏卷积神经网络的3D物体检测方法,可以辅助安检员进行安检工作,可在不失准确性的前提下加快安检流程。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的X射线重建的3D图像的示意图。
图2示出根据本公开的实施例的稀疏卷积操作的激活点响应规则的示意图。
图3示出根据本公开的实施例的子流形稀疏卷积操作的激活点响应规则的示意图。
图4示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测方法的流程图。
图5示出根据本公开的实施例的稀疏存储格式的示意图。
图6示出根据本公开的实施例的预处理子网络的处理过程的示意图。
图7示出根据本公开的实施例的残差稀疏卷积的处理过程的示意图。
图8示出根据本公开的实施例的残差子流形稀疏卷积的处理过程的示意图。
图9示出根据本公开的实施例的U型网络的处理过程的示意图。
图10示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测方法的处理过程的示意图。
图11示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置的框图。
图12示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置的框图。
图13示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开的实施例所述的基于稀疏卷积神经网络的3D物体检测方法,可应用于处理器,该处理器可以是通用处理器,例如CPU(Central Processing Unit,中央处理器),也可以是用于执行人工智能运算的人工智能处理器(IPU),例如GPU(Graphics ProcessingUnit,图形处理单元)、NPU(Neural-Network Processing Unit,神经网络处理单元)、DSP(Digital Signal Process,数字信号处理单元)等。本公开对处理器的具体类型不作限制。
本公开的实施例所述的稀疏卷积神经网络可通过稀疏卷积、子流形稀疏卷积、稀疏反卷积、全连接等操作对输入的3D图像进行特征提取及检测。
与通常的基于数值定义的稀疏操作(数据中特征值全为0的点不参与计算)不同,本公开的稀疏操作定义了激活点,在稀疏操作时,只有激活点参与运算。对于第一个稀疏操作,其输入激活点可包括输入数据中特征值非全0的数据点,其输出激活点可根据预设的激活点响应规则及输入激活点来确定;对于第一个稀疏操作之后的稀疏操作,其输入激活点可包括前一个稀疏操作的输出激活点,其输出激活点可根据预设的激活点响应规则及该稀疏操作的输入激活点来确定。
通过这种方式,不仅可以节省大量的计算时间,还可避免基于数值定义的稀疏操作存在的一些问题,例如,在某一层的网络具有非0的偏置(Bias)时,稀疏性在经过这一层后将不能保持的问题。
在一种可能的实现方式中,稀疏卷积操作的激活点响应规则可以为:稀疏卷积的输出中的某个点为激活点当且仅当该点通过卷积连接的输入点中存在激活点;子流形稀疏卷积操作的激活点响应规则可以为:子流形稀疏卷积的输出中的某个点为激活点当且仅当输入中同样位置的点也为激活点。
稀疏卷积操作与子流形稀疏卷积操作的区别在于,稀疏卷积操作会有膨胀效应,其激活点会越来越多,而子流形稀疏卷积操作则可以保持激活点的数量不变。
图2示出根据本公开的实施例的稀疏卷积操作的激活点响应规则的示意图。如图2所示,稀疏卷积操作的卷积核大小为3,其输出中的某个点为激活点当且仅当该点通过卷积连接的9个输入点中存在激活点。也就是说,稀疏卷积操作的一个输出点是否激活,取决于其与该输出点通过卷积连接的9个输入点中是否存在激活点。
图3示出根据本公开的实施例的子流形稀疏卷积操作的激活点响应规则的示意图。如图3所示,对于子流形稀疏卷积操作,其输出中的某个点为激活点当且仅当输入中同样位置的点也为激活点,即子流形稀疏卷积操作的一个输出点是否激活,取决于同样位置的输入点是否激活。
应当理解,本领域技术人员也可根据实际需要设置其他的激活点响应规则,本公开对此不作限制。
在一种可能的实现方式中,在进行稀疏卷积操作时,可首先根据预设的稀疏卷积操作的激活点响应规则,确定其输出激活点;然后按照卷积的连接方式确定输入与输出在空间上的对应关系;之后对输入特征进行线性变换;最后,以求和的方式聚合与该输出点对应的输入点的变换后的特征,形成输出特征。
举例来说,对于卷积核大小为2K+1的三维稀疏卷积操作,共有(2K+1)3个线性变换函数ψi′,j′,k′,其中K为整数且K≥0,i′,j′,k′为整数且-K≤i′,j′,k′≤K。在进行稀疏卷积操作时,(p,q,r)位置上的被激活的输出点的特征可通过下述公式(1)来确定:
其中,为输出点(p,q,r)的特征,上角标O表示输出,为输入点(u,v,w)的特征,上角标I表示输入,输入点(u,v,w)为激活点时,Iu,v,w=1,输入点(u,v,w)为非激活点时,Iu,v,w=0,p,q,r,u,v,w均为大于或等于0的整数。
在一种可能的实现方式中,子流形稀疏卷积操作与稀疏卷积操作的区别仅在于激活点响应规则不同,其处理过程与上述稀疏卷积操作的处理过程类似,此处不再赘述。
在一种可能的实现方式中,所述稀疏卷积神经网络可包括预处理子网络、稀疏卷积子网络及检测子网络。其中,预处理子网络可用于对输入图像进行预处理,稀疏卷积子网络可用于特征提取,检测子网络可用于物体检测。
图4示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测方法的流程图。如图4所示,该方法包括:
步骤S100,通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的。
在一种可能的实现方式中,通过X射线对待检测的物体进行重建得到的待检测的3D图像,可包括多个具有物理意义的通道,例如构成物体的物质的原子序数、密度等。
可通过稀疏卷积神经网络的预处理子网络,对待检测的3D图像进行预处理,例如,对待检测的3D图像进行特征提取、归一化等处理,得到第一特征图。
步骤S200,通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图。
在一种可能的实现方式中,稀疏卷积子网络可通过稀疏卷积、子流形稀疏卷积、稀疏反卷积等操作对输入的第一特征图进行特征提取,得到第二特征图。
步骤S300,通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
其中,物体的边界信息可包括物体的边界框、边界位置坐标等信息,物体的类别可以为电子设备,日常用品,管制物品等较为概括的一级类别,也可以为平板电脑,手机,相机,手表,笔记本电脑,奶粉,酒、管制刀具、充电宝、打火机等较为具体的二级类别;物体置信度可用于表示对检测出的物体的确定程度。
应当理解,本领域技术人员可根据实际应用场景设置物体的类别,本公开对此不作限制。
根据本公开的实施例,能够通过稀疏卷积神经网络的预处理子网络,对待检测的3D图像进行预处理,得到第一特征图;通过稀疏卷积神经网络的稀疏卷积子网络对第一特征图进行特征提取,得到第二特征图;并通过稀疏卷积神经网络的检测子网络,对第二特征图进行检测,得到3D图像的物体检测结果,从而通过稀疏卷积神经网络实现端到端的3D图像的物体检测,不仅节省了大量的计算资源,降低了3D物体检测的复杂度,简化了检测流程,还提高了3D物体检测的速度及准确性。本公开的实施例所述的基于稀疏卷积神经网络的3D物体检测方法,可以辅助安检员进行安检工作,可在不失准确性的前提下加快安检流程。
在一种可能的实现方式中,步骤S100可包括:对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图。
在一种可能的实现方式中,待检测的3D图像包括多个具有物理意义的通道,可对待检测的3D图像进行特征提取(例如通道选取),得到第三特征图,该第三特征图可包括构成物体的物质的密度(S)、原子序数(Z)及电子密度(D)三个通道。也就是说,第三特征图能够表示物体的材质特性。
其中,物质的密度S表示构成物体的物质的单位质量,例如金属器具的密度往往比较大,而衣物书籍的密度则相对小;物质的原子序数Z可表示构成物体的物质的元素,例如,构成气体和液体的元素的原子序数通常比较小,而金属元素的原子序数通常比较大;物质的电子密度D是电子出现在特定位置的概率的量度,它也是物质的固有物理属性,可以用于确定构成物质的材料构成。
在一种可能的实现方式中,得到第三特征图后,可对第三特征图进行归一化处理及尺寸调整,得到第四特征图。其中,在归一化处理时,可对第三特征图的各个通道分别进行归一化处理,以防止部分特征值过大或过小。
在一种可能的实现方式中,在归一化处理时,还可根据预设的特征阈值,对一个或多个通道的特征值进行过滤,例如,可以过滤D通道(即电子密度通道)中部分偏小的特征值,该偏小的特征值对应轻量级元素形成的物质(例如气体物质),从而可得到更加稀疏的数据,进而可提高检测速度。
在一种可能的实现方式中,可根据预设尺寸,通过裁剪或填充(例如使用插值算法进行填充)等方式,对归一化处理后的第三特征图进行尺寸调整,得到第四特征图。
在一种可能的实现方式中,所述第四特征图为稀疏存储格式,所述稀疏存储的空间坐标与通道特征相分离。可通过一个整数矩阵来存储第四特征图中每一个特征值非全零的空间点的三维空间位置坐标,通过一个浮点数矩阵来存储与整数矩阵中的每个位置坐标对应的通道特征向量,该通道特征向量包括该空间点的S、Z、D三个通道的特征值。通过这种方式,可将第四特征图的存储格式转化为空间坐标与通道特征相分离的稀疏存储格式。
图5示出根据本公开的实施例的稀疏存储格式的示意图。如图5所示,位置矩阵为整数矩阵,用于存储三维空间位置坐标,其中,(x1,y1,z1)、(x2,y2,z2)、…、(xn,yn,zn)表示第四特征图中的特征值非全零的空间点的三维空间位置坐标;特征矩阵为浮点数矩阵,用于存储各个位置坐标对应的通道特征向量,分别为特征向量1、特征向量2、…、特征向量n,其中,n为正整数。
在一种可能的实现方式中,得到第四特征图后,可通过稀疏卷积神经网络的预处理子网络,对第四特征图进行特征提取,得到待检测的3D图像的第一特征图。也就是说,可将第四特征图输入预处理子网络,预处理子网络可对输入的第四特征图进行子流形稀疏卷积、批归一化及激活等处理,得到待检测的3D图像的第一特征图。
其中,激活处理的激活函数可以为线性整流函数(Rectified Linear Unit,简称ReLU),还可以为其他函数(例如sigmoid函数等),本公开对激活函数的具体类型不作限制。
图6示出根据本公开的实施例的预处理子网络的处理过程的示意图。如图6所示,预处理子网络可对输入的第四特征图依次进行子流形稀疏卷积11、批归一化及激活处理12、子流形稀疏卷积13、批归一化及激活处理14,得到待检测的3D图像的第一特征图。
其中,子流形稀疏卷积11、子流形稀疏卷积13的卷积核大小均为3,子流形稀疏卷积11可将特征图的维度从3变换为32,子流形稀疏卷积13可将特征图的维度从32变换为64。
举例来说,可将空间大小为(199,199,519)、通道数为3的第四特征图,输入预处理子网络,预处理子网络对输入的第四特征图进行如图6所示的处理后,可得到空间大小为(199,199,519)、通道数为64的第一特征图。
在本实施例中,通过对待检测的3D图像进行特征提取,得到包括构成物体的物质的密度、原子序数及电子密度三个通道的第三特征图,并对第三特征图进行归一化及尺寸调整,得到第四特征图,然后通过预处理子网络,对第四特征图进行子流形稀疏卷积等处理,得到待检测的3D图像的第一特征图,使得第一特征图具有稀疏性,从而可提高检测速度。
在一种可能的实现方式中,所述稀疏卷积子网络可包括第一卷积子网络及第二卷积子网络,所述第二卷积子网络为U型网络,步骤S200可包括:
通过所述第一卷积子网络,对所述第一特征图进行残差稀疏卷积,得到第六特征图;
通过所述第二卷积子网络,对所述第六特征图进行特征提取,得到第二特征图。
在一种可能的实现方式中,第一特征图输入稀疏卷积子网络后,可首先通过稀疏卷积子网络中的第一卷积子网络,对输入的第一特征图进行至少一次残差稀疏卷积,得到第六特征图。其中,残差稀疏卷积可包括稀疏卷积、子流形稀疏卷积、批归一化及激活等多个处理。
图7示出根据本公开的实施例的残差稀疏卷积的处理过程的示意图。如图7所示,残差稀疏卷积的具体处理过程如下:对输入的特征图依次进行批归一化及激活处理21、稀疏卷积22、批归一化及激活处理23、子流形稀疏卷积24,得到第七特征图,同时对批归一化与激活处理21得到的特征图进行稀疏卷积25,得到第八特征图,然后对第七特征图及第八特征图进行求和操作,得到输出的特征图。
其中,稀疏卷积22、稀疏卷积25及子流形稀疏卷积24的卷积核大小均为3;稀疏卷积22及稀疏卷积25的步长为2,使得特征图的分辨率在每一个维度缩小为原来的1/2,通道数为原来的2倍;子流形稀疏卷积24维持通道数不变。
在一种可能的实现方式中,第一卷积子网络可对输入的第一特征图进行三次残差稀疏卷积,得到第六特征图。其具体处理过程如下:可将空间大小为(199,199,519)、通道数为64的第一特征图,输入第一卷积子网络进行三次残差稀疏卷积,第一次残差稀疏卷积的输入为第一特征图,输出为空间大小为(99,99,259)、通道数为128的特征图,第二次残差稀疏卷积的输入为空间大小为(99,99,259)、通道数为128的特征图,输出为空间大小为(49,49,129)、通道数为256的特征图,第三次残差稀疏卷积的输入为空间大小为(49,49,129)、通道数为256的特征图,输出为空间大小为(24,24,64)、通道数为512的特征图,然后将第三次残差稀疏卷积得到的空间大小为(24,24,64)、通道数为512的特征图,确定为第六特征图。
在一种可能的实现方式中,得到第六特征图后,可通过第二卷积子网络,对第六特征图进行特征提取,得到第二特征图。其中,第二卷积子网络为U型网络,该U型网络可对输入的第六特征图进行残差子流形稀疏卷积、稀疏卷积、稀疏反卷积、批归一化及激活等处理,得到第二特征图。其中,残差子流形稀疏卷积包括子流形稀疏卷积、批归一化及激活等多个处理。
图8示出根据本公开的实施例的残差子流形稀疏卷积的处理过程的示意图。如图8所示,残差子流形稀疏卷积的具体处理过程如下:对输入的特征图依次进行批归一化及激活处理31、子流形稀疏卷积32、批归一化及激活处理33、子流形稀疏卷积34,得到第九特征图,然后对第九特征图及输入的特征图进行求和操作,得到输出的特征图。其中,子流形稀疏卷积32和子流形稀疏卷积34的卷积步长均为1。
图9示出根据本公开的实施例的U型网络的处理过程的示意图。如图9所示,该U型网络的处理过程为:对输入的第六特征图进行残差子流形稀疏卷积411,得到第十特征图;对第十特征图依次进行批归一化及激活处理421、稀疏卷积422、残差子流形稀疏卷积423,得到第十一特征图;对第十一特征图依次进行批归一化及激活处理431、稀疏卷积432、残差子流形稀疏卷积433、批归一化及激活处理434、稀疏反卷积435,得到第十二特征图;对第十一特征图及第十二特征图进行求和操作,并对求和操作得到的特征图依次进行残差子流形稀疏卷积441、批归一化及激活处理442、稀疏反卷积443,得到第十三特征图;对第十特征图及第十三特征图进行求和操作,并对求和操作得到的特征图进行残差子流形稀疏卷积451,得到U型网络输出的特征图,即第二特征图。
其中,U型网络中的稀疏卷积步长为2,可将特征图的分辨率进一步在各个维度上减少到1/2,而稀疏反卷积则可对特征图的分辨率进行恢复。
在一种可能的实现方式中,通过U型网络进行特征提取,在获得更多的上下文信息的同时,还可保持一定的分辨率。例如,可通过如图9所示的U型网络,对空间大小为(24,24,64)、通道数为512的第六特征图进行特征提取。在特征提取过程中,特征图的分辨率最小可降至(6,6,16),此时的特征图中每个空间点的感受野均扩大了4倍,获得了更多的上下文信息。经过U型网络的处理,最终可得到空间大小为(24,24,64)、通道数为512的第二特征图。虽然第二特征图的空间大小及通道数均与第六特征图相同,但是与第六特征图相比,第二特征图包括了更多的上下文信息。
在本实施例中,通过第一卷积子网络,对第一特征图进行残差稀疏卷积,得到第六特征图,并通过第二卷积子网络(即U型网络),对第六特征图进行特征提取,得到第二特征图,可提高特征提取的准确性。
在一种可能的实现方式中,步骤S300可包括:
根据预设的锚框的种类数及预设的物体的类别数,通过所述检测子网络,对所述第二特征图进行特征提取,得到第五特征图,所述第五特征图为稠密存储格式,所述第五特征图中的每个空间点对应多个锚框,每个锚框与变换参数、物体置信度及物体属于各个类别的概率相对应;
根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果。
在一种可能的实现方式中,可根据物体的尺寸特征,设计多种锚框。例如,在设计锚框时,可根据物体的尺寸特征,为锚框的选取L、2L两种边长,由于锚框有3条边,因此,可得到8种不同尺寸的长方体锚框,即锚框的种类数为8。对于任一锚框,可通过其左上前顶点的空间位置坐标及三条边长(即宽、高、深,分别与X、Y、Z轴平行)来表示。
在一种可能的实现方式中,可根据预设的锚框的种类数及预设的物体的类别数,通过稀疏卷积神经网络的检测子网络,对第二特征图进行特征提取,并进行存储格式转换,得到稠密存储格式(例如张量存储)的第五特征图。
其中,第五特征图有多个通道,第五特征图中的每个空间点对应多个锚框,每个锚框均有变换参数、物体置信度及物体属于各个类别的概率与其相对应。
在一种可能的实现方式中,可根据预设的锚框的种类数及预设的物体的类别数,来确定第五特征图的通道数。例如,第二特征图的空间大小为(24,24,64)、通道数为512,预设的锚框的种类数为8,预设的物体的类别数为C,可通过检测子网络对第二特征图进行特征提取,得到空间大小为(24,24,64)、通道数为8*(1+6+C)的第五特征图。其中,8表示预设的锚框的种类数;与“1”对应的1个通道,表示与锚框对应的物体置信度;与“6”对应的6个通道,分别表示与锚框对应的X、Y、Z轴的变换参数,每个轴包括两个变换参数;与“C”对应的C个通道,分别表示与锚框对应的物体属于各个类别的概率。
在一种可能的实现方式中,第五特征图中的任一锚框,均有(1+6+C)个通道值与其相对应。(1+6+C)个通道值可包括与该锚框对应的物体置信度(1个通道值)、变换参数(6个通道值)及物体属于各个类别的概率(C个通道值)。
在一种可能的实现方式中,得到第五特征图后,可根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果。
例如,预设的锚框的种类数为8,对于空间大小为(24,24,64)的第五特征图,共有24*24*64个空间点,每个空间点均有8个锚框与其相对应,即每个空间点均附着8个锚框。对于第五特征图中的任一锚框,可根据与该锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定与该锚框对应的物体检测结果;然后可根据与多个锚框对应的物体检测结果,确定3D图像的物体检测结果。
在本实施例中,能够根据预设的锚框的种类数及预设的物体的类别数,对第二特征图进行特征提取,得到稠密存储的第五特征图,该第五特征图中的每个空间点对应多个锚框,每个锚框与变换参数、物体置信度及物体属于各个类别的概率相对应;然后根据第五特征图中的多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定3D图像的物体检测结果,从而可利用多个锚框进行物体检测,可提高物体检测的准确度。
在一种可能的实现方式中,所述根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果,可包括:
对于任一锚框,根据与所述锚框对应的变换参数,对所述锚框进行变换,得到与所述锚框对应的检测框;
根据与所述锚框对应的物体置信度,确定与所述检测框对应的物体分值;
在所述物体分值大于或等于预设的分值阈值的情况下,根据所述检测框,确定检测到的物体的边界信息;
根据与所述锚框对应的物体置信度及物体属于各个类别的概率,确定检测到的物体置信度及物体的类别。
在一种可能的实现方式中,对于任一锚框,可根据与该锚框对应的变换参数,对该锚框进行变换,得到与该锚框对应的检测框。其中,检测框可通过其左上前顶点的空间位置坐标及三条边长(即宽、高、深,分别与X、Y、Z轴平行)来表示。
例如,对于任一锚框a,其左上前顶点的空间位置坐标为(ax,ay,az),其三条边长(即宽、高、深)分别为aw,ah,ad,可通过下述公式(2)-(7)对锚框a进行变换,得到与锚框a对应的检测框b:
bx=σ(tx)+ax (2)
by=σ(ty)+ay (3)
bz=σ(tz)+az (4)
bw=awexp(tw) (5)
bh=ahexp(th) (6)
bd=adexp(td) (7)
其中,(bx,by,bz)表示与锚框a对应的检测框b的左上前顶点的空间位置坐标,bw,bh,bd分别表示与锚框a对应的检测框b的三条边长(即宽、高、深),σ表示sigmoid函数,exp表示以自然常数e为底的指数函数,tx,ty,tz,tw,th,td表示与锚框a对应的6个变换参数。
在一种可能的实现方式中,得到与所述锚框对应的检测框后,可根据与该锚框对应的物体置信度,确定与检测框对应的物体分值。例如,对于锚框a,经过变换得到检测框b,可通过σ(to)来计算与检测框b对应的物体分值,其中,σ表示sigmoid函数,to表示与锚框a对应的物体置信度。
在一种可能的实现方式中,可判断与检测框对应的物体分值与预设的分值阈值之间的关系。在与检测框对应的物体分值大于或等于预设的分值阈值的情况下,可认为该检测框包括某个物体,可根据该检测框,确定检测到的物体的边界信息,也就是说,可将该检测框的左上前顶点的空间位置坐标及三条边长,确定为检测到的物体的边界信息;
在一种可能的实现方式中,在与检测框对应的物体分值大于或等于预设的分值阈值的情况下,可将与所述锚框对应的物体置信度,确定为检测到的物体置信度。
在一种可能的实现方式中,在与检测框对应的物体分值大于或等于预设的分值阈值的情况下,可根据与所述锚框对应的物体属于各个类别的概率,确定物体的类别。例如,在与检测框b对应的物体分值大于或等于预设的分值阈值的情况下,可从与锚框a对应的物体属于各个类别的概率中,确定出最大概率,并将与该最大概率对应的物体的类别,确定为检测到的物体的类别。
在一种可能的实现方式中,可对第五特征图中的各个锚框,分别进行上述处理,得到待检测的3D图像的物体检测结果。
在本实施例中,对于任一锚框,可根据与锚框对应的变换参数,对锚框进行变换,得到与锚框对应的检测框,并根据与锚框对应的物体置信度,确定与检测框对应的物体分值,在所述物体分值大于或等于预设的分值阈值的情况下,根据检测框,确定检测到的物体的边界信息,并根据与所述锚框对应的物体置信度及物体属于各个类别的概率,确定检测到的物体置信度及物体的类别,从而可提高物体检测的准确度。
在一种可能的实现方式中,所述方法还可包括:根据预设的训练集,对所述稀疏卷积神经网络进行训练,所述训练集包括多个参考3D图像及所述多个参考3D图像的标注信息。
在训练时,可将多个参考3D图像,分别输入稀疏卷积神经网络进行处理,得到所述多个参考3D图像的物体检测结果;可根据多个参考3D图像的物体检测结果及其标注信息,确定稀疏卷积神经网络的网络损失。
在一种可能的实现方式中,在确定稀疏卷积神经网络的网络损失时,可首先确定与任一参考3D图像对应的各个锚框的检测损失。对于与任一参考3D图像对应的任一锚框a′,其检测损失Li,j,k,a′可通过下述公式(8)来确定:
Li,j,k,a′=L物体置信度+w′*(L物体分类+L边界框) (8)
公式(8)中,(i,j,k)表示锚框a′附着的空间点的位置坐标,i,j,k均为大于或等于0的整数,w′表示检测标志,在锚框a′与所述参考3D图像的标注信息中的某一标注边界框之间的交并比(Intersection over Union,简称IoU)大于其他任何锚框时,检测该物体的任务由锚框a′承担,w′=1,否则w′=0,L物体置信度及L边界框可通过均方误差(Mean Square Loss,简称MSE)来确定,L物体分类可通过交叉熵损失(Cross Entropy Loss)来确定。
在一种可能的实现方式中,L物体置信度可通过下述公式(9)来确定:
L物体置信度=(σ(t′o)-IoU)2 (9)
公式(9)中,t′o表示与锚框a′对应的物体置信度,IoU表示锚框a′与所述参考3D图像的标注信息中的某一标注边界框之间的交并比。
在一种可能的实现方式中,L边界框可通过下述公式(10)来确定:
L边界框=(σ(t′x)-σ(t″x))2+(σ(t′y)-σ(t″y))2+(σ(t′z)-σ(t″z))2+(t′w-t″w)2+(t′h-t″h)2+(t′d-t″d)2 (10)
公式(10)中,t′x,t′y,t′z,t′w,t′h,t′d表示与锚框a′对应的变换参数,t″x,t″y,t″z,t″w,t″h,t″d表示与标注边界框对应的变换参数,可分别通过下述方式来确定:σ(t″x)=b′x-a′x;σ(t″y)=b′y-a′y;σ(t″z)=b′z-a′z;其中,(a′x,a′y,a′z)表示锚框a′的左上前顶点的空间位置坐标,a′w,a′h,a′d表示锚框a′的三条边长,(b′x,b′y,b′z)表示标注边界框的左上前顶点的空间位置坐标,b′w,b′h,b′d表示标注边界框的三条边长。
对于任一参考3D图像,在确定出与该参考3D图像对应的各个锚框的检测损失后,可将与该参考3D图像对应的所有锚框的检测损失之和,确定为与该参考3D图像对应的检测损失。
例如,预设的锚框的种类数为8,与参考3D图像对应的所有锚框附着的特征图(即参考3D图像经处理后得到的第五特征图)的空间大小为(24,24,64),可通过下述公式(11)来确定与该参考3D图像对应的检测损失L:
公式(11)中,m表示附着与空间点(i,j,k)的第m个锚框,m为大于或等于0的整数。
在一种可能的实现方式中,在根据所有的参考3D图像的检测结果,来调整稀疏卷积神经网络的情况下,可将与所有的参考3D图像对应的检测损失之和,确定为稀疏卷积神经网络的网络损失。
在一种可能的实现方式中,在根据各个参考3D图像的检测结果,分别调整稀疏卷积神经网络的情况下,可分别将与各个参考3D图像对应的检测损失,确定为稀疏卷积神经网络的网络损失。
在一种可能的实现方式中,在对稀疏卷积神经网络进行训练时,还可使用优化器,例如,可使用学习率为0.001,动量参数为0.9,权重衰减参数为0.005的随机梯度下降(Stochastic Gradient Descent,简称SGD)算法作为优化器,以提高训练速度及效果。
在一种可能的实现方式中,在稀疏卷积神经网络的网络损失降低到一定程度或收敛于一定阈值内,可结束训练,得到已训练稀疏卷积神经网络。应当理解,训练结束条件还可以为其他条件,本公开对此不作限制。
图10示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测方法的处理过程的示意图。所述稀疏卷积神经网络可包括预处理子网络、稀疏卷积子网络及检测子网络。如图10所示,在对X射线重建的、具有多个物理意义的通道的3D图像进行物体检测时,可首先在步骤S501中,对待检测的3D图像进行通道选取,得到包括构成物体的物质的密度、原子序数及电子密度三个通道的第三特征图;在步骤S502中,对第三特征图进行归一化处理及尺寸调整,得到第四特征图;在步骤S503中,通过预处理子网络,对第四特征图进行特征提取,得到第一特征图;
在步骤S504中,可通过稀疏卷积子网络的第一卷积子网络,对第一特征图进行三次残差稀疏卷积,得到第六特征图;在步骤S505中,通过稀疏卷积子网络的第二卷积子网络(即U型网络),对第六特征图进行特征提取,得到第二特征图;
得到第二特征图后,可在步骤S506中,根据预设的锚框的种类数及预设的物体的类别数,通过检测子网络,对第二特征图进行特征提取,得到第五特征图,第五特征图为稠密存储格式,第五特征图中的每个空间点对应多个锚框,每个锚框与变换参数、物体置信度及物体属于各个类别的概率相对应;在步骤S507中,根据第五特征图中的多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果。
根据本公开的实施例,能够利用X射线重建的3D图像的全局稀疏、局部稠密的重要特性,并结合稀疏存储格式及稀疏操作,构建了可对3D图像进行端到端的物体检测的稀疏卷积神经网络。基于该稀疏卷积神经网络对3D图像进行端到端的物体检测,既可节省大量的计算资源,简化检测流程,提高检测速度,还可在检测时充分利用数据内在的3D结构,极大地提升了检测的准确性。
需要说明的是,尽管以上述实施例作为示例介绍了基于稀疏卷积神经网络的3D物体检测方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤,只要符合本公开的技术方案即可。
图11示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置的框图。所述稀疏卷积神经网络可包括预处理子网络、稀疏卷积子网络及检测子网络。如图11所示,所述装置包括:
预处理模块100,用于通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的;
特征提取模块200,用于通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图;
检测模块300,用于通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
在一种可能的实现方式中,所述预处理模块100,包括:
第一特征提取子模块,用于对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;
归一化处理子模块,用于对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;
第二特征提取子模块,用于通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图,所述预处理子网络至少包括子流形稀疏卷积层。
本公开还提供了一种基于稀疏卷积神经网络的3D物体检测装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
本公开还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
图12示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图12,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理器820执行以完成上述方法。
图13示出根据本公开的实施例的基于稀疏卷积神经网络的3D物体检测装置1900的框图。例如,装置1900可以被提供为一服务器。参照图13,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于稀疏卷积神经网络的3D物体检测方法,其特征在于,所述稀疏卷积神经网络包括预处理子网络、稀疏卷积子网络及检测子网络,所述方法包括:
通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的;
通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图;
通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
2.根据权利要求1所述的方法,其特征在于,所述通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,包括:
对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;
对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;
通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图。
3.根据权利要求1所述的方法,其特征在于,所述通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,包括:
根据预设的锚框的种类数及预设的物体的类别数,通过所述检测子网络,对所述第二特征图进行特征提取,得到第五特征图,所述第五特征图为稠密存储格式,所述第五特征图中的每个空间点对应多个锚框,每个锚框与变换参数、物体置信度及物体属于各个类别的概率相对应;
根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个锚框、与各个锚框对应的变换参数、物体置信度及物体属于各个类别的概率,确定所述3D图像的物体检测结果,包括:
对于任一锚框,根据与所述锚框对应的变换参数,对所述锚框进行变换,得到与所述锚框对应的检测框;
根据与所述锚框对应的物体置信度,确定与所述检测框对应的物体分值;
在所述物体分值大于或等于预设的分值阈值的情况下,根据所述检测框,确定检测到的物体的边界信息;
根据与所述锚框对应的物体置信度及物体属于各个类别的概率,确定检测到的物体置信度及及物体的类别。
5.根据权利要求1所述的方法,其特征在于,所述稀疏卷积子网络包括第一卷积子网络及第二卷积子网络,所述第二卷积子网络为U型网络,
所述通过稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图,包括:
通过所述第一卷积子网络,对所述第一特征图进行残差稀疏卷积,得到第六特征图;
通过所述第二卷积子网络,对所述第六特征图进行特征提取,得到第二特征图。
6.根据权利要求2所述的方法,其特征在于,所述第四特征图为稀疏存储格式,所述稀疏存储的空间坐标与通道特征相分离。
7.一种基于稀疏卷积神经网络的3D物体检测装置,其特征在于,所述稀疏卷积神经网络包括预处理子网络、稀疏卷积子网络及检测子网络,所述装置包括:
预处理模块,用于通过所述预处理子网络,对待检测的3D图像进行预处理,得到第一特征图,所述待检测的3D图像是通过X射线对待检测的物体进行重建得到的;
特征提取模块,用于通过所述稀疏卷积子网络,对所述第一特征图进行特征提取,得到第二特征图;
检测模块,用于通过所述检测子网络,对所述第二特征图进行检测,得到所述3D图像的物体检测结果,所述物体检测结果包括物体的边界信息、物体的类别及物体置信度。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块,包括:
第一特征提取子模块,用于对待检测的3D图像进行特征提取,得到第三特征图,所述第三特征图包括三个通道,分别表示构成物体的物质的密度、原子序数及电子密度;
归一化处理子模块,用于对所述第三特征图进行归一化处理及尺寸调整,得到第四特征图;
第二特征提取子模块,用于通过所述预处理子网络,对所述第四特征图进行特征提取,得到所述待检测的3D图像的第一特征图,所述预处理子网络至少包括子流形稀疏卷积层。
9.一种基于稀疏卷积神经网络的3D物体检测装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至6中任意一项所述的方法。
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020103788657 | 2020-05-07 | ||
CN202010378865 | 2020-05-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914774A true CN111914774A (zh) | 2020-11-10 |
Family
ID=73287340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786993.5A Pending CN111914774A (zh) | 2020-05-07 | 2020-08-07 | 基于稀疏卷积神经网络的3d物体检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914774A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270332A (zh) * | 2020-11-12 | 2021-01-26 | 武汉科技大学 | 一种基于子流稀疏卷积的三维目标检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105759318A (zh) * | 2015-03-06 | 2016-07-13 | 公安部第研究所 | 一种安全检测装置及其检测方法 |
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN108229455A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN111046980A (zh) * | 2020-03-16 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-08-07 CN CN202010786993.5A patent/CN111914774A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105759318A (zh) * | 2015-03-06 | 2016-07-13 | 公安部第研究所 | 一种安全检测装置及其检测方法 |
US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN108229455A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN111046980A (zh) * | 2020-03-16 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
曹璐 等: "基于多通道稀疏卷积神经网络的行人检测算法", 传感器与微系统, vol. 37, no. 10, 31 October 2018 (2018-10-31), pages 130 - 136 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270332A (zh) * | 2020-11-12 | 2021-01-26 | 武汉科技大学 | 一种基于子流稀疏卷积的三维目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522910B (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
US11301726B2 (en) | Anchor determination method and apparatus, electronic device, and storage medium | |
CN109977847B (zh) | 图像生成方法及装置、电子设备和存储介质 | |
CN110675409A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110674719A (zh) | 目标对象匹配方法及装置、电子设备和存储介质 | |
CN111783986A (zh) | 网络训练方法及装置、姿态预测方法及装置 | |
KR20210047336A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
US11443438B2 (en) | Network module and distribution method and apparatus, electronic device, and storage medium | |
KR20220011207A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN111932463B (zh) | 图像处理方法、装置、设备及存储介质 | |
TW202209254A (zh) | 圖像分割方法、電子設備和電腦可讀儲存介質 | |
CN111414963B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN112598063A (zh) | 神经网络生成方法及装置、电子设备和存储介质 | |
KR20220011783A (ko) | 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체 | |
CN114255221A (zh) | 图像处理、缺陷检测方法及装置、电子设备和存储介质 | |
CN111882558A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113139484B (zh) | 人群定位方法及装置、电子设备和存储介质 | |
CN113642359B (zh) | 人脸图像生成方法、装置、电子设备及存储介质 | |
CN111914774A (zh) | 基于稀疏卷积神经网络的3d物体检测方法及装置 | |
TW202219822A (zh) | 字元檢測方法、電子設備及電腦可讀儲存介質 | |
CN113283343A (zh) | 人群定位方法及装置、电子设备和存储介质 | |
CN112036307A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111488964A (zh) | 图像处理方法及装置、神经网络训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |