CN114067108A - 一种基于神经网络的目标检测方法、装置 - Google Patents
一种基于神经网络的目标检测方法、装置 Download PDFInfo
- Publication number
- CN114067108A CN114067108A CN202210036200.7A CN202210036200A CN114067108A CN 114067108 A CN114067108 A CN 114067108A CN 202210036200 A CN202210036200 A CN 202210036200A CN 114067108 A CN114067108 A CN 114067108A
- Authority
- CN
- China
- Prior art keywords
- result
- characteristic
- tiling
- position information
- rearrangement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 44
- 230000008520 organization Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000008707 rearrangement Effects 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000003491 array Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 23
- 230000008569 process Effects 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于神经网络的目标检测方法,所述神经网络对输入数据进行目标检测,对神经网络卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,基于第一操作的结果,计算特征点的置信度;按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,将特征点的置信度、以及特征点的第二位置信息输出,得到目标检测结果。本申请减少了检测过程中的算力消耗。
Description
技术领域
本发明涉及深度学习领域,特别地,涉及一种基于神经网络的目标检测方法、装置。
背景技术
在机器学习和深度学习中,基于神经网络的目标检测有着广泛的应用。尽管基于神经网络的目标检测效果好,但依赖于大量的计算量,这导致了在硬件上对算力和带宽的消耗。
以深度学习检测网络中的一段式多目标检测方法(SSD,Single Shot Multi-BoxDetector)为例。参见图1所示,图1为SSD神经网络结构的一种示意图。SSD的神经网络结构包括基础网络和金字塔网络。基础网络是视觉几何组(Visual Geometry Group,VGG)例如VGG-16的前4层网络。金字塔网络是特征图逐渐变小的简单卷积网络。SSD的检测包括两路,一路是特征点的置信度(confidence)计算,另一路是特征点的坐标位置的计算。
虽然置信度和坐标位置的计算共享骨干(backbone)网络,但由于置信度和坐标位置本身特性的差异,所以相当一部分的计算是独立的。不论是置信度的计算,还是坐标位置的计算,都需要耗费大量的算力和带宽。
发明内容
本发明提供了一种基于神经网络的目标检测方法、装置,以节省检测过程中的算力。
本发明第一方面提供一种基于神经网络的目标检测方法,所述神经网络对输入数据进行目标检测, 包括:
对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,
基于第一操作的结果,计算特征点的置信度;
按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,
将特征点的置信度、以及特征点的第二位置信息输出,得到目标检测结果。
较佳地,该方法进一步包括,
从所述特征点中挑选出置信度大于设定置信度阈值的特征点,得到第一特征点,
所述按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,包括,
按照所述第一特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述第一特征点在卷积运算输出结果中的第二位置信息。
较佳地,所述对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,包括:
将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;
将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,
将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并。
较佳地,所述按照所述第一特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述第一特征点在卷积运算输出结果中的第二位置信息,包括,
根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,
根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,
根据第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的第二位置信息。
较佳地,所述基于第一操作的结果,计算特征点的置信度,包括,
将第一操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
对再成形操作结果进行归一化函数的计算,得到特征点的置信度。
较佳地,所述将卷积运算输出结果中特征点的特征值,进行重排操作,包括,
将n个卷积运算输出结果中的特征值,分别进行重排操作,得到n个重排操作结果;
所述将重排操作的结果,进行平铺操作,包括,
将n个重排操作结果,分别进行平铺操作,得到n个平铺操作结果;
所述将平铺操作的结果,进行合并操作,包括,
将n个平铺操作结果予以合并;
其中,n为大于1的自然数,由神经网络的结构决定。
较佳地,所述输入数据为图像数据、声音数据、文本数据之一,所述神经网络为一段式多目标检测SSD网络。
本申请第二方面提供一种基于神经网络的目标检测装置,包括,
置信度确定单元,用于对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,基于第一操作的结果,计算特征点的置信度并输出,
位置确定单元,用于按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,
目标检测单元,用于根据特征点的置信度、以及特征点的第二位置信息,得到目标检测结果。
较佳地,该装置进一步包括,
过滤单元,用于从所述特征点中挑选出置信度大于设定置信度阈值的特征点,得到第一特征点,提供给位置确定单元。
较佳地,所述置信度确定单元包括,
重排模块,用于将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;
平铺模块,用于将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,
合并模块,用于将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并;
再成形模块,用于将合并操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
归一化模块,对再成形操作结果进行归一化函数的计算,得到特征点的置信度。
较佳地,所述位置确定单元包括,
第一模块,用于根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,
第二模块,用于根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,
第三模块,用于根据第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的第二位置信息。
较佳地,所述重排模块包括n个重排算子子模块,每个重排算子子模块分别对每个卷积运算结果中的特征点的特征值进行重排操作,
所述平铺子模块包括有n个平铺算子子模块,每个平铺算子子模块分别对每个重排算子的结果进行平铺操作;
所述合并子模块将来自每个平铺算子子模块的结果予以合并,并输出至所述再成形子模块。本申请实施例基于神经网络的目标检测方法,利用置信度计算过程中用于对特征值的组织形式进行处理的第一操作的反向操作,来确定特征点的位置信息,避免了现有技术中重复地进行相同算子操作,大大减少了检测过程中的算力消耗。
附图说明
图1为SSD神经网络结构的一种示意图。
图2为特征点置信度计算的一种示意图。
图3为特征点坐标位置计算的一种示意图。
图4为本申请基于神经网络的目标检测方法的一种流程示意图。
图5为重排操作、平铺操作、合并操作过程以及反向操作过程中特征点映射关系的一种示意图。
图6为本申请基于神经网络的目标检测方法的一种流程示意图。
图7为本申请基于神经网络的目标检测装置的一种示意图。
图8为本申请基于神经网络的目标检测装置的另一种示意图。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。
本申请利用置信度和坐标位置之间的因果关系,先行计算置信度,利用置信度计算过程中用于对特征数据的组织形式进行处理的第一操作的反向操作,来确定该特征点的坐标位置。本申请可大大降低坐标位置计算的需求,从而达到降低算力和带宽的需求。
参见图4所示,图4为本申请基于神经网络的目标检测方法的一种流程示意图。该方法包括,
步骤401,对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,
步骤402,基于第一操作的结果,计算特征点的置信度;
步骤403,按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,
步骤404,将特征点的置信度、以及特征点的第二位置信息输出,得到目标检测结果。
由于本申请在确定位置信息过程中无需象计算置信度那样进行第一操作,因此,能够降低坐标位置计算的需求。
为便于理解本申请,以下对本申请的原理予以说明。
由于当置信度未达到设定的置信度阈值时,则该置信度在特征映射(featuremap)上对应的特征点必然是背景点,而背景点可以不必计算其坐标位置,这样,置信度和坐标位置的计算之间形成因果关系,坐标位置是否需要计算由置信度决定。
通过对坐标位置的计算过程的研究发现,以SSD网络的坐标计算为例,位置信息是由卷积结果依次进行重排操作、平铺操作、合并操作而获得,这三个算子操作并没有对特征值本身的数值进行计算,而是对特征值的组织形式进行处理,即,用于改变特征数据在内存中的排布,在上述三个操作皆为一一对应的关系,即:重排操作的输入中一个特征点一一对应重排操作的输出中的一个特征点,并不存在一对多或多对一的关系;同样地,平铺操作和合并操作也有相同的特性。用函数表示这个关系:
Y = P(X)
Z = F(Y)
T= C(Z)
即:T = C(F(P(X)))
其中,P(), F(), C()分别代表重排操作、平铺操作、合并操作,X,Y,Z,T分别为卷积结果中的特征点的位置、重排操作结果中的特征点位置、平铺操作结果中的特征点位置、合并操作结果中的特征点位置。
由于一一对应关系,定义P’(),F’(),C’()为分别为重排操作的反向操作、平铺操作的反向操作、合并操作的反向操作,则有:
X=P’(F’(C’(T)))
参见图5所示,图5为重排操作、平铺操作、合并操作过程以及反向操作过程中特征点映射关系的一种示意图。如图中实线所示,卷积运算输出结果中一特征点的位置为X,经过重排操作,对应于重排结果中的位置Y,经过平铺操作,对应于平铺操作结果中的Z,经过合并操作,对应于合并操作结果中的T。如图中虚线所示,合并操作结果中一像素点的位置为T,经过合并操作的反向操作,对应于合并操作的反向操作结果中的Z,经过平铺操作的反向操作,对应于平铺操作的反向操作结果中的Y,经过重排操作的反向操作,对应于卷积运算输出结果中的X。
由此,利用上述一一对应的映射关系,通过反向操作便可得到卷积运算输出结果中的坐标位置,从而得到检测结果中目标的位置。
以SSD检测网络为例来予以说明,所应理解的是,本申请可不限于此,其它类似网络模型也可适用。
参见图6所示,图6为本申请基于神经网络的目标检测方法的一种流程示意图。包括,对于待检测的输入数据,
步骤601,提取输入数据的特征数据,并进行预测,
作为一种示例,输入数据可以是图像数据、声音数据、文本数据之一。
在输入数据是图像数据的情形下,所提取的特征数据为图像特征,即像素点的像素值,
在输入数据是声音数据的情形下,所提取的特征数据为声音特征,即频点/频段的信号,
在输入数据是文本数据的情形下,所提取的特征数据为文本特征。
步骤602,对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作。
在SSD检测网络中,第一操作包括,重排操作、平铺操作、合并操作。作为一种示例,将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并。
具体地,将n个卷积运算输出结果中的特征值,分别进行重排操作,得到n个重排操作结果,将n个重排操作结果分别进行平铺操作,得到n个平铺操作结果,将n个平铺操作结果予以合并,得到第一操作的结果,其中,n为大于1的自然数,具体有神经网络结构决定。例如,在SSD检测网络中,n通常为6。步骤603,基于第一操作的结果,计算特征点的置信度,
作为一种示例,将第一操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
对再成形操作结果进行softmax算子的计算,得到特征点的置信度。
上述步骤602、603完成了输入数据特征点的置信度的计算。
参见图2所示,图2为特征点置信度计算的一种示意图。每个卷积运算的输出结果中的每个特征值分别依次经过重排操作、平铺操作之后,将平铺操作的结果进行合并操作,合并操作的结果被进行用于调整矩阵的维度和形状的再成形操作,再成形操作的结果被进行softmax算子操作,得到输入数据的各个特征点的置信度。
参见图3所示,图3为特征点坐标位置计算的一种示意图。每个卷积运算的输出结果中的每个特征值依次经过重排操作、平铺操作之后,将平铺操作的结果进行合并操作,得到输入数据的各个特征点的坐标位置信息。
其中,
重排操作用于对高维矩阵(2维以上)中的元素进行维度位置交换,例如,将矩阵中的第i列与第j列进行交换,在神经网络中又称之为轴之间的交换;在代码中对应为permute算子操作;
平铺操作用于将高维矩阵展开为一维数组形式,在代码中对应为flatten算子操作,
合并操作用于将多个数组予以合并,在代码中对应为concat算子操作,
再成形操作在代码中对应为reshape算子操作,
归一化操作在代码中对应为softmax算子操作。
从SSD的检测部分来看,两路有几乎相同的算子操作。其中,
合并操作:由于改变数据在内存中的排布,需要耗费内存、和带宽来搬运数据。
平铺操作:如果数据的组织方式是常规的NCHW(N,分支方向;C,通道方向;H,高度方向,W,宽度方向)或NHWC方式,则平铺操作并不会耗费计算量,因为不需要改变数据在内存中的排布,仅仅更改维度信息即可。但当数据的组织方式为非常规方式,比如,每行数据起始位置存在16字节内存对齐,又比如NC4HW4等方式,则平铺操作会改变数据在内存中的排布,导致耗费内存和带宽来搬运数据。在NPU操作中,为了迎合硬件计算的特性,往往采用NC4HW4等变形的数据组织方式。
合并操作:在基于浮点的推理(inference)中,合并操作仅仅把多个数组叠加在一起,这时没有额外的算力开销,但会导致数据的搬运,会消耗一定的带宽。但如果是基于定点的推理中,不仅数据需要搬运,由于定点量化存在,导致输入数据和输出数据的定浮点转换的缩放因子(Scale factor)不一致,合并操作需要耗费一定计算力把输入数据转换到输出数据上去,所需计算力和数据规模成正比。
步骤604,按照置信度对特征点进行过滤,得到第一特征点,
作为一种示例,判断各个特征点的置信度是否大于设定的置信度阈值,
如果是,则说明该特征点不是背景点,将该特征点作为有效点予以保留,为行文方便,后文称之为第一特征点,
否则,说明该特征点为背景点,可不进行其坐标位置的计算,这样,可以减少需要计算坐标位置的特征点的数量,有利于减少算力的消耗。
步骤605,对于每个第一特征点,根据第一特征点在第一操作结果中的第一位置信息,分别进行第一操作的反向操作,得到所述第一特征点在卷积运算输出结果中的第二位置信息,
作为一种示例,根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的位置信息。
在该步骤中,不必进行与置信度计算相同的第一操作,有利于节省检测过程中对算力和带宽。
步骤606,反复执行步骤605,直至获取到所有第一特征点在卷积运算输出结果中的第二位置信息。
步骤607,将特征点的置信度以及第一特征点的第二位置信息输出,得到目标检测结果。
本申请实施例的目标检测,通过对置信度是否达到设定的置信度阈值作为前提条件,来判断是否需要计算坐标位置,这样,无需对卷积输出结果中的所有特征点都进行反向操作,只是对大于置信度阈值的有效点单独进行反向操作,即可达到相同的结果。当有效点远远小于特征点总数时,本申请实施例更优。特别是,在实际稀疏场景的检测中,即待检测的输入数据中没有正样本,或只有少数的正样本的情形下,可大量节省算力和带宽。
参见图7所示,图7为基于神经网络的目标检测装置的一种示意图。该装置包括:
置信度确定单元,用于对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,基于第一操作的结果,计算特征点的置信度,并将特征点的置信度输出;
位置确定单元,用于按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息;
目标检测单元,用于根据特征点的置信度、以及特征点的第二位置信息,得到目标检测结果。
该装置还包括,
过滤单元,从所述特征点中挑选出置信度大于设定置信度阈值的特征点,得到第一特征点,以提供给位置确定模块。
所述置信度确定单元,包括,
重排模块,用于将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;
平铺模块,用于将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,
合并模块,用于将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并;
再成形模块,用于将第一操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
归一化模块,用于对再成形操作结果进行归一化函数的计算,得到特征点的置信度。
在本发明实施例中,所述重排模块包括有n个重排算子子模块,每个重排算子子模块分别用于对每个卷积运算结果中的特征点的特征值,进行重排操作。
所述平铺模块包括有n个平铺算子子模块,每个平铺算子分别用于对每个重排算子子模块的结果进行平铺操作。
所述合并模块将来自每个平铺算子子模块的结果予以合并,并输出至再成形子模块。
在本发明实施例中,所示位置确定单元,包括,
第一模块,用于根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,
第二模块,用于根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,
第三模块,用于根据第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的第二位置信息。
参见图8所示,图8为基于神经网络的目标检测装置的另一种示意图。包括处理器,用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以实现任一基于神经网络的目标检测方法。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一基于神经网络的目标检测方法。
对于装置/网络侧设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种基于神经网络的目标检测方法,所述神经网络对输入数据进行目标检测,其特征在于,该方法包括,
对神经网络卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,
基于第一操作的结果,计算特征点的置信度;
按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,
将特征点的置信度、以及特征点的第二位置信息输出,得到目标检测结果。
2.如权利要求1所述的目标检测方法,其特征在于,该方法进一步包括,
从所述特征点中挑选出置信度大于设定置信度阈值的特征点,得到第一特征点,
所述按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,包括,
按照所述第一特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述第一特征点在卷积运算输出结果中的第二位置信息。
3.如权利要求2所述的目标检测方法,其特征在于,所述对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,包括:
将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;
将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,
将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并。
4.如权利要求3所述的目标检测方法,其特征在于,所述按照所述第一特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述第一特征点在卷积运算输出结果中的第二位置信息,包括,
根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,
根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,
根据第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的第二位置信息。
5.如权利要求1所述的目标检测方法,其特征在于,所述基于第一操作的结果,计算特征点的置信度,包括,
将第一操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
对再成形操作结果进行归一化函数的计算,得到特征点的置信度。
6.如权利要求3所述的目标检测方法,其特征在于,所述将卷积运算输出结果中特征点的特征值,进行重排操作,包括,
将n个卷积运算输出结果中的特征值,分别进行重排操作,得到n个重排操作结果;
所述将重排操作的结果,进行平铺操作,包括,
将n个重排操作结果,分别进行平铺操作,得到n个平铺操作结果;
所述将平铺操作的结果,进行合并操作,包括,
将n个平铺操作结果予以合并;
其中,n为大于1的自然数,由神经网络的结构决定。
7.如权利要求1所述的目标检测方法,其特征在于,所述输入数据为图像数据、声音数据、文本数据之一,所述神经网络为一段式多目标检测SSD网络。
8.一种基于神经网络的目标检测装置,其特征在于,包括,
置信度确定单元,用于对神经网络中卷积运算输出结果中特征点的特征值,进行第一操作,其中,第一操作用于对特征值的组织形式进行处理,基于第一操作的结果,计算特征点的置信度并输出,
位置确定单元,用于按照特征点在第一操作结果中的第一位置信息,通过所述第一操作的反向操作,得到所述特征点在卷积运算输出结果中的第二位置信息,
目标检测单元,用于根据特征点的置信度、以及特征点的第二位置信息,得到目标检测结果。
9.如权利要求8所述的目标检测装置,其特征在于,该装置进一步包括,
过滤单元,用于从所述特征点中挑选出置信度大于设定置信度阈值的特征点,得到第一特征点,提供给位置确定单元。
10.如权利要求8所述的目标检测装置,其特征在于,所述置信度确定单元包括,
重排模块,用于将卷积运算输出结果中特征点的特征值,进行重排操作,所述重排操作用于将高维矩阵中特征值进行维度位置交换;
平铺模块,用于将重排操作的结果,进行平铺操作,所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组,
合并模块,用于将平铺操作的结果,进行合并操作,所述合并操作用于将每维数组合并;
再成形模块,用于将合并操作的结果进行再成形操作,所述再成形操作用于调整第一操作结果的维度和形状,
归一化模块,对再成形操作结果进行归一化函数的计算,得到特征点的置信度。
11.如权利要求9所述的目标检测装置,其特征在于,所述位置确定单元包括,
第一模块,用于根据第一特征点在合并操作结果中的第一位置信息,确定第一特征点在平铺操作结果中的位置信息,
第二模块,用于根据第一特征点在平铺操作结果中的位置信息,确定第一特征点在重排操作结果中的位置信息,
第三模块,用于根据第一特征点在重排操作结果中的位置信息,确定第一特征点在卷积结果中的第二位置信息。
12.如权利要求10所述的目标检测装置,其特征在于,
所述重排模块包括n个重排算子子模块,每个重排算子子模块分别对每个卷积运算结果中的特征点的特征值进行重排操作,
所述平铺子模块包括有n个平铺算子子模块,每个平铺算子子模块分别对每个重排算子的结果进行平铺操作;
所述合并子模块将来自每个平铺算子子模块的结果予以合并,并输出至所述再成形子模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210036200.7A CN114067108B (zh) | 2022-01-13 | 2022-01-13 | 一种基于神经网络的目标检测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210036200.7A CN114067108B (zh) | 2022-01-13 | 2022-01-13 | 一种基于神经网络的目标检测方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067108A true CN114067108A (zh) | 2022-02-18 |
CN114067108B CN114067108B (zh) | 2022-04-19 |
Family
ID=80231079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210036200.7A Active CN114067108B (zh) | 2022-01-13 | 2022-01-13 | 一种基于神经网络的目标检测方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067108B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758669A (zh) * | 2022-06-13 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738315A (zh) * | 2018-07-18 | 2020-01-31 | 华为技术有限公司 | 一种神经网络精度调整方法及装置 |
CN112132892A (zh) * | 2019-06-24 | 2020-12-25 | 杭州海康威视系统技术有限公司 | 目标位置标注方法、装置及设备 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113657528A (zh) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | 图像特征点提取方法、装置、计算机终端及存储介质 |
CN113887407A (zh) * | 2021-09-30 | 2022-01-04 | 智道网联科技(北京)有限公司 | 用于无人车的3d目标检测方法、装置和计算可读存储介质 |
CN113901924A (zh) * | 2021-10-11 | 2022-01-07 | 上海金仕达软件科技有限公司 | 一种文档表格的检测方法及装置 |
-
2022
- 2022-01-13 CN CN202210036200.7A patent/CN114067108B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738315A (zh) * | 2018-07-18 | 2020-01-31 | 华为技术有限公司 | 一种神经网络精度调整方法及装置 |
CN112132892A (zh) * | 2019-06-24 | 2020-12-25 | 杭州海康威视系统技术有限公司 | 目标位置标注方法、装置及设备 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113657528A (zh) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | 图像特征点提取方法、装置、计算机终端及存储介质 |
CN113887407A (zh) * | 2021-09-30 | 2022-01-04 | 智道网联科技(北京)有限公司 | 用于无人车的3d目标检测方法、装置和计算可读存储介质 |
CN113901924A (zh) * | 2021-10-11 | 2022-01-07 | 上海金仕达软件科技有限公司 | 一种文档表格的检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
魏墨非: "基于深度学习目标检测的优化研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758669A (zh) * | 2022-06-13 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
CN114758669B (zh) * | 2022-06-13 | 2022-09-02 | 深圳比特微电子科技有限公司 | 音频处理模型的训练、音频处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114067108B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922321B2 (en) | Methods and systems for selecting quantisation parameters for deep neural networks using back-propagation | |
CN110059554B (zh) | 一种基于交通场景的多支路目标检测方法 | |
US12056600B2 (en) | Histogram-based per-layer data format selection for hardware implementation of deep neural network | |
CN110009099B (zh) | 用于确定表示dnn的层的值的定点数格式的方法和系统 | |
US20210073614A1 (en) | Methods and systems for converting weights of a deep neural network from a first number format to a second number format | |
US20240135139A1 (en) | Implementing Traditional Computer Vision Algorithms as Neural Networks | |
CN111339488B (zh) | 基于克里金Kriging的边坡系统失效概率计算方法 | |
US20210390382A1 (en) | Neural network apparatus performing floating-point operation and operating method of the same | |
JP4514687B2 (ja) | パターン認識装置 | |
US20190236436A1 (en) | Hierarchical Mantissa Bit Length Selection for Hardware Implementation of Deep Neural Network | |
US20210182670A1 (en) | Method and apparatus with training verification of neural network between different frameworks | |
GB2568081A (en) | End-to-end data format selection for hardware implementation of deep neural network | |
US20190251436A1 (en) | High-speed processing method of neural network and apparatus using the high-speed processing method | |
CN114067108B (zh) | 一种基于神经网络的目标检测方法、装置 | |
CN112926570A (zh) | 一种自适应比特网络量化方法、系统及图像处理方法 | |
CN114692348B (zh) | 基于多保真深度学习代理模型的组件布局温度场预测方法 | |
EP3882823A1 (en) | Method and apparatus with softmax approximation | |
Traoré et al. | Straight-line detection with the hough transform method based on a rectangular grid | |
CN114565833A (zh) | 基于轮廓引导和结构注意的全卷积网络建筑物提取方法 | |
CN117371496A (zh) | 参数优化方法、装置、设备及存储介质 | |
EP4293575A1 (en) | Hardware implementation of an attention-based neural network | |
US20220405576A1 (en) | Multi-layer neural network system and method | |
CN111382761B (zh) | 一种基于cnn的检测器、图像检测方法及终端 | |
US20230205544A1 (en) | Forward tensor and activation scaling for lower precision neural networks | |
US20230162010A1 (en) | Synthesizing Zero-Loss Low-Power Approximate DNN Accelerators With Large-Scale Search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |