CN114092817B - 目标检测方法、存储介质、电子设备及目标检测装置 - Google Patents
目标检测方法、存储介质、电子设备及目标检测装置 Download PDFInfo
- Publication number
- CN114092817B CN114092817B CN202111524129.9A CN202111524129A CN114092817B CN 114092817 B CN114092817 B CN 114092817B CN 202111524129 A CN202111524129 A CN 202111524129A CN 114092817 B CN114092817 B CN 114092817B
- Authority
- CN
- China
- Prior art keywords
- blocks
- information
- layout
- adjusted
- coordinate information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种目标检测方法、存储介质、电子设备及目标检测装置。方法包括:获取原始图像;按照第一分割方案将原始图像划分成多个第一区块,然后按照预定约束条件调整多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分原始图像得到的多个第二区块的布局,以及对调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量;和对目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量用于获得待检测目标的关联信息。第一分割方案不均等分割且第二分割方案均等分割。如此降低计算量及改进预测效果。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种目标检测方法、存储介质、电子设备及目标检测装置。
背景技术
随着人工智能技术的发展,深度学习技术在计算机视觉技术领域取得了重大发展,并且在图像分类、图像目标检测以及图像分割等方面取得了重大突破。其中,基于计算机视觉技术的人脸识别产品已经广泛应用于出入境口岸、火车站和机场大厅等场所,通过从采集的图像中提取人脸特征并进行比对和搜索来达到身份检判的目的。在工业应用领域,例如物流中心的货物自动分拣和港口自动化等,可以借助人工智能技术和基于计算机视觉技术的产品来实现对目标货物的智能化自动检判并根据检判结果采取相应的搬运、分拣、打包等操作。另外,在废钢回收利用环节中,也需要对来源复杂、种类繁多、材质差异大的各种废弃钢材进行定级并采取相应操作,因此也可以借助人工智能技术和基于计算机视觉技术的产品来实现对废弃钢材的智能化自动检判。以上提及的对目标货物或废弃钢材的智能化自动检判,相比于传统的人工测量和人工检判,具有检判标准客观稳定、信息化程度高、降低了安全隐患和人力成本等有益效果,有利于提高生产效率和作业安全性。
基于计算机视觉技术来实现上面提及的对目标货物或者废弃钢材或者任意合适的检测目标的智能化自动检测,往往需要基于图像或者抽取的视频帧等原始数据,通过机器学习模型从中提取出特征信息用于进一步的处理。识别效果和检测精度的提升往往伴随着机器学习模型如神经网络模型中的模型参数和结构变得更多更复杂,这样就带来了更高的对计算能力和存储资源的要求,也成为了进一步地提升识别效果和检测精度的瓶颈。其中一个原因是当前的神经网络模型难以有效地筛选出为了达到预期目的而需要的重要信息,所以有时依赖非常多的卷积层计算和部署数量巨大的各卷积层的计算参数从而导致模型参数和结构变得很复杂,训练及优化模型的耗时也被延长了。
为此,需要一种目标检测方法、存储介质、电子设备及目标检测装置,能够有效地筛选并利用为了达到预期目的而需要的重要信息,从而在实现良好的识别效果和检测精度同时也具有相对较低的模型复杂程度和相对较低的对计算能力的要求,适用于例如对目标货物或者废弃钢材或者任意合适的待检测目标的智能化自动检测。
发明内容
第一方面,本申请实施例提供了一种目标检测方法。所述目标检测方法包括:获取原始图像;利用特征提取网络的第一网络分支,按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量;和利用所述特征提取网络的至少一个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同。其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同。其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
第一方面所描述的技术方案,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述至少一个第一区块的区块相邻关系指示所述至少一个第一区块在水平方向上和垂直方向上分别相邻的第一区块。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局强化所述调整后的多个第一区块的每个第一区块与所述调整后的多个第一区块的相对于该第一区块的其它第一区块之间的关系。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述第一分割方案将所述原始图像划分成九个第一区块,所述第二分割方案将所述原始图像划分成四个第二区块,所述调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局包括:调整后的所述九个第一区块的布局匹配所述四个第二区块的布局。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述九个第一区块的一个第一区块的大小与所述四个第二区块的大小相同。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述特征提取网络包括三个第二网络分支,所述三个第二网络分支以级联方式连接,利用所述特征提取网络的三个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到所述最终目标特征张量,包括:将所述目标特征张量输入以级联方式连接的所述三个第二网络分支,通过所述三个第二网络分支分别进行基于多头注意力机制的计算,从而得到所述最终目标特征张量。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述目标检测方法用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述吸盘的关联信息包括所述吸盘的坐标信息,所述目标检测方法还包括:通过区域候选网络RPN和预测网络,根据所述最终目标特征张量得到所述吸盘的坐标信息。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述吸盘的关联信息包括所述吸盘的坐标信息,所述吸盘的坐标信息用于通过吸盘落点识别模型获得所述吸盘的落点坐标。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述吸盘的坐标信息用于通过所述吸盘落点识别模型获得所述吸盘的落点坐标,包括:获得与连续的多个图像各自对应的多个吸盘的坐标信息;当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。
第二方面,本申请实施例提供了一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据第一方面中任一项所述的目标检测方法。
第二方面所描述的技术方案,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现根据第一方面中任一项所述的目标检测方法。
第三方面所描述的技术方案,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
第四方面,本申请实施例提供了一种目标检测装置。所述目标检测装置包括:特征提取网络,其中,所述特征提取网络包括第一网络分支和至少一个第二网络分支,所述特征提取网络用于获取原始图像。其中,所述第一网络分支用于:按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量。其中,所述至少一个第二网络分支用于:对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同。其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同。其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
第四方面所描述的技术方案,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述目标检测方法用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述吸盘的关联信息包括所述吸盘的坐标信息,所述目标检测装置还包括:吸盘落点识别模型,用于根据所述吸盘的坐标信息获得所述吸盘的落点坐标。其中,所述吸盘落点识别模型用于:获得与连续的多个图像各自对应的多个吸盘的坐标信息;当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。
根据第四方面的技术方案的一种可能的实现方式,本申请实施例还提供了,该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值,并且,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。
附图说明
为了说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1示出了本申请实施例提供的目标检测方法的流程示意图。
图2示出了本申请实施例提供的用于图1所示的目标检测方法的电子设备的框图。
图3示出了本申请实施例提供的目标检测装置的框图。
具体实施方式
本申请实施例为了解决如何在实现良好的识别效果和检测精度同时也具有相对较低的模型复杂程度和相对较低的对计算能力的要求这样的技术难题,提出了一种目标检测方法、存储介质、电子设备及目标检测装置。所述目标检测方法包括:获取原始图像;利用特征提取网络的第一网络分支,按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量;和利用所述特征提取网络的至少一个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同。其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同。其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。如此,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
本申请实施例可用于以下应用场景,包括但是不限于,工业自动化、物流中心货物分拣、港口自动化、货物智能化自动检判、废弃钢材回收、废弃钢材智能化自动检判以及任意的可能通过用于料件智能检判的识别方法、装置来提高生产效率和降低人力成本的应用场景如煤炭自动化分拣、垃圾回收和垃圾自动化分拣等。
本申请实施例可以依据具体应用环境进行调整和改进,此处不做具体限定。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请的实施例进行描述。
本申请各方面以及以下所提及的各种实施例和实施方式涉及到人工智能、机器学习和神经网络等概念。一般而言,人工智能(Artificial Intelligence,AI)研究人类智能的本质并构建能以人类智能相似的方式作出反应的智能机器。人工智能应用领域的研究包括机器人、语音识别、自然语言处理、图像识别、决策推理、人机交互和专家系统等。机器学习(Machine Learning,ML)研究人工智能系统如何模拟或实现人类的学习行为,获取新的知识或技能,重新组织已有知识结构以及改善自身能力。机器学习通过各种算法从大量样本、数据或者经验中学习规律,从而对新的样本做出识别或者对事件做出决策和预测。机器学习算法的例子包括决策树学习、贝叶斯分类、支持向量机、聚类算法等。深度学习(DeepLearning,DL)参考了人类大脑的天然深层结构和按深度分级的认知过程,研究如何将大量数据输入复杂模型中,并“训练”模型来学习如何抓取特征。神经网络(Neural Network,NN)可以分成人工神经网络(Artificial Neural Network,ANN)和脉冲神经网络(SpikingNeural Network,SNN)。SNN模仿生物神经工作机制的脉冲神经元模型,计算过程中采用脉冲编码的信息。目前获得广泛应用的是ANN。本文中所提及的神经网络NN,除非特别说明或者另有所指或者结合上下文得出不同的解释,否则一般情况下指的是人工神经网络也即ANN。
ANN指的是受到大脑神经元结构及神经传导原理的启发而建立的算法数学模型,具有模仿动物神经网络行为特征进行信息处理的网络结构。神经网络包括大量相互联接的节点或者称神经元,这些节点或称神经元受到大脑神经元结构启发,有时也称作人工神经元或者感知器。浅层神经网络(Shallow Neural Network)只包括输入层和输出层,输入层负责接收输入信号,输出层负责输出神经网络的计算结果。输入信号经过线性组合后,被施加激活函数(Activation Function)进行变换得到输出层的结果。深度学习中用到的复杂模型主要是多层神经网络,有时也称作深度神经网络(Deep Neural Network,DNN)。多层神经网络除了输入层和输出层还包括隐藏层,每个隐藏层包括任意数量的神经元,这些神经元在网络结构中作为节点与前一层的节点连接,每个神经元可以看做线性组合器并给每个连接的输入值分配权重进行加权线性组合。激活函数是对输入信号进行加权线性组合之后的非线性映射,在多层神经网络中可以理解为上一层神经元的输出与下一层神经元的输入之间的函数关系。每个隐藏层可以有不同的激活函数。常见的激活函数有ReLU、Sigmoid、Tanh等。神经网络通过网状结构将每一层的信息传递给下一层。正向传播是从输入层到输出层逐层计算的过程,在正向传播过程中反复进行加权线性组合和通过激活函数进行变换,最后计算损失函数(Loss Function)用于衡量模型预测值和真实值之间的偏离程度。反向传播是从输出层向隐藏层反向传播直至输入层,在反向传播过程中根据实际输出和期望输出之间的误差进行神经网络参数的修正。DNN按照基本层的组成可以分为卷积神经网络(Convolutional Neural Network,CNN)、全连接神经网络(Fully Connected NeuralNetwork,FCN)和循环神经网络(Recurrent Neural Network,RNN)。CNN由卷积层、池化层和全连接层组成。FCN由多个全连接层组成。RNN由全连接层组成但层与层之间具有反馈路径和门控操作,也叫递归层。不同类型的神经网络基本层具有不同的计算特点和计算需求,例如有的神经网络中卷积层的计算占比很高且各卷积层的计算量很大。另外,神经网络的各卷积层的计算参数如卷积核大小和输入输出特征图尺寸等也变化多样。
图1示出了本申请实施例提供的目标检测方法的流程示意图。如图1所示,目标检测方法包括以下步骤。
步骤S102:获取原始图像。
其中,原始图像可以是监控设备、相机、闭路电视或者任意合适的传感器、采集设备所获取的图像或者从所获取的视频数据中采样或截图或抽帧得到的视频帧。上面提到了,需要从原始图像中有效地筛选出为了达到预期目的而需要的重要信息。另外,原始图像还可能经过任意合适的预处理操作或者数据增强操作。示例性的数据增强操作包括:随机翻转、旋转、翻转及旋转、随机变换、随机缩放、随机裁剪、模糊化、高斯噪声添加、填充。
步骤S104:利用特征提取网络的第一网络分支,按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量。
其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同。所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同。其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
步骤S106:利用所述特征提取网络的至少一个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。
请参阅步骤S102至步骤S106,为了从原始图像中筛选出重要信息也就是用于获得待检测目标的关联信息的最终目标特征张量,目标检测方法利用了基于多头注意力机制的计算。这里,多头注意力(Multi-headed Self-attention)机制是对在自注意力(Self-attention)机制下的每个区块的自注意力进行合并加权从而得到针对图像整体的最终目标特征张量。具体地,注意力(attention)机制或者说基于注意力机制的计算,一般指的是根据具体任务目标例如要识别的待检测目标,对关注的方向和加权模型等进行调整,例如在神经网络的隐藏层中增加针对注意力机制的加权。通过注意力机制的加权可以增强与待检测目标有关的特征,例如在废钢料件搬运作业中的吸盘自动识别场景下可以增强与吸盘有关的特征,这样可以强化吸盘的特征同时弱化其它特征,有利于更好地区分吸盘和非吸盘的其它物体。强化与待检测目标有关的特征可以通过调整注意力权重从而使得部分位置或者部分区域有更高的对应的注意力权重。在自然语言处理(Natural LanguageProcessing,NLP)的应用中,注意力机制用于在句子中如一句话中关注某些词或词组或者强化与这些词或词组有关的特征。自注意力机制是在注意力机制的基础上,减少了对外部信息的依赖并且更专注于捕捉数据或特征的内部相关性。在上面NLP的应用中,自注意力机制或者说基于自注意力机制的计算主要通过计算单词之间的互相影响,例如可以针对每个单词计算该单词与其它单词之间的关系强弱。这样针对每个单词计算得到的该单词与其它单词之间的关系强弱就是该单词的自注意力,通过将一句话的多个单词各自的自注意力进行合并加权就得到了针对该句话整体的多头注意力。这样得到的针对该句话整体的多头注意力的表现形式是多维数组或者特征张量,可用于进一步的操作得到该句话的关联信息。并且,因为是基于多头注意力机制的计算得到的,所以是特定于具体任务目标的,有利于更有效地筛选出重要信息。目标检测方法利用了基于多头注意力机制的计算从而根据原始图像计算得到用于获得待检测目标的关联信息的最终目标特征张量,并且针对与NLP的应用中不同之处做出了针对性改进,下面详细说明。
在步骤S104中,按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量。与NLP应用中针对一句话中每个单词分别计算该单词的自注意力(也就是该单词与其它单词之间的关系强弱)不同的是,在一个图像中如在步骤S102中获得的原始图像,不存在天然的像一句话所包括的多个单词这样的结构关系。也就是说,为了利用多头注意力机制的计算,首先需要参考一句话和该句话的各个单词之间的结构关系,来构建一种在原始图像和该原始图像的多个区块之间的结构关系。也因此需要按照某种方式来将原始图像划分成多个区块,就像在NLP应用中将一句话按照其天然存在的该句话所包括的多个单词这样的结构关系划分成多个单词。在步骤S104中,第一分割方案是实质上划分原始图像的方式,按照第一分割方案划分原始图像得到的多个第一区块是第一分割方案的划分结果也是实质上的原始图像的划分结果,而根据第一分割方案划分原始图像得到的多个第一区块的布局则是在根据第一分割方案划分原始图像后得到的初始布局。接下来,第二分割方案是参考用的划分原始图像的方式,按照第二分割方案划分原始图像得到的多个第二区块是假设按照第二分割方案划分原始图像得到的划分结果也是参考划分结果,而根据第二分割方案划分原始图像得到的多个第二区块的布局则是参考布局。在步骤S104中,将按照第一分割方案划分原始图像后得到的初始布局,按照预定约束条件调整其中的多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局也就是对初始布局调整后得到的布局,可以匹配参考布局。总之,第一分割方案用于实质上划分原始图像并得到多个第一区块,这样得到的多个第一区块各自对应原始图像的一部分区域,在保留多个第一区块各自的内容不变的前提下改变多个第一区块之间的相对位置关系,例如将某个第一区块与另一个第一区块对调或者进行平移等操作。这样得到的调整后的多个第一区块的布局,与开始调整前的初始布局(也就是根据第一分割方案划分原始图像后得到的初始布局)相比,具有相同数量的多个第一区块且每个第一区块的内容保持不变,只是多个第一区块之间的相对位置关系发生了变化。
继续参阅步骤S104,调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,意味着调整后的多个第一区块的布局上可以参照多个第二区块的布局,通过将一个或者多个紧邻的第一区块视为一起并对应某个第二区块。换句话说,多个第二区块的布局或者说参考布局,用于给如何调整初始布局提供指引,而第一分割方案也就是实质上划分原始图像的方式则决定了初始布局。相当于通过第一分割方案确定了出发点也就是初始布局,而通过第二分割方案确定了终点也就是参考布局,在步骤S104的调整多个第一区块之间的相对位置关系就是从出发点(初始布局)朝着终点(参考布局)逼近的过程,且这个过程中要符合预定约束条件。这样进行调整的意义,是为了同时做到降低计算量以及利用多头注意力机制的计算得到更好的预测效果。具体地,第二分割方案及相应的参考布局从降低计算量的角度考虑,尽可能平均地划分原始图像,例如所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同,这样得到的多个第二区块平均地占据了原始图像的不同区域。如果直接对这样划分得到的多个第二区块进行基于多头注意力机制的计算,则意味着计算每个第二区块的自注意力也就是每个第二区块与其它第二区块之间的关系强弱,例如计算每个第二区块的注意力权重或自注意力数组,但是受限于原始图像与平均划分得到的多个第二区块之间的结构关系,这样得到的每个第二区块的自注意力可能难以很好体现与其它第二区块之间的关系。为了改进多头注意力机制的计算效果,采用了第一分割方案作为实质上划分原始图像的方式,并且第一分割方案从增强多头注意力机制的计算效果的角度考虑,采用了不均等分割的方式,例如所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同,这样得到的多个第一区块不平均地占据了原始图像的不同区域。通过对这样划分得到的多个第一区块进行基于多头注意力机制的计算,则意味着计算每个第一区块的自注意力也就是每个第一区块与其它第一区块之间的关系强弱,例如计算每个第一区块的注意力权重或自注意力数组,并且受益于原始图像与不均等划分得到的多个第一区块之间的结构关系,这样得到的每个第一区块的自注意力能够很好地体现与其它第一区块之间的关系。但是,第一分割方案在增强多头注意力机制的计算效果的同时也带来了更复杂的计算过程,因为多个第一区块的大小不一致,所以计算不同的第一区块各自的自注意力时会遭遇更复杂的计算过程。为了同时做到降低计算量以及利用多头注意力机制的计算得到更好的预测效果,在步骤S104中,按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局。这样得到的调整后的多个第一区块的布局,进行基于多头注意力机制的计算得到目标特征张量,就兼具了降低计算量以及获得更好的多头注意力机制计算结果。并且,调整过程要满足预定约束条件,其包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
继续参阅步骤S104,上面提到,为了利用多头注意力机制的计算,需要参考一句话和该句话的各个单词之间的结构关系,来构建一种在原始图像和该原始图像的多个区块之间的结构关系。第一分割方案以及相应的根据第一分割方案划分原始图像得到的初始布局从增强多头注意力机制的计算效果的角度考虑采用了例如不均等分割的方式,第二分割方案以及相应的根据第二分割方案划分原始图像得到的参考布局从降低计算量的角度考虑采用了例如均等分割的方式。为此通过以初始布局也就是按照第一分割方案将所述原始图像划分成多个第一区块后得到的多个第一区块的布局作为出发点,以参考布局也就是假设按照第二分割方案划分所述原始图像得到的多个第二区块的布局作为终点,通过按照预定约束条件调整多个第一区块之间的相对位置关系,从出发点(初始布局)朝着终点(参考布局)逼近,得到调整后的多个第一区块的布局。该调整后的多个第一区块的布局,相当于用于多头注意力机制的计算的该句话的各个单词之间的结构关系,用于后续的关于原始图像的多头注意力机制的计算。应当理解的是,该调整后的多个第一区块的布局,与根据第一分割方案划分原始图像得到的多个第一区块的初始布局之间,相同之处在于具有相同的多个第一区块且各自的内容是保持不变,不同之处在于多个第一区块之间的相对位置关系发生了变化。该调整后的多个第一区块的布局,根据第二分割方案划分原始图像得到的多个第二区块的参考布局,相同之处在于,调整后的多个第一区块的布局匹配多个第二区块的参考布局,也就是调整后的多个第一区块的布局中的一个或者多个紧邻的第一区块视为一起并对应某个第二区块(例如该一个或者多个紧邻的第一个区块一起占据的原始图像的区域的面积与所对应的第二区块接近或者相等)。
在步骤S106中,对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。在步骤S104得到的目标特征张量兼具了降低计算量以及获得更好的多头注意力机制计算结果。在步骤S106中,在该目标特征张量基础上进一步进行基于多头注意力机制的计算,例如通过对关注的方向和加权模型等进行调整,进一步地增强与待检测目标有关的特征,从而得到用于获得待检测目标的关联信息的最终目标特征张量。
如此,目标检测方法利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
在一种可能的实施方式中,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。如此,根据调整后的多个第一区块的布局,计算每个第一区块的自注意力矩阵并整合得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。
在一种可能的实施方式中,所述至少一个第一区块的区块相邻关系指示所述至少一个第一区块在水平方向上和垂直方向上分别相邻的第一区块。如此,设多个第一区块都是矩形形状,每个第一区块在水平方向上和垂直方向上或者说横轴方向上和纵轴方向上分别相邻至少一个第一区块。
在一种可能的实施方式中,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局强化所述调整后的多个第一区块的每个第一区块与所述调整后的多个第一区块的相对于该第一区块的其它第一区块之间的关系。如此,实现了强化与其它第一区块之间的关系,从而得到更好的基于多头注意力机制的计算的预测效果。
在一种可能的实施方式中,所述第一分割方案将所述原始图像划分成九个第一区块,所述第二分割方案将所述原始图像划分成四个第二区块,所述调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局包括:调整后的所述九个第一区块的布局匹配所述四个第二区块的布局。如此,第二分割方案是均等分割的方式并将原始图像均等地划分成四个第二区块,相当于四等分。第一分割方案是不均等分割的方式并将原始图像划分成九个第一区块,这九个第一区块中至少有两个第一区块大小不一致。调整后的所述九个第一区块的布局匹配所述四个第二区块的布局,从而兼具了降低计算量以及获得更好的多头注意力机制计算结果。在一些实施例中,所述九个第一区块的一个第一区块的大小与所述四个第二区块的大小相同。
在一种可能的实施方式中,所述特征提取网络包括三个第二网络分支,所述三个第二网络分支以级联方式连接,利用所述特征提取网络的三个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到所述最终目标特征张量,包括:将所述目标特征张量输入以级联方式连接的所述三个第二网络分支,通过所述三个第二网络分支分别进行基于多头注意力机制的计算,从而得到所述最终目标特征张量。如此,通过以级联方式连接的所述三个第二网络分支,进一步地增强与待检测目标有关的特征,从而得到用于获得待检测目标的关联信息的最终目标特征张量。
在一种可能的实施方式中,所述目标检测方法用于废钢料件搬运作业中的废钢料件自动识别,所述待检测目标是与所述废钢料件搬运作业对应的废钢料件集合的废钢料件,所述待检测目标的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。其中,轮廓信息指示了废钢料件集合的各个废钢料件的轮廓,可以是与预设的多种轮廓类型进行匹配的结果,也可以是通过数值化方式进行语义描述(如边长、曲率等),也可以是较为概括的语义描述(如圆盘形、长条形等)。种类信息指示了废钢料件集合的各个废钢料件中包括多少种废钢料件及每种废钢料件的个数,这些信息可用于进一步分析提取出更多的情报,因此一般情况下关联信息至少包括了种类信息。例如,废钢料件集合的种类信息可以指示废钢料件集合的各个废钢料件总共有10个火车车轮、20个汽车轴承及30个螺丝钉等。来源信息指示了某个废钢料件来自哪个部位,例如来自于火车或者驳船。坐标信息指示了某个废钢料件在图像上的坐标。面积信息指示了某个废钢料件在图像上被识别出的面积。像素特征信息指示了某个废钢料件所属的全部像素的特征。应当理解的是,根据具体采用的计算机视觉技术可以获得更多的丰富的废钢料件集合的关联信息。以上所列举的关联信息的示例仅为说明性而不是限制性。如此,实现了获得丰富的关联信息从而更有利于为决策和后续处理提供依据。并且,进一步地,废钢料件集合的种类信息可用于评估料件品质,例如火车车轮算精品,汽车轴承算普品而螺丝钉算废品,这样就可以建立起废钢料件集合的品质信息。而且,废钢料件集合的品质信息还可以结合不同品质的废钢料件对应的价格,估算废钢料件集合的整体价格。种类信息还可用于与废钢料件集合的轮廓信息结合在一起进行料件估重。例如,某个废钢料件的种类信息是火车车轮,则结合该废钢料件的轮廓信息可以推算出大概体积,再结合火车车轮的密度方面的经验常识或者先验知识,可以估算出重量。如此可以得到废钢料件集合的不同种类信息的料件各自对应的比重信息。
在一种可能的实施方式中,所述目标检测方法用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。其中,吸盘的关联信息所包括的轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息分别指示了吸盘的轮廓(例如用边界框的形式)、吸盘的种类、吸盘的来源、吸盘的坐标、吸盘的面积以及吸盘的像素特征。其中,吸盘的坐标信息指示了吸盘的坐标,或者说代表吸盘位置的数组。
在一种可能的实施方式中,所述吸盘的关联信息包括所述吸盘的坐标信息,所述目标检测方法还包括:通过区域候选网络RPN和预测网络,根据所述最终目标特征张量得到所述吸盘的坐标信息。如此,最终目标特征张量还被输入RPN和预测网络,得到吸盘的坐标信息。
在一种可能的实施方式中,所述吸盘的关联信息包括所述吸盘的坐标信息,所述吸盘的坐标信息用于通过吸盘落点识别模型获得所述吸盘的落点坐标。
在一种可能的实施方式中,所述吸盘的坐标信息用于通过所述吸盘落点识别模型获得所述吸盘的落点坐标,包括:获得与连续的多个图像各自对应的多个吸盘的坐标信息;当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。在一些实施例中,该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值。在一些实施例中,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。如此,通过吸盘落点识别模型,可以判断吸盘的落点坐标,进而为确定吸盘的作业规律,如吸盘的吸附搬运操作的作业规律,提供了依据。并且,通过预设阈值来筛选出多个吸盘的坐标信息,然后再从中选择吸盘的落点坐标,可以具有更好的鲁棒性且能适应更复杂的情况,例如吸盘可能没有出现在图像中或者吸盘的运动轨迹受到天气影响等。
应当理解的是,上述方法可以通过相应的执行主体或者载体来实现。在一些示例性实施例中,一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现上述方法以及上述任意实施例、实施方式或者它们的组合。在一些示例性实施例中,一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现上述方法以及上述任意实施例、实施方式或者它们的组合。
图2示出了本申请实施例提供的用于图1所示的目标检测方法的电子设备的框图。如图2所示,电子设备包括主处理器202,内部总线204,网络接口206,主存储器208,以及辅助处理器210和辅助内存212,还有辅助处理器220和辅助内存222。其中,主处理器202与主存储器208连接,主存储器208可用于存储主处理器202可执行的计算机指令,从而可以实现图1所示的目标检测方法,包括其中部分或者全部步骤,也包括其中步骤的任意可能的组合或结合以及可能的替换或者变体。网络接口206用于提供网络连接以及通过网络收发数据。内部总线204用于提供在主处理器202、网络接口206、辅助处理器210以及辅助处理器220之间的内部的数据交互。其中,辅助处理器210与辅助内存212连接并一起提供辅助计算能力,而辅助处理器220与辅助内存222连接并一起提供辅助计算能力。辅助处理器210和辅助处理器220可以提供相同或者不同的辅助计算能力,包括但是不限于,针对特定计算需求进行优化的计算能力如并行处理能力或者张量计算能力,针对特定算法或者逻辑结构进行优化的计算能力例如迭代计算能力或者图计算能力等。辅助处理器210和辅助处理器220可以包括特定类型的一个或者多个处理器,如数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等,从而可以提供定制化的功能和结构。在一些示例性实施例中,电子设备可以不包括辅助处理器,可以包括仅一个辅助处理器,还可以包括任意数量的辅助处理器且各自具有相应的定制化功能及结构,在此不做具体限定。图2中所示出的两个辅助处理器的架构仅为说明性而不应解释为限制性。另外,主处理器202可以包括单核或者多核的计算单元,用于提供本申请实施例所必需的功能和操作。另外,主处理器202和辅助处理器(如图2中的辅助处理器210和辅助处理器220)可以具有不同的架构,也就是电子设备可以是基于异构架构的系统,例如主处理器202可以是基于指令集操作体系的通用型处理器如CPU,而辅助处理器可以是适合并行化计算的图形处理器GPU或者是适合神经网络模型相关运算的专用加速器。辅助内存(例如图2所示的辅助内存212和辅助内存222)可以用于配合各自对应的辅助处理器来实现定制化功能及结构。而主存储器208用于存储必要的指令、软件、配置、数据等从而可以配合主处理器202提供本申请实施例所必需的功能和操作。在一些示例性实施例中,电子设备可以不包括辅助内存,可以包括仅一个辅助内存,还可以包括任意数量的辅助内存,在此不做具体限定。图2中所示出的两个辅助内存的架构仅为说明性而不应解释为限制性。主存储器208以及可能的辅助内存可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性,并且可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。内部总线204可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。应当理解的是,图2所示的电子设备,其所示的结构并不构成对有关装置或系统的具体限定,在一些示例性实施例中,电子设备可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。
请继续参阅图2,在一种可能的实施方式中,辅助处理器210和/或辅助处理器220可以具有针对神经网络计算的特点而进行了定制化设计的计算架构,例如神经网络加速器。并且,电子设备还可以包括任意数量的辅助处理器且各自具有针对神经网络计算的特点而进行了定制化设计的计算架构,或者说电子设备可以包括任意数量的神经网络加速器。在一些实施例中,仅处于说明性目的,示例性的神经网络加速器可以是:具有基于控制流的时域计算架构的神经网络加速器,其基于神经网络算法定制指令集的指令流对计算资源和存储资源进行集中控制;或者,具有基于数据流的空域计算架构的神经网络加速器,例如基于行固定(Row Stationary,RS)的数据流的二维空域计算阵列、采用脉动阵列(Systolic Array)的二维矩阵乘法阵列等;或者,任意具有任意合适的定制化设计的计算架构的神经网络加速器。
图3示出了本申请实施例提供的目标检测装置的框图。如图3所示,目标检测装置包括特征提取网络310。其中,所述特征提取网络310包括第一网络分支312和第二网络分支314。所述目标检测装置还包括吸盘落点识别模型320。所述特征提取网络310用于获取原始图像。其中,所述第一网络分支312用于:按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量。其中,所述第二网络分支314用于:对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息。其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同。其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同。其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。并且,所述目标检测装置用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括坐标信息以及可能还包括以下至少之一:轮廓信息、种类信息、来源信息、面积信息、像素特征信息。吸盘落点识别模型320,用于根据所述吸盘的坐标信息获得所述吸盘的落点坐标。其中,所述吸盘落点识别模型320用于:获得与连续的多个图像各自对应的多个吸盘的坐标信息;当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。应当理解的是,所述特征提取网络310可能包括多于一个的第二网络分支,并且这些第二网络分支可能以级联方式连接用于对所述目标特征张量进行基于多头注意力机制的计算从而得到所述最终目标特征张量。例如,所述特征提取网络310包括三个第二网络分支也就是第二网络分支314以及另外两个第二网络分支(未示出)。所述三个第二网络分支以级联方式连接,利用所述特征提取网络310的三个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到所述最终目标特征张量,包括:将所述目标特征张量输入以级联方式连接的所述三个第二网络分支,通过所述三个第二网络分支分别进行基于多头注意力机制的计算,从而得到所述最终目标特征张量。
请参阅图3,目标检测装置按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局。这样得到的调整后的多个第一区块的布局,进行基于多头注意力机制的计算得到目标特征张量,就兼具了降低计算量以及获得更好的多头注意力机制计算结果。并且,调整过程要满足预定约束条件,其包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。如此,利用了基于多头注意力机制的计算来筛选重要信息,同时利用了第一分割方案和第二分割方案以及调整后的多个第一区块的布局实现了降低计算量同时得到更好的基于多头注意力机制的计算的预测效果。目标检测装置用于废钢料件搬运作业中的吸盘自动识别,可以更好地预测吸盘的坐标信息。
在一种可能的实施方式中,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。
在一种可能的实施方式中,该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值,并且,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。
本申请提供的具体实施例可以用硬件,软件,固件或固态逻辑电路中的任何一种或组合来实现,并且可以结合信号处理,控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器(例如,微处理器,控制器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等),这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供,也可以是系统的一部分,也可以是其它设备或装置的一部分。
本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合,例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据,程序器和/或指令,这些数据,程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性。在一个或多个示例性实施例中,计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共系统。计算机可读存储介质/存储设备可以包括光存储设备,半导体存储设备和/或磁存储设备等等,也可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。
以上是本申请实施例的实施方式,应当指出,本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。可以理解的是,本申请实施例以及附图所示的结构并不构成对有关装置或系统的具体限定。在本申请另一些实施例中,有关装置或系统可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。本领域技术人员将理解,在不脱离本申请具体实施例的精神和范围的情况下,可以对具体实施例记载的方法和设备的布置,操作和细节进行各种修改或变化;在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
Claims (20)
1.一种目标检测方法,其特征在于,所述目标检测方法包括:
获取原始图像;
利用特征提取网络的第一网络分支,按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量;和
利用所述特征提取网络的至少一个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息;
其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同,
其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同,
其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
2.根据权利要求1所述的目标检测方法,其特征在于,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:
根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;
对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。
3.根据权利要求1所述的目标检测方法,其特征在于,所述至少一个第一区块的区块相邻关系指示所述至少一个第一区块在水平方向上和垂直方向上分别相邻的第一区块。
4.根据权利要求1所述的目标检测方法,其特征在于,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:
根据所述调整后的多个第一区块的布局强化所述调整后的多个第一区块的每个第一区块与所述调整后的多个第一区块的相对于该第一区块的其它第一区块之间的关系。
5.根据权利要求1所述的目标检测方法,其特征在于,所述第一分割方案将所述原始图像划分成九个第一区块,所述第二分割方案将所述原始图像划分成四个第二区块,所述调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局包括:调整后的所述九个第一区块的布局匹配所述四个第二区块的布局。
6.根据权利要求5所述的目标检测方法,其特征在于,所述九个第一区块的一个第一区块的大小与所述四个第二区块的大小相同。
7.根据权利要求1所述的目标检测方法,其特征在于,所述特征提取网络包括三个第二网络分支,所述三个第二网络分支以级联方式连接,利用所述特征提取网络的三个第二网络分支对所述目标特征张量进行基于多头注意力机制的计算从而得到所述最终目标特征张量,包括:
将所述目标特征张量输入以级联方式连接的所述三个第二网络分支,通过所述三个第二网络分支分别进行基于多头注意力机制的计算,从而得到所述最终目标特征张量。
8.根据权利要求1所述的目标检测方法,其特征在于,所述目标检测方法用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
9.根据权利要求8所述的目标检测方法,其特征在于,所述吸盘的关联信息包括所述吸盘的坐标信息,所述目标检测方法还包括:
通过区域候选网络RPN和预测网络,根据所述最终目标特征张量得到所述吸盘的坐标信息。
10.根据权利要求8所述的目标检测方法,其特征在于,所述吸盘的关联信息包括所述吸盘的坐标信息,所述吸盘的坐标信息用于通过吸盘落点识别模型获得所述吸盘的落点坐标。
11.根据权利要求10所述的目标检测方法,其特征在于,所述吸盘的坐标信息用于通过所述吸盘落点识别模型获得所述吸盘的落点坐标,包括:
获得与连续的多个图像各自对应的多个吸盘的坐标信息;
当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。
12.根据权利要求11所述的目标检测方法,其特征在于,
该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值。
13.根据权利要求12所述的目标检测方法,其特征在于,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。
14.一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据权利要求1至13中任一项所述的目标检测方法。
15.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现根据权利要求1至13中任一项所述的目标检测方法。
16.一种目标检测装置,其特征在于,所述目标检测装置包括:
特征提取网络,其中,所述特征提取网络包括第一网络分支和至少一个第二网络分支,所述特征提取网络用于获取原始图像,
其中,所述第一网络分支用于:按照第一分割方案将所述原始图像划分成多个第一区块,然后按照预定约束条件调整所述多个第一区块之间的相对位置关系,从而使得调整后的多个第一区块的布局匹配按照第二分割方案划分所述原始图像得到的多个第二区块的布局,以及对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到目标特征张量,
其中,所述至少一个第二网络分支用于:对所述目标特征张量进行基于多头注意力机制的计算从而得到最终目标特征张量,该最终目标特征张量用于获得待检测目标的关联信息,
其中,所述第一分割方案是不均等分割且所述多个第一区块的至少两个第一区块的大小不相同,
其中,所述第二分割方案是均等分割且所述多个第二区块的每个第二区块的大小相同,
其中,所述预定约束条件包括所述多个第一区块的至少一个第一区块的区块相邻关系在调整所述多个第一区块之间的相对位置关系的过程中保持不变。
17.根据权利要求16所述的目标检测装置,其特征在于,对所述调整后的多个第一区块的布局进行基于多头注意力机制的计算得到所述目标特征张量,包括:
根据所述调整后的多个第一区块的布局,针对所述调整后的多个第一区块中任意一个第一区块,计算该第一区块与所述调整后的多个第一区块中相对于该第一区块的其它第一区块之间的权重矩阵,从而得到该第一区块的自注意力矩阵;
对所述调整后的多个第一区块的每个第一区块的自注意力矩阵进行合并加权,得到针对所述调整后的多个第一区块的布局的多头注意力矩阵,将所述多头注意力矩阵作为所述目标特征张量。
18.根据权利要求17所述的目标检测装置,其特征在于,所述目标检测装置用于废钢料件搬运作业中的吸盘自动识别,所述待检测目标是用于搬运与所述废钢料件搬运作业对应的待搬运废钢料件集合的吸盘,所述待检测目标的关联信息是所述吸盘的关联信息并且所述吸盘的关联信息包括以下至少之一:轮廓信息、种类信息、来源信息、坐标信息、面积信息、像素特征信息。
19.根据权利要求18所述的目标检测装置,其特征在于,所述吸盘的关联信息包括所述吸盘的坐标信息,所述目标检测装置还包括:
吸盘落点识别模型,用于根据所述吸盘的坐标信息获得所述吸盘的落点坐标,
其中,所述吸盘落点识别模型用于:获得与连续的多个图像各自对应的多个吸盘的坐标信息;当该多个吸盘的坐标信息的横轴分量和纵轴分量各自的变化幅度均在预设时间间隔内小于预设阈值,从该多个吸盘的坐标信息中选择特定吸盘的坐标信息作为所述吸盘的落点坐标。
20.根据权利要求19所述的目标检测装置,其特征在于,该多个吸盘的坐标信息的横轴分量的变化幅度定义为该多个吸盘的坐标的横轴分量的最大值减去最小值,该多个吸盘的坐标信息的纵轴分量的变化幅度定义为该多个吸盘的坐标信息的纵轴分量的最大值减去最小值,并且,该多个吸盘的坐标信息组成序列,该特定吸盘的坐标信息在该序列中的次序是该序列总数的中位数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524129.9A CN114092817B (zh) | 2021-12-14 | 2021-12-14 | 目标检测方法、存储介质、电子设备及目标检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524129.9A CN114092817B (zh) | 2021-12-14 | 2021-12-14 | 目标检测方法、存储介质、电子设备及目标检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092817A CN114092817A (zh) | 2022-02-25 |
CN114092817B true CN114092817B (zh) | 2022-04-01 |
Family
ID=80307209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111524129.9A Active CN114092817B (zh) | 2021-12-14 | 2021-12-14 | 目标检测方法、存储介质、电子设备及目标检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092817B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115024558B (zh) * | 2022-05-30 | 2023-12-29 | 广东时谛智能科技有限公司 | 鞋体设计过程中区域联动的调整方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539316A (zh) * | 2020-04-22 | 2020-08-14 | 中南大学 | 基于双注意力孪生网络的高分遥感影像变化检测方法 |
CN111563541A (zh) * | 2020-04-21 | 2020-08-21 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法和装置 |
CN111723904A (zh) * | 2019-03-20 | 2020-09-29 | 畅想科技有限公司 | 实现神经网络卷积转置层的方法和系统 |
CN113159056A (zh) * | 2021-05-21 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 图像分割方法、装置、设备及存储介质 |
CN113507608A (zh) * | 2021-06-09 | 2021-10-15 | 北京三快在线科技有限公司 | 图像编码方法、装置、电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8503792B2 (en) * | 2010-12-17 | 2013-08-06 | Sony Corporation | Patch description and modeling for image subscene recognition |
JP7044291B2 (ja) * | 2020-05-03 | 2022-03-30 | 浙江大学 | コプライム平面アレーブロックサンプリングテンソル信号構造に基づく自由度強化型空間スペクトル推定方法 |
-
2021
- 2021-12-14 CN CN202111524129.9A patent/CN114092817B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723904A (zh) * | 2019-03-20 | 2020-09-29 | 畅想科技有限公司 | 实现神经网络卷积转置层的方法和系统 |
CN111563541A (zh) * | 2020-04-21 | 2020-08-21 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法和装置 |
CN111539316A (zh) * | 2020-04-22 | 2020-08-14 | 中南大学 | 基于双注意力孪生网络的高分遥感影像变化检测方法 |
CN113159056A (zh) * | 2021-05-21 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 图像分割方法、装置、设备及存储介质 |
CN113507608A (zh) * | 2021-06-09 | 2021-10-15 | 北京三快在线科技有限公司 | 图像编码方法、装置、电子设备 |
Non-Patent Citations (1)
Title |
---|
Single High-Value Region Detection Based on Image Equal-Segmentation;Jinlong Chen 等;《2020 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC)》;20201029;第107-113页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114092817A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Srivastava et al. | Comparative analysis of deep learning image detection algorithms | |
Ali et al. | Advanced efficient strategy for detection of dark objects based on spiking network with multi-box detection | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN114187442A (zh) | 图像处理方法、存储介质、电子设备及图像处理装置 | |
CN111797895B (zh) | 一种分类器的训练方法、数据处理方法、系统以及设备 | |
CN113936220B (zh) | 图像处理方法、存储介质、电子设备及图像处理装置 | |
CN112861917B (zh) | 基于图像属性学习的弱监督目标检测方法 | |
Li et al. | A survey on deep learning-based panoptic segmentation | |
He et al. | Detection of foreign matter on high-speed train underbody based on deep learning | |
CN113935997B (zh) | 用于料件检测的图像处理方法、存储介质及图像处理装置 | |
Díaz-Romero et al. | Simultaneous mass estimation and class classification of scrap metals using deep learning | |
CN114092817B (zh) | 目标检测方法、存储介质、电子设备及目标检测装置 | |
Liu et al. | Defect classification on limited labeled samples with multiscale feature fusion and semi-supervised learning | |
CN115019133A (zh) | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 | |
CN111368845A (zh) | 基于深度学习的特征字典构建及图像分割方法 | |
CN114067171A (zh) | 一种克服小数据训练集的图像识别精度提升方法及系统 | |
CN113936253B (zh) | 料件搬运作业周期生成方法、存储介质、电子设备及装置 | |
Suzuki et al. | Superpixel convolution for segmentation | |
Chan et al. | A Review on Advanced Detection Methods in Vehicle Traffic Scenes | |
Ciamarra et al. | Forecasting future instance segmentation with learned optical flow and warping | |
Wang et al. | Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind | |
CN114170194A (zh) | 用于废钢料件自动检测的图像处理方法、存储介质及装置 | |
CN114241262A (zh) | 吸盘作业周期生成方法、存储介质、电子设备及装置 | |
CN113963280B (zh) | 用于料件智能检判的识别方法、装置及存储介质 | |
Karthik | A framework for fast scalable BNN inference using GoogLeNet and transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |