CN115049878A - 基于人工智能的目标检测优化方法、装置、设备及介质 - Google Patents
基于人工智能的目标检测优化方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115049878A CN115049878A CN202210690518.7A CN202210690518A CN115049878A CN 115049878 A CN115049878 A CN 115049878A CN 202210690518 A CN202210690518 A CN 202210690518A CN 115049878 A CN115049878 A CN 115049878A
- Authority
- CN
- China
- Prior art keywords
- matrix
- image
- attention
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000005457 optimization Methods 0.000 title claims abstract description 69
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 393
- 238000012549 training Methods 0.000 claims abstract description 80
- 230000008569 process Effects 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 66
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本申请提出一种基于人工智能的目标检测优化方法、装置、电子设备及存储介质,基于人工智能的目标检测优化方法包括:获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集;基于所述图像标签集筛选所述图像训练集获得参考图像以构建特征坐标矩阵;编码所述特征坐标矩阵以获取注意力评分矩阵;依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵以获取目标特征矩阵;基于所述目标特征矩阵和所述图像标签集构建损失函数以获得目标检测优化结果。本申请能够对目标检测的训练和检测过程进行整体优化,从而有效提高目标检测结果的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的目标检测优化方法、装置、电子设备及存储介质。
背景技术
目标检测技术是指给定一幅图像以及检测类别,确定在该图像中是否存在给定类别的任何实例,若存在,则返回该实例的空间位置和范围(通常使用矩形框对目标进行框定)。
目前一般通过训练各种网络模型来对目标进行检测,对图像中的目标物通过设置标签值进行框定,并在最后输出对应的目标框。然而,这些方式没有全面考虑目标框中各像素与其他像素之间的特征联动关系,从而降低了目标检测结果的准确性。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的目标检测优化方法、装置、电子设备及存储介质,以解决如何提高目标检测结果的准确性这一技术问题。
本申请提供一种基于人工智能的目标检测优化方法,所述方法包括:
获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应;
基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵;
对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵;
依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵;
基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
在一些实施例中,所述获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应,包括:
获取样本图像,并依据双线性插值算法调整所有的样本图像至统一尺寸得到图像训练集;
依据预设方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,并将所有具有目标框和标注的样本图像作为图像标签集。
在一些实施例中,所述基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵包括:
将所述图像标签集中所有目标框的标注按照标签值的类别进行划分得到多个标注类别的列表;
随机选择一个标注类别,并依据该标注类别对应的目标框从所述图像训练集中选取对应的图像作为该类别的参考图像集合;
从所述参考图像集合中随机选择一张参考图像,对该参考图像中所有像素的坐标同时进行多维度扩充,并根据扩充后的所有像素的坐标构建所述参考图像的特征坐标矩阵;
遍历所有的标注类别以使所有的标注类别的每个参考图像都构建一个特征坐标矩阵。
在一些实施例中,所述对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵,包括:
依据三个一维卷积核分别对所述特征坐标矩阵进行编码以分别生成查询特征矩阵、键值特征矩阵和基础特征矩阵;
依据预设的注意力评分模型计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的注意力评分值作为基础注意力评分值,遍历所述查询特征矩阵中的所有元素获得每一个元素的基础注意力评分值;
计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵。
在一些实施例中,所述计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵包括:
计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的欧氏距离,并基于所述欧氏距离计算每一个基础注意力评分值的注意力权重;
对所述基础注意力评分值和对应的注意力权重进行加权求和以获取所述查询特征矩阵中每一个元素的有效注意力评分值,并根据所述查询特征矩阵中所有元素的有效注意力评分值构建注意力评分矩阵。
在一些实施例中,所述依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵包括:
依据归一化指数函数对所述注意力评分矩阵中所有元素的有效注意力评分值进行计算得到各元素的归一化权重以获得特征权重矩阵;
对目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,所述目标元素为所述特征权重矩阵中的任意一个元素;
遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,并根据所有的目标特征元素构建目标特征矩阵。
在一些实施例中,所述基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果包括:
计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值作为基础损失值;
基于所述基础损失值和所述参考图像中所有像素的坐标的扩充维度构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
本申请实施例还提供一种基于人工智能的目标检测优化装置,所述装置包括:
获取单元,用于获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应;
筛选单元,用于基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵;
生成单元,用于对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵;
处理单元,用于依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵;
构建单元,用于基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;
处理器,执行所述存储器中存储的指令以实现所述的基于人工智能的目标检测优化方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的目标检测优化方法。
本申请通过根据参考图像构建特征坐标矩阵,并由此生成查询特征矩阵、键值特征矩阵和基础特征矩阵来获得最终的目标特征矩阵,在此过程中总和考虑了参考图像中各特征之间的影响关系,同时听过构建损失函数来对参考图像中各特征之间的关系进行迭代优化,有效提高了目标检测结果的准确性。
附图说明
图1是本申请所涉及的基于人工智能的目标检测优化方法的较佳实施例的流程图。
图2是本申请所涉及的基于人工智能的目标检测优化装置的较佳实施例的功能模块图。
图3是本申请所涉及的基于人工智能的目标检测优化方法的较佳实施例的电子设备的结构示意图。
图4是本申请所涉及的双线性插值算法的示例图。
具体实施方式
为了能够更清楚地理解本申请的目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,所述描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种基于人工智能的目标检测优化方法,可应用于一个或者多个电子设备中,电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
电子设备可以是任何一种可与客户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
电子设备还可以包括网络设备和/或客户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。
电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图1所示,是本申请基于人工智能的目标检测优化方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S10,获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应。
在一个可选的实施例中,所述获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应,包括:
S101,获取样本图像,并依据双线性插值算法调整所有的样本图像至统一尺寸得到图像训练集;
S102,依据预设方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,并将所有具有目标框和标注的样本图像作为图像标签集。
该可选的实施例中,可依据RGB相机采集大量的样本图像,并利用双线性插值算法对各样本图像的大小调整至统一的尺寸,如可以将各样本图像的大小均调整至32*100,高宽比例与原图保持一致,以使得原始图像形状信息得到完整保留。
双线性插值算法是有两个变量的插值函数的线性插值扩展,其核心思想是根据样本图像中各像素点的坐标在两个水平和垂直两个方向分别进行线性插值从而使各样本图像的大小调整至统一的尺寸。如图4所示,示例性的,任选一张样本图像,该样本图像中的任意四个像素点的坐标为Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)以及Q22=(x2,y2),若要计算像素点P=(x,y)的值,第一步需要计算X方向的线性插值,在Q12、Q22中插入像素点R2,Q11、Q21中插入像素点R1;第二步需要计算Y方向的线性插值,通过第一步计算出的R1与R2在Y方向上插值来计算出P像素点的坐标。其中,线性插值的结果与插值的顺序无关。首先进行Y方向的插值,然后进行X方向的插值,所得到的结果是一样的,双线性插值的结果与先进行哪个方向的插值无关。
该可选的实施例中,可预先通过人为标注的方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,其中,对样本图像中出现的不同类别的特征图像可以按照自然数由小到大的顺序依次标注为不同的标签值,每种特征图像对应一种标签值。如样本图像中有人、猫、狗三类特征图像,分别对应标签值1、2、3,则对人、猫、狗三类特征图像分别进行框选得到目标框,且各目标框内像素对应的标签值可分别设置为1、2、3。
该可选的实施例中,将所有具有目标框和标注的样本图像作为图像标签集。
如此,通过对样本图像的预处理可以保证图像训练集中的图像具有相同尺寸,同时获取各特征图像的目标框和标签值,可以为后续检测过程提供准确的数据支撑。
S11,基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵。
在一个可选的实施例中,所述基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵包括:
S111,将所述图像标签集中所有目标框的标注按照标签值的类别进行划分得到多个标注类别的列表;
S112,随机选择一个标注类别,并依据该标注类别对应的目标框从所述图像训练集中选取对应的图像作为该类别的参考图像集合;
S113,从所述参考图像集合中随机选择一张参考图像,对该参考图像中所有像素的坐标同时进行多维度扩充,并根据扩充后的所有像素的坐标构建所述参考图像的特征坐标矩阵。
S114,遍历所有的标注类别以使所有的标注类别的每个参考图像都构建一个特征坐标矩阵。
该可选的实施例中,将所有目标框的标注类别按照标签值的类别进行划分,从而生成含有多个标注类别的列表,统计所述图像标签集中所有的标注类别,随机选择其中一个标注的类别,从所述图像标签集中选择该类别对应的目标框,并从图像训练集中将这些目标框区域内对应的图像作为该类别的参考图像集合。
该可选的实施例中,在输出时需要将各参考图像按照类别进行输出,然后不同类别的参考图像需要输出的像素点数量是不一致的,因此无法同时对多种类别的参考图像进行统一的批量化训练。为优化训练过程,本方案中对不同类别的参考图像中所有像素的坐标同时进行多维度扩充,使所有类别的特征图像具有相同的像素点输出数量,其中多维度扩充可以是每种类别的参考图像中所有像素点数量的最小公倍数。
示例性的,参考图像A的所有像素的坐标总数量为4,参考图像B的所有像素的坐标总数量为8,参考图像A和参考图像B的类别不同,则可以将参考图像A的所有像素的坐标扩充为8个维度,设参考图像A中的四个像素的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),则扩充后对应的像素坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),即对参考图像A中的各像素的坐标依次进行复制直到达到需要扩充的维度,参考图像B中的所有像素数量则无需扩充,这样在后续训练的过程中,无论选择的参考图像具有多少数量的像素坐标,最终都可以输出统一的数量,即使一张参考图像中包括多个类别的特征图像也能够统一进行批量输出,从而提高目标检测过程中的训练效率。
该可选的实施例中,将参考图像中扩充后的所有像素的坐标按照对应像素点的排列位置构建相同排列结构的特征坐标矩阵,最终每个类别的参考图像集合中的每个参考图像均构建了一个特征坐标矩阵。
示例性的,参考图像A中的四个像素的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),对应的坐标位置为扩充后对应的像素坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),对应的特征坐标矩阵为
如此,通过选取参考图像并对参考图像的所有像素点的坐标数量进行统一维度的扩充,可以有效提高目标检测过程中的训练效率。
S12,对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵。
在一个可选的实施例中,所述对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵,包括:
S121,依据三个一维卷积核分别对所述特征坐标矩阵进行编码以分别生成查询特征矩阵、键值特征矩阵和基础特征矩阵;
S122,依据预设的注意力评分模型计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的注意力评分值作为基础注意力评分值,遍历所述查询特征矩阵中的所有元素获得每一个元素的基础注意力评分值;
S123,计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵。
该可选的实施例中,可使用三个1×1×C的一维卷积核对所述特征坐标矩阵进行编码,即使用三个1×1×C的一维卷积核分别对所述特征坐标矩阵进行计算,将获得的三个结果分别作为查询特征矩阵、键值特征矩阵和基础特征矩阵,其中C是特征通道数,为了降维,C小于参考图像的总特征通道数;查询特征矩阵、键值特征矩阵和基础特征矩阵的特征通道数都是C,因此查询特征矩阵、键值特征矩阵和基础特征矩阵可能完全相同也可能完全不同,该过程相当于从所述特征坐标矩阵中随机选取三次一定数量的特征坐标分别组成查询特征矩阵、键值特征矩阵和基础特征矩阵。其中,基础特征矩阵用于后续过程中与计算注意力评分矩阵获得的特征权重矩阵进行加权求和来获取最终输出的目标特征矩阵。
该可选的实施例中,预设的注意力评分模型可使用点积模型,所述点积模型满足关系式:
其中,ki为键值特征矩阵k中第i个元素,qj为所述查询特征矩阵q中第j个元素,表示所述查询特征矩阵q中第j个元素与键值特征矩阵k中第i个元素进行计算,从而获得所述查询特征矩阵q中第j个元素与键值特征矩阵k中第i个元素的注意力评分值s(ki,qj),本方案中需要依次计算所述查询特征矩阵q中第j个元素与键值特征矩阵k中每一个元素的注意力评分值,并将计算出的所述查询特征矩阵q中第j个元素与键值特征矩阵k中各元素的注意力评分值作为基础注意力评分值。
示例性的,查询特征矩阵q中共有4个元素,其中一个元素为Z,键值特征矩阵k中同样共有4个元素,则需要分别计算元素Z与键值特征矩阵k中4个元素的注意力评分值,遍历查询特征矩阵q中的所有元素,共获得16个注意力评分值,并将这些注意力评分值作为基础注意力评分值,因此最终共获得16个基础注意力评分值。
该可选的实施例中,可计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵,具体过程为:计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的欧氏距离,并基于所述欧氏距离计算每一个基础注意力评分值的注意力权重;对所述基础注意力评分值和对应的注意力权重进行加权求和以获取所述查询特征矩阵中每一个元素的有效注意力评分值,并根据所述查询特征矩阵中所有元素的有效注意力评分值构建注意力评分矩阵。
该可选的实施例中,所述注意力权重满足关系式:
其中,dij为所述查询特征矩阵中第j个元素和键值特征矩阵中第i个元素之间的欧氏距离,wij为所述查询特征矩阵中第j个元素和键值特征矩阵中第i个元素之间的基础注意力评分值的注意力权重。
该可选的实施例中,将查询特征矩阵中每个元素与所述键值特征矩阵中各元素之间的基础注意力评分值和对应的注意力权重进行加权求和后获得查询特征矩阵中每个元素的有效注意力评分值,并将具有有效注意力评分值的查询特征矩阵作为所述注意力评分矩阵。其中,有效注意力评分值满足关系式:
其中,sj表示所述查询特征矩阵中第j个元素的有效注意力评分值,n为所述键值特征矩阵中元素的总数量。
如此,可综合考虑查询特征矩阵中每个元素所述键值特征矩阵中各元素之间的基础注意力评分值和对应的注意力权重获得更为准确的有效注意力评分值,从而提高目标检测结果的准确性。
S13,依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵。
在一个可选的实施例中,所述依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵,包括:
S131,依据归一化指数函数对所述注意力评分矩阵中所有元素的有效注意力评分值进行计算得到各元素的归一化权重以获得特征权重矩阵;
S132,对目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,所述目标元素为所述特征权重矩阵中的任意一个元素;
S133,遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,并根据所有的目标特征元素构建目标特征矩阵。
该可选的实施例中,统计所述注意力评分矩阵中所有元素的有效注意力评分值,并使用归一化指标函数Softmax对这些有效注意力评分值进行归一化处理,从而获得所述注意力评分矩阵中每个元素的归一化权重,并将所有具有归一化权重的元素组成的矩阵作为特征权重矩阵。
该可选的实施例中,所述特征权重矩阵与所述基础特征矩阵具有相同的元素个数,且所述特征权重矩阵与所述基础特征矩阵中的各元素具有一一对应的位置关系。因此,对特征权重矩阵中目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,并通过遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,然后将获得的所有目标特征元素组成的矩阵作为目标特征矩阵。
如此,可通过归一化指数函数获得所述注意力评分矩阵中每一个元素的归一化权重,并由此进行加权求和获得所述注意力评分矩阵中每一个元素所对应的目标特征元素,提高目标检测的准确性。
S14,基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
在一个可选的实施例中,所述基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果包括:
S141,计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值作为基础损失值;
S142,基于所述基础损失值和所述参考图像中所有像素的坐标的扩充维度构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
该可选的实施例中,计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值,并计算所有差值的总和作为本次目标检测过程的基础损失值,由于在输出的时候是逐个输出各个像素点,因此每一个输出的像素都有对应的一个位置坐标,通过位置坐标之间的减法运算获得对应元素坐标的差值。
该可选的实施例中,由于在训练时对所述参考图像中所有像素的坐标进行了维度扩充,因此需要首先使用基础损失值除以对应的扩充维度得到所述参考图像中所有像素的坐标的原始维度对应的损失值作为原始损失值,并根据获得的原始损失值构建损失函数。
该可选的实施例中,根据构建的损失函数可以计算出每一次目标检测训练过程中的总损失,并依据每一次训练过程中的总损失来对下一次目标检测的训练过程进行迭代优化,以使总损失持续减小,直到最终总损失为0时说明训练结束,对应的目标检测过程可以获得目标检测优化结果。
该可选的实施例中,训练过程中进行迭代优化的具体过程为按照类别,每次从一个类别的参考图像集合中取出一张参考图像,其中每个类别的每张参考图像都对应着一个特征坐标矩阵进行检测,直到将当前类别的所有参考图像检测完毕后再选取下一个类别的参考图像,直到最终总损失为0时说明训练结束。其中,每一种类别的参考图像集合在训练时均采用相同的所述损失函数。
该可选的实施例中,所述损失函数L满足关系式:
其中,N为参考图像中所有像素的原始维度,Mr(Px,Py)为包含多个维度的损失值M中第r个元素的坐标值。
示例性的,设输出的目标特征矩阵中共有8个像素,每个像素的坐标与所述图像标签集中对应元素的坐标的差值分别为[[18,12],[12,6],[6,12],[8,10],[18,12],[12,6],[6,12],[8,10]],则将该序列作为所述基础损失值;设参考图像中所有像素的原始维度为4个,经过2倍的维度扩充将参考图像的所有像素的坐标数量扩充到了8个,因此将序列[[18,12],[12,6],[6,12],[8,10],[18,12],[12,6],[6,12],[8,10]]同时除以2得到原始损失值序列[[9,6],[6,3],[3,6],[4,5],[9,6],[6,3],[3,6],[4,5]],对原始损失值序列中的所有坐标值进行累加获得[44,40],并将获得的[44,40]除以参考图像中所有像素的原始维度4得到[11,10],并将[11,10]作为最终训练所产生的损失值。
如此,可以获得训练过程中参考图像中所有像素的原始维度与对应标签值之间的真实损失,并基于损失函数对整个目标检测的训练过程进行迭代优化,从而提高目标检测过程的准确性。
请参见图2,图2是本申请基于人工智能的目标检测优化装置的较佳实施例的功能模块图。基于人工智能的目标检测优化装置11包括获取单元110、筛选单元111、生成单元112、处理单元113、构建单元114。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
在一个可选的实施例中,获取单元110用于获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应。
在一个可选的实施例中,所述获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应,包括:
获取样本图像,并依据双线性插值算法调整所有的样本图像至统一尺寸得到图像训练集;
依据预设方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,并将所有具有目标框和标注的样本图像作为图像标签集。
该可选的实施例中,可依据RGB相机采集大量的样本图像,并利用双线性插值算法对各样本图像的大小调整至统一的尺寸,如可以将各样本图像的大小均调整至32*100,高宽比例与原图保持一致,以使得原始图像形状信息得到完整保留。
双线性插值算法是有两个变量的插值函数的线性插值扩展,其核心思想是根据样本图像中各像素点的坐标在两个水平和垂直两个方向分别进行线性插值从而使各样本图像的大小调整至统一的尺寸。如图4所示,示例性的,任选一张样本图像,该样本图像中的任意四个像素点的坐标为Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)以及Q22=(x2,y2),若要计算像素点P=(x,y)的值,第一步需要计算X方向的线性插值,在Q12、Q22中插入像素点R2,Q11、Q21中插入像素点R1;第二步需要计算Y方向的线性插值,通过第一步计算出的R1与R2在Y方向上插值来计算出P像素点的坐标。其中,线性插值的结果与插值的顺序无关。首先进行Y方向的插值,然后进行X方向的插值,所得到的结果是一样的,双线性插值的结果与先进行哪个方向的插值无关。
该可选的实施例中,可预先通过人为标注的方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,其中,对样本图像中出现的不同类别的特征图像可以按照自然数由小到大的顺序依次标注为不同的标签值,每种特征图像对应一种标签值。如样本图像中有人、猫、狗三类特征图像,分别对应标签值1、2、3,则对人、猫、狗三类特征图像分别进行框选得到目标框,且各目标框内像素对应的标签值可分别设置为1、2、3。
该可选的实施例中,将所有具有目标框和标注的样本图像作为图像标签集。
在一个可选的实施例中,筛选单元111用于基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵。
在一个可选的实施例中,所述基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵包括:
将所述图像标签集中所有目标框的标注按照标签值的类别进行划分得到多个标注类别的列表;
随机选择一个标注类别,并依据该标注类别对应的目标框从所述图像训练集中选取对应的图像作为该类别的参考图像集合;
从所述参考图像集合中随机选择一张参考图像,对该参考图像中所有像素的坐标同时进行多维度扩充,并根据扩充后的所有像素的坐标构建所述参考图像的特征坐标矩阵;
遍历所有的标注类别以使所有的标注类别的每个参考图像都构建一个特征坐标矩阵。
该可选的实施例中,将所有目标框的标注类别按照标签值的类别进行划分,从而生成含有多个标注类别的列表,统计所述图像标签集中所有的标注类别,随机选择其中一个标注的类别,从所述图像标签集中选择该类别对应的目标框,并从图像训练集中将这些目标框区域内对应的图像作为该类别的参考图像集合。
该可选的实施例中,在输出时需要将各参考图像按照类别进行输出,然后不同类别的参考图像需要输出的像素点数量是不一致的,因此无法同时对多种类别的参考图像进行统一的批量化训练。为优化训练过程,本方案中对不同类别的参考图像中所有像素的坐标同时进行多维度扩充,使所有类别的特征图像具有相同的像素点输出数量,其中多维度扩充可以是每种类别的参考图像中所有像素点数量的最小公倍数。
示例性的,参考图像A的所有像素的坐标总数量为4,参考图像B的所有像素的坐标总数量为8,参考图像A和参考图像B的类别不同,则可以将参考图像A的所有像素的坐标扩充为8个维度,设参考图像A中的四个像素的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),则扩充后对应的像素坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),即对参考图像A中的各像素的坐标依次进行复制直到达到需要扩充的维度,参考图像B中的所有像素数量则无需扩充,这样在后续训练的过程中,无论选择的参考图像具有多少数量的像素坐标,最终都可以输出统一的数量,即使一张参考图像中包括多个类别的特征图像也能够统一进行批量输出,从而提高目标检测过程中的训练效率。
该可选的实施例中,将参考图像中扩充后的所有像素的坐标按照对应像素点的排列位置构建相同排列结构的特征坐标矩阵,最终每个类别的参考图像集合中的每个参考图像均构建了一个特征坐标矩阵。
示例性的,参考图像A中的四个像素的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),对应的坐标位置为扩充后对应的像素坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),对应的特征坐标矩阵为
在一个可选的实施例中,生成单元112用于对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵。
在一个可选的实施例中,所述对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵,包括:
依据三个一维卷积核分别对所述特征坐标矩阵进行编码以分别生成查询特征矩阵、键值特征矩阵和基础特征矩阵;
依据预设的注意力评分模型计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的注意力评分值作为基础注意力评分值,遍历所述查询特征矩阵中的所有元素获得每一个元素的基础注意力评分值;
计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵。
该可选的实施例中,可使用三个1×1×C的一维卷积核对所述特征坐标矩阵进行编码,即使用三个1×1×C的一维卷积核分别对所述特征坐标矩阵进行计算,将获得的三个结果分别作为查询特征矩阵、键值特征矩阵和基础特征矩阵,其中C是特征通道数,为了降维,C小于参考图像的总特征通道数;查询特征矩阵、键值特征矩阵和基础特征矩阵的特征通道数都是C,因此查询特征矩阵、键值特征矩阵和基础特征矩阵可能完全相同也可能完全不同,该过程相当于从所述特征坐标矩阵中随机选取三次一定数量的特征坐标分别组成查询特征矩阵、键值特征矩阵和基础特征矩阵。其中,基础特征矩阵用于后续过程中与计算注意力评分矩阵获得的特征权重矩阵进行加权求和来获取最终输出的目标特征矩阵。
该可选的实施例中,预设的注意力评分模型可使用点积模型,所述点积模型满足关系式:
其中,ki为键值特征矩阵k中第i个元素,qj为所述查询特征矩阵q中第j个元素,表示所述查询特征矩阵q中第j个元素与键值特征矩阵k中第i个元素进行计算,从而获得所述查询特征矩阵q中第j个元素与键值特征矩阵k中第i个元素的注意力评分值s(ki,qj),本方案中需要依次计算所述查询特征矩阵q中第j个元素与键值特征矩阵k中每一个元素的注意力评分值,并将计算出的所述查询特征矩阵q中第j个元素与键值特征矩阵k中各元素的注意力评分值作为基础注意力评分值。
示例性的,查询特征矩阵q中共有4个元素,其中一个元素为Z,键值特征矩阵k中同样共有4个元素,则需要分别计算元素Z与键值特征矩阵k中4个元素的注意力评分值,遍历查询特征矩阵q中的所有元素,共获得16个注意力评分值,并将这些注意力评分值作为基础注意力评分值,因此最终共获得16个基础注意力评分值。
该可选的实施例中,可计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵,具体过程为:计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的欧氏距离,并基于所述欧氏距离计算每一个基础注意力评分值的注意力权重;对所述基础注意力评分值和对应的注意力权重进行加权求和以获取所述查询特征矩阵中每一个元素的有效注意力评分值,并根据所述查询特征矩阵中所有元素的有效注意力评分值构建注意力评分矩阵。
该可选的实施例中,所述注意力权重满足关系式:
其中,dij为所述查询特征矩阵中第j个元素和键值特征矩阵中第i个元素之间的欧氏距离,wij为所述查询特征矩阵中第j个元素和键值特征矩阵中第i个元素之间的基础注意力评分值的注意力权重。
该可选的实施例中,将查询特征矩阵中每个元素与所述键值特征矩阵中各元素之间的基础注意力评分值和对应的注意力权重进行加权求和后获得查询特征矩阵中每个元素的有效注意力评分值,并将具有有效注意力评分值的查询特征矩阵作为所述注意力评分矩阵。其中,有效注意力评分值满足关系式:
其中,sj表示所述查询特征矩阵中第j个元素的有效注意力评分值,n为所述键值特征矩阵中元素的总数量。
在一个可选的实施例中,处理单元113用于依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵。
在一个可选的实施例中,所述依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵,包括:
依据归一化指数函数对所述注意力评分矩阵中所有元素的有效注意力评分值进行计算得到各元素的归一化权重以获得特征权重矩阵;
对目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,所述目标元素为所述特征权重矩阵中的任意一个元素;
遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,并根据所有的目标特征元素构建目标特征矩阵。
该可选的实施例中,统计所述注意力评分矩阵中所有元素的有效注意力评分值,并使用归一化指标函数Softmax对这些有效注意力评分值进行归一化处理,从而获得所述注意力评分矩阵中每个元素的归一化权重,并将所有具有归一化权重的元素组成的矩阵作为特征权重矩阵。
该可选的实施例中,所述特征权重矩阵与所述基础特征矩阵具有相同的元素个数,且所述特征权重矩阵与所述基础特征矩阵中的各元素具有一一对应的位置关系。因此,对特征权重矩阵中目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,并通过遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,然后将获得的所有目标特征元素组成的矩阵作为目标特征矩阵。
在一个可选的实施例中,构建单元114用于基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
在一个可选的实施例中,所述基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果包括:
计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值作为基础损失值;
基于所述基础损失值和所述参考图像中所有像素的坐标的扩充维度构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
该可选的实施例中,计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值,并计算所有差值的总和作为本次目标检测过程的基础损失值,由于在输出的时候是逐个输出各个像素点,因此每一个输出的像素都有对应的一个位置坐标,通过位置坐标之间的减法运算获得对应元素坐标的差值。
该可选的实施例中,由于在训练时对所述参考图像中所有像素的坐标进行了维度扩充,因此需要首先使用基础损失值除以对应的扩充维度得到所述参考图像中所有像素的坐标的原始维度对应的损失值作为原始损失值,并根据获得的原始损失值构建损失函数。
该可选的实施例中,根据构建的损失函数可以计算出每一次目标检测训练过程中的总损失,并依据每一次训练过程中的总损失来对下一次目标检测的训练过程进行迭代优化,以使总损失持续减小,直到最终总损失为0时说明训练结束,对应的目标检测过程可以获得目标检测优化结果。
该可选的实施例中,训练过程中进行迭代优化的具体过程为按照类别,每次从一个类别的参考图像集合中取出一张参考图像,其中每个类别的每张参考图像都对应着一个特征坐标矩阵进行检测,直到将当前类别的所有参考图像检测完毕后再选取下一个类别的参考图像,直到最终总损失为0时说明训练结束。
该可选的实施例中,所述损失函数L满足关系式:
其中,n为参考图像中所有像素的原始维度,Mr(Px,Py)为包含多个维度的损失值M中第r个元素的坐标值。
示例性的,设输出的目标特征矩阵中共有8个像素,每个像素的坐标与所述图像标签集中对应元素的坐标的差值分别为[[18,12],[12,6],[6,12],[8,10],[18,12],[12,6],[6,12],[8,10]],则将该序列作为所述基础损失值;设参考图像中所有像素的原始维度为4个,经过2倍的维度扩充将参考图像的所有像素的坐标数量扩充到了8个,因此将序列[[18,12],[12,6],[6,12],[8,10],[18,12],[12,6],[6,12],[8,10]]同时除以2得到原始损失值序列[[9,6],[6,3],[3,6],[4,5],[9,6],[6,3],[3,6],[4,5]],对原始损失值序列中的所有坐标值进行累加获得[44,40],并将获得的[44,40]除以参考图像中所有像素的原始维度4得到[11,10],并将[11,10]作为最终训练所产生的损失值。
由以上技术方案可以看出,本申请能够通过根据参考图像构建特征坐标矩阵,并由此生成查询特征矩阵、键值特征矩阵和基础特征矩阵来获得最终的目标特征矩阵,在此过程中总和考虑了参考图像中各特征之间的影响关系,同时听过构建损失函数来对参考图像中各特征之间的关系进行迭代优化,有效提高了目标检测结果的准确性。
请参见图3,是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于人工智能的目标检测优化方法。
在一个可选的实施例中,电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于人工智能的目标检测优化程序。
图3仅示出了具有存储器12和处理器13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于人工智能的目标检测优化方法,所述处理器13可执行所述多个指令从而实现:
获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应;
基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵;
对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵;
依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵;
基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的目标检测优化程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于人工智能的目标检测优化程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的目标检测优化方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成获取单元110、筛选单元111、生成单元112、处理单元113、构建单元114。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述的基于人工智能的目标检测优化方法的部分。
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存储器及其他存储器等。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
本申请实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的目标检测优化方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的目标检测优化方法,其特征在于,所述方法包括:
获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应;
基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵;
对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵;
依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵;
基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
2.如权利要求1所述的基于人工智能的目标检测优化方法,其特征在于,所述获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应,包括:
获取样本图像,并依据双线性插值算法调整所有的样本图像至统一尺寸得到图像训练集;
依据预设方式对所述图像训练集中的样本图像进行框选和标注来获得目标框,并将所有具有目标框和标注的样本图像作为图像标签集。
3.如权利要求1所述的基于人工智能的目标检测优化方法,其特征在于,所述基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵包括:
将所述图像标签集中所有目标框的标注按照标签值的类别进行划分得到多个标注类别的列表;
随机选择一个标注类别,并依据该标注类别对应的目标框从所述图像训练集中选取对应的图像作为该类别的参考图像集合;
从所述参考图像集合中随机选择一张参考图像,对该参考图像中所有像素的坐标同时进行多维度扩充,并根据扩充后的所有像素的坐标构建所述参考图像的特征坐标矩阵;
遍历所有的标注类别以使所有的标注类别的每个参考图像都构建一个特征坐标矩阵。
4.如权利要求1所述的基于人工智能的目标检测优化方法,其特征在于,所述对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵,包括:
依据三个一维卷积核分别对所述特征坐标矩阵进行编码以分别生成查询特征矩阵、键值特征矩阵和基础特征矩阵;
依据预设的注意力评分模型计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的注意力评分值作为基础注意力评分值,遍历所述查询特征矩阵中的所有元素获得每一个元素的基础注意力评分值;
计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵。
5.如权利要求4所述的基于人工智能的目标检测优化方法,其特征在于,所述计算每一个基础注意力评分值的注意力权重,并基于所述注意力权重和所述基础注意力评分值获得注意力评分矩阵包括:
计算所述查询特征矩阵中每一个元素与键值特征矩阵中各元素的欧氏距离,并基于所述欧氏距离计算每一个基础注意力评分值的注意力权重;
对所述基础注意力评分值和对应的注意力权重进行加权求和以获取所述查询特征矩阵中每一个元素的有效注意力评分值,并根据所述查询特征矩阵中所有元素的有效注意力评分值构建注意力评分矩阵。
6.如权利要求1所述的基于人工智能的目标检测优化方法,其特征在于,所述依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵包括:
依据归一化指数函数对所述注意力评分矩阵中所有元素的有效注意力评分值进行计算得到各元素的归一化权重以获得特征权重矩阵;
对目标元素的归一化权重和所述目标元素在所述基础特征矩阵中相同位置的元素的像素值进行加权求和作为目标特征元素,所述目标元素为所述特征权重矩阵中的任意一个元素;
遍历所述特征权重矩阵中的所有元素以获取每一个元素对应的目标特征元素,并根据所有的目标特征元素构建目标特征矩阵。
7.如权利要求1所述的基于人工智能的目标检测优化方法,其特征在于,所述基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果包括:
计算所述目标特征矩阵中每一个元素的坐标与所述图像标签集中对应元素的坐标的差值作为基础损失值;
基于所述基础损失值和所述参考图像中所有像素的坐标的扩充维度构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
8.一种基于人工智能的目标检测优化装置,其特征在于,所述装置包括:
获取单元,用于获取样本图像,并对获取到的所有样本图像进行预处理得到图像训练集和图像标签集,所述图像训练集和所述图像标签集一一对应;
筛选单元,用于基于所述图像标签集筛选所述图像训练集获得参考图像,并基于所述参考图像构建特征坐标矩阵;
生成单元,用于对所述特征坐标矩阵进行编码以生成查询特征矩阵、键值特征矩阵和基础特征矩阵,并计算所述查询特征矩阵和键值特征矩阵的有效注意力评分值得到注意力评分矩阵;
处理单元,用于依据归一化指数函数处理所述注意力评分矩阵获得特征权重矩阵,并基于所述特征权重矩阵和所述基础特征矩阵进行加权求和得到目标特征矩阵;
构建单元,用于基于所述目标特征矩阵和所述图像标签集构建损失函数,并基于所述损失函数对每一次的目标检测过程进行迭代优化以获得目标检测优化结果。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的目标检测优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的目标检测优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210690518.7A CN115049878B (zh) | 2022-06-17 | 基于人工智能的目标检测优化方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210690518.7A CN115049878B (zh) | 2022-06-17 | 基于人工智能的目标检测优化方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115049878A true CN115049878A (zh) | 2022-09-13 |
CN115049878B CN115049878B (zh) | 2024-05-03 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723355A (zh) * | 2023-08-11 | 2023-09-08 | 深圳传趣网络技术有限公司 | 视频插帧的处理方法、装置、设备及存储介质 |
CN116805387A (zh) * | 2023-08-24 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 基于知识蒸馏的模型训练方法、质检方法和相关设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
CN112101169A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于注意力机制的道路图像目标检测方法及相关设备 |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
CN112633419A (zh) * | 2021-03-09 | 2021-04-09 | 浙江宇视科技有限公司 | 小样本学习方法、装置、电子设备和存储介质 |
CN112684427A (zh) * | 2020-12-15 | 2021-04-20 | 南京理工大学 | 基于串行二次强化训练的雷达目标识别方法 |
CN112733944A (zh) * | 2021-01-13 | 2021-04-30 | 中国传媒大学 | 基于图像和类别的注意力的目标检测方法、装置及介质 |
CN113033549A (zh) * | 2021-03-09 | 2021-06-25 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
CN113486879A (zh) * | 2021-07-27 | 2021-10-08 | 平安科技(深圳)有限公司 | 图像区域建议框检测方法、装置、设备及存储介质 |
CN113963236A (zh) * | 2021-11-02 | 2022-01-21 | 北京奕斯伟计算技术有限公司 | 目标检测方法及装置 |
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
CN112101169A (zh) * | 2020-09-08 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于注意力机制的道路图像目标检测方法及相关设备 |
WO2021151336A1 (zh) * | 2020-09-08 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于注意力机制的道路图像目标检测方法及相关设备 |
CN112684427A (zh) * | 2020-12-15 | 2021-04-20 | 南京理工大学 | 基于串行二次强化训练的雷达目标识别方法 |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
CN112733944A (zh) * | 2021-01-13 | 2021-04-30 | 中国传媒大学 | 基于图像和类别的注意力的目标检测方法、装置及介质 |
CN112633419A (zh) * | 2021-03-09 | 2021-04-09 | 浙江宇视科技有限公司 | 小样本学习方法、装置、电子设备和存储介质 |
CN113033549A (zh) * | 2021-03-09 | 2021-06-25 | 北京百度网讯科技有限公司 | 定位图获取模型的训练方法和装置 |
CN113486879A (zh) * | 2021-07-27 | 2021-10-08 | 平安科技(深圳)有限公司 | 图像区域建议框检测方法、装置、设备及存储介质 |
CN113963236A (zh) * | 2021-11-02 | 2022-01-21 | 北京奕斯伟计算技术有限公司 | 目标检测方法及装置 |
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116723355A (zh) * | 2023-08-11 | 2023-09-08 | 深圳传趣网络技术有限公司 | 视频插帧的处理方法、装置、设备及存储介质 |
CN116723355B (zh) * | 2023-08-11 | 2023-11-28 | 深圳传趣网络技术有限公司 | 视频插帧的处理方法、装置、设备及存储介质 |
CN116805387A (zh) * | 2023-08-24 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 基于知识蒸馏的模型训练方法、质检方法和相关设备 |
CN116805387B (zh) * | 2023-08-24 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 基于知识蒸馏的模型训练方法、质检方法和相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739016B (zh) | 目标检测模型训练方法、装置、电子设备及存储介质 | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN113705462B (zh) | 人脸识别方法、装置、电子设备及计算机可读存储介质 | |
CN115237802A (zh) | 基于人工智能的模拟测试方法及相关设备 | |
CN115170869A (zh) | 重复车损理赔识别方法、装置、设备及存储介质 | |
CN112232203A (zh) | 行人识别方法、装置、电子设备及存储介质 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN112163635A (zh) | 基于深度学习的图像分类方法、装置、服务器及介质 | |
CN116629423A (zh) | 用户行为预测方法、装置、设备及存储介质 | |
CN116150185A (zh) | 基于人工智能的数据标准提取方法、装置、设备及介质 | |
CN115049878B (zh) | 基于人工智能的目标检测优化方法、装置、设备及介质 | |
CN116363365A (zh) | 基于半监督学习的图像分割方法及相关设备 | |
CN115049878A (zh) | 基于人工智能的目标检测优化方法、装置、设备及介质 | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN113850632B (zh) | 用户类别确定方法、装置、设备及存储介质 | |
CN112102205B (zh) | 图像去模糊方法、装置、电子设备及存储介质 | |
CN114581177A (zh) | 产品推荐方法、装置、设备及存储介质 | |
CN115169360A (zh) | 基于人工智能的用户意图识别方法及相关设备 | |
CN114238296A (zh) | 产品指标数据展示方法、装置、设备及存储介质 | |
CN113591881A (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN113705686A (zh) | 图像分类方法、装置、电子设备及可读存储介质 | |
CN113504865A (zh) | 工单标签添加方法、装置、设备及存储介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN111597375B (zh) | 基于相似图片组代表特征向量的图片检索方法及相关设备 | |
CN111597373B (zh) | 基于卷积神经网络和连通图的图片归类方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |