CN113496139B - 从图像中检测目标和训练目标检测模型的方法和设备 - Google Patents
从图像中检测目标和训练目标检测模型的方法和设备 Download PDFInfo
- Publication number
- CN113496139B CN113496139B CN202010191255.6A CN202010191255A CN113496139B CN 113496139 B CN113496139 B CN 113496139B CN 202010191255 A CN202010191255 A CN 202010191255A CN 113496139 B CN113496139 B CN 113496139B
- Authority
- CN
- China
- Prior art keywords
- training sample
- image training
- shape
- bounding box
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004873 anchoring Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 1
- 239000003814 drug Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开提出一种从图像中检测目标和训练目标检测模型的方法和设备,涉及计算机技术领域。检测目标的方法包括:提取图像的特征图;将特征图分割成多个网格,为每个网格生成至少一个锚定框,锚定框的形状根据目标的形状设置;针对每个网格,提取网格的每个锚定框的特征,根据该特征对网格的锚定框进行回归和分类,输出通过回归对网格的锚定框的位置和尺寸进行修正后得到的包围盒和通过分类得到的包围盒的类别;根据所有网格的非背景类别的包围盒的类别,输出目标的检测结果。根据检测目标的形状设置锚定框的形状,并采用改进的锚定框检测目标,提高从图像中检测各种形状的目标的准确性,改善固定形状的矩形检测框对非矩形目标容易漏检的问题。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种从图像中检测目标和训练目标检测模型的方法、计算机和系统。
背景技术
从图像中检测物品是一个非常受关注的领域。利用神经网络可以从图像中检测物品。在基于神经网络实现的物品检测技术中,需要从图像中标出一些矩形检测框,然后去除重合度较高的矩形检测框,最后判定剩余的矩形检测框的内容是否为某类物品。相应的,在训练神经网络时,利用矩形框对图像训练样本中的物品进行标注,神经网络需要学习矩形框的例如长和宽等形状描述参数。
发明内容
发明人发现,上述技术在检测规则的非矩形形状(如椭圆形)的物品时,由于矩形检测框与物品不能很好地贴合,因此会把矩形检测框中该物品之外的冗余部分也判定为该物品的一部分。在这种情况下,在去除重合度较高的矩形检测框时,可能会错误地把原本应当检测出的结果给排除掉。如图1所示,图像中实际有3个椭圆形物品,按照上述技术会标出3个矩形检测框,但由于中间的矩形检测框与左边的矩形检测框重合度比较高,中间的矩形检测框会被去掉,因此按照剩余的两个矩形检测框只能检测出两个物品,出现漏检的情况。
本公开一些实施例根据检测目标的形状设置锚定框的形状,并采用改进的锚定框检测目标,提高从图像中检测各种形状的目标的准确性,改善固定形状的矩形检测框对非矩形目标容易漏检的问题。
本公开的一些实施例提出一种从图像中检测目标的方法,包括:
提取图像的特征图;
将所述特征图分割成多个网格,以每个网格为中心,为所述网格生成至少一个锚定框,所述锚定框的形状根据目标的形状设置;
针对每个网格,提取所述网格的每个锚定框的特征,根据所述网格的每个锚定框的特征对所述网格的所述锚定框进行回归和分类,输出通过回归对所述网格的所述锚定框的位置和尺寸进行修正后得到的包围盒和通过分类得到的所述包围盒的类别;
根据所有网格的非背景类别的包围盒的类别,输出目标的检测结果。
在一些实施例中,所述输出目标的检测结果包括:
根据不同包围盒之间的旋转交并比,采用非极大值抑制算法从非背景类别的包围盒中排除重合度高于预设阈值的包围盒,得到重合度不高于预设阈值的非背景类别的包围盒;
通过匹配目标所属类别与重合度不高于预设阈值的非背景类别的包围盒的类别,输出目标的检测结果。
在一些实施例中,不同包围盒之间的旋转交并比:根据均旋转至预设位置的不同包围盒之间的交集与并集的比值以及不同包围盒各自的旋转角度确定。
在一些实施例中,所述提取图像的特征图包括:提取图像在不同尺寸的特征图。
在一些实施例中,利用卷积神经网络提取图像的特征图,并利用回归分类神经网络对所述网格的所述锚定框进行回归和分类。
在一些实施例中,在检测的目标是药片的情况下,锚定框的形状根据药片的形状设置为圆形、椭圆形和三角形中的至少一项。
本公开的一些实施例提出一种训练目标检测模型的方法,其特征在于,所述目标检测模型包括提取图像特征的卷积神经网络和进行回归和分类处理的回归分类神经网络,所述方法包括:
获取训练集,所述训练集中的每个图像训练样本被标注了目标的真实包围盒,所述真实包围盒的标注信息包括所述真实包围盒的形状、位置和目标的类别;
针对每个图像训练样本,执行以下训练操作:
基于所述图像训练样本的真实包围盒确定至少一个正图像训练样本和至少一个负图像训练样本,所述正图像训练样本和所述负图像训练样本的标注信息包括所述正图像训练样本和所述负图像训练样本的形状、位置和类别,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的形状根据目标的形状设置;
利用卷积神经网络提取所述图像训练样本的每个正图像训练样本和每个负图像训练样本的特征;
将每个正图像训练样本的特征和每个负图像训练样本的特征分别输入回归分类神经网络进行推理,输出的正图像训练样本的推理结果包括正图像训练样本回归后的形状和位置的推理信息和分类后的类别推理信息,输出的负图像训练样本的推理结果包括负图像训练样本分类后的类别推理信息;
通过比较正图像训练样本的推理结果和标注信息,并结合所述正图像训练样本的标注信息与所述真实包围盒的标注信息之间的差异信息,确定所述正图像训练样本的损失函数;根据负图像训练样本的类别推理信息和背景类别,确定所述负图像训练样本的损失函数;
通过累加所述图像训练样本的各个正图像训练样本的损失函数和各个负图像训练样本的损失函数,确定所述图像训练样本的总损失函数;
利用所述图像训练样本的总损失函数对所述卷积神经网络和所述回归分类神经网络的参数进行更新;
针对下一个图像训练样本,继续执行以上训练操作,直至满足预设的训练终止条件。
在一些实施例中,所述基于所述图像训练样本的真实包围盒确定至少一个正图像训练样本和至少一个负图像训练样本包括:
与所述图像训练样本的真实包围盒的旋转交并比大于预设比例的锚定框,被确定为正图像训练样本;
与所述图像训练样本的真实包围盒的旋转交并比不大于预设比例的锚定框,被确定为负图像训练样本;
其中,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的位置包括中心位置坐标和旋转角度;所述正图像训练样本回归后的位置推理信息包括中心位置坐标和旋转角度的推理信息。
在一些实施例中,预设的锚定框与所述图像训练样本的真实包围盒的旋转交并比:根据均旋转至预设位置的锚定框与真实包围盒之间的交集与并集的比值以及各自的旋转角度确定。
在一些实施例中,所述确定所述正图像训练样本的损失函数包括:
根据正图像训练样本的类别推理信息以及真实包围盒的类别的标注信息,确定所述正图像训练样本的分类损失函数;
根据正图像训练样本的形状和位置的标注信息到形状和位置的推理信息的第一变换信息、以及正图像训练样本的形状和位置的标注信息到真实包围盒的形状和位置的标注信息的第二变换信息,确定所述正图像训练样本的形状和位置损失函数;
将所述正图像训练样本的分类损失函数和形状和位置损失函数之和确定为所述正图像训练样本的损失函数。
在一些实施例中,所述确定所述正图像训练样本的形状和位置损失函数包括:
将所述第一变换信息减去所述第二变换信息得到的差值信息输入平滑L1损失函数进行处理,得到所述正图像训练样本的形状和位置损失函数。
在一些实施例中,在检测的目标是药片的情况下,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的形状根据目标的形状设置为圆形、椭圆形和三角形中的至少一项。
本公开的一些实施例提出一种从图像中检测目标的计算机,其特征在于,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例所述从图像中检测目标的方法。
在一些实施例中,所述处理器还被配置为执行任一个实施例所述的目标检测模型的训练方法。
本公开的一些实施例提出一种训练目标检测模型的计算机,其特征在于,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例所述的目标检测模型的训练方法。
本公开的一些实施例提出一种从图像中检测目标的系统,其特征在于,包括:任一个实施例所述的从图像中检测目标的计算机,以及任一个实施例所述的训练目标检测模型的计算机。
本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例所述从图像中检测目标的方法、以及任一个实施例所述的目标检测模型的训练方法中的至少一个。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出矩形检测框漏检物品的示意图。
图2为本公开一些实施例的从图像中检测目标的方法流程示意图。
图3A为本公开一些实施例的将特征图分割成多个网格,为网格生成多个圆形锚定框的示意图。
图3B为本公开一些实施例的将特征图分割成多个网格,为网格生成多个椭圆形锚定框的示意图。
图3C为本公开一些实施例的将特征图分割成多个网格,为网格生成多个圆形锚定框和多个椭圆形锚定框的示意图
图4为本公开一些实施例的椭圆形锚定框的旋转角度示意图。
图5为本公开一些实施例的训练目标检测模型的方法的流程示意图。
图6为本公开一些实施例从图像中检测目标的计算机的示意图。
图7为本公开一些实施例训练目标检测模型的计算机的示意图。
图8为本公开一些实施例从图像中检测目标的系统的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图2为本公开一些实施例的从图像中检测目标的方法流程示意图。该方法例如可以由从图像中检测目标的计算机执行。
如图2所示,该实施例的方法包括:
在步骤210,提取图像的特征图。
例如,利用卷积神经网络(Convolutional Neural Networks,CNN)提取图像的特征图。卷积神经网络例如包括卷积层、池化层、全连接层等。
在一些实施例中,提取图像在不同尺寸的多个特征图,例如,利用多层卷积神经网络(或称骨架网络,backbone network)提取图像在不同尺寸的多个特征图。多层卷积神经网络存在着多次的下采样池化操作,由此生成多种较小尺寸的特征图,例如,生成5种较小尺寸的特征图。检测的目标例如是各种物品,如药片等。
从而,利用不同尺寸的特征图对不同尺寸目标进行检测,提高检测各种尺寸的目标的准确性。
在步骤220,针对每个特征图,将特征图分割成多个网格(cell),以每个网格为中心,为每个网格生成至少一个锚定框(anchor box),锚定框的形状根据目标的形状设置。
在一些实施例中,将特征图均匀分割成多个网格。如图3A-3C所示,将一个特征图均匀分割成9个网络。根据目标的形状设置锚定框的形状,例如,在检测的目标是药片的情况下,锚定框的形状根据药片的形状设置为圆形、椭圆形和三角形中的至少一项。例如,如果检测的目标的形状是圆形,则锚定框的形状可设置为圆形,如图3A所示,设置两个不同尺寸的圆形锚定框;如果检测的目标的形状是椭圆形,则锚定框的形状可设置为椭圆形,如图3B所示,设置四个尺寸相同但旋转角度不同的椭圆形锚定框;如果检测的目标的形状既有圆形也有椭圆形,则锚定框的形状可设置为圆形和椭圆形,如图3C所示,设置了两个不同尺寸的圆形锚定框和四个尺寸相同但旋转角度不同的椭圆形锚定框。椭圆形的旋转角度为椭圆形的长轴与水平方向的夹角θ,如图4所示。
根据检测目标的形状设置锚定框的形状,并采用改进形状的锚定框检测目标,提高从图像中检测各种形状的目标的准确性,改善固定形状的矩形锚定框对非矩形目标(如椭圆形目标、圆形目标、三角形目标)容易漏检的问题。
在步骤230,针对每个特征图的每个网格,提取网格的每个锚定框的特征,根据网格的每个锚定框的特征对网格的锚定框进行回归和分类,输出通过回归对网格的锚定框的位置和尺寸进行修正后得到的包围盒(bounding box)和通过分类得到的包围盒的类别。
在一些实施例中,利用回归分类神经网络对网格的锚定框进行回归和分类。回归分类神经网络例如可以在回归神经网络后级联softmax层实现,其中的回归神经网络部分可以基于锚定框的特征对锚定框的位置和尺寸进行回归处理得到包围盒,通过softmax层部分的分类处理得到的包围盒的类别。包围盒的类别例如包括背景类别、某些物品类别等。
在步骤240,去除判定为背景类别的包围盒,根据所有网格的非背景类别的包围盒的类别,输出目标的检测结果。
在一些实施例中,根据不同包围盒之间的旋转交并比,采用非极大值抑制算法从非背景类别的包围盒中排除重合度高于预设阈值的包围盒,得到重合度不高于预设阈值的非背景类别的包围盒;通过匹配目标所属类别与重合度不高于预设阈值的非背景类别的包围盒的类别,输出目标的检测结果,如目标的类别和数量等。
其中,采用非极大值抑制算法从非背景类别的包围盒中排除重合度高于预设阈值的包围盒具体包括:
(0)构建集合H,初始化为包含非背景类别的所有包围盒,构建集合M,初始化为空集。
(1)按照包围盒的类别概率评分,将集合H中的所有包围盒进行排序,选出分数最高的包围盒m,并将包围盒m从集合H移到集合M。
(2)集合H中的每个包围盒分别与包围盒m计算旋转交并比,如果高于某个阈值(例如设置为0~0.5),则认为该包围盒与包围盒m重叠,将该包围盒从集合H中去除。
(3)返回第(1)步进行迭代,直到集合H为空,最后集合M中包围盒就是重合度不高于预设阈值的非背景类别的包围盒。
其中,不同包围盒之间的旋转交并比(Rotation Interaction-over-union,RIoU),可根据均旋转至预设位置的不同包围盒之间的交集与并集的比值以及不同包围盒各自的旋转角度确定,公式表示如下:
其中,对于两个包围盒(如椭圆形包围盒)A和B,A和B绕着各自的中心点,分别顺时针旋转θA和θB使其长轴贴合水平线,记旋转后的形状为和/>RIoU(A,B)表示包围盒A和B的旋转交并比。上述公式适用于各种形状的包围盒。如果是圆形包围盒,其旋转角度是0,即θA=θB=0。如果是正三角形包围盒,其旋转角度可以是从当前位置旋转至某一个边与水平方向平行时转过的角度。
上述实施例,根据检测目标的形状设置锚定框的形状,并采用改进的锚定框检测目标,提高从图像中检测各种形状的目标的准确性,改善固定形状的矩形检测框对非矩形目标容易漏检的问题。
此外,上述实施例,通过考虑目标的旋转角度,采用包围盒的旋转交并比去除重合度较高的包围盒,提高从图像中检测具有一定旋转角度的各种形状的目标的准确性,进一步改善目标漏检的问题。
本实施例的检测目标方法可以用来检测药片等各种物品的种类和数量等信息。药片检测方法能够检测出一张图像中的药片数量和种类,可用于医院、药店的药品管理系统,对药品拿取过程进行监控和记录,帮助确认药师、护士给病人喂服的药品是否正确。
图5为本公开一些实施例的训练目标检测模型的方法的流程示意图。其中的目标检测模型包括提取图像特征的卷积神经网络和进行回归和分类处理的回归分类神经网络。
如图5所示,该实施例的训练目标检测模型的方法包括:
在步骤500,获取训练集,训练集中的每个图像训练样本被标注了目标的真实包围盒,真实包围盒的标注信息包括真实包围盒的形状、位置和目标的类别。
针对每个图像训练样本,执行以下训练操作510-550。
在步骤510,基于图像训练样本的真实包围盒确定至少一个正图像训练样本和至少一个负图像训练样本。
正图像训练样本和负图像训练样本的标注信息包括正图像训练样本和负图像训练样本的形状、位置和类别。真实包围盒、正图像训练样本和负图像训练样本的形状根据目标的形状设置。在检测的目标是药片的情况下,真实包围盒、正图像训练样本和负图像训练样本的形状根据目标(如药片)的形状设置为圆形、椭圆形和三角形中的至少一项。真实包围盒、正图像训练样本和负图像训练样本的位置包括中心位置坐标和旋转角度。
在一些实施例中,与图像训练样本的真实包围盒的旋转交并比大于预设比例的锚定框,被确定为正图像训练样本;与图像训练样本的真实包围盒的旋转交并比不大于预设比例的锚定框,被确定为负图像训练样本。正/负图像训练样本均是锚定框,但与真实包围盒的旋转交并比不同。负图像训练样本的数量不超过正图像训练样本的三倍。
其中,某个预设的锚定框与图像训练样本的真实包围盒的旋转交并比:根据均旋转至预设位置的锚定框与真实包围盒之间的交集与并集的比值以及各自的旋转角度确定,具体公式参考公式(1),将公式(1)中的两个包围盒分别替换为锚定框与真实包围盒即可。
在步骤520,利用卷积神经网络提取图像训练样本的每个正图像训练样本和每个负图像训练样本的特征。
在步骤530,将每个正图像训练样本的特征和每个负图像训练样本的特征分别输入回归分类神经网络进行推理,输出的正图像训练样本的推理结果包括正图像训练样本回归后的形状和位置的推理信息和分类后的类别推理信息,其中的正图像训练样本回归后的位置推理信息包括中心位置坐标和旋转角度的推理信息,输出的负图像训练样本的推理结果包括负图像训练样本分类后的类别推理信息。
如前所述,正/负图像训练样本均是锚定框,正/负图像训练样本相应的锚定框设为a,锚定框a回归后的包围盒设为t,分类的类别设为c。
针对回归分类神经网络中的分类网络部分:
对于每一个锚定框a,分类网络部分需要学习该锚定框a的分类向量其中,/>的第i个元素刻画了锚定框a属于第i个类别的概率(即,可能性),并规定第1个类别为背景类别。
针对回归分类神经网络中的回归网络部分:
对于每一个锚定框a,设锚定框a回归后的包围盒设为t,分类网络部分需要学习该锚定框a的形状和位置变换参数。
例如,如果正/负图像训练样本为圆形锚定框,其形状和位置参数包括(x,y,r),其中,(x,y)表示中心位置坐标,r表示圆的半径。回归网络部分对于圆形锚定框需要学习如下的锚定框a到包围盒t的形状和位置变换参数其中,/>Δr=log(rt/ra),xa、ya、ra分别表示(圆形)锚定框a的中心位置坐标和半径,xt、yt、rt分别表示回归后的包围盒t的中心位置坐标和半径。
又例如,如果正/负图像训练样本为椭圆形锚定框,其形状和位置参数包括(x,y,p,q,θ),其中,(x,y)表示中心位置坐标,p为椭圆的长轴半径,q为椭圆的短轴半径,θ表示椭圆的旋转角度。回归网络部分对于椭圆形锚定框需要学习如下的锚定框a到包围盒t的形状和位置变换参数其中,/>Δp=log(pt/pa),Δq=log(qt/qa),Δθ=tan(θt-θa),xa、ya、pa、qa、θa分别表示(椭圆形)锚定框a的中心位置坐标、长轴半径、短轴半径、旋转角度、xt、yt、pt、qt、θt分别表示回归后的包围盒t的中心位置坐标、长轴半径、短轴半径、旋转角度。
其他形状锚定框的形状和位置参数与形状和位置变换参数可以参考上述示例获得,例如,三角形锚定框的形状和位置参数包括三角形的中心位置坐标和边长,这里不再一一穷举。
在步骤540,通过比较正图像训练样本的推理结果和标注信息,并结合正图像训练样本的标注信息与真实包围盒的标注信息之间的差异信息,确定正图像训练样本的损失函数;根据负图像训练样本的类别推理信息和背景类别,确定负图像训练样本的损失函数;通过累加图像训练样本的各个正图像训练样本的损失函数和各个负图像训练样本的损失函数,确定图像训练样本的总损失函数。
其中,确定正图像训练样本的损失函数包括:根据正图像训练样本的类别推理信息以及真实包围盒的类别的标注信息,确定正图像训练样本的分类损失函数;根据正图像训练样本的形状和位置的标注信息到形状和位置的推理信息的第一变换信息、以及正图像训练样本的形状和位置的标注信息到真实包围盒的形状和位置的标注信息的第二变换信息,确定正图像训练样本的形状和位置损失函数,例如,将第一变换信息减去第二变换信息得到的差值信息输入平滑L1损失函数(设为)进行处理,得到正图像训练样本的形状和位置损失函数;将正图像训练样本的分类损失函数和形状和位置损失函数之和确定为正图像训练样本的损失函数。
正图像训练样本的损失函数的公式表示如下:
其中, 表示/>的第t个元素,/>表示/>的第j个元素,j会遍历/>的所有元素,exp表示以自然常数e为底的指数函数,正/负图像训练样本相应的锚定框a对应着真实包围盒g,ca表示正/负图像训练样本相应的锚定框a分类的类别,cg表示真实包围盒分类的类别。将i=cg带入P(ca=i)即可求得P(ca=cg)。
其中,
其中,前面已经描述锚定框a到包围盒t的形状和位置变换参数/>锚定框a到真实包围盒g的形状和位置变换参数可以按照与/>类似的方法获得。例如,(圆形)锚定框a到真实包围盒g的形状和位置变换参数/>其中,/>Δr=log(rg/ra),xa、ya、ra分别表示(圆形)锚定框a的中心位置坐标和半径,xg、yg、rg分别表示真实包围盒g的中心位置坐标和半径。又例如,(椭圆形)锚定框a到真实包围盒g的形状和位置变换参数其中,/>Δp=log(pg/pa),Δq=log(qg/qa),Δθ=tan(θg-θa),xa、ya、pa、qa、θa分别表示(椭圆形)锚定框a的中心位置坐标、长轴半径、短轴半径、旋转角度、xg、yg、pg、qg、θg分别表示真实包围盒g的中心位置坐标、长轴半径、短轴半径、旋转角度。
负图像训练样本的损失函数的公式表示如下:
其中,1表示背景类别(即的第1个元素),将i=1带入P(ca=i)即可求得P(ca=1)。
在步骤550,利用图像训练样本的总损失函数对卷积神经网络和回归分类神经网络的参数进行更新。
在一些实施例中,采用后向传播算法算出总损失函数对目标检测模型(包括提取图像特征的卷积神经网络和进行回归和分类处理的回归分类神经网络)中各神经网络的参数(如,卷积核、偏置等)的梯度,根据这些参数的梯度更新目标检测模型中各神经网络的参数。计算梯度和利用梯度更新神经网络的具体方法,可以参考现有技术。
在步骤560,针对训练集中的下一个图像训练样本,继续执行以上训练操作510-550进行下一次训练,直至满足预设的训练终止条件。
其中,训练终止条件例如包括:达到预设的训练次数,或,相邻两次训练的总损失函数的变化量低于预设值。
本实施例,根据目标的形状灵活设置训练用的真实包围盒、正/负图像训练样本的形状,并根据设置的形状进行推理和确定损失函数,使得训练后的模型对各种形状的目标的检测能力得到提高,改善固定形状的矩形图像训练样本相应的固定形状的矩形锚定框对非矩形目标容易漏检的问题。
此外,本实施例,通过在模型需要训练的位置参数中增加旋转角度,训练样本选取时增加旋转角度的考虑,利用旋转交并比选取正/负训练样本,并在位置推理信息以及损失函数中增加旋转角度的考虑,使得训练后的模型对各种形状且具有一定旋转角度的目标的检测能力得到提高,进一步改善目标漏检的问题。
图6为本公开一些实施例从图像中检测目标的计算机的示意图。
如图6所示,从图像中检测目标的计算机600包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一些实施例中的从图像中检测目标的方法,具体参考前述实施例的描述,这里不再赘述。
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
计算机600还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
图7为本公开一些实施例训练目标检测模型的计算机的示意图。
如图7所示,训练目标检测模型的计算机700包括:存储器710以及耦接至该存储器710的处理器720,处理器720被配置为基于存储在存储器710中的指令,执行前述任意一些实施例中的目标检测模型的训练方法,具体参考前述实施例的描述,这里不再赘述。
其中,存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
计算机700还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
从图像中检测目标的计算机600与训练目标检测模型的计算机700可以是同一个计算机,即该同一个计算机既可以执行目标检测模型的训练方法,也可以执行从图像中检测目标的方法。例如,从图像中检测目标的计算机600中的处理器620除了被配置为从图像中检测目标的方法,还被配置为执行目标检测模型的训练方法,或者,训练目标检测模型的计算机700中的处理器720除了被配置为执行目标检测模型的训练方法,还被配置为执行从图像中检测目标的方法。
从图像中检测目标的计算机600与训练目标检测模型的计算机700可以是不同的计算机。训练目标检测模型的计算机700输出训练好的目标检测模型。从图像中检测目标的计算机600利用训练好的目标检测模型从图像中检测目标。因此,存在一个从图像中检测目标的系统,如图8所示,该系统800包括:从图像中检测目标的计算机600和训练目标检测模型的计算机700。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (17)
1.一种从图像中检测目标的方法,其特征在于,包括:
提取图像的特征图;
将所述特征图分割成多个网格,以每个网格为中心,为所述网格生成至少一个锚定框,所述锚定框的形状根据目标的形状设置;
针对每个网格,提取所述网格的每个锚定框的特征,根据所述网格的每个锚定框的特征对所述网格的所述锚定框进行回归和分类,输出通过回归对所述网格的所述锚定框的位置和尺寸进行修正后得到的包围盒和通过分类得到的所述包围盒的类别;
根据所有网格的非背景类别的包围盒的类别,输出目标的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述输出目标的检测结果包括:
根据不同包围盒之间的旋转交并比,采用非极大值抑制算法从非背景类别的包围盒中排除重合度高于预设阈值的包围盒,得到重合度不高于预设阈值的非背景类别的包围盒;
通过匹配目标所属类别与重合度不高于预设阈值的非背景类别的包围盒的类别,输出目标的检测结果。
3.根据权利要求1所述的方法,其特征在于,不同包围盒之间的旋转交并比:根据均旋转至预设位置的不同包围盒之间的交集与并集的比值以及不同包围盒各自的旋转角度确定。
4.根据权利要求1所述的方法,其特征在于,所述提取图像的特征图包括:提取图像在不同尺寸的特征图。
5.根据权利要求1所述的方法,其特征在于,
利用卷积神经网络提取图像的特征图,并利用回归分类神经网络对所述网格的所述锚定框进行回归和分类。
6.根据权利要求1-5任一项所述的方法,其特征在于,
在检测的目标是药片的情况下,锚定框的形状根据药片的形状设置为圆形、椭圆形和三角形中的至少一项。
7.一种训练目标检测模型的方法,其特征在于,所述目标检测模型包括提取图像特征的卷积神经网络和进行回归和分类处理的回归分类神经网络,所述方法包括:
获取训练集,所述训练集中的每个图像训练样本被标注了目标的真实包围盒,所述真实包围盒的标注信息包括所述真实包围盒的形状、位置和目标的类别;
针对每个图像训练样本,执行以下训练操作:
基于所述图像训练样本的真实包围盒确定至少一个正图像训练样本和至少一个负图像训练样本,所述正图像训练样本和所述负图像训练样本的标注信息包括所述正图像训练样本和所述负图像训练样本的形状、位置和类别,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的形状根据目标的形状设置;
利用卷积神经网络提取所述图像训练样本的每个正图像训练样本和每个负图像训练样本的特征;
将每个正图像训练样本的特征和每个负图像训练样本的特征分别输入回归分类神经网络进行推理,输出的正图像训练样本的推理结果包括正图像训练样本回归后的形状和位置的推理信息和分类后的类别推理信息,输出的负图像训练样本的推理结果包括负图像训练样本分类后的类别推理信息;
通过比较正图像训练样本的推理结果和标注信息,并结合所述正图像训练样本的标注信息与所述真实包围盒的标注信息之间的差异信息,确定所述正图像训练样本的损失函数;根据负图像训练样本的类别推理信息和背景类别,确定所述负图像训练样本的损失函数;
通过累加所述图像训练样本的各个正图像训练样本的损失函数和各个负图像训练样本的损失函数,确定所述图像训练样本的总损失函数;
利用所述图像训练样本的总损失函数对所述卷积神经网络和所述回归分类神经网络的参数进行更新;
针对下一个图像训练样本,继续执行以上训练操作,直至满足预设的训练终止条件。
8.根据权利要求7所述的方法,其特征在于,所述基于所述图像训练样本的真实包围盒确定至少一个正图像训练样本和至少一个负图像训练样本包括:
与所述图像训练样本的真实包围盒的旋转交并比大于预设比例的锚定框,被确定为正图像训练样本;
与所述图像训练样本的真实包围盒的旋转交并比不大于预设比例的锚定框,被确定为负图像训练样本;
其中,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的位置包括中心位置坐标和旋转角度;所述正图像训练样本回归后的位置推理信息包括中心位置坐标和旋转角度的推理信息。
9.根据权利要求8所述的方法,其特征在于,预设的锚定框与所述图像训练样本的真实包围盒的旋转交并比:根据均旋转至预设位置的锚定框与真实包围盒之间的交集与并集的比值以及各自的旋转角度确定。
10.根据权利要求7所述的方法,其特征在于,所述确定所述正图像训练样本的损失函数包括:
根据正图像训练样本的类别推理信息以及真实包围盒的类别的标注信息,确定所述正图像训练样本的分类损失函数;
根据正图像训练样本的形状和位置的标注信息到形状和位置的推理信息的第一变换信息、以及正图像训练样本的形状和位置的标注信息到真实包围盒的形状和位置的标注信息的第二变换信息,确定所述正图像训练样本的形状和位置损失函数;
将所述正图像训练样本的分类损失函数和形状和位置损失函数之和确定为所述正图像训练样本的损失函数。
11.根据权利要求10所述的方法,其特征在于,所述确定所述正图像训练样本的形状和位置损失函数包括:
将所述第一变换信息减去所述第二变换信息得到的差值信息输入平滑L1损失函数进行处理,得到所述正图像训练样本的形状和位置损失函数。
12.根据权利要求7-11任一项所述的方法,其特征在于,
在检测的目标是药片的情况下,所述真实包围盒、所述正图像训练样本和所述负图像训练样本的形状根据目标的形状设置为圆形、椭圆形和三角形中的至少一项。
13.一种从图像中检测目标的计算机,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-6中任一项所述从图像中检测目标的方法。
14.根据权利要求13所述的计算机,其特征在于,
所述处理器还被配置为执行权利要求7-12中任一项所述的目标检测模型的训练方法。
15.一种训练目标检测模型的计算机,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求7-12中任一项所述的目标检测模型的训练方法。
16.一种从图像中检测目标的系统,其特征在于,包括:
权利要求13所述的从图像中检测目标的计算机,以及
权利要求15所述的训练目标检测模型的计算机。
17.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-6中任一项所述从图像中检测目标的方法、以及权利要求7-12中任一项所述的目标检测模型的训练方法中的至少一个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191255.6A CN113496139B (zh) | 2020-03-18 | 2020-03-18 | 从图像中检测目标和训练目标检测模型的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191255.6A CN113496139B (zh) | 2020-03-18 | 2020-03-18 | 从图像中检测目标和训练目标检测模型的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496139A CN113496139A (zh) | 2021-10-12 |
CN113496139B true CN113496139B (zh) | 2024-02-13 |
Family
ID=77992944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010191255.6A Active CN113496139B (zh) | 2020-03-18 | 2020-03-18 | 从图像中检测目标和训练目标检测模型的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496139B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445371A (zh) * | 2022-01-27 | 2022-05-06 | 安徽大学 | 基于椭圆交并比的遥感图像目标检测方法及装置 |
CN114611666B (zh) * | 2022-03-08 | 2024-05-31 | 安谋科技(中国)有限公司 | 一种nms函数的量化方法、电子设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03291842A (ja) * | 1990-04-07 | 1991-12-24 | Hitachi Ltd | 試料像表示装置 |
JP2001242245A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 時系列画像処理装置及び方法 |
KR20120002001A (ko) * | 2010-06-30 | 2012-01-05 | 관동대학교산학협력단 | 영상에서의 목표형상 검출장치 및 방법 |
CN108846826A (zh) * | 2018-04-24 | 2018-11-20 | 深圳大学 | 物体检测方法、装置、图像处理设备及存储介质 |
GB201906027D0 (en) * | 2019-04-30 | 2019-06-12 | Facesoft Ltd | Facial localisation in images |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN110210482A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 改进类别不平衡的目标检测方法 |
WO2019169772A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 图片处理方法、电子装置及存储介质 |
CN110263819A (zh) * | 2019-05-28 | 2019-09-20 | 中国农业大学 | 一种用于贝类图像的目标检测方法及装置 |
CN110826499A (zh) * | 2019-11-08 | 2020-02-21 | 上海眼控科技股份有限公司 | 物体空间参数检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-18 CN CN202010191255.6A patent/CN113496139B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03291842A (ja) * | 1990-04-07 | 1991-12-24 | Hitachi Ltd | 試料像表示装置 |
JP2001242245A (ja) * | 2000-02-29 | 2001-09-07 | Toshiba Corp | 時系列画像処理装置及び方法 |
KR20120002001A (ko) * | 2010-06-30 | 2012-01-05 | 관동대학교산학협력단 | 영상에서의 목표형상 검출장치 및 방법 |
WO2019169772A1 (zh) * | 2018-03-06 | 2019-09-12 | 平安科技(深圳)有限公司 | 图片处理方法、电子装置及存储介质 |
CN108846826A (zh) * | 2018-04-24 | 2018-11-20 | 深圳大学 | 物体检测方法、装置、图像处理设备及存储介质 |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
GB201906027D0 (en) * | 2019-04-30 | 2019-06-12 | Facesoft Ltd | Facial localisation in images |
CN110263819A (zh) * | 2019-05-28 | 2019-09-20 | 中国农业大学 | 一种用于贝类图像的目标检测方法及装置 |
CN110210482A (zh) * | 2019-06-05 | 2019-09-06 | 中国科学技术大学 | 改进类别不平衡的目标检测方法 |
CN110826499A (zh) * | 2019-11-08 | 2020-02-21 | 上海眼控科技股份有限公司 | 物体空间参数检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
刘旭.视频监控中的目标计数方法研究.中国博士学位论文全文数据库电子期刊信息科技辑.2018,I136-15. * |
李欢 ; 陈先桥 ; 施辉 ; 杨英 ; 龚䶮 ; .基于SSD的行人头部检测方法.计算机工程与设计.2020,(03),235-240. * |
Also Published As
Publication number | Publication date |
---|---|
CN113496139A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220618B (zh) | 人脸检测方法及装置、计算机可读存储介质、设备 | |
CN108805170B (zh) | 形成用于全监督式学习的数据集 | |
CN111144322A (zh) | 一种分拣方法、装置、设备和存储介质 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN113496139B (zh) | 从图像中检测目标和训练目标检测模型的方法和设备 | |
WO2015154206A1 (en) | A method and a system for face verification | |
JP7253573B2 (ja) | マッチング方法、装置、電子機器及びコンピュータ可読記憶媒体 | |
Mera et al. | Automatic visual inspection: An approach with multi-instance learning | |
US11568212B2 (en) | Techniques for understanding how trained neural networks operate | |
CN113762159B (zh) | 一种基于有向箭头模型的目标抓取检测方法及系统 | |
KR20200075704A (ko) | 어노말리 디텍션 | |
Zhang et al. | Prioritizing robotic grasping of stacked fruit clusters based on stalk location in RGB-D images | |
CN112025693A (zh) | 非对称三指抓取器的像素级目标抓取检测方法及系统 | |
CN114998679A (zh) | 深度学习模型的在线训练方法、装置、设备及存储介质 | |
Lin et al. | Robot grasping based on object shape approximation and LightGBM | |
Bründl et al. | Semantic part segmentation of spatial features via geometric deep learning for automated control cabinet assembly | |
CN114255435A (zh) | 传送装置异常检测方法、装置、电子设备及存储介质 | |
WO2023146470A2 (en) | Dual-level model for segmentation | |
US12100101B2 (en) | Generating 2D mapping using 3D data | |
WO2018161305A1 (zh) | 抓取质量检测方法及其应用的方法与系统 | |
CN113361511A (zh) | 修正模型的建立方法、装置、设备及计算机可读存储介质 | |
Feng | Design of Logistics Sorting Algorithm Based on Deep Learning and Sampling Evaluation | |
WO2023176058A1 (ja) | 検査装置、検査方法、及び検査プログラム | |
Wang et al. | Robust grasp detection with incomplete point cloud and complex background | |
US11961223B2 (en) | Apparatus for predicting wheel performance in vehicle and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |