CN113159200B - 对象分析方法、装置及存储介质 - Google Patents
对象分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113159200B CN113159200B CN202110461699.1A CN202110461699A CN113159200B CN 113159200 B CN113159200 B CN 113159200B CN 202110461699 A CN202110461699 A CN 202110461699A CN 113159200 B CN113159200 B CN 113159200B
- Authority
- CN
- China
- Prior art keywords
- branch
- layer
- target object
- target
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种对象分析方法、装置及存储介质,属于计算机技术领域,该方法包括:通过获取目标图像;将目标图像输入预先训练的图像识别模型,得到目标图像的对象分析结果,对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;可以解决现有的目标检测算法无法实现速度和精确度同时提升的问题;使用融合方式使得获得的特征层包含的信息更加丰富全面,在提高识别不同尺度目标敏感度的同时,提高了检测的准确率;深度可分离卷积的使用可以加快特征层融合部分的推理时间;融合属性分析功能,使一个模型同时拥有了目标检测、关键点预测以及属性输出的3个功能,既减小了3个功能的显存占用率,又提高了其在系统中的运行速率。
Description
【技术领域】
本申请涉及一种对象分析方法、装置及存储介质,属于计算机技术领域。
【背景技术】
随着人工智能技术的发展,越来越多的目标检测算法应运而生。如anchor-free系列算法等。
anchor-free系列算法避免了锚框的预设定,减少了大量的相关计算,使得其内存占用率和速度都有明显提高。而且没有锚框的预先设定,预测框是在整个特征图范围内回归目标位置,适用于各种形状尺寸的目标对象的检测。
然而,现有的目标检测算法在提升算法速度的同时,会降低算法精度,导致目标检测结果不准确的问题。
【发明内容】
本申请提供了一种对象分析方法、装置及存储介质,可以解决现有的目标检测算法无法实现速度和精确度同时提升的问题。本申请提供如下技术方案:
第一方面,提供一种对象分析方法,所述方法包括:
获取目标图像;
将所述目标图像输入预先训练的图像识别模型,得到所述目标图像的对象分析结果,所述对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;
其中,图像识别模型包括主干网络、与所述主干网络相连的第一网络分支和第二网络分支;
所述主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;所述m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;所述m为大于1的整数,所述n为小于1且小于或等于m的整数。
可选地,所述第一网络分支与第m层特征提取层相连,并用于根据所述第m层特征提取层输出的特征图提取所述目标对象属性信息;
所述第二网络分支与第1层指定特征提取层相连,且所述第二网络分支包括第一子分支、第二子分支和第三子分支;所述第一子分支用于根据所述第1层指定特征提取层的输出数据计算目标对象的中心点;所述第二子分支用于根据所述第1层指定特征提取层的输出数据进行所述目标对象的宽高回归;所述第三子分支用于根据所述第1层指定特征提取层的输出数据检测所述目标对象的关键点。
可选地,对于所述n层指定特征提取层中的第k层指定特征提取层,
在k=n的情况下,所述第k层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;对更新后的特征图进行上采样,得到第n-1层指定特征提取层对应的上采样后的特征图;
在1<k<n的情况下,所述第k层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;将更新后的特征图与第k层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;对调整后的特征图进行上采样,得到第k-1层指定特征提取层对应的上采样后的特征图;
在k=1的情况下,所述第1层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;将更新后的特征图与第1层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;调整后的特征图为所述第1层指定特征提取层的输出数据。
可选地,所述n层指定特征提取层分别位于所述主干网络的n个残差块中,且每层指定特征提取层为对应一个残差块中的指定一层卷积层;每个残差块包括至少一层特征提取层。
可选地,所述图像识别模型基于基于中心点的检测网络CenterNet建立;
所述第一子分支包括第一热度图预测支路和中心点位置偏移预测支路;
所述第二子分支包括宽高预测支路;
所述第三子分支包括第二热度图预测支路、关键点位置偏移预测支路和关键点相对于中心点距离回归支路。
可选地,所述目标对象的种类为多种,所述第一子分支和所述第二子分支使用损失函数和每个种类的目标对象的权重参数训练得到;
每个种类的目标对象的权重参数是基于第一数量与第二数量的比值计算得到,其中,第一数量为输入图像中所述种类的目标对象的数量;所述第二数量为所述输入图像中所有种类的目标对象的数量。
可选地,种类I的目标对象的权重参数weightI通过下式计算:
其中,N表示目标对象的种类总数,median(*)表示计算所有类别目标对象的中位数,clsnumI表示种类I的目标对象的数量。
可选地,所述图像识别模型的损失函数包括各个分支对应的损失函数的加权和。
可选地,所述将所述目标图像输入预先训练的图像识别模型,得到所述目标图像的对象分析结果之后,还包括:
按照所述目标对象位置信息对所述目标对象关键点信息进行分组,得到的同一目标对象的关键点。
可选地,对于每个关键点,所述第三子分支的输出包括所述关键点的第一关键点预测结果和第二关键点预测结果,所述第一关键点预测结果是基于热度图预测的,所述第二关键点预测结果是基于相对中心点距离预测的;
所述按照所述目标对象位置信息对所述目标对象关键点信息进行分组,得到的同一目标对象的关键点之后,还包括:
基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选。
可选地,所述基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选,包括:
在所述第一关键点预测结果和第二关键点预测结果之间的距离小于预设距离阈值时,保留所述关键点,并将所述第一关键点预测结果确定为最终的关键点坐标。
第二方面,提供一种对象分析装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面提供的对象分析方法。
第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现第一方面提供的对象分析方法。
本申请的有益效果至少包括:通过获取目标图像;将目标图像输入预先训练的图像识别模型,得到目标图像的对象分析结果,对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;图像识别模型包括主干网络、与主干网络相连的第一网络分支和第二网络分支;主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;第一网络分支根据第m层特征提取层输出的特征图提取目标对象属性信息;第二网络分支包括第一子分支、第二子分支和第三子分支;第一子分支用于根据第1层指定特征提取层的输出数据计算目标对象的中心点;第二子分支用于根据第1层指定特征提取层的输出数据进行目标对象的宽高回归;第三子分支用于根据第1层指定特征提取层的输出数据检测目标对象的关键点;可以解决现有的目标检测算法无法实现速度和精确度同时提升的问题;使用融合方式使得获得的特征层包含的信息更加丰富全面,在提高识别不同尺度目标敏感度的同时,提高了检测的准确率。
另外,深度可分离卷积的使用明显加快了特征层融合部分的推理时间;同时,图像识别模型还融合了属性分析功能,使一个模型同时拥有了目标检测、关键点预测以及属性输出的功能,同一个模型具有3个功能,既减小了3个功能的显存占用率,又提高了其在系统中的运行速率。
另外,通过在第三子分支设置第二热度图预测支路、关键点位置偏移预测支路和关键点相对于中心点距离回归支路可以实现关键点的检测。
另外,在目标对象的种类为多种时,第一子分支和第二子分支使用损失函数和每个种类的目标对象的权重参数训练得到,可以平衡目标间的数量,提高训练得到的网络性能。
另外,通过对关键点进行分组和筛选,可以实现多个目标对象的关键点的划分。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
【附图说明】
图1是本申请一个实施例提供的对象分析方法的流程图;
图2是本申请一个实施例提供的人的全身中的关键点的示意图;
图3是本申请一个实施例提供的对象分析模型的结构示意图;
图4是本申请又一个实施例提供的对象分析装置的框图;
图5是本申请再一个实施例提供的对象分析装置的框图。
【具体实施方式】
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍。
基于中心点的检测网络(CenterNet):是一个端到端的目标检测器。目标检测要求检测出包含物体的最小矩形框。传统的目标检测器通常会罗列出大量的候选框并对其分类。而CenterNet将要检测的目标定位到一个点,即检测矩形框的中心点。换言之,CenterNet中,每个中心点对应一个目标的位置,不需要进行矩形框重叠(overlap)的判断,目标检测速度和效率均高于传统的目标检测器。
深度可分离卷积(depthwise separable convolution):是一种轻量级的网络。在深度学习中,深度可分离卷积将执行一个空间卷积,同时保持通道独立,然后进行深度卷积操作。从本质上说,深度可分离卷积就是3D卷积核(kernel)的分解;即,在深度通道上的分解。
基于本申请提出的技术问题,本申请提供一种对象分析的技术方案,本技术方案为了减小功能模型的显存占用率,提高其在整个系统中的运行速率,通过多层特征融合来提高网络识别不同尺度目标的敏感度,而本申请中使用融合方式使得获得的特征层包含的信息更加丰富全面,在提高识别不同尺度目标敏感度的同时,也提高了检测的准确率;深度可分离卷积的使用明显加快了特征层融合部分的推理时间;同时,图像识别模型还融合了属性分析功能,使一个模型同时拥有了目标检测、关键点预测以及属性输出的功能,同一个模型具有3个功能,既减小了3个功能的显存占用率,又提高了其在系统中的运行速率。
可选地,本申请以各个实施例提供的对象分析方法用于电子设备中为例进行说明,该电子设备为终端或服务器,终端可以为手机、计算机、平板电脑、可穿戴式设备等,本实施例不对电子设备的设备类型作限定。
下面对本申请提供的对象分析方法进行介绍。
图1是本申请一个实施例提供的对象分析方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取目标图像。
可选地,目标图像可以是视频流中的一帧图像,或者是单独一张图像,本实施例不对目标图像的来源作限定。
可选地,目标图像包括至少一个目标对象,或者不包括目标对象。其中,目标对象的种类为至少一种,比如:目标对象包括但不限于:人脸、人的某个部位、人的全身、整个车辆、车辆的某个局部等,目标对象的种类划分可以根据用户的分析需求确定,本实施例不对目标对象的种类的划分方式作限定。
步骤102,将目标图像输入预先训练的图像识别模型,得到目标图像的对象分析结果,对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息。
目标对象位置信息用于指示目标对象在目标图像中的位置,可以通过目标对象的外接框表示,如通过目标对象的最小外接矩形框表示。
目标对象关键点信息用于指示目标对象的关键点,可以通过关键点坐标表示,以目标对象为人的全身为例,目标对象的关键点参考图2所示,图2中以人的全身包括18个关键点为例进行说明,在实际实现时,人的全身的关键点可以设置得更多或更少,本实施例不对关键点的设置方式作限定。
对于不同种类的目标对象,目标对象属性信息的内容不同。以目标对象为人(如人的全身、人的某个部位、或者人脸)为例,目标对象属性信息包括但不限于:目标对象的种类(如是否为人的全身、是否为人的某个部位、是否为人脸等)和目标对象的性别。以目标对象为车辆(整车或者车辆的某个局部)为例,目标对象属性信息包括但不限于:目标对象的种类(如是否为整个车辆、是否为车辆上的某个局部等)、车辆的车牌信息、车辆的颜色、车辆的款式等,本实施例不对目标对象属性信息的内容作限定。
其中,图像识别模型包括主干网络、与主干网络相连的第一网络分支和第二网络分支。
主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;m为大于1的整数,n为小于1且小于或等于m的整数。
第一网络分支与第m层特征提取层相连,并用于根据第m层特征提取层输出的特征图提取目标对象属性信息。
第二网络分支与第1层指定特征提取层相连,且第二网络分支包括第一子分支、第二子分支和第三子分支;第一子分支用于根据第1层指定特征提取层的输出数据计算目标对象的中心点;第二子分支用于根据第1层指定特征提取层的输出数据进行目标对象的宽高回归;第三子分支用于根据第1层指定特征提取层的输出数据检测目标对象的关键点。
本实施例中,通过在主干网络中使用融合方式使得获得的特征层包含的信息更加丰富全面,在提高识别不同尺度目标敏感度的同时,也提高了检测的准确率。
下面,对主干网络融合多种特征的方式进行说明。对于n层指定特征提取层中的第k层指定特征提取层,在k=n的情况下,第k层指定特征提取层得到特征图后,采用深度可分离卷积对特征图的通道尺寸进行更新;对更新后的特征图进行上采样,得到第n-1层指定特征提取层对应的上采样后的特征图;在1<k<n的情况下,第k层指定特征提取层得到特征图后,采用深度可分离卷积对特征图的通道尺寸进行更新;将更新后的特征图与第k层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;对调整后的特征图进行上采样,得到第k-1层指定特征提取层对应的上采样后的特征图;在k=1的情况下,第1层指定特征提取层得到特征图后,采用深度可分离卷积对特征图的通道尺寸进行更新;将更新后的特征图与第1层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;调整后的特征图为第1层指定特征提取层的输出数据。
在一个示例中,n层指定特征提取层分别位于主干网络的n个残差块中,且每层指定特征提取层为对应一个残差块中的指定一层卷积层;每个残差块包括至少一层特征提取层。参考图3,以主干网络为MobileNetv1、且n层指定特征提取层位于conv3_1,conv4_1,conv5_5和conv6中为例进行说明,其中,conv3_1是指第3个残差块中的第一层卷积层,conv4_1是指第4个残差块中的第一层卷积层,conv5_5是指第5个残差块中的第五层卷积层。4个特征层分别采用深度可分离卷积来改变对应一层的特征图通道尺寸,得到TL6、TL5、TL4和TL3。对TL6采用深度可分离卷积获得P6,并对其进行上采样后与TL5按通道进行拼接,对拼接后的特征层再次使用深度可分离卷积进行通道调整获得P5,然后对P5进行上采样。之后,与TL4进行拼接融合,依此类推,获得P4,P3。深度可分离卷积的使用使图像识别模型前向推理速度明显提高,而上述将浅层特征与深层特征相融合的方法使最终获得的特征图包含的信息更加丰富,同时提高了网络识别不同尺度目标的敏感度和准确率。基于图3所示的主干网络,使得最后用于进行预测的特征层宽和高为原图的四分之一,模型输入图像分辨率大小为32的倍数。
在获得的融合了多层特征的特征图的基础上,下面对与主干网络分别相连的第一网络分支和第二网络分支分别进行介绍。
第一网络分支是在主干网络的最后一层特征提取层上利用深度可分离卷积拉取得到的。参考图3,在conv6上利用深度可分离卷积拉取第一网络分支。
第一网络分支使用分类训练得到,具体为使用第三损失函数进行训练。第三损失函数可以为softmax Loss函数,在实际实现时,第三损失函数也可以为其它用于分类损失函数,本实施例不对第三损失函数的实现方式作限定。
图像识别模型基于中心点的检测网络CenterNet建立;相应地,第二网络分支中的第一子分支包括第一热度图预测支路和中心点位置偏移预测支路;第二子分支包括宽高预测支路;第三子分支包括第二热度图预测支路、关键点位置偏移预测支路和关键点相对于中心点距离回归支路。
第一子分支用于基于第一热度图预测支路输出的第一热度图和中心点位置偏移预测支路输出的中心点偏移量,计算中心点位置。
第二子分支用于对目标对象的对象区域进行宽高回归,得到对象区域的尺寸。
由于实际应用场景下目标对象的种类众多,各目标对象间的数量很难达到平衡,故在CenterNet原损失计算方法的基础上进行修改,以平衡目标间的数量。具体地,目标对象的种类为多种,第一子分支和第二子分支使用损失函数和每个种类的目标对象的权重参数训练得到;每个种类的目标对象的权重参数是基于第一数量与第二数量的比值计算得到,其中,第一数量为输入图像中种类的目标对象的数量;第二数量为输入图像中所有种类的目标对象的数量。
具体地,种类I的目标对象的权重参数weightI通过下式计算:
其中,N表示目标对象的种类总数,median(*)表示计算所有类别目标对象的中位数,clsnumI表示种类I的目标对象的数量。
对于第一热度图预测支路使用CenterNet算法中的focal loss函数计算损失;对于中心点位置偏移预测支路和第二子分支采用L1 loss函数进行损失计算。
第三子分支用于基于第二热度图预测支路输出的第二热度图和关键点位置偏移预测支路输出的关键点偏移量,计算第一关键点位置;基于中心点位置和关键点相对于中心点距离回归支路输出的相对中心点距离,计算第二关键点位置。
在训练过程中,第二热度图预测支路使用CenterNet算法中的focal loss函数计算损失,关键点位置偏移预测支路和相对于中心点距离回归支路使用采用L1 loss函数进行损失计算。
图像识别模型的损失函数包括各个分支对应的损失函数的加权和。具体地,图像识别模型的损失函数通过下式表示:
loss=loss_center+loss_offset+loss_size×0.1+loss_keypoint+loss_attr×0.1;
其中,loss_center表示第一子分支的损失值,loss_offset表示中心点位置偏移预测支路的损失值,loss_size表示相对于中心点距离回归支路的损失值,loss_keypoint表示关键点位置偏移预测支路的损失值,loss_attr表示第一网络分支的损失值。
由于相对于中心点距离回归支路和第一网络分支与其他支路的损失数量级差别较大,故对相对于中心点距离回归支路和属性支路损失分别乘以权重0.1。在实际实现时,权重也可以为其它数值,本实施例不对各个分支对应的权重作限定。
可选地,在将目标图像输入预先训练的图像识别模型,得到目标图像的对象分析结果之后,还包括:按照目标对象位置信息对目标对象关键点信息进行分组,得到的同一目标对象的关键点。
按照目标对象位置信息对目标对象关键点信息进行分组,包括:对于每个关键点,当该关键点处于检测到的对象区域内部时,则认为该关键点属于该对象区域对应的目标对象;当该关键点未处于检测到的对象区域内部时,则认为该关键点不属于任意一个对象区域对应的目标对象,将该关键点舍弃。
可选地,对于每个关键点,第三子分支的输出包括关键点的第一关键点预测结果和第二关键点预测结果,第一关键点预测结果是基于热度图预测的,第二关键点预测结果是基于相对中心点距离预测的;此时,按照目标对象位置信息对目标对象关键点信息进行分组,得到的同一目标对象的关键点之后,还包括:基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选。
其中,基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选,包括:在第一关键点预测结果和第二关键点预测结果之间的距离小于预设距离阈值时,保留关键点,并将第一关键点预测结果确定为最终的关键点坐标。
具体地,筛选过程通过下式表示:
distance=|(x+offset_x,y+offset_y)-(x+W,y+H)|
x_keypoint=(x+offset_x,y+offset_y)distance<threshold
其中,distance表示第一关键点预测结果和第二关键点预测结果之间的距离,(x+offset_x,y+offset_y)表示第一关键点预测结果,(x+W,y+H)表示第二关键点预测结果;threshold表示预设距离阈值。
综上所述,本实施例提供的对象分析方法,通过获取目标图像;将目标图像输入预先训练的图像识别模型,得到目标图像的对象分析结果,对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;图像识别模型包括主干网络、与主干网络相连的第一网络分支和第二网络分支;主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;第一网络分支根据第m层特征提取层输出的特征图提取目标对象属性信息;第二网络分支包括第一子分支、第二子分支和第三子分支;第一子分支用于根据第1层指定特征提取层的输出数据计算目标对象的中心点;第二子分支用于根据第1层指定特征提取层的输出数据进行目标对象的宽高回归;第三子分支用于根据第1层指定特征提取层的输出数据检测目标对象的关键点;可以解决现有的目标检测算法无法实现速度和精确度同时提升的问题;使用融合方式使得获得的特征层包含的信息更加丰富全面,在提高识别不同尺度目标敏感度的同时,提高了检测的准确率。
另外,深度可分离卷积的使用明显加快了特征层融合部分的推理时间;同时,图像识别模型还融合了属性分析功能,使一个模型同时拥有了目标检测、关键点预测以及属性输出的功能,同一个模型具有3个功能,既减小了3个功能的显存占用率,又提高了其在系统中的运行速率。
另外,通过在第三子分支设置第二热度图预测支路、关键点位置偏移预测支路和关键点相对于中心点距离回归支路可以实现关键点的检测。
另外,在目标对象的种类为多种时,第一子分支和第二子分支使用损失函数和每个种类的目标对象的权重参数训练得到,可以平衡目标间的数量,提高训练得到的网络性能。
另外,通过对关键点进行分组和筛选,可以实现多个目标对象的关键点的划分。
下面对本申请的使用场景进行举例说明:
场景1:应用于室外场景下,对室外人员进行姿态和属性对分析排查。在该场景中,可以将对象分析方法应用于枪球联动的球机中,对球机观察目标进行人脸、头肩、全人3类的检测、人体关键点检测和人员属性的输出。在该场景下,可以利用公共样本集以及私有的样本集进行训练。采用固定分辨率大小的输入图像,送入CNN中进行训练,获得了可以输出目标类型、人体关键点和人员属性的模型。
场景2:应用于监狱场景下,以对监舍内对犯人对姿态进行监视。在该场景下,利用的是公共样本集以及狱方提供的监舍视频提取的样本集进行训练。将固定分辨率大小的输入图像,送入CNN中进行训练,获得了可以输出人脸、头肩、全人三类目标类型、人体关键点和人员属性的模型。
从两个实施例中可以看出,该算法模型功能更加丰富,应用场景更广,是一个高效的人员姿态关键点与属性分析算法。
在实际实现时,本申请提供的对象分析算法也可以应用于其它场景中,本实施例在此不再一一列举。
图4是本申请一个实施例提供的对象分析装置的框图。该装置至少包括以下几个模块:图像获取模块410和对象分析模块420。
图像获取模块410,用于获取目标图像;
对象分析模块420,用于将所述目标图像输入预先训练的图像识别模型,得到所述目标图像的对象分析结果,所述对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;
其中,图像识别模型包括主干网络、与所述主干网络相连的第一网络分支和第二网络分支;
所述主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;所述m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;所述m为大于1的整数,所述n为小于1且小于或等于m的整数。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的对象分析装置在进行对象分析时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将对象分析装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对象分析装置与对象分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本申请一个实施例提供的对象分析装置的框图。该装置至少包括处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的对象分析方法。
在一些实施例中,对象分析装置还可选包括有:外围设备接口和至少一个外围设备。处理器501、存储器502和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,对象分析装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的对象分析方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的对象分析方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种对象分析方法,其特征在于,所述方法包括:
获取目标图像;
将所述目标图像输入预先训练的图像识别模型,得到所述目标图像的对象分析结果,所述对象分析结果包括目标对象位置信息、目标对象关键点信息和目标对象属性信息;
其中,图像识别模型包括主干网络、与所述主干网络相连的第一网络分支和第二网络分支;
所述主干网络包括依次相连的m层特征提取层,以提取多尺寸特征图;所述m层特征提取层中的n层指定特征提取层分别采用深度可分离卷积调整特征图的通道尺寸,并将浅层特征与深层特征融合;所述m为大于1的整数,所述n为大于1且小于或等于m的整数;
对于所述n层指定特征提取层中的第k层指定特征提取层,
在k=n的情况下,所述第k层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;对更新后的特征图进行上采样,得到第n-1层指定特征提取层对应的上采样后的特征图;
在1<k<n的情况下,所述第k层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;将更新后的特征图与第k层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;对调整后的特征图进行上采样,得到第k-1层指定特征提取层对应的上采样后的特征图;
在k=1的情况下,第1层指定特征提取层得到特征图后,采用深度可分离卷积对所述特征图的通道尺寸进行更新;将更新后的特征图与第1层对应的上采样后的特征图进行按照通道进行拼接;对拼接后的特征图使用深度可分离卷积进行通道调整;调整后的特征图为所述第1层指定特征提取层的输出数据。
2.根据权利要求1所述的方法,其特征在于,
所述第一网络分支与第m层特征提取层相连,并用于根据所述第m层特征提取层输出的特征图提取所述目标对象属性信息;
所述第二网络分支与第1层指定特征提取层相连,且所述第二网络分支包括第一子分支、第二子分支和第三子分支;所述第一子分支用于根据所述第1层指定特征提取层的输出数据计算目标对象的中心点;所述第二子分支用于根据所述第1层指定特征提取层的输出数据进行所述目标对象的宽高回归;所述第三子分支用于根据所述第1层指定特征提取层的输出数据检测所述目标对象的关键点。
3.根据权利要求2所述的方法,其特征在于,所述图像识别模型基于基于中心点的检测网络CenterNet建立;
所述第一子分支包括第一热度图预测支路和中心点位置偏移预测支路;
所述第二子分支包括宽高预测支路;
所述第三子分支包括第二热度图预测支路、关键点位置偏移预测支路和关键点相对于中心点距离回归支路。
4.根据权利要求2所述的方法,其特征在于,所述目标对象的种类为多种,所述第一子分支和所述第二子分支使用损失函数和每个种类的目标对象的权重参数训练得到;
每个种类的目标对象的权重参数是基于第一数量与第二数量的比值计算得到,其中,第一数量为输入图像中所述种类的目标对象的数量;所述第二数量为所述输入图像中所有种类的目标对象的数量。
6.根据权利要求2所述的方法,其特征在于,所述将所述目标图像输入预先训练的图像识别模型,得到所述目标图像的对象分析结果之后,还包括:
按照所述目标对象位置信息对所述目标对象关键点信息进行分组,得到的同一目标对象的关键点。
7.根据权利要求6所述的方法,其特征在于,对于每个关键点,所述第三子分支的输出包括所述关键点的第一关键点预测结果和第二关键点预测结果,所述第一关键点预测结果是基于热度图预测的,所述第二关键点预测结果是基于相对中心点距离预测的;
所述按照所述目标对象位置信息对所述目标对象关键点信息进行分组,得到的同一目标对象的关键点之后,还包括:
基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选。
8.根据权利要求7所述的方法,其特征在于,所述基于每个关键点对应的第一关键点预测结果和第二关键点预测结果,对关键点进行筛选,包括:
在所述第一关键点预测结果和第二关键点预测结果之间的距离小于预设距离阈值时,保留所述关键点,并将所述第一关键点预测结果确定为最终的关键点坐标。
9.一种对象分析装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的对象分析方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至8任一项所述的对象分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110461699.1A CN113159200B (zh) | 2021-04-27 | 2021-04-27 | 对象分析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110461699.1A CN113159200B (zh) | 2021-04-27 | 2021-04-27 | 对象分析方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159200A CN113159200A (zh) | 2021-07-23 |
CN113159200B true CN113159200B (zh) | 2022-07-26 |
Family
ID=76871696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110461699.1A Active CN113159200B (zh) | 2021-04-27 | 2021-04-27 | 对象分析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159200B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657245B (zh) * | 2021-08-13 | 2024-04-26 | 亮风台(上海)信息科技有限公司 | 一种用于人脸活体检测的方法、设备、介质及程序产品 |
CN115861400B (zh) * | 2023-02-15 | 2023-05-12 | 北京百度网讯科技有限公司 | 目标对象检测方法、训练方法、装置以及电子设备 |
CN116108225A (zh) * | 2023-04-13 | 2023-05-12 | 深圳开鸿数字产业发展有限公司 | 视频数据结构化方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753746A (zh) * | 2020-06-28 | 2020-10-09 | 苏州科达科技股份有限公司 | 属性识别模型训练方法、识别方法、电子设备、存储介质 |
CN111967401A (zh) * | 2020-08-19 | 2020-11-20 | 上海眼控科技股份有限公司 | 目标检测方法、设备及存储介质 |
CN112070768A (zh) * | 2020-09-16 | 2020-12-11 | 福州大学 | 基于Anchor-Free的实时实例分割方法 |
CN112560980A (zh) * | 2020-12-24 | 2021-03-26 | 深圳市优必选科技股份有限公司 | 目标检测模型的训练方法、装置及终端设备 |
-
2021
- 2021-04-27 CN CN202110461699.1A patent/CN113159200B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753746A (zh) * | 2020-06-28 | 2020-10-09 | 苏州科达科技股份有限公司 | 属性识别模型训练方法、识别方法、电子设备、存储介质 |
CN111967401A (zh) * | 2020-08-19 | 2020-11-20 | 上海眼控科技股份有限公司 | 目标检测方法、设备及存储介质 |
CN112070768A (zh) * | 2020-09-16 | 2020-12-11 | 福州大学 | 基于Anchor-Free的实时实例分割方法 |
CN112560980A (zh) * | 2020-12-24 | 2021-03-26 | 深圳市优必选科技股份有限公司 | 目标检测模型的训练方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113159200A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020215985A1 (zh) | 医学影像分割方法、装置、电子设备和存储介质 | |
CN113159200B (zh) | 对象分析方法、装置及存储介质 | |
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
CN109558864B (zh) | 人脸关键点检测方法、装置及存储介质 | |
CN110610510B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
US8792722B2 (en) | Hand gesture detection | |
US8750573B2 (en) | Hand gesture detection | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111444365B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN109670517A (zh) | 目标检测方法、装置、电子设备和目标检测模型 | |
CN111127358B (zh) | 图像处理方法、装置及存储介质 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN112818888A (zh) | 视频审核模型训练方法、视频审核方法及相关装置 | |
CN112686314B (zh) | 基于远距离拍摄场景的目标检测方法、装置及存储介质 | |
CN114677350A (zh) | 连接点提取方法、装置、计算机设备及存储介质 | |
CN112818958B (zh) | 动作识别方法、装置及存储介质 | |
CN109635755A (zh) | 人脸提取方法、装置及存储介质 | |
CN114332553A (zh) | 图像处理方法、装置、设备以及存储介质 | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN116958873A (zh) | 行人跟踪方法、装置、电子设备及可读存储介质 | |
WO2023061195A1 (zh) | 图像获取模型的训练方法、图像检测方法、装置及设备 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN110047118B (zh) | 视频生成方法、装置、计算机设备及存储介质 | |
CN112464939A (zh) | 目标检测中的数据增广方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |