CN111476160A

CN111476160A - 损失函数优化方法、模型训练方法、目标检测方法及介质

Info

Publication number: CN111476160A
Application number: CN202010265104.0A
Authority: CN
Inventors: 吴晓晖; 张凯丽; 王书平
Original assignee: Hangzhou Shizai Technology Co ltd
Current assignee: Hangzhou Shizai Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-31

Abstract

损失函数优化方法、模型训练方法、目标检测方法及介质，涉及图片识别技术领域；目标检测模型训练方法，包括以下步骤：获取样本数据集；数据集的前处理：对获取的样本数据进行提前标注，对标注出的目标进行聚类，并做多组实验找到适合手机检测的anchor；用自定义的anchor采用目标检测网络训练得到目标检测模型。本发明结合当前主流的计算机视觉处理技术，使用基于深度卷积神经网络的目标检测算法做基本的处理算法，引入层级智能过滤的方式，将非限定场景中的玩手机行为识别问题转为限定场景中的玩手机行为识别问题，同时也可以通过此步将复杂场景直接转换为简单场景。

Description

损失函数优化方法、模型训练方法、目标检测方法及介质

技术领域

本发明涉及图片识别技术领域，特别涉及损失函数优化方法、模型训练方法、目标检测方法及介质。

背景技术

随着现代社会分工的精细化，一些企业对相关人员的管理也越来越规范，而一些管理任务又非常庞杂，比如特定工作场景下的玩手机检测、抽烟、其他的一些行为规范以及工作服穿戴合规检测等；单靠人工巡查，或是人工对视频的浏览已经无法满足一些现代企业管理的需要，因此，有人提出引入智能化的视频分析技术，对监控视频进行智能化分析，从中筛选出操作人员的一些违规图片，推送给管理者。这样做有下面几个好处：第一，可以节省大量的用于现场巡查或是视频浏览巡查的人力，为企业节省成本，提高效率；第二，可以做到24小时全覆盖；

针对玩手机的检测识别通常采取下面三种方式：

第一种方式：管理人员不定时现场巡查。这样做的好处是：巡查所到之处，问题发现准确，解决到位；缺点是：受到巡查人员精力，时间限制，无法做到全天候覆盖，会遗漏大量的问题点；

第二种方式：管理人员视频巡查。这样做的好处是同第一种方式；缺点是：面对庞大的视频数据，如果需要全部巡查所有问题点，需要的巡查人员数量非常庞大。

上述两种传统的巡查管理方式都面临一个问题：巡查任务非常巨大，巡查人手不够。所以限制了管理工作人员行为规范的大规模推广，造成管理质量良莠不齐，问题频发，严重影响企业形象。为此，有人提出利用人工智能的方法来缩小视频巡检的范围，做到更加精准的定位问题点，以提高工作效率，从而有了第三种巡查方式：

第三种方式：基于视频智能分析的管理人员巡查。通过人工智能算法对视频进行分析，只保留少量的问题图片。通过研究发现当前主流的目标检测算法具有局限性，精准度不够。

发明内容

本发明的目的在于，提供损失函数优化方法、模型训练方法、目标检测方法及介质。

本发明的技术方案：目标检测模型训练方法，包括以下步骤：

获取样本数据集；

数据集的前处理：对获取的样本数据进行提前标注，对标注出的目标进行聚类，并做多组实验找到适合手机检测的anchor；

用自定义的anchor采用目标检测网络训练得到目标检测模型。

上述的目标检测模型训练方法中，目标模型训练阶段包括用于评价每一轮训练结果的损失函数计算，该损失函数包括对候选框的对角线长度与真实框对角线长度之差计算，公式为：

上述的目标检测模型训练方法中，损失函数的完整公式为：

其中，(x,y)表示在图像分割成s*s的待检区域中，第i个区域的中心区域区域坐标；B表示分类目标的总数；C_i表示预测的目标分类；P_i为预测类的概率；λ_coord表示目标存在时，位置与分类项的损失权重；λ_noobj表示目标不存在的时候，对于类别判断结果是否正确的权重。

目标检测模型中的损失函数优化方法，包括对候选框的对角线长度与真实框对角线长度之差计算，公式为：

上述的目标检测模型中的损失函数优化方法中，损失函数的完整公式为：

目标检测方法，包括如下步骤：

1、获取图片数据；

2、对图片数据进行对象检测，并筛选出可用数据；

3、将可用数据输入到权利要求1-3记载的目标检测模型中用于检测对象区域是否存在目标；

4、通过步骤3的检测结果，判断对象是否存在相应行为。

上述的目标检测方法中，所述对象检测是针对人体和/或人脸的检测，所述目标检测是针对手机的检测，所述相应的行为是“玩手机”。

上述的目标检测方法中，对象检测的具体步骤为：从图片数据中检测人体目标和人脸目标，并匹配人体和人脸目标，匹配方法如下：

对获取的人体信息做遍历，对每个获取的人体信息，输入同时获取到的人脸信息，然后再遍历输入的人脸信息，首先获取每个人脸目标框和人体的目标框的交集区域的面积，然后找到其交集区域面积最大的人脸目标框，然后对比这个交集区域与原始的人脸目标区域的比值是否大于设定的阈值，满足条件则绑定当前的人脸信息与人体信息，如果所有的人脸信息都不满足以上条件，则认为在这个人体区域中没有检测到有效的人脸信息，在人体信息的数据中设置相应的人脸信息的置信度conf＝0。

上述的目标检测方法中，筛选出可用数据之后，将获取的人体区域框向外扩充，其规则为：以人体目标框的中心点为中心，将人体目标框的长和宽都扩充到原长宽的0.8-1.5倍。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：计算机程序被处理器执行时实现如上述模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求上述损失函数优化方法的步骤；或者，所述处理器执行所述计算机程序时实现上述的目标检测方法的步骤。

与现有技术相比，优点在于：本发明结合当前主流的计算机视觉处理技术，使用基于深度卷积神经网络的目标检测算法做基本的处理算法，引入层级智能过滤的方式，将非限定场景中的玩手机行为识别问题转为限定场景中的玩手机行为识别问题，同时也可以通过此步将复杂场景直接转换为简单场景。

附图说明：

图1是实施例中提及的“玩手机”检测流程示意图。

下面结合实施例和附图对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例：参照图1所示应用场景为对“玩手机”行为的检测。

通过研究发现当前主流的目标检测算法存在以下局限性：首先是对于业务场景的限制，如在后厨场景中训练的玩手机检测模型拿到其他的业务场景中，泛化性能很差，针对新的业务场景又要重新做数据标注、网络训练等工作，而且由于检测目标较小，对于视频中的复杂场景下的玩手机的检测会存在大量的干扰信息导致结果误报；其实是当前算法没有针对小目标做出相应的改进，如果直接用原始算法训练的话会导致大量的检测目标的漏检问题；最后由于手机在不同摄像头视角下会存在一定的形变问题，原始算法的损失函数在训练的时候只计算了目标长宽的损失，会导致损失函数往一个错误的方向收敛，导致训练的网络对于一些摄像头视角导致的形变问题会出现错误分类或者无法检测出目标，对提升工作效率帮助有限。

本发明结合当前主流的计算机视觉处理技术，使用基于深度卷积神经网络的目标检测算法做基本的处理算法，引入层级智能过滤的方式，将非限定场景中的玩手机行为识别问题转为限定场景中的玩手机行为识别问题，同时也可以通过此步将复杂场景直接转换为简单场景。针对小目标检测不准的问题，本专利使用提前标注好的手机样本数据使用K-means聚类并坐多组实验找到适合手机检测的anchor，用自定义的anchor训练手机检测模型。针对目标在不同的摄像头视角下的形变问题，本专利提出一种改进的损失函数，将损失函数中将原网络中针对长宽的回归损失定义成计算对角线的损失，网络的收敛拟合性能更强，也大大提升了目标检测的准确性。具体实施时在目标检测处理算法前加入多层的判断处理条件，在都满足巡视条件的前提下，才会将特定的目标区域作为目标检测算法的输入传入网络，获取一张图片或者单帧视频帧中的所有符合判断处理条件的目标结果，然后根据特定限制场景的巡视规则推理出违规/合规，然后将违规图像再推送到管理者的手中，以节省巡查人员的巡查工作量，而且这种结合多层的判断处理条件的基于目标检测的玩手机识别算法，可以快速应用到其他场景中，成本低且开发部署方便，能够大大提高企业的管理效率。

具体的方法如下：

(101)将特定场景获取的原始图像，首先将图像做灰度与模糊度判断，当图像的灰度值与模糊度值大于预先设定的阈值时，我们认为该张图像无法获取有效信息，则跳过，不对该张图像做判断。然后将图像作为输入传进一个采用基于计算机视觉的人体和人脸的通用目标检测网络，提取出图像中的人体和人脸信息，将人脸信息和人体信息分开存储，然后匹配提取到的人体和人脸信息，具体匹配方案如下：

对获取的人体信息做遍历，对每个获取的人体信息，输入同时获取到的人脸信息，然后再遍历输入的人脸信息，首先获取每个人脸目标框和人体的目标框的交集区域的面积，然后找到其交集区域面积最大的人脸目标框，然后对比这个交集区域与原始的人脸目标区域的比值是否大于设定的阈值，这一步是为了进一步确定该人脸目标是否是该人体目标的人脸区域，若满足条件则绑定当前的人脸信息与人体信息，如果所有的人脸信息都不满足以上条件，则认为在这个人体区域中没有检测到有效的人脸信息，在人体信息的数据中设置相应的人脸信息的置信度；所有的人体信息绑定人脸信息的操作均如上，依次迭代下去，完成提取到的人体和人脸信息的匹配；

(102)拿到人体和人脸的相关匹配信息，根据人脸和人体的匹配信息判断是否要进行下一步的算法推断；在本专利中的判断条件是如果在人体的目标框中没有检测到人脸的话，则认为当前图像中的某一个人体的目标不满足进一步判断的条件，则不会再继续做下面的手机检测了；

如果满足进行下一步的算法推断条件，则将获取的人体的区域框向外扩充一定区域，该步主要为了防止由于视角问题导致手机在人体目标区域外，故在检测到的人体区域框的基础上，以人体目标框的中心点为中心，将人体目标框的长和宽都扩充到原长宽的1.2倍左右。然后将所有扩充的人体的区域框输入到检测手机的小模型中，进一步检测在人体的区域中是否有手机，具体步骤如下：

首先，针对我们的手机目标检测器来说，我们使用的基础目标检测网络是yolov3-tiny，对于这个网络，我们针对检测目标手机来说，做了相应的改进，具体的改进是使用提前标注好的手机样本数据使用K-means聚类并坐多组实验找到适合手机检测的anchor，用自定义的anchor训练手机检测模型；

此外，在网络的训练过程中，针对训练目标在不同的视角下可能会存在一定的形变的问题，在本专利中对于原始的损失函数也加了一项修正项。损失函数是对每一轮的训练结果来做评价的，反映的是本次的预测结果和真实的数据之间的差异，损失越小表示训练的越好，因此我们期望训练过程是朝着损失值值减小的方向进行的。

由于之前的损失函数在训练的时候只计算了目标长宽的损失，模型的收敛拟合性能较差，对于一些摄像头视角导致的形变问题会出现错误分类或者无法检测出目标的问题，在本专利中，我们在损失函数中将原网络中针对长宽的回归损失定义成计算对角线的损失，具体修改的项修改后为：

该项反映的是候选框的对角线长度与真实框对角线长度之差，为了防止由于目标和镜头的视角差距引起的旋转和侧翻导致的损失值不能评价真实的检测结果，改进后的损失函数如下：

在本实施例中认为在人体区域中检测到手机的话，则认为该人在玩手机，将检测到的手机的概率confidence赋值给人体属性信息的玩手机的置信度，如果在人体的区域中检测到的是非手机，那么用1减去检测到的非手机的概率值confidence并赋值给人体属性信息的玩手机的置信度；

(103)拿到102步中更新后的所有的人体的相关信息，然后遍历，如果人体信息中人体属性信息的玩手机的置信度大于设定的警告阈值的话，那么该张图片要给出玩手机警告，并向管理者推送出该张图片；

上述具体实施方式用来解释说明本发明，仅为本发明的优选实施例，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改、等同替换、改进等，都落入本发明的保护范围。

Claims

1.目标检测模型训练方法，其特征在于：包括如下步骤：

获取样本数据集；

用自定义的anchor采用目标检测网络训练得到目标检测模型。

2.基于权利要求1所述目标检测模型训练方法，其特征在于：目标模型训练阶段包括用于评价每一轮训练结果的损失函数计算，该损失函数包括对候选框的对角线长度与真实框对角线长度之差计算，公式为：

3.基于权利要求2所述目标检测模型训练方法，其特征在于：损失函数的完整公式为：

4.目标检测模型中的损失函数优化方法，其特征在于：包括对候选框的对角线长度与真实框对角线长度之差计算，公式为：

5.根据权利要求4所述的目标检测模型中的损失函数优化方法，其特征在于：损失函数的完整公式为：

6.目标检测方法，其特征在于：包括如下步骤：

1、获取图片数据；

2、对图片数据进行对象检测，并筛选出可用数据；

4、通过步骤3的检测结果，判断对象是否存在相应行为。

7.根据权利要求6所述的目标检测方法，其特征在于：所述对象检测是针对人体和/或人脸的检测，所述目标检测是针对手机的检测，所述相应的行为是“玩手机”。

8.根据权利要求7所述的目标检测方法，其特征在于：对象检测的具体步骤为：从图片数据中检测人体目标和人脸目标，并匹配人体和人脸目标，匹配方法如下：

对获取的人体信息做遍历，对每个获取的人体信息，输入同时获取到的人脸信息，然后再遍历输入的人脸信息，首先获取每个人脸目标框和人体的目标框的交集区域的面积，然后找到其交集区域面积最大的人脸目标框，然后对比这个交集区域与原始的人脸目标区域的比值是否大于设定的阈值δ，满足条件则绑定当前的人脸信息与人体信息，如果所有的人脸信息都不满足以上条件，则认为在这个人体区域中没有检测到有效的人脸信息，在人体信息的数据中设置相应的人脸信息的置信度conf＝0。

9.根据权利要求7或8所述的目标检测方法，其特征在于：筛选出可用数据之后，将获取的人体区域框向外扩充，其规则为：以人体目标框的中心点为中心，将人体目标框的长和宽都扩充到原长宽的0.8-1.5倍。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：计算机程序被处理器执行时实现如权利要求1至3任一项所述模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求4至5任一项所述损失函数优化方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求6-9任一项所述的检测方法的步骤。