CN109684990B

CN109684990B - 一种基于视频的打电话行为检测方法

Info

Publication number: CN109684990B
Application number: CN201811565980.4A
Authority: CN
Inventors: 朱健立; 于宏志; 王景彬; 杨超
Original assignee: Tianjin Tiandy Information Systems Integration Co ltd
Current assignee: Tianjin Tiandy Information Systems Integration Co ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2023-05-30
Anticipated expiration: 2038-12-20
Also published as: CN109684990A

Abstract

本发明提供了一种基于视频的打电话行为检测方法，包括以下步骤：A.对视频图像进行处理，获得头肩模型检测的送检图像；B.利用人头肩模型，对步骤A中得到的图像进行检测，获得人头肩的位置及相应的得分；C.对B中检测出来的头肩图像进行处理，获得打电话模型检测的送检图像；D.利用打电话模型，对步骤C得到的图像进行检测，获得打电话手势、嘴的位置及相应的得分；E.利用步骤D中的检测结果，进行打电话检测的逻辑判断。本发明有益效果：实现了打电话行为检测的自动化，不仅省去了大量的人力成本和时间成本，而且提高了打电话检测的准确性和实时性，本发明具有多种场景的适用性。

Description

一种基于视频的打电话行为检测方法

技术领域

本发明属于视频检测技术领域，尤其是涉及一种基于视频的打电话行为检测方法。

背景技术

在某些特定场景是不允许有接打电话行为，例如：法制部门审判案件，机动车驾驶，考试等。人员监督无法起到实时的监督作用，或者事后监控视频筛查，既需要大量的人力和时间成本并且不具有主动性。所以需要一种基于视频的打电话行为检测方法解决此类问题。

发明内容

有鉴于此，本发明旨在提出一种基于视频的打电话行为检测方法，以解决上述问题的不足之处。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于视频的打电话行为检测方法，包括以下步骤：

A.对视频图像进行处理，获得头肩模型检测的送检图像；

B.利用人头肩模型，对步骤A中得到的图像进行检测，获得人头肩的位置及相应的得分；

C.对B中检测出来的头肩图像进行处理，获得打电话模型检测的送检图像；

D.利用打电话模型，对步骤C得到的图像进行检测，获得打电话手势、嘴的位置及相应的得分；

E.利用步骤D中的检测结果，进行打电话检测的逻辑判断。

进一步的，所述步骤A中对视频图像的处理过程为：将待检测区域以较长的边长为基准随机生成长宽比为1:1的图像，原待检测区域在新图像中的位置随机。

进一步的，所述步骤B中人头肩模型训练过程如下：

先采集各种形态和场景的头肩样本，并对样本进行标注，即根据头肩在图像中的位置，标出真实的位置坐标，并赋予此位置头肩标签，基于caffe框架，使用采集的样本与标注信息训练SSD模型，采用随机梯度下降方法对模型反复进行迭代训练，每次迭代使得损失函数更小，使用的损失函数如下式，

其中，x表示前向传播的得到的预测类别，c表示的真实类别，l表示前向传播得到的头肩预测位置坐标，g表示头肩的真实位置坐标，L_conf为分类损失，L_loc为位置回归损失，α为这两种损失的平衡参数，N表示与真实标注框匹配上的样本数目。

进一步的，所述步骤C中图像处理过程为：使待检测区域以长边随机生成1:1的图像，待检测区域在图像中的位置随机。

进一步的，所述步骤D中打电话模型训练过程如下：

先采集各种形态和场景的打电话样本，并对样本进行标注，即根据打电话手势和嘴在图像中的位置，标出真实的位置坐标，并分别赋予此位置打电话手势或者嘴的标签，基于caffe框架，使用采集的样本与标注信息训练SSD模型，采用随机梯度下降方法对模型反复进行迭代训练，每次迭代使得损失函数更小，使用的损失函数如下式，

其中，x表示前向传播的得到的预测类别，c表示的真实类别，l表示前向传播得到的打电话手势和嘴预测位置坐标，g表示打电话手势和嘴的真实位置坐标，L_conf为分类损失，L_loc为位置回归损失，α为这两种损失的平衡参数，N表示与真实标注框匹配上的样本数目。

进一步的，所述步骤E中进行打电话检测的逻辑判断过程如下：

E1.对步骤D中的检测结果根据目标的得分进行阈值筛选，筛选掉得分小于0.3的目标；

E2.利用筛选后的检测结果，通过比较打电话手势和嘴的区域的位置关系与真实打电话时其位置关系，排除模型误检，确定此帧图像中人是否在打电话,如果为打电话帧，进行打电话帧数累积；如果不是打电话帧，则进行打电话帧数削减；

E3.通过判断打电话的累计的帧数是否大于阈值，来确定此人是否正在打电话。

相对于现有技术，本发明所述的基于视频的打电话行为检测方法具有以下优势：

本发明所述的基于视频的打电话行为检测方法首先获取视频图像，对图像进行处理，获得头肩模型送检图像，使用深度学习目标检测的方法确定头肩位置，并对头肩区域图像进行处理，获得打电话模型的送检图像，使用深度学习目标检测的方法确定打电话手势和嘴位置，通过判断嘴和打电话手势的区域位置关系排除误检，在一定的时间内如果打电话的能量累积大于设定的阈值，则判定此人此时正在打电话。此方法实现了打电话行为检测的自动化，不仅省去了大量的人力成本和时间成本，而且提高了打电话检测的准确性和实时性，本发明具有多种场景的适用性。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的基于视频的打电话行为检测方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，一种基于视频的打电话行为检测方法，包括以下步骤：

A.对视频图像进行处理，获得头肩模型检测的送检图像；

E.利用步骤D中的检测结果，进行打电话检测的逻辑判断。

所述步骤A中对视频图像的处理过程为：将待检测区域以较长的边长为基准随机生成长宽比为1:1的图像，原待检测区域在新图像中的位置随机。

所述步骤B中人头肩模型是一种深度学习SSD模型，其训练过程如下：

先采集各种形态(侧身，正身，低头)和场景(室内、室外)的头肩样本，并对样本进行标注，即根据头肩在图像中的位置，标出真实的位置坐标，并赋予此位置头肩标签，基于caffe框架，使用采集的样本与标注信息训练SSD模型，采用随机梯度下降方法对模型反复进行迭代训练，每次迭代使得损失函数更小，使用的损失函数如下式，

最后用检测效果最好(Map值最高)的人头肩模型对步骤A得到的图像进行检测，从而确定头肩在图像中的具体位置。

所述步骤C中图像处理过程为：使待检测区域以长边随机生成1:1的图像，待检测区域在图像中的位置随机。

所述步骤D中打电话模型也是一种深度学习SSD模型，其训练过程如下：

最后用检测效果最好(Map值最高)的打电话模型对步骤C得到的图像进行检测，从而确定打电话手势和嘴在图像中的具体位置和相应得分。

所述步骤E中进行打电话检测的逻辑判断过程如下：

E1.对步骤D中的检测结果根据目标的得分进行阈值筛选，筛选掉得分小于0.3的目标，(得分由模型检测得出，表示待检测目标与真是目标的相似程度)；

E3.通过判断打电话的累计的帧数是否大于阈值(20帧)，来确定此人是否正在打电话。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的打电话行为检测方法，其特征在于，包括以下步骤：

A.对视频图像进行处理，获得头肩模型检测的送检图像；

E.利用步骤D中的检测结果，进行打电话检测的逻辑判断；

步骤B中人头肩模型训练过程如下：

其中，x表示前向传播的得到的预测类别，c表示的真实类别，1表示前向传播得到的头肩预测位置坐标，g表示头肩的真实位置坐标，L_conf为分类损失，L_loc为位置回归损失，α为这两种损失的平衡参数，N表示与真实标注框匹配上的样本数目；

步骤D中打电话模型训练过程如下：

其中，x表示前向传播的得到的预测类别，c表示的真实类别，1表示前向传播得到的打电话手势和嘴预测位置坐标，g表示打电话手势和嘴的真实位置坐标，L_conf为分类损失，L_loc为位置回归损失，α为这两种损失的平衡参数，N表示与真实标注框匹配上的样本数目。

2.根据权利要求1所述的一种基于视频的打电话行为检测方法，其特征在于，所述步骤A中对视频图像的处理过程为：将待检测区域以较长的边长为基准随机生成长宽比为1∶1的图像，原待检测区域在新图像中的位置随机。

3.根据权利要求1所述的一种基于视频的打电话行为检测方法，其特征在于，所述步骤C中图像处理过程为：使待检测区域以长边随机生成1∶1的图像，待检测区域在图像中的位置随机。

4.根据权利要求1所述的一种基于视频的打电话行为检测方法，其特征在于，所述步骤E中进行打电话检测的逻辑判断过程如下：

E2.利用筛选后的检测结果，通过比较打电话手势和嘴的区域的位置关系与真实打电话时其位置关系，排除模型误检，确定此帧图像中人是否在打电话，如果为打电话帧，进行打电话帧数累积；如果不是打电话帧，则进行打电话帧数削减；