CN111444803A

CN111444803A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN111444803A
Application number: CN202010193402.3A
Authority: CN
Inventors: 刘伟舟; 胡晨
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-24
Anticipated expiration: 2040-03-18
Also published as: CN111444803B

Abstract

本发明公开一种图像处理方法、装置、电子设备及存储介质，该方法包括：接收目标视频片段；将所述目标视频片段输入目标网络模型进行处理，得到处理结果；根据所述处理结果，确定所述目标视频片段中是否存在人物跌倒画面。可见，实施上述方法，可以通过预先训练得到的目标网络模型，直接对待检测视频序列进行处理，即可得到待检测视频序列中是否有人物跌倒的检测结果，而无需经过现有技术中那样的目标检测网络，缩短了pipeline，提高了检测效率。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着科学技术的不断发展和人们安全意识的不断提高，监控摄像机在不同领域和不同场合得到了广泛的应用。跌倒动作检测技术用于分析监控摄像机或室内监控摄像机以实时判断摄像机采集视野中是否有跌倒的人，通过该技术可以有效实现行人跌倒报警，从而使跌倒的行人能够被及时救助。跌倒检测技术在医院场景、养老院场景、街道场景等方面都有着极高的应用价值。

现有技术中，跌倒动作检测技术是基于目标检测网络和分类神经网络实现的，具体的，先通过目标检测网络确定待检测视频序列中每帧的各人形目标，然后将这些人形目标抠图送入分类神经网络中用于判断抠出的人形是否存在跌倒情况。然而，由于需要联合目标检测网络和分类神经网络才能实现跌倒动作检测，pipeline过长导致检测效率较低。

发明内容

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质，以解决现有技术中存在的跌倒动作检测效率较低的技术问题。

根据本发明的第一方面，公开了一种图像处理方法，所述方法包括：

接收目标视频片段；

将所述目标视频片段输入目标网络模型进行处理，得到处理结果；

根据所述处理结果，确定所述目标视频片段中是否存在人物跌倒画面。

可选地，作为一个实施例，在所述将所述目标视频片段输入目标网络模型进行处理，得到处理结果的步骤之前，还包括：训练所述目标网络模型，其中，

所述训练所述目标网络模型，包括：

获取训练集，其中，所述训练集中包括多个样本视频片段，所述样本视频片段为包括人物跌倒画面的视频片段；

对每个样本视频片段的每个视频帧中的人物包围框及人物包围框内人物是否跌倒进行标注；

将标注有人物包围框的各样本视频片段作为输入，将各样本视频片段的人物包围框内人物是否跌倒的信息作为输出目标，对基于目标损失函数构造的初始网络模型进行训练直至模型收敛，将训练得到的模型确定为目标网络模型；

其中，所述初始网络模型中包括注意力机制网络模块，所述注意力机制网络模块用于生成注意力机制掩码，所述注意力机制掩码用于提高人物包围框所在区域内特征的权重占比。

可选地，作为一个实施例，所述初始网络模型中还包括全局平均池化层、全连接层和softmax函数；

其中，所述全局平均池化层与所述注意力机制网络模块连接、且位于所述注意力机制网络模块之后；所述全连接层与所述全局平均池化层连接、且位于所述全局平均池化层之后；所述softmax函数与所述全连接层连接、且位于所述全连接层之后。

可选地，作为一个实施例，所述目标损失函数是基于视频帧的特征图中最大激活点到映射在该特征图上的人物包围框中心点的距离计算得到的，其中，所述最大激活点为特征图上特征值最大的点。

可选地，作为一个实施例，所述目标损失函数loss的计算公式为：loss＝α*Loss_{bbox-attention}+Loss_softmas；

其中，α为预设第一参数，Loss_{bbox-attention}为注意力机制网络模块的损失函数，Loss_softmas为softmax函数的损失函数；

n为样本视频片段的个数，label用于表征人物包围框内人物是否跌倒，当人物包围框内人物跌倒时label的值为1，当人物包围框内人物未跌倒时label的值为0；

ratio_extend为预设第二参数，(x_min，y_min)为映射在视频帧的特征图上的人物包围框所在区域左下角的坐标，(x_c,y_c)为映射在视频帧的特征图上的人物包围框所在区域中心点的坐标，(x_active，y_active)为视频帧的特征图上的最大激活点的坐标。

可选地，作为一个实施例，所述将所述目标视频片段输入目标网络模型进行处理，得到处理结果，包括：

将所述目标视频片段输入至所述目标网络模型的注意力机制模块中进行特征提取，得到所述目标视频片段中每个视频帧的特征；

将所述目标视频片段中每个视频帧的特征输入至所述目标网络模型的全局平均池化层进行特征融合处理，得到融合后的特征；

将所述融合后的特征输入至所述目标网络模型的全连接层进行分类处理，得到分类后的特征；

将所述分类后的特征输入至所述目标网络模型的softmax函数进行归一化处理，得到处理结果。

可选地，作为一个实施例，所述对每个样本视频片段的每个视频帧中的人物包围框及人物包围框内人物是否跌倒进行标注，包括：

针对每个样本视频片段，如果该样本视频片段中包括多个人物，则对每个人物所在区域进行人物包围框、人物包围框标识ID及人物包围框内人物是否跌倒进行标识，其中，同一个人物对应一个人物包围框ID。

根据本发明的第二方面，还公开了一种图像处理装置，所述装置包括：

接收模块，用于接收目标视频片段；

处理模块，用于将所述目标视频片段输入目标网络模型进行处理，得到处理结果；

确定模块，用于根据所述处理结果，确定所述目标视频片段中是否存在人物跌倒画面。

可选地，作为一个实施例，所述装置还包括：训练模块，其中，所述训练模块包括：

获取子模块，用于获取训练集，其中，所述训练集中包括多个样本视频片段，所述样本视频片段为包括人物跌倒画面的视频片段；

标注子模块，用于对每个样本视频片段的每个视频帧中的人物包围框及人物包围框内人物是否跌倒进行标注；

训练子模块，用于将标注有人物包围框的各样本视频片段作为输入，将各样本视频片段的人物包围框内人物是否跌倒的信息作为输出目标，对基于目标损失函数构造的初始网络模型进行训练直至模型收敛，将训练得到的模型确定为目标网络模型；

可选地，作为一个实施例，所述处理模块包括：

特征提取子模块，用于将所述目标视频片段输入至所述目标网络模型的注意力机制模块中进行特征提取，得到所述目标视频片段中每个视频帧的特征；

特征融合子模块，用于将所述目标视频片段中每个视频帧的特征输入至所述目标网络模型的全局平均池化层进行特征融合处理，得到融合后的特征；

特征分类子模块，用于将所述融合后的特征输入至所述目标网络模型的全连接层进行分类处理，得到分类后的特征；

归一化处理子模块，用于将所述分类后的特征输入至所述目标网络模型的softmax函数进行归一化处理，得到处理结果。

可选地，作为一个实施例，所述标注子模块包括：

人物包围框标注单元，用于针对每个样本视频片段，如果该样本视频片段中包括多个人物，则对每个人物所在区域进行人物包围框、人物包围框标识ID及人物包围框内人物是否跌倒进行标识，其中，同一个人物对应一个人物包围框ID。

根据本发明的第三方面，还公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面中图像处理方法的步骤。

根据本发明的第四方面，还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中图像处理方法中的步骤。

本发明实施例中，可以通过预先训练得到的目标网络模型，直接对待检测视频序列进行处理，即可得到待检测视频序列中是否有人物跌倒的检测结果，而无需经过现有技术中那样的目标检测网络，缩短了pipeline，提高了检测效率。

附图说明

图1是本发明的一个实施例的图像处理方法的流程图；

图2是本发明的一个实施例的模型训练方法的流程图；

图3是本发明的一个实施例的初始网络模型的结构示例图；

图4是本发明的一个实施例的图像处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

跌倒动作检测技术用于分析监控摄像机或室内监控摄像机以实时判断摄像机采集视野中是否有跌倒的人，通过该技术可以有效实现行人跌倒报警，从而使跌倒的行人能够被及时救助。跌倒检测技术在医院场景、养老院场景、街道场景等方面都有着极高的应用价值。

现有技术中，跌倒动作检测技术主要基于深度神经网络，先通过目标检测算法得到视频序列中每帧的各人形目标，然后将这些人形框抠图送入分类的神经网络中用于判断抠出的人形是否存在跌倒情况。这种方法的缺点是需要联合使用目标检测网络与分类网络，pipeline过长导致检测效率较低。

为了解决上述技术问题，本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质。

下面首先对本发明实施例提供的图像处理方法进行介绍。

需要说明的是，本发明实施例提供的图像处理方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、个人数字助理等移动终端，也可以包括：笔记本/台式电脑、桌面机、服务器等计算机设备，本发明实施例对此不作限定。

图1是本发明的一个实施例的图像处理方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101、步骤102和步骤103，其中，

在步骤101中，接收目标视频片段。

本发明实施例中，目标视频片段为待处理视频片段，在实际应用中，可以接收来自监控摄像机的实时目标视频片段，也可以接收来自监控摄像机的离线目标视频片段。

在步骤102中，将目标视频片段输入目标网络模型进行处理，得到处理结果。

本发明实施例中，目标网络模型用于直接反映视频片段与该视频片段中是否存在人物跌倒画面的对应关系，也就是，对于一段视频片段，将该视频片段输入至目标网络模型中进行处理，即可得到视频片段中是否存在人物跌倒画面的检测结果。

为了便于理解，下面结合图2对本发明实施例中目标网络模型的训练过程进行介绍，图2是本发明的一个实施例的模型训练方法的流程图，如图2所示，该方法可以包括以下步骤：步骤201、步骤202和步骤203，其中，

在步骤201中，获取训练集，其中，训练集中包括多个样本视频片段，样本视频片段为包括人物跌倒画面的视频片段。

考虑到不同用途的网络模型，其所需要的样本视频片段的类型也是不相同的，本发明实施例中，为了训练用于跌倒动作检测的网络模型，其所需的样本视频片段中包括与人物跌倒相关的画面内容。

本发明实施例中，考虑到样本数量越多，训练出的模型的检测结果越准确，优选地，训练集中可以包括海量样本视频片段。此外，考虑到训练效果，每个样本视频片段可以包含相同数量的视频帧，例如，每个样本视频片段中均包括N个视频帧，N为大于1的整数。

在步骤202中，对每个样本视频片段的每个视频帧中的人物包围框及人物包围框内人物是否跌倒进行标注。

本发明实施例中，在对样本视频片段进行标注时，可以由人工对样本视频片段的每个视频帧中人物所在区域进行人物包围框和人物包围框内人物是否跌倒进行标注；或者，在对样本视频片段进行标注时，也可以基于目标检测算法自动地对样本视频片段的每个视频帧中人物所在区域进行人物包围框和人物包围框内人物是否跌倒进行标注；其中，人物包围框的形状可以为矩形，也可以为人物轮廓；人物包围框内人物跌倒时可以标注为1，人物包围框内人物未跌倒时可以标注为0。

考虑到单个样本视频片段中通常包含不止一个人物，多个样本视频片段中也通常包含不止一个人物，为了提高模型训练的精度，在本发明提供的一个实施方式中，上述步骤202具体可以包括以下步骤：

本发明实施例中，可以根据人物包围框内人物的不同，通过ID对人物包围框和人物包围框内人物是否跌倒进行标注，以区别样本视频片段中的不同人物，从而确保在基于样本视频片段的标注数据进行模型训练时训练得到的网络模型的精度。

在步骤203中，将标注有人物包围框的各样本视频片段作为输入，将各样本视频片段的人物包围框内人物是否跌倒的信息作为输出目标，对基于目标损失函数构造的初始网络模型进行训练直至模型收敛，将训练得到的模型确定为目标网络模型；其中，初始网络模型中包括注意力机制网络模块，该注意力机制网络模块用于生成注意力机制掩码，该注意力机制掩码用于提高人物包围框所在区域内特征的权重占比。

本发明实施例中，注意力机制掩码的形状可以为圆形。

本发明实施例中，可以基于深度学习框架搭建用于检测是否有人物跌倒的端到端的初始网络模型，同时搭建注意力机制网络，具体的，在初始网络模型中加入注意力机制网络模块，该注意力机制网络模块用于生成一个激活的区域掩码(也就是“注意力机制掩码”)，通过所生成的掩码来提高分类网络输出特征中重要区域的权重占比，同时降低不重要区域的权重占比，从而提高所训练出的目标网络模型的自适应定位能力。

本发明实施例中，在生成注意力机制掩码时，利用样本视频片段的标注信息对注意力机制网络模块输出的注意力机制掩码进行限制，具体的，限制方式是添加目标损失函数。

在本发明提供的一个实施例中，初始网络模型的网络结构如图3所示，该初始网络模型中包括：注意力机制网络模块、全局平均池化层、全连接层和softmax函数，其中，全局平均池化层与注意力机制网络模块连接、且位于注意力机制网络模块之后；全连接层与全局平均池化层连接、且位于全局平均池化层之后；softmax函数与全连接层连接、且位于全连接层之后；注意力机制网络模块用于提升模型对输入图像中感兴趣区域的特征提取能力，从而提高模型对跌倒人形的自适应定位能力；全局平均池化层用于融合多帧输入信息以提高模型对跌倒检测的鲁棒性。

在上述网络结构下，目标损失函数可以是基于视频帧的特征图中最大激活点到映射在该特征图上的人物包围框中心点的距离计算得到的，其中，最大激活点为特征图上特征值最大的点。

具体的，目标损失函数的计算公式可以为loss＝α*Loss_{bbox-attention}+Loss_softmas；其中，α为预设第一参数，Loss_{bbox-attention}为注意力机制网络模块的损失函数，Loss_softmas为softmax函数的损失函数；

可见，本发明实施例中，可以通过将视频帧的特征图上的最大激活点限制在所生成的注意力机制掩码所在区域中，以提高注意力机制网络的自适应定位能力。

本发明实施例中，在模型训练阶段，将标注有人物包围框的各样本视频片段输入到初始网络模型中，通过目标损失函数将预测结果与真实结果(即所标注的样本视频片段的人物包围框内人物是否跌倒的信息)进行比较，通过比较结果对初始网络模型中的各参数进行调整，在完成参数调整后，再次将标注有人物包围框的各样本视频片段输入到参数调整后的模型中，重复上述过程，直至模型收敛(即预测结果与真实结果的差异不再随着训练而降低)，此时，将该训练得到的模型确定为目标网络模型；其中，目标损失函数用于估量在基于初始网络模型进行模型训练时模型的预测结果和真实结果之间的不一致程度。

本发明实施例中，在测试阶段(也就是，使用目标网络模型进行图像处理的阶段)，直接输入待处理视频片段至目标网络模型中，即可确定待处理视频片段中是否有人物跌倒的画面。也就是，通过端到端的网络，直接分析输入的待处理视频片段，在无需目标检测网络的情况下得到准确的人物跌倒动作检测结果，可以实现更快的模型运行速度，并且得到更准确的检测结果。

在本发明提供的一个实施例中，当初始网络模型的结构如图3所示时，训练得到的目标网络模型中也包括训练完成的注意力机制网络模块、全局平均池化层、全连接层和softmax函数；此时，上述步骤102具体可以包括以下步骤：

将目标视频片段输入至目标网络模型的注意力机制模块中进行特征提取，得到目标视频片段中每个视频帧的特征；将目标视频片段中每个视频帧的特征输入至目标网络模型的全局平均池化层进行特征融合处理，得到融合后的特征；将融合后的特征输入至目标网络模型的全连接层进行分类处理，得到分类后的特征；将分类后的特征输入至目标网络模型的softmax函数进行归一化处理，得到处理结果。

本发明实施例中，处理结果可以为0～1之间的一个数值，其中，处理结果越接近1，表明目标视频片段中包含跌倒画面的概率越大；处理结果越接近1，表明目标视频片段中包含跌倒画面的概率越小。

在步骤103中，根据处理结果，确定目标视频片段中是否存在人物跌倒画面。

本发明实施例中，可以设置一个阈值，将处理结果与阈值进行比较，如果处理结果达到该阈值，则确定目标视频片段中存在人物跌倒画面；如果处理结果未达到该阈值，则确定目标视频片段中不存在人物跌倒画面。

由上述实施例可见，该实施例中，可以通过预先训练得到的目标网络模型，直接对待检测视频序列进行处理，即可得到待检测视频序列中是否有人物跌倒的检测结果，而无需经过现有技术中那样的目标检测网络，缩短了pipeline，提高了检测效率。

图4是本发明的一个实施例的图像处理装置的结构框图，如图4所示，图像处理装置400，可以包括：接收模块401、处理模块402和确定模块403，其中，

接收模块401，用于接收目标视频片段；

处理模块402，用于将所述目标视频片段输入目标网络模型进行处理，得到处理结果；

确定模块403，用于根据所述处理结果，确定所述目标视频片段中是否存在人物跌倒画面。

可选地，作为一个实施例，所述图像处理装置400，还可以包括：训练模块，其中，所述训练模块，可以包括：

可选地，作为一个实施例，所述初始网络模型中还可以包括：全局平均池化层、全连接层和softmax函数；

可选地，作为一个实施例，所述处理模块402，可以包括：

可选地，作为一个实施例，所述标注子模块，可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本发明的又一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一个实施例所述的图像处理方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一个实施例所述的图像处理方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像处理方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

接收目标视频片段；

2.根据权利要求1所述的方法，其特征在于，在所述将所述目标视频片段输入目标网络模型进行处理，得到处理结果的步骤之前，还包括：训练所述目标网络模型，其中，

所述训练所述目标网络模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述初始网络模型中还包括全局平均池化层、全连接层和softmax函数；

4.根据权利要求3所述的方法，其特征在于，所述目标损失函数是基于视频帧的特征图中最大激活点到映射在该特征图上的人物包围框中心点的距离计算得到的，其中，所述最大激活点为特征图上特征值最大的点。

5.根据权利要求4所述的方法，其特征在于，所述目标损失函数loss的计算公式为：loss＝α*Loss_{bbox-attention}+Loss_softmas；

6.根据权利要求3至5任一项所述的方法，其特征在于，所述将所述目标视频片段输入目标网络模型进行处理，得到处理结果，包括：

7.根据权利要求2所述的方法，其特征在于，所述对每个样本视频片段的每个视频帧中的人物包围框及人物包围框内人物是否跌倒进行标注，包括：

8.一种图像处理装置，其特征在于，所述装置包括：

接收模块，用于接收目标视频片段；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的图像处理方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像处理方法中的步骤。