CN110390315A

CN110390315A - 一种图像处理方法及装置

Info

Publication number: CN110390315A
Application number: CN201910691505.XA
Authority: CN
Inventors: 陈海波
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Shenlan Robot Shanghai Co ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-10-29
Anticipated expiration: 2039-07-29
Also published as: CN110390315B

Abstract

本发明实施例公开了一种图像处理方法及装置，其中方法包括：获取待处理视频后，从待处理视频中截取得到多帧待处理图像，进而将多帧待处理图像以及多帧待处理图像的时序信息输入预设模型，确定出待处理视频的行为类别；其中，预设模型包括多个映射关系的残差网络。本发明实施例中，通过使用图像信息和时序信息同步确定待处理视频的行为类别，充分地考虑到行为事件的图像特征信息以及时间特征信息，从而能够有效地判别相对行为(比如关门和开门)；且，通过基于多个映射关系的残差网络构建预设模型，可以提高训练样本的多样性，从而可以避免预设模型的过快收敛，提高预设模型的精度。

Description

一种图像处理方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种图像处理方法及装置。

背景技术

视频理解是目前计算机视觉领域中极为热门的一个研究方向，通过从视频中准确解析出用户的行为类别，可以很好地判断用户的行为状态。举例来说，当采集到车辆在单行道上的行驶视频后，通过解析行驶视频确定车辆的行驶方向、行驶速度等行为信息，可以准确判别出用户是否处于违规驾驶状态。

现阶段，深度神经网络模型可以作为视频理解的一项有效工具。在一种现有的实现方式中，在获取待处理视频后，可以按照预设帧率切割视频得到堆叠光流帧，进而将堆叠光流帧和RGB信息输入双流卷积神经网络模型，预测得到视频的行为类别。然而，由于该种方式仅基于图像信息分析得到行为类别，并不能够准确地识别相对行为，比如关门和开门。为了解决这个问题，在另一种现有的实现方式中，可以在上述双流卷积神经网络模型的基础上，对卷积核增加时间维度，从而可以基于复制的多个卷积核以及归一化层训练得到最终的模型；虽然采用该种方式训练得到的模型可以用于识别相对行为，但是由于卷积核的模型参数量变多，网络层的层数变深，可能会使得模型效果退化，即模型的精度下降。

综上，目前亟需一种图像处理方法，用以解决现有技术无法准确地识别视频的行为类别的技术问题。

发明内容

本发明实施例提供一种图像处理方法及装置，用以解决现有技术无法准确地识别视频的行为类别的技术问题。

第一方面，本发明实施例提供的一种图像处理方法，包括：

获取待处理视频后，从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息，进而将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。

在上述设计中，通过使用预设模型基于图像信息和时序信息同步确定待处理视频的行为类别，充分地考虑到行为事件的图像特征信息以及时间特征信息，从而能够有效地判别相对行为(比如关门和开门)；且，通过基于多个映射关系的残差网络构建预设模型，可以提高训练样本的多样性，避免预设模型的过快收敛，降低过拟合的概率，从而可以提高预设模型的精度。

在一种可能的设计中，所述截取所述待处理视频得到多帧待处理图像，包括：基于预设统计学方法确定所述待处理视频的概率分布特征，使用所述待处理视频的概率分布特征对应的截取规则从所述待处理视频中截取所述多帧待处理图像；所述待处理视频的概率分布特征用于标识所述待处理视频中在预设时段内行为事件发生的频繁程度。

在上述设计中，通过使用待处理视频在预设时段内行为事件发生的频繁程度确定待处理视频的截取规则，可以使得截取的多帧待处理图像更加符合实际场景。比如若预设时段内行为事件发生的较为频繁，则可以使用较小帧粒度的截取规则截取得到较多帧图像，从而能够及时捕捉场景变化情况，使得多帧图像中最大可能地包含行为事件的特征信息；若预设时段内行为事件发生的较为稀疏，则可以使用较大帧粒度的截取规则截取得到较少帧图像，从而避免截取到多帧相似图像而导致的行为类别识别的效率较低的技术问题。

在一种可能的设计中，所述残差网络包括连续的p个特征提取模块，针对于所述p个特征提取模块中的任意连续的第一特征提取模块和第二特征提取模块，所述第一特征提取模块的输入端与所述第二特征提取模块之间设置有映射关系，所述第一特征提取模块的输出端与所述第二特征提取模块之间设置有映射关系；其中，p为大于1的整数。

在上述设计中，通过在残差块中设置多个特征提取模块，可以更多地抽象图像的特征信息，提高残差块提取到的特征信息的全面性和准确性；且，通过在任意相邻的三个特征提取块之间设置多个映射关系，可以提高每一个特征提取块的样本多样性，避免特征提取模块的过快收敛，从而提高模型的精确性。

在一种可能的设计中，所述残差网络包括第三特征提取模块和第四特征提取模块；所述第三特征提取模块包括第一批量归一化BN层、第一激活函数层、第一卷积层和第二卷积层，所述第四特征提取模块包括第二BN层、第二激活函数层、第三卷积层、第四卷积层和平均池化层；所述第一BN层的输入端与所述第二BN层的输出端之间设置有映射关系，所述第二卷积层的输出端与所述第四卷积层的输出端之间设置有映射关系。

在上述设计中，通过使用BN层、激活层和至少两个卷积层构造特征提取块，可以使得特征提取块以多通道的方式抽象较多地特征信息，并能保证内部通道的平稳性；且，通过在第四特征提取块中设置平均池化层，可以使用其它层的输出信息对当前层的输出信息进行调整，从而可以平滑特征信息，降低单一特征的锐化问题。

在一种可能的设计中，所述将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别，包括：将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频属于各行为类别的概率，并从所述各行为类别中选择概率最大的行为类别作为所述待处理视频的行为类别。

在上述设计中，预设模型可以对待处理视频进行分类，即确定待处理视频属于各行为类别的概率，如此，通过将各行为类别中概率最大的行为类别作为待处理视频的行为类别，可以提高行为类别识别的准确性。

第二方面，本发明实施例提供的一种图像处理装置，所述装置包括：

获取模块，用于获取待处理视频；

截取模块，用于从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息；

预测模块，用于将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。

在一种可能的设计中，所述截取模块具体用于：基于预设统计学方法确定所述待处理视频的概率分布特征，使用所述待处理视频的概率分布特征对应的截取规则从所述待处理视频中截取所述多帧待处理图像；所述待处理视频的概率分布特征用于标识所述待处理视频中在预设时段内行为事件发生的频繁程度。

在一种可能的设计中，所述预测模块具体用于：将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频属于各行为类别的概率，并从所述各行为类别中选择概率最大的行为类别作为所述待处理视频的行为类别。

第三方面，本发明实施例提供的一种计算机可读存储介质，包括指令，当其在计算机的处理器上运行时，使得计算机的处理器执行如上述第一方面任意所述的方法。

第四方面，本发明实施例提供的一种计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面任意所述的方法。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像处理方法对应的流程示意图；

图2为本发明实施例提供的一种残差网络的结构示意图；

图3为本发明实施例提供的另一种残差网络的结构示意图；

图4为本发明实施例提供的又一种残差网络的结构示意图；

图5为本发明实施例提供的一种图像处理装置的结构示意图；

图6为本发明实施例提供的一种前端设备的结构示意图；

图7为本发明实施例提供的一种后端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种图像处理方法对应的流程示意图，该方法包括：

步骤101，获取待处理视频。

其中，待处理视频中可以包括完整的行为事件，或者也可以仅包括行为事件的片段；行为事件可以是指动作幅度小、重复次数多的事件，比如刷牙、跳绳、打字、刮胡子、吹头发等，或者也可以是指动作幅度大、重复次数少的事件，比如开门、关门等，具体不作限定。

本发明实施例可以通过多种方式获取待处理视频，比如可以通过网络从公共资源库中下载得到待处理视频，或者也可以人为拍摄某一场景得到待处理视频，或者还可以从客户端设备的资源库中拷贝得到待处理视频。相应地，本发明实施例也不限定待处理视频的时长，比如待处理视频的时长可以等于10分钟，或者可以远远大于10分钟，或者也可以远远小于10分钟，具体不作限定。

作为一种示例，在获取待处理视频后，还可以对待处理视频进行预处理。举例来说，若待处理视频的时长较长，则可以先根据行为事件在待处理视频中的时刻信息，从待处理视频中截取行为事件所在的视频片段；或者若待处理视频中包括多个行为事件，则可以分别将每一个行为事件的视频片段截取出来；通过对待处理视频进行预处理，可以删除与行为事件识别无关的视频片段，从而可以降低后续的处理数据量，提高图像的处理效率。

步骤102，从待处理视频中截取得到多帧待处理图像，并根据多帧待处理图像在视频中的位置确定多帧待处理图像的时序信息。

在一种可能的实现方式中，可以按照预设帧粒度从待处理视频中截取得到多帧待处理图像，预设帧粒度可以由本领域技术人员根据实际需要进行设置，具体不作限定。举例来说，在待处理视频的时长为2min时，若预设帧粒度为1s/帧，则可以从待处理视频中截取得到120帧图像；其中，ms和min是指时间单位，ms是指毫秒，min是指分钟。

在另一种可能的实现方式中，在获取到待处理视频后，可以先根据待处理视频的统计学信息确定待处理视频的概率分布特征，进而可以根据待处理视频的概率分布特征确定待处理视频所属的场景，如此，可以使用待处理视频所属的场景对应的截取规则从待处理视频中截取得到多帧待处理图像；其中，待处理视频的概率分布特征可以用于标识待处理视频在预设时段内行为事件发生的频繁程度。比如，若待处理视频的概率分布特征满足均匀分布，说明待处理视频在预设时段内行为事件发生的较为频繁，待处理视频所属的场景可以为动作幅度小、重复次数多的场景，如此，可以使用较小的帧粒度从待处理视频中截取得到多帧待处理图像；相应地，若待处理视频的概率分布特征满足正态分布，说明待处理视频在预设时段内行为事件发生的较为稀疏，待处理视频所属的场景可以为动作幅度大、重复次数少的场景，如此，可以使用较大的帧粒度从待处理视频中截取得到多帧待处理图像。

本发明实施例可以预先设置概率分布特征与帧粒度的对应关系表，如此，在确定待处理视频对应的概率分布特征后，可以直接查询对应关系表确定该概率分布特征对应的目标帧粒度，从而使用目标帧粒度从待处理视频中截取得到多帧待处理图像。表1为本发明实施例提供的一种可能的对应关系表的示意表。

表1：一种可能的对应关系表的示意

概率分布特征	帧粒度
		均匀分布	帧/50ms
正态分布	帧/100ms
		指数分布	帧/500ms
二项分布	帧/200ms

如表1所示，在待处理视频的时长为1min时，若概率分布特征符合均匀分布，则可以每隔50ms从待处理视频中截取一帧待处理图像，如此，可以从待处理视频中截取得到1200帧待处理图像；若概率分布特征符合正态分布，则可以每隔100ms从待处理视频中截取一帧待处理图像，如此，可以从待处理视频中截取得到600帧待处理图像；若概率分布特征符合指数分布，则可以每隔500ms从待处理视频中截取一帧待处理图像，如此，可以从待处理视频中截取得到120帧待处理图像；若概率分布特征符合二项分布，则可以每隔200ms从待处理视频中截取一帧待处理图像，如此，可以从待处理视频中截取得到300帧待处理图像。

需要说明的是，表1仅是一种示例性的简单说明，其所列举的概率分布特征及其对应的帧粒度仅是为了便于说明方案，并不构成对方案的限定。可以理解地，在具体实施中，概率分布特征对应的帧粒度可以由本领域技术人员根据实际需要进行设置，比如可以远远小于帧/50ms，或者可以远远大于帧/500ms，具体不作限定。

本发明实施例中，通过使用待处理视频在预设时段内行为事件发生的频繁程度确定待处理视频的截取规则，可以使得截取的多帧待处理图像更加符合实际场景。比如若预设时段内行为事件发生的较为频繁，则可以使用较小帧粒度的截取规则截取得到较多帧图像，从而能够及时捕捉场景变化情况，使得多帧图像中最大可能地包含行为事件的特征信息；若预设时段内行为事件发生的较为稀疏，则可以使用较大帧粒度的截取规则截取得到较少帧图像，从而避免截取到多帧相似图像而导致的行为类别识别的效率较低的技术问题。

在一个示例中，在截取得到多帧待处理图像后，还可以对多帧待处理图像进行归一化处理。具体地说，可以先将每帧待处理图像缩放到固定尺寸，比如224像素*224像素，再对每帧待处理图像的上侧和边缘添加黑边；如此，通过对待处理图像进行归一化处理，可以提高待处理图像的完整性和统一性，从而提高后续图像处理的效率。

步骤103，将多帧待处理图像以及多帧待处理图像的时序信息输入预设模型，确定待处理视频的行为类别；预设模型包括多个映射关系的残差网络。

具体实施中，预设模型确定待处理视频的行为类别的方式可以有多种，在一种可能的实现方式中，预设模型接收到多帧待处理图像以及多帧待处理图像的时序信息后，可以根据多帧待处理图像以及多帧待处理图像的时序信息抽象出待处理视频在各特征标签下的值，进而可以将待处理视频在各特征标签下的值代入预设概率公式，从而确定出待处理视频属于各行为类别的概率。进一步地，预设模型可以从各行为类别中选择概率最大的行为类别作为待处理视频的行为类别；举例来说，在各行为类别包括开门、关门、刷牙、走路、刮胡子、打喷嚏时，若待处理视频属于各行为类别的概率依次为0.82、0.70、0.33、0.95、0.26、0.47，则可以确定待处理视频的行为类别为走路。

本发明实施例中，通过将各行为类别中概率最大的行为类别作为待处理视频的行为类别，可以提高行为类别识别的准确性。

本发明实施例中的图像处理方法可以包括模型训练方法和模型预测方法，上述步骤101～步骤103具体描述了使用预设模型识别待处理视频的行为类别(即模型预测方法)的实现过程，下面具体描述训练得到预设模型(即模型训练方法)的过程。

具体实施中，可以首先获取多个训练样本，进而将多个训练样本输入神经网络模型执行训练过程。在一种可能的实现方式中，可以通过网络从预设视频源中获取多种行为类别的视频资源，且，为了尽可能地获取到包含单一行为事件的视频资源，可以在预设视频源中按类搜索，如此，可以降低后续数据处理的困难程度。在获取到视频资源后，还可以对视频资源打上对应的行为类别标签，行为类别标签可以使用预设视频源中的类别，或者也可以由本领域技术人员重新定义，不作限定。执行完上述过程后，针对于每一视频资源，可以根据行为事件在该视频资源中的时刻信息，对视频资源进行修剪，从而仅保留行为事件所在的视频片段；比如某一视频资源的时长为10:00～10:05，行为事件发生的时间为10:02～10:03，则可以将该视频资源中10:00～10:02的视频片段以及10:03～10:05的视频片段删除，从而仅保留行为事件发生的10:02～10:03的视频片段。相应地，若某一视频资源中不包括完整持续的行为事件，而仅是包含行为事件的某一片段，无法体现行为事件的特征，则可以将该视频资源舍弃。

进一步地，可以使用预设统计学方法确定多个视频片段的概率分布特征，并可以使用多个视频片段的概率分布特征对应的帧粒度分别从多个视频片段中截取得到多帧图像。具体实现过程可以参照步骤102，此处不再赘述。在一个示例中，确定概率分布特征的过程与截取图像的过程可以并行执行。比如，可以设置三个并列的第一～第三子进程、第一队列和第二队列，第一子进程可以用于确定每个视频片段的概率分布特征，并可以将视频片段与对应的概率分布特征存储到第一队列；第二子进程可以按照第一预设顺序从第一队列中获取视频片段与对应的概率分布特征，并可以在查询预设对应关系表确定视频片段对应的帧粒度后，将视频片段与对应的帧粒度存储到第二队列；第三紫禁城可以按照第二预设顺序从第二队列中获取视频片段与对应的帧粒度，并可以使用对应的帧粒度从视频片段中截取得到多帧图像。其中，第一预设顺序与第二预设顺序可以由本领域技术人员根据经验进行设置，第一预设顺序与第二预设顺序可以相同，比如第一预设顺序与第二预设顺序均为先进后出(或先进先出)，或者第一预设顺序与第二预设顺序也可以不同，比如第一预设顺序为先进后出，第二预设顺序为先进先出，或者第一预设顺序为先进先出，第二预设顺序为先进后出，具体不作限定。

本发明实施例中，在截取得到每个视频片段对应的多帧图像后，可以对多帧图像进行预处理，预处理的过程可以参照步骤102，不再赘述。进一步地，针对于每个视频片段对应的多帧图像，本发明实施例可以依次选取多帧图像中预设数量的相邻图像作为一个训练样本，以预设数量为16帧为例，若某一视频片段对应160帧图像，则可以将第1～第16帧图像作为第一训练样本，第17～第32帧图像作为第二训练样本，……，第144～第160帧图像作为第十训练样本；每个训练样本的行为类别与视频片段的行为类别一致。

需要说明的是，本发明实施例中，每个训练样本不仅包含16帧图像，还可以包含16帧图像的时序信息，比如若将训练样本以矩阵形式输入预设模型，则可以首先按照训练样本中16帧图像的截取顺序(即在视频中的时间位置)组合16帧图像的图像信息得到训练样本对应的矩阵，如此，每个训练样本可以同时包含图像信息和时序信息。

需要说明的是，上述仅是一种示例性的简单说明，其所列举的训练样本中图像的数量仅是为了便于说明方案，并不构成对方案的限定，在具体实施中，训练样本中图像的数量可以大于16帧，比如可以为17帧或17帧以上。

本发明实施例中，神经网络可以包括残差网络，如此，在将多个训练样本输入神经网络后，神经网络可以使用残差网络提取得到多个训练样本的图像特征，进而可以基于多个训练样本的图像特征确定每个行为类别的特征值。进一步地，在使用全部的训练样本训练得到模型参数后，可以使用全部的训练样本再次执行训练过程，从而不断优化模型参数；相应地，若学习周期为10个全样本训练，则在对全部的训练样本重复执行10次训练过程后，可以调整神经网络的学习率，再次对全部的训练样本重复执行10次训练过程，通过周期性的执行训练过程，可以训练得到较优的模型参数。

在一个示例中，可以使用随机梯度下降函数作为优化函数，交叉熵作为损失函数，并可以以80％的损失率调整神经网络的学习率；采用该种方式，在以1的学习率训练完成第一个学习周期后，可以将学习率设置为0.2，如此，可以以0.2的学习率训练第二个学习周期，在第二个学习周期训练完成后，可以将学习率设置为0.04，依次执行训练过程。

图2为本发明实施例提供的一种残差网络的结构示意图，在一种可能的实现方式中，残差网络可以包括连续的多个特征提取模块，比如图2所示意的特征提取模块a₁、特征提取模块a₂、……、特征提取模块a_p-1、特征提取模块a_p。其中，特征提取模块a₁～特征提取模块a_p中的任意两个特征提取模块的结构可以相同，或者也可以不同，具体不作限定。

如图2所示，针对于p个特征提取模块中任意连续的两个特征提取模块，第一个特征提取模块的输入端与第二个特征提取模块之间可以设置有映射关系，第一个特征提取模块的输出端与第二个特征提取块的输出端之间可以设置有映射关系。比如图2所示的特征提取模块a₂和特征提取模块a₃，特征提取模块a₂的输入端可以与特征提取模块a₃之间设置有映射关系(如图2所示的映射关系b₁)，特征提取模块a₂的输出端可以与特征提取模块a₃的输出端之间设置有映射关系(如图2所示的映射关系b₂)。

具体实施中，特征提取模块a₁提取的第一特征信息可以同时传输给特征提取模块a₂和特征提取模块a₃，特征提取模块a₂提取的第二特征信息可以同时传输给特征提取模块a₃和特征提取模块a₄；如此，特征提取模块a₃可以组合第一特征信息和第二特征信息，并基于组合的第一特征信息和第二特征信息提取得到第三特征信息，且特征提取模块a₄可以组合第三特征信息和第二特征信息执行特征提取过程。

需要说明的是，残差网络中可以设置连续的2个特征提取模块，或者也可以设置连续的2个以上的特征提取模块，具体可以由本领域技术人员根据场景进行设置，不作限定。

本发明实施例中，通过在残差块中设置多个特征提取模块，可以更多地抽象图像的特征信息，提高残差块提取到的特征信息的全面性和准确性；且，通过在任意相邻的两个特征提取块之间设置多个映射关系，可以提高每一个特征提取块的样本多样性，避免特征提取模块的过快收敛，从而提高模型的精确性。

在一种可能的实现方式中，每个特征提取模块中均可以设置有至少两个网络层，第一特征提取模块的输入端可以是指第一特征提取模块中的首个网络层的输入端，第二个可以是指第一特征提取模块中的最后一个网络层的输出端；如此，第一特征提取模块中的首个网络层的输入端与第二特征提取块中的某个网络层(除一个网络层)的输出端之间可以设置有映射关系，第一特征提取模块中的最后一个网络层的输入端与第二特征提取块中的最后一个网络层的输出端之间可以设置有映射关系。

图3为本发明实施例提供的一种残差网络的结构示意图，如图3所示，残差网络中可以设置连续的两个特征提取模块，即第一特征提取模块和第二特征提取模块；其中，每个特征提取模块中可以依次设置有批量归一化(Batch Normalization，BN)层、激活函数层、第一卷积层和第二卷积层，第一特征提取模块的BN层的输入端与第二特征提取模块的BN层的输出端之间可以设置有映射关系，第一特征提取模块的第二卷积层的输出端与第二特征提取模块的第二卷积层的输出端之间可以设置有映射关系。

具体实施中，BN层可以计算得到多帧图像的特征信息的均值和标准差，从而使得残差网络能够基于均值和标准差提取特征信息，保证特征信息的一致性。第一卷积层可以为3*3*3卷积层，第二卷积层可以对训练样本中多个图像的高度信息、宽度信息和时序信息进行卷积，得到通道减半的特征信息；第二卷积层可以为1*1*1卷积层，可以对通道减半的特征信息进行卷积，恢复原有通道数量，从而保证内部通道的稳定性。

在一个示例中，激活函数可以为线性整流(Rectified Linear Unit，ReLU)函数。

本发明实施例中，通过使用BN层、激活层和至少两个卷积层构造特征提取块，可以使得特征提取块以多通道的方式抽象较多地特征信息，并能保证内部通道的平稳性；且，通过在第五特征提取块中设置平均池化层，可以使用其它层的输出信息对当前层的输出信息进行调整，从而可以平滑特征信息，降低单一特征的锐化问题。

本发明实施例中，残差网络中还可以设置有平均池化层，平均池化层可以对使用其它的特征信息对当前的特征信息进行调整，从而平滑特征信息。

在一种可能的实现方式中，平均池化层可以设置在特征提取模块的外部，并可以连接最后一个特征提取模块；如图3所示，残差网络可以包括连续设置的第一特征提取模块、第二特征提取模块和平均池化层，如此，平均池化层可以结合第一特征提取模块的输出结果和第二特征提取模块的输出结果，并可以对结合得到的特征信息进行平滑处理。

在另一种可能的实现方式中，平均池化层可以设置在除首个特征提取模块以外的特征提取模块的内部，如图4所示，残差网络可以包括连续设置的第一特征提取模块、第二特征提取模块和第三特征模块，第二特征提取模块的最后一层可以设置为一个平均池化层，第三特征提取模块的最后一层可以设置为一个平均池化层；如此，第二特征提取模块中的平均池化层可以结合第一特征提取模块的输出结果和第二特征提取模块的第二卷积层的输出结果，并可以对结合得到的特征信息进行平滑处理；第三特征提取模块中的平均池化层可以结合第二特征提取模块的输出结果和第三特征提取模块的第二卷积层的输出结果，并可以对结合得到的特征信息进行平滑处理。

本发明的上述实施例中，获取待处理视频后，从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息，进而将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。本发明实施例中，通过使用预设模型基于图像信息和时序信息同步确定待处理视频的行为类别，充分地考虑到行为事件的图像特征信息以及时间特征信息，从而能够有效地判别相对行为(比如关门和开门)；且，通过基于多个映射关系的残差网络构建预设模型，可以提高训练样本的多样性，避免预设模型的过快收敛，降低过拟合的概率，从而可以提高预设模型的精度。

针对上述方法流程，本发明实施例还提供一种图像处理装置，该装置的具体内容可以参照上述方法实施。

图5为本发明实施例提供的一种图像处理装置的结构示意图，包括：

获取模块501，用于获取待处理视频；

截取模块502，用于从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息；

预测模块503，用于将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。

可选地，所述截取模块502具体用于：

基于预设统计学方法确定所述待处理视频的概率分布特征，使用所述待处理视频的概率分布特征对应的截取规则从所述待处理视频中截取所述多帧待处理图像；所述待处理视频的概率分布特征用于标识所述待处理视频中在预设时段内行为事件发生的频繁程度。

可选地，所述残差网络包括连续的p个特征提取模块；

针对于所述p个特征提取模块中的任意连续的第一特征提取模块和第二特征提取模块，所述第一特征提取模块的输入端与所述第二特征提取模块之间设置有映射关系，所述第一特征提取模块的输出端与所述第二特征提取模块之间设置有映射关系；其中，p为大于1的整数。

可选地，所述残差网络包括第三特征提取模块和第四特征提取模块；所述第三特征提取模块包括第一批量归一化BN层、第一激活函数层、第一卷积层和第二卷积层，所述第四特征提取模块包括第二BN层、第二激活函数层、第三卷积层、第四卷积层和平均池化层；

所述第一BN层的输入端与所述第二BN层的输出端之间设置有映射关系，所述第二卷积层的输出端与所述第四卷积层的输出端之间设置有映射关系。

可选地，所述预测模块503具体用于：

将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频属于各行为类别的概率；

从所述各行为类别中选择概率最大的行为类别作为所述待处理视频的行为类别。

从上述内容可以看出：本发明的上述实施例中，获取待处理视频后，从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息，进而将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。本发明实施例中，通过使用预设模型基于图像信息和时序信息同步确定待处理视频的行为类别，充分地考虑到行为事件的图像特征信息以及时间特征信息，从而能够有效地判别相对行为(比如关门和开门)；且，通过基于多个映射关系的残差网络构建预设模型，可以提高训练样本的多样性，避免预设模型的过快收敛，降低过拟合的概率，从而可以提高预设模型的精度。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，包括处理指令，当所述处理指令在计算机的处理器上运行时，使得计算机的处理器执行如图1或图1任意所述的图像处理方法。

基于同一发明构思，本发明实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行图1或图1任意所述的图像处理方法。

基于相同的技术构思，本发明实施例提供了一种终端设备，如图6所示，包括至少一个处理器1101，以及与至少一个处理器连接的存储器1102，本发明实施例中不限定处理器1101与存储器1102之间的具体连接介质，图6中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器1102存储有可被至少一个处理器1101执行的指令，至少一个处理器1101通过执行存储器1102存储的指令，可以执行前述的图像处理方法中所包括的步骤。

其中，处理器1101是终端设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据，从而实现数据处理。可选的，处理器1101可包括一个或多个处理单元，处理器1101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中，处理器1101和存储器1102可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合图像处理方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本发明实施例提供了一种后端设备，如图7所示，包括至少一个处理器1201，以及与至少一个处理器连接的存储器1202，本发明实施例中不限定处理器1201与存储器1202之间的具体连接介质，图7中处理器1201和存储器1202之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器1202存储有可被至少一个处理器1201执行的指令，至少一个处理器1201通过执行存储器1202存储的指令，可以执行前述的图像处理方法中所包括的步骤。

其中，处理器1201是后端设备的控制中心，可以利用各种接口和线路连接后端设备的各个部分，通过运行或执行存储在存储器1202内的指令以及调用存储在存储器1202内的数据，从而实现数据处理。可选的，处理器1201可包括一个或多个处理单元，处理器1201可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要对接收到的指令进行解析以及对接收到的结果进行解析。可以理解的是，上述调制解调处理器也可以不集成到处理器1201中。在一些实施例中，处理器1201和存储器1202可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1201可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合图像处理方法的实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1202可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理视频；

从所述待处理视频中截取得到多帧待处理图像，并根据所述多帧待处理图像在所述视频中的位置确定所述多帧待处理图像的时序信息；

将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别；所述预设模型包括多个映射关系的残差网络。

2.根据权利要求1所述的方法，其特征在于，所述截取所述待处理视频得到多帧待处理图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述残差网络包括p个特征提取模块；

4.根据权利要求3所述的方法，其特征在于，所述残差网络包括第三特征提取模块和第四特征提取模块；所述第三特征提取模块包括第一批量归一化BN层、第一激活函数层、第一卷积层和第二卷积层，所述第五特征提取模块包括第二BN层、第二激活函数层、第三卷积层、第四卷积层和平均池化层；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述多帧待处理图像以及所述多帧待处理图像的时序信息输入预设模型，确定所述待处理视频的行为类别，包括：

6.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频；

7.根据权利要求6所述的装置，其特征在于，所述截取模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述残差网络包括p个特征提取模块；

9.根据权利要求8所述的装置，其特征在于，所述残差网络包括第三特征提取模块和第四特征提取模块；所述第三特征提取模块包括第一批量归一化BN层、第一激活函数层、第一卷积层和第二卷积层，所述第四特征提取模块包括第二BN层、第二激活函数层、第三卷积层、第四卷积层和平均池化层；

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述预测模块具体用于：

11.一种计算机可读存储介质，其特征在于，包括处理指令，当所述处理指令在计算机的处理器上运行时，使得计算机的处理器执行如权利要求1至5任一项所述的方法。

12.一种计算机程序产品，其特征在于，当其在计算机上运行时，使得计算机执行如权利要求1至5任一项所述的方法。