CN113658215A

CN113658215A - 影像处理装置及其方法

Info

Publication number: CN113658215A
Application number: CN202110446721.5A
Authority: CN
Inventors: 孔全; 吉永智明; 村上智一
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-05-12
Filing date: 2021-04-25
Publication date: 2021-11-16
Also published as: EP3920142A3; SG10202104985XA; US20210357629A1; EP3920142A2; JP2021179728A

Abstract

本发明提供一种影像处理技术，对于由时空信息构成的影像能够以高精度提取移动体的行为的特征量。在对摄像机拍摄的移动体的影像进行处理的影像处理装置中，以规定的速率对从摄像机输出的帧进行采样，基于连续的多个帧计算移动体的运动的方向，将多个帧汇总在一起，基于计算出的上述方向进行卷积处理来提取影像的特征量。

Description

影像处理装置及其方法

技术领域

本发明涉及影像处理装置及其方法，详细而言，涉及一种适于分析影像内移动体的行为方式的影像处理。

背景技术

用于影像内移动体的行为分析技术，其在监视影像分析、保健、生命日志(lifelog)等领域的应用受到人们的期待。因为影像信息是由2D的空间信息和1D的时间信息这两者构成的3D的时空信息，所以信息的复杂度很高。

因此，作为已在静态图像分析领域表现出有效性的技术，广为人知的卷积神经网络(Convolutional Neural Network)也被应用于影像内行为分析。例如，下述专利文献1公开了一种图像处理装置，其对从影像中提取的每一帧的静态图像应用2D卷积操作来计算人的姿态信息，并基于此来估计人的行为类别。

此外还已知一种Two-stream(双流)法(非专利文献1)，其根据影像的空间信息和Optical Flow(光流)信息对各自的特征进行建模，最后进行两者的集成(ensample)，其中，Optical Flow信息表示影像内移动体的行为的时间方向上的运动变化。

此外，人们还提出一种对由图像处理系统按时间序列取得的多个帧执行卷积处理的3D卷积(非专利文献2)。

现有技术文献

专利文献

专利文献1：日本特开2018-206321号公报

非专利文献

非专利文献1：Karen Simonyan,et al.Two-stream convolutional networksfor action recognition in videos.Proceedings of the 27th InternationalConference onNeural Information Processing Systems,2014

非专利文献2：Shuiwang Ji,et al.3D Convolutional Neural Networks forHuman Action Recognition.IEEE Transactions on Pattern Analysis and MachineIntelligence,2013

发明内容

发明要解决的技术问题

专利文献1的现有技术仅对静态图像的帧应用卷积处理，所以会破坏时间序列性这一运动的特征，不适合分析人的行为类别。

另一方面，非专利文献2的技术对时间方向上连续采样的多个帧应用卷积处理，所以在提取对象的行为特征这一方面比非专利文献1的技术优异，但由于是与移动体的动线无关地对多个帧进行卷积的，所以用作时空行为信息的建模手段是没有意义的。

为此，本发明的目的在于提供一种影像处理技术，对于由时空信息构成的影像能够以高精度提取移动体的行为的特征量。

解决问题的技术手段

为了实现上述目的，本发明提供一种影像处理装置，其包括对摄像机拍摄的移动体的影像进行处理的控制器，和记录有程序的存储器，其中，所述控制器通过执行所述存储器的程序，来以规定的速率对从所述摄像机输出的帧进行采样，基于连续的多个帧计算所述移动体的运动的方向，对该多个帧基于计算出的所述方向进行卷积处理，来提取所述影像的特征量。此外，本发明还提供一种由图像处理装置执行的图像处理方法。

发明效果

采用本发明，对于由时空信息构成的影像能够以高精度提取移动体的行为的特征量。

附图说明

图1A是帧的一个示例。

图1B是时间上先后采样的多个帧(3帧)。

图2是控制器实现的用于行为分析处理的功能模块的一个示例(实施方式1)。

图3是图2的功能框图的动作流程图。

图4是表示通道金字塔(图2：220)的控制方式的框图。

图5是表示第一卷积处理模块(图2：204)的详细结构的框图。

图6是表示运动计算模块(图5：400)的一个示例的模型图。

图7表示卷积执行模块(图5：402)的动作示例的框图。

图8是表示尺寸调整处理模块(图2：208)和侧向结合处理模块(图2：210)的动作示例的框图。

图9是控制器实现的用于行为分析处理的功能模块的另一示例(实施方式2)。

图10是图9的功能框图的动作流程图。

图11是表示行为开始/结束似然度判断模块(图9：900)的详细结构的框图。

图12是表示候选动作区间生成模块(图9：902)和似然度过滤器的关系的框图。

图13是对用于生成候选动作区间的候选动作区间生成模块(图9：902)的动作进行说明的时序图的例子。

具体实施方式

下面参照附图对本发明的实施方式进行说明。影像处理系统包括用于拍摄移动体的(监视)摄像机，和分析摄像机拍摄的影像的影像处理装置。摄像机与网络连接，影像处理装置经由网络以规定帧率将来自摄像机的图像保存到存储器中。

影像处理装置包括控制器(CPU、GUI等)和存储器，控制器执行存储器的程序，基于拍摄到的影像执行用于分析移动体(对象体)的行为的处理。帧由多个像素构成，各像素记录有颜色信息。存储器中记录有用于实现后述的图像处理系统的程序，存储器可以是非便携式的记录介质(硬盘、闪存、存储器)。

图1A是帧的一个示例，包括人物(移动体)10的图像和作为非移动体的背景12的图像。图1B表示时间上先后采样的多个帧(3帧)，这些帧中记录有人物10的运动。作为移动体并没有特别的限制，不限于人物，可以是车辆等能够运动的物体。

图2是控制器实现的用于行为分析处理的功能模块的一个示例(第一实施方式)。图3是其流程图。控制器包括：Dense采样处理模块200，其以较高的速率(rate)对从监视摄像机发送的影像数据(帧)100进行采样；sparse采样处理模块202，其以较低的速率采样；第一卷积处理模块204，其用于对Dense采样的帧提取移动体的运动的特征；第二卷积处理模块206，其用于对sparse采样的帧提取背景等非移动物体的特征；尺寸调整处理模块208，其对第一卷积处理模块204的数据进行尺寸调整；侧向结合处理模块210，其将进行了尺寸调整的数据与第二卷积处理模块206的数据结合；影像特征量提取模块212，其基于结合数据提取影像的特征量；行为估计模块214，其基于影像特征量估计移动体的行为。

各模块通过控制器执行程序和/或由硬件来实现。也可以将模块改称为手段、功能、电路或单元。摄像机是影像获取模块。

在实施方式1中，对从摄像机输入到控制器并划分了行为的开始和结束的影像数据进行行为识别来估计行为类别。为了使第一卷积处理模块204能够提取影像内的移动体运动的特征，Dense采样处理模块200以高帧率对影像进行采样。第一卷积处理模块204对连续采样的多个帧沿着运动的轨迹也就是在时间方向上实施卷积处理。

为了使第二卷积处理模块206适于提取帧的非移动物体的特征，sparse采样处理模块202不实施像Dense采样处理模块200那样的高帧率的采样，而是实施低帧率的帧采样。将第一卷积处理模块204的时间方向上的卷积处理(3D卷积处理)和第二卷积处理模块206的空间方向上的卷积处理(2D卷积处理)结合，能够实现对时空影像的卷积处理。

在第二卷积处理模块206的空间方向上的卷积处理中，使被称为核(kernel)的滤波器(例如，3像素×3像素)从帧矩阵的左上的像素按每个像素逐一滑动至右下的像素，将滤波器的像素的值(权重)与帧的像素的值相乘来生成卷积矩阵。时间方向上的卷积处理将在后文描述。滤波器的权重(各像素的值)可通过学习来决定。

控制器为了综合控制多个采样路径和对于各个路径的卷积处理，实现了一种根据影像的帧采样率的大小来逐级增减卷积处理的通道数的控制方式，为方便起见将该控制方式称为通道金字塔(Channel Pyramid)220。

图4是该控制方式的框图。如果令低采样率采样到的帧数为“T”，则高采样率采样到的帧数为“αT(α＞1，α＝2ⁿ，n是1以上的整数)”。

而且，如果令第二卷积处理模块206对低速率采样的帧进行的卷积处理的通道数为“C”，则第一卷积处理模块204对高速率采样的帧进行的卷积处理的通道数为“βC(β＝1/α)”。即，这表示，在第一卷积处理模块204的卷积处理中，帧数越多则通道数相应减少。

为了充分学习不存在空间上运动变化的信息，需要更多的核滤波器，但如果帧数多且核数也多，则存在3D卷积处理速度显著降低的问题。因此，第一卷积处理模块204与帧数的增加相应地使通道数成比例地减少。通道数可以是滤波器数。利用多个滤波器能够提高帧的空间方向的卷积处理的特征提取精度。300、302分别表示通过卷积处理获得的矩阵。

图5是表示第一卷积处理模块204的细节的框图。第一卷积处理模块204为了沿着影像内的移动体的运动的轨迹方向进行卷积处理，包括运动计算模块400和卷积执行模块402。

第一卷积处理模块204从随时间采样的连续帧中提取影像内的移动体，并且从连续帧中提取移动体区域的轨迹方向(或位移方向)、位移的大小等位移度(或位移量)(运动计算模块400)。第一卷积处理模块204基于位移度进行卷积运算(卷积执行模块402)。其中，也可以将“提取”改称为设定、判定、计算、估计、判断、识别或判别等。

运动计算模块400对连续的多个帧应用“光流”(例如，Fleet,David J.；Weiss,Yair(2006).“Optical Flow Estimation”.In Paragios,Nikos；Chen,Yunmei；Faugeras,Olivier D.(eds.).Handbook of Mathematical Models in ComputerVision.Springer.pp.237-257.ISBN 978-0-387-26371-7.)，至少计算移动体的运动的位移方向。光流是使用两幅以上的图像，以共同出现在该图像内的部分等作为线索来估计图像中出现的部分的动作或估计整体的动作并将其构成为矢量的方法，已知Lucas-Kanade法(LK法)等。除此之外人们还提出了各种方法，也可以基于深度学习来进行估计。

图6是表示运动计算模块400的一个示例的模型图。帧t、帧t+φ分别是在时间上连续采样的原始尺寸的帧，500A、500B分别是将原始帧的纵横尺寸缩小到1/2的帧，502A、502B是将原始帧的纵横尺寸缩小到1/4的帧。

运动计算模块400对相同帧尺寸的帧应用光流，对帧的每个像素计算运动的位移方向、位移的大小等运动的位移量(位移度)，用矢量表现该方向和位移量，定义为运动矢量。

运动计算模块400对相同缩放尺寸的帧应用光流，针对帧的每个尺寸计算移动体的运动的位移。对在1/4尺寸的帧彼此之间计算出的运动矢量，运动计算模块400利用放大至1/2帧尺寸的上采样(upsampling)对其进行转换或修正，将转换后的运动矢量与在1/2尺寸的帧彼此之间计算出的运动矢量融合。融合可以是取多个运动矢量的平均的操作。

接着，对于1/2尺寸的帧的运动方向(运动矢量)，运动计算模块400利用放大至原始帧尺寸的上采样对其进行转换，将转换后的运动方向与在原始尺寸的帧彼此之间计算出的运动方向融合，得到运动方向的最终值。

在摄像机像监视摄像机那样被固定在特定位置的情况下，根据移动体离摄像机的距离的不同，出现在帧内的移动体的尺寸存在大小变化。尺寸比帧的尺寸小的移动体的运动方向能够通过光流高精度地计算，但尺寸比帧的尺寸大的移动体的运动方向的计算精度则较低。这样，通过将基于小尺度帧尺寸的帧得到的运动方向和基于大的原始尺寸的帧得到的运动方向融合，能够去除因移动体尺寸相对于帧尺寸的大小而引起的运动方向的计算精度的优劣的影响。由此，能够更准确地计算运动方向，更能够得到其最优的值。

接下来对卷积执行模块402进行说明。现有的时间方向的3D卷积处理是这样进行的，即，对于从摄像机影像采样的时间序列的多个帧中的每一帧执行基于滤波器的卷积运算，并将多个帧各自的运算结果线性组合。

然而，构成多个帧之间的运动的各个帧内的像素坐标在多个帧之间往往会大幅变化，尽管如此，现有技术却在多个帧之间基于相同的位置的像素进行卷积，所以不能捕捉运动的变化，因此，现有的3D卷积处理不适合用作用于对具有时空行为信息的移动体进行建模。

图7表示卷积执行模块402的动作示例的框图。图7以在时刻t的帧f_t进行时间方向的卷积处理的情况为例。f_t-Δt、f_t、f_t+Δt分别表示在t-Δt、t、t+Δt的时刻连续采样的连续帧。

700是移动体的运动，702是通过optical flow计算出的运动的位移方向。P_t,k是与核尺寸S²相同尺寸的窗口的中心点坐标。k∈N，N是窗口数，其对应于使核从左上滑动至右下时的spatial stride(空间步幅)数。P_t-Δt,k、P_t+Δt,k是在运动的位移方向上计算出的前后帧中的与P_t,k对应的窗口的中心坐标。

706表示中心坐标为(P_t,k)、用于对帧f_t进行卷积运算的核，708表示中心坐标为(P_t-Δt,k)、用于对帧f_t-Δt进行卷积运算的核，710表示中心坐标为(P_t+Δt,k)、用于对帧f_t+Δt进行卷积运算的核。

这三个核的中心坐标的关系如下。

P_t-Δt,k＝P_t,k+(w_t-Δt)*P_t,k

P_t+Δt,k＝P_t,k+(w_t+Δt)*P_t,k

w：根据optical flow计算出的运动的位移方向和程度。这样，如果移动体的方向发生位移，则与该位移相应的，多个帧各自的核滤波器的坐标彼此不同。

通过运动700连接的三个核各自在帧中的中心坐标沿着运动的位移方向702相互变化。

卷积执行模块402在每次使核706从帧f_t的左上(P_t,k＝0)按每一像素逐一滑动至右下时，基于f_t-Δt、f_t、f_t+Δt的帧进行3D卷积。

即，卷积执行模块402基于由运动的方向702关联的上述三个核，通过核708(中心坐标：P_t-Δt,k)进行帧f_t-Δt的像素的卷积，通过核706(中心坐标：P_t,k)进行帧f_t的像素的卷积，通过核710(中心坐标：P_t+Δt,k)进行帧f_t+Δt的像素的卷积，将各个卷积运算的结果线性组合，实现3D卷积处理。

该3D卷积处理将时间上先后采样的多个帧汇总在一起进行卷积运算，与此相对，第二卷积处理模块206进行的2D卷积的不同点在于，对一个帧进行卷积运算。

像这样，在卷积执行模块402中，在多个帧之间根据运动的位移方向，基于位置彼此不同的像素(帧的像素)执行用于提取运动的时间方向的卷积处理，所以能够高精度地实现与移动体的动线对应的、运动的特征量提取。其结果，移动的人物等的行为识别、行为分析等的精度得到飞跃性的提高。

图8是表示尺寸调整处理模块208和侧向结合处理模块210的动作示例的框图。在令sparse采样处理模块202和第二卷积处理模块206构成的sparse路径的{帧数、核尺寸、通道数}为{T,S,C}的情况下，由dense采样处理模块200和第一卷积处理模块204构成的dense路径的参数为{αT，S，βC}，由于张量的尺寸不一致，不能进行信息的集成(ensembling)。

因此，需要对dense路径的张量的shape(维数)进行变换。尺寸调整处理模块208通过对Dense路径的张量应用时间上的步幅为α并且输出通道数为αβC(β＝1/α)的3D卷积处理，将张量的shape变换成{T，S，αβC}。侧向结合处理模块210对每一帧执行将变换后的张量与sparse的路径的张量拼接(concatenation)或相加(summation)等集成操作。侧向结合处理模块210对结合后的张量进行每一帧的average pooling处理，获取帧单位的特征量，进而对帧单位的特征量进行global pooling处理，获取影像单位的特征量。将上述影像单位的特征量输出到影像特征量提取模块212。

影像特征量提取模块212将结合的张量转换成矢量，提取影像特征量。

行为估计模块214使用提取的影像特征量，进行全连接层(fully connectedlayer)和Softmax处理，输出与输入影像对应的行为类别。因此，能够对从摄像机提供给图像处理装置的行为的剪辑影像数据(按行为的开始和结束时刻裁剪得到的影像)进行行为内容估计。

图9是表示实施方式2的细节的框图。图10是对该实施方式的动作进行说明的流程图。实施方式2涉及一种根据输入的影像数据确定行为的开始和结束来估计行为类别的行为检测。实施方式2使用实施方式1的通道金字塔结构(图4)，基于帧单位的影像特征量从影像中进行行为检测。从影像特征量提取模块212输出帧单位的特征量，而不是输出影像单位的特征量(实施方式1)。

实施方式2的行为检测系统包括行为开始/结束似然度判断模块900。如图11所示，模块900包括行为开始似然度判断模块900A和行为结束似然度判断模块900B，前者基于从影像特征量提取模块212输入的各帧的特征量计算行为的开始似然度1200，后者基于特征量计算行为结束似然度1202。

行为开始/结束似然度判断模块900由构成分别独立的K个聚类(cluster)的Gaussian Mixture Model(混合高斯模型)构成，基于训练用帧数据事先对行为的开始和行为的结束进行学习，并基于预测编码的方法学习权重，基于学习结果，对每一帧计算其是“行为的开始”还是“行为的结束”的似然度。

如图12所示，候选动作区间生成模块902(图9)具有似然度过滤器1300，该似然度过滤器1300基于似然度阈值对开始似然度1200和结束似然度进行过滤。候选动作区间生成模块902使用各帧的开始似然度和结束似然度生成候选动作区间。候选动作是可成为行为估计的对象的行为，候选动作区间是该行为的开始帧和结束帧的间隔。

图13是对用于生成候选动作区间的候选动作区间生成模块902的动作进行说明的时序图。似然度过滤器1300按每个聚类对各帧的开始似然度和结束似然度进行阈值的判断。候选动作区间生成模块902将开始/结束似然度大于似然度阈值的帧判断为开始帧或结束帧，对这些帧赋予索引，并将索引存储在按每个聚类准备的开始帧列表或结束帧列表中。索引可以表示帧的时间先后关系，且帧越早，索引的值越小。

模块902在多个聚类的每一聚类中将开始帧列表的各帧的索引与结束帧列表中的各帧的索引比较。将结束帧的索引大于开始帧的索引的成对的开始帧和结束帧作为候选的动作区间的开始和结束，输出对应的开始帧的索引和结束帧的索引。图13表示对聚类1设定了候选区间1，对聚类2设定了候选区间2，对聚类k设定了候选区间m。

行为估计模块214对与候选动作区间生成模块902生成的各候选动作区间对应的影像剪辑904通过多层感知器(MLP)等执行基于该影像剪辑904中包含的帧的影像特征量的移动体的行为估计。行为估计模块214对多个行为动作区间全部进行行为估计。行为估计模块214根据通过softmax计算出的行为类别的评分，输出与最高分对应的行为标签。行为估计模块214对候选动作区间生成模块902生成的所有多个候选动作区间进行行为估计(图10：904-908)。

冗余区间抑制处理模块910使用根据估计出的各影像剪辑的每个行为类别的概率列表P而由argmax(P)对应的行为标签及其概率，以及对应的影像剪辑的开始和结束的时刻(帧编号)，进行non maximum suppression(NMS，非极大值抑制)处理，对冗余区间进行过滤。其结果是，对于去除了冗余部分的影像剪辑，能够决定最有可能性的行为标签。

以上说明的实施方式是本发明的示例，并不限定本发明的技术范围。例如，在上述的实施方式中，将采样路径设为两套路径，但也能够为三套以上。而且，沿着运动的方向进行的上述的3D卷积运算是以前后3帧为对象的，但也可以是更多的帧数。此外，上述的实施方式实时处理摄像机拍摄的图像，但也可以批量处理影像处理装置记录在存储器中的影像。此外，也可以将影像处理装置的影像处理作为云服务提供给用户，以便对用户持有的监视影像进行分析。

附图标记说明

100 影像数据

200、202 采样模块

204、206 卷积处理模块

212 影像特征量提取模块

Claims

1.一种影像处理装置，包括对摄像机拍摄的移动体的影像进行处理的控制器，和记录有程序的存储器，其特征在于：

所述控制器通过执行所述存储器的程序，

来以规定的速率对从所述摄像机输出的帧进行采样，

基于连续的多个帧计算所述移动体的运动的方向，

对该多个帧基于计算出的所述方向进行卷积处理，来提取所述影像的特征量。

2.如权利要求1所述的影像处理装置，其特征在于：

所述控制器，

对所述多个帧分别设定核滤波器，该多个帧各自的核滤波器在帧内的坐标按照所述方向而彼此不同，

对所述多个帧的每一帧利用设定于该帧的核滤波器进行卷积处理，

将所述多个帧各自的卷积处理的结果结合。

3.如权利要求2所述的影像处理装置，其特征在于：

所述控制器在所述移动体的方向发生位移时，按照该位移，使该多个帧各自的核滤波器的坐标彼此不同。

4.如权利要求1所述的影像处理装置，其特征在于：

所述控制器以高帧率对来自所述摄像机的影像进行采样，

对通过该采样得到的多个帧进行所述卷积处理。

5.如权利要求4所述的影像处理装置，其特征在于：

所述控制器以低帧率对来自所述摄像机的影像进行采样，

对通过该采样得到的多个帧分别进行卷积处理。

6.如权利要求5所述的影像处理装置，其特征在于：

所述控制器，

将以所述高帧率采样得到的帧数设定为比以所述低帧率采样得到的帧数多，

并进行设定，使得对以所述高帧率采样得到的帧进行的卷积处理的核滤波器数，比对以所述低帧率采样得到的帧进行的卷积处理的核滤波器数小。

7.如权利要求4所述的影像处理装置，其特征在于：

所述控制器，

基于以所述高帧率采样得到的连续帧计算所述移动体的方向，

将该连续帧各自的尺寸缩小，并基于缩小后的尺寸的连续帧计算所述移动体的方向，

将基于所述缩小后的尺寸的连续帧得到的所述移动体的方向的计算结果，与基于所述缩小前的尺寸的连续帧得到的所述移动体的方向的计算结果融合，

由此得到所述移动体的方向的最优值。

8.如权利要求5所述的影像处理装置，其特征在于：

所述控制器，

对第一特征量的张量的维数进行变换，并将变换后的张量与第二特征量的张量融合，

其中，第一特征量是通过对以所述高帧率采样得到的帧进行的所述卷积处理而得到的特征量，

第二特征量是通过对以所述低帧率采样得到的帧进行的所述卷积处理而得到的特征量。

9.如权利要求1所述的影像处理装置，其特征在于：

所述控制器，

对采样得到的多个帧分别提取影像特征量，

基于该多个帧的影像特征量，判断各个帧是所述移动体的行为区间的开始帧还是该行为区间的结束帧，

基于所述开始帧和所述结束帧之间的所述行为区间中所含的多个帧的影像特征量，来估计所述移动体的行为。

10.一种影像处理方法，由影像处理装置对摄像机拍摄的移动体的影像进行处理，其特征在于：

所述影像处理装置，

以规定的速率对从所述摄像机输出的帧进行采样，

基于连续的多个帧计算所述移动体的运动的方向，

将该多个帧汇总在一起，基于计算出的所述方向进行卷积处理，来提取所述影像的特征量。