CN108664849A

CN108664849A - 视频中事件的检测装置、方法以及图像处理设备

Info

Publication number: CN108664849A
Application number: CN201710201186.0A
Authority: CN
Inventors: 白向晖; 刘晓青; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2018-10-16
Also published as: JP2018170003A

Abstract

本发明实施例提供一种视频中事件的检测装置、方法以及图像处理设备。所述检测方法包括：从视频中按照预定的时间间隔抽取出多个帧图像；为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；对每个帧图像分别选择预定时间窗口内的多个相邻帧；为每个帧图像分别提取所述帧图像的多维时间特征值；基于所述帧图像的多维空间特征值和多维时间特征值，为每个帧图像分别获取一维时间‑空间特征值；以及基于所述多个帧图像的时间‑空间特征值，检测所述视频中发生的事件。由此，不仅可以准确地检测出视频中发生的事件，并且能够满足视频监控的实时性要求。

Description

视频中事件的检测装置、方法以及图像处理设备

技术领域

本发明实施例涉及视频监控技术领域，尤其涉及一种视频中事件的检测装置、方法以及图像处理设备。

背景技术

在视频监控领域，一般需要检测出感兴趣的目标。例如在停车场的车辆检测中，需要对视频中出现的车辆进行实时监测。再例如，在高速公路的车辆检测中，需要及时并且准确地检测出视频中发生的事件，例如超速、车祸等等。

如何及时且准确地检测出视频中发生的事件，对于视频监控技术具有重要意义。但是由于机器或设备并不具备类似于人的高层理解能力，视频监控领域中的事件检测具有很大的挑战性。

目前卷积神经网络(CNN，Convolution Neural Networks)等技术已经在计算机视觉领域被广泛研究，并且也出现了融合时域信息和空域信息的方法。但是目前的方案在实时性和准确性方面仍然有待提高。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明实施例提供一种视频中事件的检测装置、方法以及图像处理设备。期望不仅能够准确地检测出视频中发生的事件，并且能够满足视频监控的实时性要求。

根据本发明实施例的第一方面，提供一种视频中事件的检测装置，包括：

图像抽取单元，其从视频中按照预定的时间间隔抽取出多个帧图像；

空间特征提取单元，其为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；

相邻帧选择单元，其对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；

时间特征提取单元，其基于所述帧图像的所述多个相邻帧，分别为所述每个帧图像提取所述帧图像的多维时间特征值；

时空特征获取单元，其基于所述帧图像的多维空间特征值和多维时间特征值，分别为所述每个帧图像获取一维时间-空间特征值；以及

事件检测单元，其基于所述多个帧图像的时间-空间特征值，检测所述视频中发生的事件。

根据本发明实施例的第二方面，提供一种视频中事件的检测方法，包括：

从视频中按照预定的时间间隔抽取出多个帧图像；

为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；

对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；

基于所述帧图像的所述多个相邻帧，分别为所述每个帧图像提取所述帧图像的多维时间特征值；

基于所述帧图像的多维空间特征值和多维时间特征值，分别为所述每个帧图像获取一维时间-空间特征值；以及

基于所述多个帧图像的时间-空间特征值，检测所述视频中发生的事件。

根据本实施例的第三方面，提供了一种图像处理设备，包括如上所述的视频中事件的检测装置。

本发明实施例的有益效果在于：通过从视频中抽取出多个帧图像，将每个帧图像的多维空间特征值和多维时间特征值融合成一维时间-空间特征值，并基于所述多个帧图像的时间-空间特征值检测所述视频中的事件；由此，不仅可以准确地检测出视频中发生的事件，并且能够满足视频监控的实时性要求。

参照后文的说明和附图，详细公开了本发明实施例的特定实施方式，指明了本发明实施例的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例的视频中事件的检测方法的一示意图；

图2是本发明实施例的抽取多个帧图像的一示意图；

图3是本发明实施例的通过CNN获得多维空间特征值的一示意图；

图4是本发明实施例的选择多个相邻帧的一示意图；

图5是本发明实施例的通过CNN获得多维时间特征值的一示意图；

图6是本发明实施例的通过一次卷积操作获得一维时间-空间特征值的一示意图；

图7是本发明实施例的通过RNN检测事件的一示意图；

图8是本发明实施例的视频中事件的检测装置的一示意图；

图9是本发明实施例的图像处理设备的一示意图。

具体实施方式

参照附图，通过下面的说明书，本发明实施例的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明实施例的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本发明的各种实施方式进行说明。这些实施方式只是示例性的，不是对本发明的限制。

在本发明实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本发明实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

在本发明实施例中，将以交通领域的视频监控为例进行说明，但本发明不限于此，还可以适用于其他视频监控的场景。

实施例1

本发明实施例提供一种视频中事件的检测方法。图1是本发明实施例的视频中事件的检测方法的一示意图，如图1所示，所述检测方法包括：

步骤101，从视频中按照预定的时间间隔抽取出多个帧图像；

步骤102，为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；

步骤103，对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；

步骤104，基于所述帧图像的所述多个相邻帧，分别为所述每个帧图像提取所述帧图像的多维时间特征值；

步骤105，基于所述帧图像的多维空间特征值和多维时间特征值，分别为所述每个帧图像获取一维时间-空间特征值；以及

步骤106，基于所述多个帧图像的时间-空间特征值，检测所述视频中发生的事件。

在本实施例中，可以通过安装在监控场所的摄像头获得包括多帧图像的视频；例如十字路口附近的交通监控摄像头，或者加油站附近的监控摄像头，或者停车场附近的监控摄像头，或者高速公路附近的监控摄像头，等等。但本发明不限于此，可以采用视频监控领域的任意现有技术获得该视频。

在本实施例中，可以按照预定的时间间隔，从该视频中抽取出多个帧图像。例如该预定的时间间隔为N(单位例如可以为毫秒，但不限于此)，则可以每隔N从视频中抽取一帧图像。

图2是本发明实施例的抽取多个帧图像的一示意图，如图2所示，获取的视频可以包括多个时间上连续的帧，可以从这些帧中抽取出Frame(t)，Frame(t+N)，Frame(t+2N)，……等帧图像。

在本实施例中，对于抽取出的每个帧图像，可以利用卷积神经网络(CNN)提取所述帧图像的多维空间特征值。例如获得该帧图像的边缘图像(包含空间特征)，然后使用CNN对该边缘图像进行处理。关于CNN的具体内容可以参考相关技术，本发明不再赘述。

图3是本发明实施例的通过CNN获得多维空间特征值的一示意图，如图3所示，对于每一帧图像(例如Frame(t))，可以基于CNN从边缘图像获得多维空间特征值，例如Conv1，Pool1，Conv2，Pool2，Conv3，Pool3，Conv4，Pool4，Conv5，Pool5，……。

例如，可以设置CNN的卷积滤波参数，不同的迭代参数可以获得不同的空间特征，每个空间特征可以对应一个平面，卷积滤波后的多个特征可以由多个平面叠加而成，从而形成立体的多维空间特征值，例如该多维空间特征值可以用长方体或立方体表示；但不限于此。

在本实施例，对于每个抽取出的帧图像，可以分别选择预定时间窗口内的多个相邻帧。例如对于帧图像Frame(t)，可以为其选择多个相邻帧。

图4是本发明实施例的选择多个相邻帧的一示意图。如图4所示，如果预定时间窗口为L(单位例如可以为毫秒，但不限于此)，则可以为该帧图像Frame(t)选择Frame(t-L/2)，Frame(t-L/2+1)，……，Frame(t+L/2-1)共L个相邻帧(例如包括该帧图像本身)。

在本实施例中，针对被选择了多个相邻帧的某一帧图像，可以计算所述帧图像中每个像素在所述多个相邻帧中的运动轨迹或者光流，以获得所述帧图像所对应的光流图。并且，可以利用卷积神经网络(CNN)从所述光流图(包含时间特征)中提取出所述帧图像的多维时间特征值。

例如，光流是物体运动在时域上的显著信息，可以利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性找到上一帧与当前帧之间的对应关系，相邻帧之间的这种对应关系可以看作物体的运动信息。光流图像例如可以使用OpenCV库函数中的calcOpticalFlowFarneback()计算生成，此外还可以进行其他适当的处理。关于具体如何计算光流图，可以参考相关技术。

图5是本发明实施例的通过CNN获得多维时间特征值的一示意图，如图5所示，对于每一帧图像(例如Frame(t))，可以基于CNN从光流图中获得多维时间特征值，例如Conv1，Pool1，Conv2，Pool2，Conv3，Pool3，Conv4，Pool4，Conv5，Pool5，……。

例如，可以设置CNN的卷积滤波参数，不同的迭代参数可以获得不同的时间特征，每个时间特征可以对应一个平面，卷积滤波后的多个特征可以由多个平面叠加而成，从而形成立体的多维时间特征值，例如该多维时间特征值可以用长方体或立方体表示；但不限于此。

在本实施例中，可以将所述帧图像所对应的多维空间特征值和多维时间特征值进行叠加；并对叠加后的多维特征值进行一次卷积处理，以获取所述一维时间-空间特征值。

图6是本发明实施例的通过一次卷积操作获得一维时间-空间特征值的一示意图，如图6所示，对于每个帧图像(例如Frame(t))，可以将该帧图像对应的多维空间特征值和多维时间特征值进行叠加(或者也称为融合，等等)，然后使用一次卷积操作转换成一维向量Conv6，Pool6，Fc7。

由此，对于每一个抽取出的帧图像，均可以计算出一维的时间-空间特征值。

在本实施例中，可以利用循环神经网络(RNN，Recurrent Neural Networks)对多个所述帧图像的所述时间-空间特征值进行处理，以获得所述监控视频中发生的事件信息。

图7是本发明实施例的通过RNN检测事件的一示意图，如图7所示，每个抽取出的帧图像所对应的一维时间-空间特征值可以被输入到一个LSTM(Long Short Term Memory)模块中。对应于时间上连续的多个抽取出的帧图像，可以连续地输出视频的描述，即检测出视频中的事件。

例如，LSTM是一种循环神经网络，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。但本发明不限于此，例如还可以采用其他的方法进行视频中事件的检测。

值得注意的是，以上图1仅对本发明实施例进行了示意性说明，但本发明不限于此。例如可以适当地调整各个步骤之间的执行顺序，此外还可以增加其他的一些步骤或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附图1的记载。

此外，附图2至7示意性地对本发明实施例进行了说明，但本发明不限于此。例如本发明实施例以CNN，RNN，LSTM为例进行了说明，但也可以采用其他的方法来计算多维时间特征值和多维空间特征值，并检测视频中的事件信息。

由上述实施例可知，通过从视频中抽取出多个帧图像，将每个帧图像的多维空间特征值和多维时间特征值融合成一维时间-空间特征值，并基于所述多个帧图像的时间-空间特征值检测所述视频中的事件；由此，不仅可以准确地检测出视频中发生的事件，并且能够满足视频监控的实时性要求。

实施例2

本发明实施例提供一种视频中事件的检测装置，该检测装置可以是安装有摄像头的图像处理设备，也可以是该图像处理设备的某个或某些部件或组件。本发明实施例对应于实施例1的视频中事件的检测方法，相同的内容不再赘述。

图8是本发明实施例的视频中事件的检测装置的一示意图，如图8所示，视频中事件的检测装置800包括：

图像抽取单元801，其从视频中按照预定的时间间隔抽取出多个帧图像；

空间特征提取单元802，其为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；

相邻帧选择单元803，其对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；

时间特征提取单元804，其基于所述帧图像的所述多个相邻帧，分别为所述每个帧图像提取所述帧图像的多维时间特征值；

时空特征获取单元805，其基于所述帧图像的多维空间特征值和多维时间特征值，分别为所述每个帧图像获取一维时间-空间特征值；以及

事件检测单元806，其基于所述多个帧图像的时间-空间特征值，检测所述视频中发生的事件。

在本实施例中，所述空间特征提取单元802可以利用卷积神经网络(CNN)提取所述帧图像的多维空间特征值。

如图8所示，视频中事件的检测装置800还可以包括：

运动信息计算单元807，其针对被选择了多个相邻帧的某一帧图像，计算所述帧图像中每个像素在所述多个相邻帧中的运动轨迹或者光流，以获得所述帧图像所对应的光流图。

其中，所述时间特征提取单元804还可以利用卷积神经网络从所述光流图中提取出所述帧图像的多维时间特征值。

在本实施例中，所述时空特征获取单元805可以将所述帧图像所对应的多维空间特征值和多维时间特征值进行叠加；并对叠加后的多维特征值进行一次卷积处理，以获取所述一维时间-空间特征值。

在本实施例中，所述事件检测单元806可以利用循环神经网络(RNN)对所述多个帧图像的时间-空间特征值进行处理，以获得所述视频中发生的事件信息。

值得注意的是，以上仅对与本发明相关的各部件或模块进行了说明，但本发明不限于此，对于视频中事件的检测装置的其他部件或模块，还可以参考相关技术。

实施例3

本发明实施例还提供一种图像处理设备，包括有如实施例2所述的视频中事件的检测装置，其内容被合并于此。该图像处理设备例如可以是计算机、服务器、工作站、膝上型计算机、智能手机，等等；但本发明不限于此。

图9是本发明实施例的图像处理设备的一示意图。如图9所示，图像处理设备900可以包括：处理器(例如中央处理器CPU)910和存储器920；存储器920耦合到中央处理器910。其中该存储器920可存储各种数据；此外还存储信息处理的程序921，并且在处理器910的控制下执行该程序921。

在一个实施方式中，视频中事件的检测装置800的功能可以被集成到处理器910中。其中，处理器910可以被配置为实现如实施例1所述的视频中事件的检测方法。

在另一个实施方式中，视频中事件的检测装置800可以与处理器910分开配置，例如可以将视频中事件的检测装置800配置为与处理器910连接的芯片，通过处理器910的控制来实现视频中事件的检测装置800的功能。

例如，处理器910可以被配置为进行如下的控制：从视频中按照预定的时间间隔抽取出多个帧图像；为抽取出的每个帧图像分别提取所述帧图像的多维空间特征值；对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；基于所述帧图像的所述多个相邻帧，为所述每个帧图像分别提取所述帧图像的多维时间特征值；基于所述帧图像的多维空间特征值和多维时间特征值，为所述每个帧图像分别获取一维时间-空间特征值；以及基于所述多个帧图像的时间-空间特征值，检测所述视频中发生的事件。

在一个实施方式中，处理器910还可以被配置为进行如下的控制：利用卷积神经网络提取所述帧图像的多维空间特征值。

在一个实施方式中，处理器910还可以被配置为进行如下的控制：针对被选择了多个相邻帧的某一帧图像，计算所述帧图像中每个像素在所述多个相邻帧中的运动轨迹或者光流，以获得所述帧图像所对应的光流图。

在一个实施方式中，处理器910还可以被配置为进行如下的控制：利用卷积神经网络从所述光流图中提取出所述帧图像的多维时间特征值。

在一个实施方式中，处理器910还可以被配置为进行如下的控制：将所述帧图像所对应的多维空间特征值和多维时间特征值进行叠加；并对叠加后的多维特征值进行一次卷积处理，以获取所述一维时间-空间特征值。

在一个实施方式中，处理器910还可以被配置为进行如下的控制：利用循环神经网络对所述多个帧图像的时间-空间特征值进行处理，以获得所述视频中发生的事件信息。

此外，如图9所示，图像处理设备900还可以包括：输入输出(I/O)设备930和显示器940等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，图像处理设备900也并不是必须要包括图9中所示的所有部件；此外，图像处理设备900还可以包括图9中没有示出的部件，可以参考现有技术。

本发明实施例还提供一种计算机可读程序，其中当在图像处理设备中执行所述程序时，所述程序使得计算机在所述图像处理设备中执行实施例1所述的视频中事件的检测方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在图像处理设备中执行实施例1所述的视频中事件的检测方法。

本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本发明实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图8中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合(例如，图像抽取单元801，空间特征提取单元802，相邻帧选择单元803，时间特征提取单元804，时空特征获取单元805，事件检测单元806)，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

1.一种视频中事件的检测装置，其特征在于：所述检测装置包括：

2.根据权利要求1所述的检测装置，其中，所述空间特征提取单元利用卷积神经网络提取所述帧图像的多维空间特征值。

3.根据权利要求1所述的检测装置，其中，所述检测装置还包括：

运动信息计算单元，其针对被选择了多个相邻帧的某一帧图像，计算所述帧图像中每个像素在所述多个相邻帧中的运动轨迹或者光流，以获得所述帧图像所对应的光流图。

4.根据权利要求3所述的检测装置，其中，所述时间特征提取单元利用卷积神经网络从所述光流图中提取出所述帧图像的多维时间特征值。

5.根据权利要求1所述的检测装置，其中，所述时空特征获取单元将所述帧图像所对应的多维空间特征值和多维时间特征值进行叠加；并对叠加后的多维特征值进行一次卷积处理，以获取所述一维时间-空间特征值。

6.根据权利要求1所述的检测装置，其中，所述事件检测单元利用循环神经网络对所述多个帧图像的所述时间-空间特征值进行处理，以获得所述视频中发生的事件信息。

7.一种视频中事件的检测方法，其特征在于：所述检测方法包括：

从视频中按照预定的时间间隔抽取出多个帧图像；

对所述每个帧图像分别选择预定时间窗口内的多个相邻帧；

8.根据权利要求7所述的检测方法，其中，所述检测方法还包括：

针对被选择了多个相邻帧的某一帧图像，计算所述帧图像中每个像素在所述多个相邻帧中的运动轨迹或者光流，以获得所述帧图像所对应的光流图。

9.根据权利要求7所述的检测方法，其中，分别为所述每个帧图像获取一维时间-空间特征值包括：

将所述帧图像对应的多维空间特征值和多维时间特征值进行叠加；

对叠加后的多维特征值进行一次卷积处理，以获取所述一维时间-空间特征值。

10.一种图像处理设备，其特征在于，所述图像处理设备包括如权利要求1至6任一项所述的视频中事件的检测装置。