CN108875555B

CN108875555B - 基于神经网络的视频兴趣区域和显著目标提取与定位系统

Info

Publication number: CN108875555B
Application number: CN201810381362.8A
Authority: CN
Inventors: 王常勇; 周瑾; 韩久琦; 柯昂; 徐葛森; 张华亮
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2022-02-25
Anticipated expiration: 2038-04-25
Also published as: CN108875555A

Abstract

本发明公开了一种基于神经网络的视频兴趣区域和显著目标提取与定位系统，包括：系统参数初始化模块，其用来设定或随机生成初始值；脉冲神经网络构建模块，其用来自动生成多尺度脉冲神经网络；视频信息读入模块，其用来将视频读入为连续数据流；视频帧描述模块，其用来将连续数据流生成为视频帧描述；超像素区域分割模块，其用来将每个视频帧分割为不同尺度的视频帧区域；区域显著值计算模块，其用来计算不同尺度的视频帧区域的显著值分布图；不同尺度显著值融合模块，其用来对若干显著值分布图进行融合；以及结果输出模块，其用来输出最终显著值分布图并。该系统可以提高视频数据的利用率。

Description

基于神经网络的视频兴趣区域和显著目标提取与定位系统

技术领域

本发明涉及于视频处理和分析领域，特别涉及一种基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统。

背景技术

监控、摄像、互联网等技术的飞速进步和普及，产生了海量视频信息，特别是共享经济、人工智能等概念的普及，使得视频信息快速智能分析日渐成为目前机器视觉与智能系统研究与开发的热点，视频信息的分析研究成果可为现代工业、商业提供重要保障，也为艺术、交通、娱乐等领域技术的革新和普及提供了可能。

随着枪式、球式、便携式摄像头等各类型视频采集设备的普及，视频信息的获取成本快速下降，大大降低了视频信息采集与分析的门槛，特别是在人流量大的公共场所，如车站、商场等，各类视频采集设备不断地在产生包含行人、物体、场景等对象各类信息的视频数据。尤其是当前互联网技术和共享精神的普及，可由视频得到的各类信息数量正在以前所未有的速度飞速增长。以32位真彩色编码的1080p视频为例，一段1分钟的短视频在未压缩之前的大小就超过了6G，巨大的数据量对处理和分析系统的实时性和准确性要求极高。一个高速、稳定的视频处理和分析系统可以加快视频中有用信息的甄别速度、提高视频的有效利用率、减少人员不必要的负担，进而为突发事件、群体事件、犯罪行为等提供重要信息支持，节省宝贵时间。此外，一个快速、智能的视频处理和分析系统可以准确从非结构化的视频数据中提取出感兴趣的区域和目标，进而为视频编辑、辅助驾驶、商品推荐、目标锁定等任务减少时间和人力成本，并提高下游系统的分析准确率，为革新多种惠及人民群众的使用技术提供便捷之路。

但是，由于视频是由时间序列上连续的图像流组成，因此传统的视频处理和分析系统多采用成熟的图像处理技术。然而，图像分析系统对实时性的要求较低，处理技术中经常包含过多复杂特征，这些特征的计算需要巨大的计算量，严重减缓了系统的运行速度，不适合于视频等对时效性要求较高的任务。同时，利用简单特征的经典图像处理算法多在一个固定尺度下采用像素密度、颜色分布等空域和谱域信息来提取图像中的显著目标，并未考虑不同尺度下物体的特征变化情况。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，可实时地对获取到的场景视频进行快速处理和分析，有效降低海量视频信息判读的成本，提高视频数据的利用率。

为实现上述目的，本发明提供了一种基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，包括：系统参数初始化模块，其用来根据外部输入指令或缺省默认设置为系统设定或随机生成初始值；脉冲神经网络构建模块，其用来基于所述系统参数初始化模块中定义的初始值自动生成多尺度脉冲神经网络；视频信息读入模块，其用来将不同编码格式、多种色彩制式或任意分辨率大小的视频读入为统一制式和统一分辨率的连续数据流；视频帧描述模块，其用来将所述连续数据流生成为视频帧描述；超像素区域分割模块，其用来将所述视频帧描述模块描述的每个视频帧分割为若干组互不重叠的不同尺度的视频帧区域并将所述不同尺度的视频帧区域自动对应的输入至所述多尺度脉冲神经网络中；区域显著值计算模块，其用来基于所述多尺度脉冲神经网络计算所述不同尺度的视频帧区域的显著值分布图；不同尺度显著值融合模块，其用来对若干所述显著值分布图进行融合，得到与原始视频帧相同尺度的基础显著值分布图；以及结果输出模块，其用来将所述基础显著值分布图通过计算后得到最终显著值分布图并输出。本方案中，视频信息读入模块根据视频数据的制式、编码算法、分辨率、压缩率等信息，将视频格式的文件自动读取为数值编码的连续数据流，然后通过数据线或程序内部接口传输给帧描述模块。系统参数初始化模块根据外部输入指令或缺省默认设置，为系统中各项超参数设定或随机生成初始值，并将数值通过内部程序接口赋给各功能模块。

视频帧描述模块可以将数值编码的连续数据流生成为在不同尺度、不同颜色空间下的视频帧描述。在颜色空间方面，除了基础的颜色空间，本模块还可通过数值运算得到连续数据流在额外颜色空间下的像素值。对于不同尺度，除了以视频数据的分辨率为基准的最大尺度以及以一个像素为基准的最小尺度，本模块可以根据系统设定的尺度，自适应确定它对应的像素个数，进而生成连续数据流在设定的尺度下的视频帧描述。

视频帧超像素区域分割模块的主要特征是通过构建视频帧描述的超像素图，在超像素图的基础上实现区域分割。它可以根据设定的分割块数目等超参数，自适应确定超像素分割阈值，将视频帧描述预分割为若干块。然后将这些块视作节点，块之间的像素差异、空间距离等关联信息视作边权重，建立一个超像素区域图。之后基于构建的超像素区域图，结合设定的超参数，依照图论技术，将节点进行组合，进而生成超像素区域分割结果。最后，根据设定的超参数，生成不同尺度视频帧区域的分割结果。

脉冲神经网络构建模块基于连续数值编码的经典人工神经网络，特别是网络内各节点之间的连接结构和连接权重信息，将输入、输出以及中间计算用的数值编码为脉冲信息，并利用波形、触发时刻等属性来描述脉冲信息。同时，将处理连续数值的经典人工神经元替换为处理脉冲信息的脉冲神经元。利用已学习到的经典网络的连接权重信息，或脉冲网络学习算法得到的连接权重信息，生成脉冲神经网络。以目前常用的卷积神经网络为例，其主要网络层包括卷积层、归一化层、池化层、全连接内积层等。基于已学习到的经典网络，此模块可通过两种方式实现脉冲编码的卷积神经网络：一种是保留已学习到的经典网络的神经元之间的连接结构和连接权重信息，将经典人工神经元替换为脉冲神经元，将数值编码替换为脉冲编码，并去除偏置等信息后，即可生成脉冲编码的卷积神经网络；二是保留已学习到的经典网络连接结构，定义一个神经网络并随机初始化神经元之间的连接权重信息，通过脉冲网络学习算法，得到最终的脉冲编码下的连接权重信息，实现脉冲编码的卷积脉冲神经网络。本模块还可利用生物实验得到的神经元响应模式和规律，生成模拟不同类型生物神经细胞的脉冲神经元。

区域显著值计算模块基于上述脉冲神经网络构建模块生成的以不同尺度视频帧区域为输入的多尺度脉冲神经网络，将不同尺度的视频帧区域输入对应尺度的脉冲神经网络中，通过多层脉冲神经元的计算，提取不同尺度视频帧区域内的特征，并根据已有的分类标签信息，判别不同尺度视频帧区域的类别，进而计算不同尺度视频帧区域的显著值分布图。

不同尺度显著值融合模块基于上述区域显著值计算模块得到的不同尺度视频帧区域的显著值分布图，通过一个多层的全连接脉冲神经网络，将不同尺度视频帧区域的显著值分布图映射、融合为一个与原始视频帧相同尺度的基础显著值分布图。

结果输出模块基于上述不同尺度显著值融合模块得到的基础显著值分布图，通过数据对齐、归一化等计算，得到最终显著值分布图，进而利用最终显著值分布图提取和定位视频帧中的兴趣区域和显著目标，并进行保存并输出结果。

优选地，视频信息读入模块用来将avi、rmvb、mp4或wmv编码格式的视频统一以RGB三通道、双精度编码的数据读入。

优选地，视频帧描述模块以多通道的颜色空间描述帧信息。

与现有技术相比，本发明具有如下有益效果：通过神经网络结构搭建与脉冲编码和计算技术，组建了一个多尺度的脉冲神经网络，并将其用于视频的快速处理和分析。通过与视频数据获取与传输设备、专用图形和数字信号处理器、以及供电设备等硬件结合，该系统可实时地对获取到的场景视频进行快速处理和分析，提取并定位其中的显著目标，然后通过有线或无线网络、蓝牙等传输设备和技术，即可将视频中兴趣区域和显著目标的位置、大小等信息实时传输至后台控制中心或移动终端，有效降低了海量视频信息判读的人力、物力和时间成本，提高了视频数据的利用率，缩短了后续情报归纳、数据统计、策略生成等信息汇总、行动处置的反应时间。

附图说明

图1是根据本发明的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统的模块组成体系示意图；

图2是根据本发明的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统中超像素区域分割模块的内部处理流程图；

图3是根据本发明的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统中脉冲神经网络构建模块中脉冲神经元的输入输出响应和放电模式示意图；

图4是根据本发明的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统中脉冲神经网络构建模块的内部处理流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

图1是根据本本发明具体实施方式的一种基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统的模块组成体系示意图。如图1所示，该系统包括系统参数初始化模块101、帧描述模块104、超像素区域分割模块105、脉冲神经网络构建模块102、区域显著值计算模块106以及不同尺度显著值融合模块107，其中系统参数初始化模块101用来根据外部输入指令或缺省默认设置为系统设定或随机生成初始值，脉冲神经网络构建模块102用来基于系统参数初始化模块101中定义的初始值自动生成多尺度脉冲神经网络103，视频信息读入模块200用来将不同编码格式、多种色彩制式或任意分辨率大小的视频100读入为统一制式和统一分辨率的连续数据流。视频帧描述模块104用来将连续数据流生成为视频帧描述，超像素区域分割模块105用来将视频帧描述模块104描述的每个视频帧分割为若干组互不重叠的不同尺度的视频帧区域并将不同尺度的视频帧区域自动对应的输入至多尺度脉冲神经网络103中。区域显著值计算模块106用来基于多尺度脉冲神经网络103计算不同尺度的视频帧区域的显著值分布图，不同尺度显著值融合模块107用来对若干显著值分布图进行融合，得到与原始视频帧相同尺度的基础显著值分布图。最后，结果输出模块用来将基础显著值分布图通过计算后得到最终显著值分布图300并输出。

本系统的基本运算单元是脉冲神经元，它将时间序列上的脉冲信息进行加权组合，通过脉冲神经元的脉冲生成与发放规则，生成包含输入信息的脉冲序列，如图3所示。图3(a)是一种典型的离散方波信号，当以它作为输入时，脉冲神经元生成的脉冲，如图3(b)所示，它包含了输入信号的幅值、相位、时刻等信息。

本系统中的一个独特功能即为脉冲神经网络的自动生成，如图4所示。首先获得以连续数值编码的经典人工神经网络501，经典人工神经网络501信息包括网络层级数、每层神经元个数、神经元激活函数、连接结构和连接权重等信息。然后保留除神经元模型之外的所有信息，增加时间序列，将处理连续数值的经典神经元转换为处理脉冲信息的脉冲神经元。最后匹配神经元的输入输出与网络连接结构和连接权重等，将脉冲神经元嵌入网络中，从而自动完成脉冲神经网络的生成。

具体地，上述方案中，系统参数初始化模块101为帧描述模块104和脉冲神经网络构建模块102指定初始参数，视频信息读入模块200根据视频数据的制式、编码算法、分辨率、压缩率等信息，将视频格式的文件自动读取为数值编码的连续数据流，然后通过数据线或程序内部接口传输给帧描述模块，帧描述模块104为视频生成不同尺度、不同颜色空间下的视频帧描述，超像素区域分割模块105将视频帧描述分割为不同尺度视频帧区域以减少系统时间和空间复杂度，脉冲神经网络构建模块102自动生成以不同尺度帧区域为输入的多尺度脉冲神经网络103，用以在区域显著值计算模块106中计算不同尺度视频帧区域的显著值分布图，不同尺度显著值融合模块107则将多尺度脉冲神经网络得103到的显著值分布图进行融合，得到基础显著值分布图，并通过结果输出模块得到最终显著值分布图300，进而利用最终显著值分布图提取与定位视频中的兴趣区域和显著目标，模块之间通过系统内部接口进行数据交互。

超像素区域分割模块105通过图的方式，将视频帧描述预分割为超像素图像块，如图2所示。首先将预分割的超像素图像块作为节点，计算节点之间的相似度并将此相似度作为边的权重。然后，将所有边的权重按照非下降的方式进行排序。之后根据不同超像素图像块之间的最小内部差异，迭代进行超像素图像块的重组，最终形成不同尺度的视频帧区域。

区域显著值计算模块106以超像素区域分割模块105分割后的不同尺度视频帧区域为输入。利用脉冲神经网络构建模块102生成的脉冲神经网络501，将不同尺度视频帧区域输入脉冲神经网络的第一层，通过脉冲神经网络内脉冲神经元的计算，在脉冲神经网络输出层得到视频帧区域的语义和类别信息，进而在未分割视频帧中计算视频帧区域的显著值，得到不同尺度视频帧区域的显著值分布图。

不同尺度显著值融合模块107以区域显著值计算模块106输出的不同尺度视频帧区域的显著值分布图为输入。首先设计一个与所有尺度视频帧区域的总和尺度数为输入、与原始视频帧的尺度数为输出的全连接脉冲神经网络；其次，在标注数据上，对此全连接脉冲神经网络进行训练，得到此全连接脉冲神经网络的连接权重；再次，将区域显著值计算模块输出的不同尺度视频帧区域的显著值分布图作为输入；最后得到原始视频帧的基础显著值分布图。

综上，本实施例的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，通过神经网络结构搭建与脉冲编码和计算技术，组建了一个多尺度的脉冲神经网络，并将其用于视频的快速处理和分析。通过与视频数据获取与传输设备、专用图形和数字信号处理器、以及供电设备等硬件结合，该系统可实时地对获取到的场景视频进行快速处理和分析，提取并定位其中的显著目标，然后通过有线或无线网络、蓝牙等传输设备和技术，即可将视频中兴趣区域和显著目标的位置、大小等信息实时传输至后台控制中心或移动终端，有效降低了海量视频信息判读的人力、物力和时间成本，提高了视频数据的利用率，缩短了后续情报归纳、数据统计、策略生成等信息汇总、行动处置的反应时间。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，其特征在于，包括：

系统参数初始化模块，其用来根据外部输入指令或缺省默认设置为系统设定或随机生成初始值；

脉冲神经网络构建模块，其用来基于所述系统参数初始化模块中定义的初始值自动生成多尺度脉冲神经网络；

视频信息读入模块，其用来将不同编码格式、多种色彩制式或任意分辨率大小的视频读入为统一制式和统一分辨率的连续数据流；

视频帧描述模块，其用来将所述连续数据流生成为视频帧描述；

超像素区域分割模块，其用来将所述视频帧描述模块描述的每个视频帧分割为若干组互不重叠的不同尺度的视频帧区域并将所述不同尺度的视频帧区域自动对应的输入至所述多尺度脉冲神经网络中，所述超像素区域分割模块包括以下分割步骤：

首先将预分割的超像素图像块作为节点，计算节点之间的相似度并将此相似度作为边的权重；

然后将所有边的权重按照非下降的方式进行排序；及

之后根据不同超像素图像块之间的最小内部差异，迭代进行超像素图像块的重组，最终形成不同尺度的视频帧区域；

区域显著值计算模块，其用来基于所述多尺度脉冲神经网络计算所述不同尺度的视频帧区域的显著值分布图，所述区域显著值计算模块包括以下计算步骤：

首先以所述超像素区域分割模块分割后的所述不同尺度视频帧区域为输入；及

利用所述脉冲神经网络构建模块生成的脉冲神经网络，将所述不同尺度视频帧区域输入脉冲神经网络的第一层，通过脉冲神经网络内脉冲神经元的计算，在脉冲神经网络输出层得到视频帧区域的语义和类别信息，进而在未分割视频帧中计算视频帧区域的显著值，得到不同尺度视频帧区域的显著值分布图；

其中所述脉冲神经元的计算为：将时间序列上的脉冲信息进行加权组合，并通过脉冲神经元的脉冲生成与发放规则，生成包含输入信息的脉冲序列，所述脉冲序列为典型的离散方波信号，当以所述离散方波信号作为输入时，脉冲神经元生成的脉冲，所述脉冲包含输入信号的幅值、相位及时刻；

不同尺度显著值融合模块，其用来对若干所述显著值分布图进行融合，得到与原始视频帧相同尺度的基础显著值分布图，所述不同尺度显著值融合模块包括以下融合步骤：

以所述区域显著值计算模块输出的不同尺度视频帧区域的所述显著值分布图为输入；

首先，设计一个与所有尺度视频帧区域的总和尺度数为输入、与原始视频帧的尺度数为输出的全连接脉冲神经网络；

其次，在标注数据上，对此全连接脉冲神经网络进行训练，得到此全连接脉冲神经网络的连接权重；

再次，将区域显著值计算模块输出的不同尺度视频帧区域的所述显著值分布图作为输入；及

最后得到原始视频帧的基础显著值分布图；以及

结果输出模块，其用来将所述基础显著值分布图通过计算后得到最终显著值分布图并输出；

其中所述脉冲神经网络的自动生成包括：

首先获得以连续数值编码的经典人工神经网络，所述经典人工神经网络包括网络层级数、每层神经元个数、神经元激活函数、网络连接结构及连接权重；

然后保留除神经元模型之外的所有信息，增加时间序列，将处理连续数值的经典神经元转换为处理脉冲信息的脉冲神经元；及

最后匹配神经元的输入输出与网络连接结构和连接权重，并将脉冲神经元嵌入网络中，从而自动完成所述脉冲神经网络的生成。

2.根据权利要求1所述的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，其特征在于，所述视频信息读入模块用来将avi、rmvb、mp4或wmv编码格式的视频统一以RGB三通道、双精度编码的数据读入。

3.根据权利要求1所述的基于多尺度脉冲神经网络的视频兴趣区域和显著目标提取与定位系统，其特征在于，所述视频帧描述模块以多通道的颜色空间描述帧信息。