CN108875931A

CN108875931A - 神经网络训练及图像处理方法、装置、系统

Info

Publication number: CN108875931A
Application number: CN201711283718.6A
Authority: CN
Inventors: 赵子健; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-11-23
Anticipated expiration: 2037-12-06
Also published as: CN108875931B

Abstract

本发明提供了一种神经网络训练及图像处理方法、装置、系统，涉及视频提取技术领域，其中，该神经网络训练方法包括：首先，利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图，之后，将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值，之后，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，从而使经过调整后的网络参数更加适合关键帧的提取，解决了现有技术中关键帧提取时的无法适应视频内容的变化、无法借助高层的语义信息等的问题，使关键帧提取更加快速有效。

Description

神经网络训练及图像处理方法、装置、系统

技术领域

本发明涉及视频提取技术领域，尤其是涉及一种神经网络训练及图像处理方法、装置、系统。

背景技术

在视频处理和分析过程中，需要选取其中的一些视频帧作为关键帧，之后，将关键帧作为处理和分析的对象，即关键帧提取是在一组镜头内高度冗余的连续多帧中提取具有代表性并且质量高的少数帧来保存或分析，从而降低存储空间和计算量。

目前，常见的关键帧提取的方法有：(1)固定步长采样方法，该方法虽实现简单，但是，固定的步长无法适应视频内容的变化；(2)基于变化阈值的帧差方法，该方法无法保证提取高质量的关键帧；(3)基于运动光流的关键帧选择，该方法依赖于光流计算的准确度，并且，是一种非可学习的方法；(4)基于聚类的选择方法，该方法是一种非监督方法，而且，对异常帧较为敏感，但是，无法借助高层的语义信息来进行分析。可见，现有的提取方法都无法快速有效的从视频中提取出关键帧。

针对上述问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供了神经网络训练及图像处理方法、装置、系统，增加了关键帧提取的可靠性。

第一方面，本发明实施例提供了一种神经网络训练方法，包括：

利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图；

将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值；

根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，3D卷积神经网络中，每一层的3D卷积核为五维数组，每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。

结合第一方面第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，具体包括：

以M个概率值作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏；

根据每一帧输入图像的奖赏，通过策略梯度调整3D卷积神经网络的网络参数。

结合第一方面第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，具体包括：

以M个概率值π(a_m|θ)作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏R_m，其中，a_m表示选取第m帧作为关键帧的动作，θ为网络参数；

对每一帧输入图像的奖赏R_m进行降低方差处理，获得降低方差后的奖赏R_m-b，其中，

基于3D卷积神经网络的目标函数

以及目标函数对网络参数θ的偏导数

通过策略梯度算法，梯度反向传播，来更新各层网络参数θ。

结合第一方面第一种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图之前，还包括：

获取镜头片段中的N帧输入图像；

按照预设的间隔从N帧输入图像中提取出M帧图像。

结合第一方面第一种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，具体包括：

按照M个概率值π(a_m|θ)将M帧图像构成多项式分布；

从M帧图像中抽取出K帧图像；

基于3D卷积神经网络的目标函数

以及目标函数对网络参数θ的偏导数

通过策略梯度算法，梯度反向传播，更新各层网络参数θ。

第二方面，本发明实施例还提供一种图像处理方法，包括：

选取概率值高于预设阈值的输入图像作为关键帧。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，3D卷积神经网络中，每一层的3D卷积核为五维数组，每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，需要选取一个关键帧时，预设阈值为0.5；

需要选取两个以上关键帧时，预设阈值为0.3。

第三方面，本发明实施例还提供一种神经网络训练装置，包括：

3D卷积模块，用于利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图；

概率值获取模块，用于将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值；

网络参数调整模块，用于根据M个概率值以及应用端对M帧图像的评分，对3D卷积神经网络的网络参数进行调整。

第四方面，本发明实施例还提供一种关键帧提取装置，包括：

关键帧提取模块，用于选取概率值高于预设阈值的输入图像作为关键帧。

第五方面，本发明实施例还提供一种图像处理系统，包括：图像采集装置、处理器和存储装置；

图像采集装置，用于采集待识别的图像信息；

存储装置上存储有计算机程序，计算机程序在被处理器运行时执行上述的方法。

第六方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述任一项方法的步骤。

本发明实施例带来了以下有益效果：本发明实施例提供的神经网络训练方法中，经过3D卷积处理M帧图像并获得M帧图像的特征图，从而能够从连续的视频帧中获得多通道的信息，之后，通过归一化指数函数获得与M帧图像中每一帧图像为关键帧的概率值，分别通过各个概率值的大小来衡量每一帧图像为关键帧的可能性，从而有效的比较出了第m帧作为输出的概率，之后，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，从而获取更加可靠的关键帧提取模型，这样，在进行关键帧提取时，能够预先通过3D卷积处理获取图像的特征图，以及通过归一化指数函数获取到每一帧图像为关键帧的概率值，并结合上述概率值获得的评分对3D卷积神经网络的网络参数进行调整，使得网络参数在修正后更加适合关键帧的提取，并以此构建更加可靠的关键帧提取模型，从而使提取出的关键帧更加有效可靠。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的电子设备的示意图；

图2为本发明实施例二提供的神经网络训练方法的流程图；

图3为本发明实施例三提供的图像处理方法的流程图；

图4为本发明实施例四提供的神经网络训练装置的示意图；

图5为本发明实施例五提供的图像处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，常见的关键帧提取的方法有：固定步长采样方法、基于变化阈值的帧差方法、基于运动光流的关键帧选择方法和基于聚类的选择方法等，但是，现有的关键帧提取方法在从视频中进行提取时存在各种各样的问题，基于此，本发明实施例提供的一种神经网络训练及图像处理方法、装置、系统，可以从一段视频中快速高效的提取出视频帧。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种神经网络训练方法的示例电子设备进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种神经网络训练方法的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制电子设备100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行程序指令，以实现下文的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集器110可以采集待识别的图像信息，并且将采集到的图像信息存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的神经网络训练方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。

实施例二：

本发明实施例提供了一种神经网络训练方法。

根据本发明实施例，提供了一种神经网络训练方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图2所示，本发明实施例的神经网络训练方法具体包括如下步骤：

步骤S101：利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图。

神经网络训练方法包含如下三个步骤：1.镜头图像采样及尺度缩放；2.3D卷积神经网络特征提取及打分；3.视频片段应用端(在实施过程中，应用端通常指显示器、监控装置、投影仪等具备视频显示功能的显示设备)评价与网络训练。

在实施过程中，先将需要提取关键帧的视频片段进行采样，具体的，在该步骤S101利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图之前，还包括：先获取视频片段中的N帧输入图像，再按照预设的间隔从N帧输入图像中提取出M帧图像。需要进行说明的是，预设的间隔可根据使用场景进行灵活设定。从N帧中采样出M帧(需要进行说明的是，N取决于视频片段长度，M为固定常数)，然后，将采样出来的M帧图片缩放到固定尺寸(例如，长为S像素，宽为S像素)，得到的处理结果作为3D卷积神经网络的输入。

并且，M帧SxS像素的图片的通道数为C0(对于RBG图像C0＝3，对于灰度图像C0＝1)，这样将M帧图像作为3D卷积神经网络的输入。与2D卷积不同的是，3D卷积不仅在空间上进行卷积，而且，增加了时间维度上的卷积，计算结果更加准确直观。

需要进行说明的是，上述任一层3D卷积的输入输出均为5维数组，各个维度的尺寸分别为[N,D,H,W,C]，其中，N为该视频帧批量的大小，N为1时表示一个M帧视频；N为2时表示两个M帧视频。在训练阶段，N为设定的大于等于1的常数；D为时间轴上的深度；H和W分别为图像或特征图的高和宽；C为通道数。

相应的，在3D卷积神经网络中，每一层的3D卷积核为五维数组，每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数，各个维度的尺寸分别为[filter_depth,filter_height,filter_width,in_channels,out_channels]。

其中，这里移动步长是指filter_depth,filter_height,filter_width的步长，其数值可以根据需要进行取值。并且，3D卷积的卷积核移动步长为长度为3的整数列表，分别对应卷积核在输入输出特征图各个维度上的移动步长。

经过K个3D卷积操作后，最后一个3D卷积的卷积核在空间和时间上的三维尺度等于特征图在这三个维度上的尺度，也就是全局卷积操作，得到M维向量。

步骤S102：将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值。

具体的，上述M维向量通过归一化指数函数，得到M个概率值，分别表示每一帧为关键帧的可能性，概率通常用π(a_m|θ)来表示(a_m表示选取第m帧作为输出的动作，θ为网络参数，π(a_m|θ)为函数输出，即选取第m帧作为输出的概率)。在训练阶段使用各帧的概率值，作为输出。

步骤S103：根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整。

由于，关键帧提取是有不同的应用场景的，针对不同应用场景，提取侧重点也有所不同。针对不同应用场景分别进行训练是必要的，这也反映了该神经网络训练方法的灵活性与通用性，上述步骤S103具体包括：

(1)以M个概率值π(a_m|θ)作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏R_m；其中，a_m表示选取第m帧作为关键帧的动作，θ为网络参数。

(2)实际实施时，奖赏会有很大的方差，这样会导致强化学习的训练极为不稳定。本发明实施例使用平均基准作为方差降低的方法，即对每一帧输入图像的奖赏R_m进行降低方差处理，获得降低方差后的奖赏Rm-b；其中，

(3)基于3D卷积神经网络的目标函数

(4)以及目标函数对网络参数θ的偏导数

(5)通过策略梯度算法，梯度反向传播，来更新网络参数θ。

对于M较小时，直接求取各帧的奖赏的平均值是可取的；然而，对于M较大的情况，会带来过大的计算量。针对M较大的情况，具体实施时，包括以下步骤：

(1)以M个概率值π(a_m|θ)作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏R_m；其中，a_m表示选取第m帧作为关键帧的动作，θ为网络参数，

(2)按照M个概率值π(am|θ)将M帧图像构成多项式分布，即依据3D卷积神经网络特征提取及打分的结果概率值构成的Multinoulli分布。从M帧图像中抽取出K帧图像，即从M帧图像中采样抽取K帧图片(1<＝K<＝M)，计算这K帧图像的奖赏和平均基准，作为全集M帧图像的近似，从而减小了计算量。

(3)对每一帧输入图像的奖赏R_m进行降低方差处理，获得降低方差后的奖赏R_m-b；其中，

(4)基于3D卷积神经网络的目标函数

以及目标函数对网络参数θ的偏导数

(5)通过策略梯度算法，梯度反向传播，更新各层网络参数θ。

本发明实施例提供的神经网络训练方法包括：首先，利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图，之后，将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值，之后，根据M个概率值以及应用端对M帧图像序列的评分，对3D卷积神经网络的网络参数进行调整，通过上述处理过程实现了在进行神经网络训练时，能够融合空间及时序关系进行特征提取训练，从而使训练出的关键帧提取模型更加有效可靠。

实施例三：

本发明实施例提供了一种图像处理方法。

根据本发明实施例，提供了一种图像处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图3所示，本发明实施例的图像处理方法，具体包括如下步骤：

步骤S201：利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图。

图像处理方法包含如下三个步骤：1.镜头图像采样及尺度缩放；2.3D卷积神经网络特征提取及打分；3.关键帧的提取。

具体的，在该步骤S201中，先将需要提取关键帧的视频片段进行采样，具体的，在利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图之前，还包括：先获取镜头片段中的N帧输入图像，再按照预设的间隔从N帧输入图像中提取出M帧图像。需要进行说明的是，预设的间隔可根据使用场景进行灵活设定。从N帧中采样出M帧(需要进行说明的是，N取决于视频片段长度，M为固定常数)，然后，将采样出来的M帧图片缩放到固定尺寸(例如，长为S像素，宽为S像素)，得到的处理结果作为3D卷积神经网络的输入。

需要进行说明的是，上述任一层3D卷积的输入输出均为5维数组，各个维度的尺寸分别为[N,D,H,W,C]，其中，N为该视频帧批量的大小，N为1时表示一个M帧视频；N为2时表示两个M帧视频。在图像处理阶段，N为1；D为时间轴上的深度；H和W分别为图像或特征图的高和宽；C为通道数。

步骤S202：将M帧图像的特征图通过归一化指数函数，获得与M帧图像中每一帧图像为关键帧的概率值。

具体的，上述M维向量通过softmax层即归一化指数函数，得到M个概率值，分别表示每一帧为关键帧的可能性，概率通常用π(a_m|θ)来表示(a_m表示选取第m帧作为输出的动作，θ为网络参数，π(a_m|θ)为函数输出，即选取第m帧作为输出的概率)。

步骤S203：选取概率值高于预设阈值的输入图像作为关键帧。

具体的，在进行关键帧的提取过程中，需要事先设定一个阈值，需要说明的是，阈值的大小需要根据应用场景进行灵活设定，具体实施时，在图像处理阶段，选取超过阈值的分数所对应的图像帧为关键帧。当需要选取一个关键帧时，预设阈值为0.5，需要选取两个以上关键帧时，预设阈值为0.3。

本发明实施例提供的图像处理方法包括：首先，利用3D卷积神经网络对M帧图像进行3D卷积处理，获得M帧图像的特征图，之后，将M帧图像的特征图通过归一化指数函数，获得与M帧输入图像中每一帧图像为关键帧的概率值，之后，选取概率值高于预设阈值的输入图像作为关键帧，通过上述处理过程实现了提取视频中的关键帧的目的，从而解决了目前关键帧提取时的无法适应视频内容的变化、无法借助高层的语义信息等的问题，使关键帧的提取更加准确有效。

实施例四：

本发明实施例提供了一种神经网络训练装置。

根据本发明实施例，提供了一种神经网络训练装置的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图4所示，本发明实施例的一种神经网络训练装置，具体包括如下：

本发明实施例提供的神经网络训练装置，与上述实施例提供的神经网络训练装置具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例五：

本发明实施例提供了一种图像处理装置。

根据本发明实施例，提供了一种图像处理装置的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图5所示，本发明实施例提供的一种图像处理装置，具体包括如下：

本发明实施例提供的图像处理装置，与上述实施例提供的图像处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例六：

本发明实施例提供了一种图像处理系统。该图像处理系统主要用于执行本发明实施例上述内容所提供的神经网络训练方法，以下对本发明实施例提供的图像处理系统做具体介绍。

该图像处理系统主要包括：图像采集装置、处理器和存储装置；

图像采集装置，用于采集待识别的图像信息；

存储装置上存储有计算机程序，计算机程序在被处理器运行时执行上述实施例中所述的方法。

另外，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述任一项的方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个第一处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本视频提取技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，包括：

利用3D卷积神经网络对M帧图像进行3D卷积处理，获得所述M帧图像的特征图；

将所述M帧图像的特征图通过归一化指数函数，获得与所述M帧图像中每一帧图像为关键帧的概率值；

根据M个所述概率值以及应用端对所述M帧图像的评分，对所述3D卷积神经网络的网络参数进行调整。

2.根据权利要求1所述的方法，其特征在于，所述3D卷积神经网络中，每一层的3D卷积核为五维数组，每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述M个概率值以及应用端对所述M帧图像序列的评分，对所述3D卷积神经网络的网络参数进行调整，具体包括：

以所述M个概率值作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏；

根据每一帧输入图像的奖赏，通过策略梯度调整所述3D卷积神经网络的网络参数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述M个概率值以及应用端对所述M帧图像序列的评分，对所述3D卷积神经网络的网络参数进行调整，具体包括：

以所述M个概率值π(a_m|θ)作为权重，与每一帧输入图像的评分相乘，得到每一帧输入图像的奖赏R_m，其中，a_m表示选取第m帧作为关键帧的动作，θ为网络参数；

基于所述3D卷积神经网络的目标函数

以及目标函数对网络参数θ的偏导数

通过策略梯度算法，梯度反向传播，更新各层网络参数θ。

5.根据权利要求1所述的方法，其特征在于，所述利用3D卷积神经网络对M帧图像进行3D卷积处理，获得所述M帧图像的特征图之前，还包括：

获取N帧输入图像；

按照预设的间隔从所述N帧输入图像中提取出所述M帧图像。

6.根据权利要求2所述的方法，其特征在于，所述根据所述M个概率值以及应用端对所述M帧图像序列的评分，对所述3D卷积神经网络的网络参数进行调整，具体包括：

按照所述M个概率值π(a_m|θ)将所述M帧图像构成多项式分布；

从所述M帧图像中抽取出K帧图像；

基于所述3D卷积神经网络的目标函数

以及目标函数对网络参数θ的偏导数

通过策略梯度算法，梯度反向传播，更新各层网络参数θ。

7.一种图像处理方法，其特征在于，包括：

选取概率值高于预设阈值的输入图像作为关键帧。

8.根据权利要求7所述的方法，其特征在于，所述3D卷积神经网络中，每一层的3D卷积核为五维数组，每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。

9.根据权利要求7所述的方法，其特征在于，需要选取一个关键帧时，所述预设阈值为0.5；

需要选取两个以上关键帧时，所述预设阈值为0.3。

10.一种神经网络训练装置，其特征在于，包括：

3D卷积模块，用于利用3D卷积神经网络对M帧图像进行3D卷积处理，获得所述M帧图像的特征图；

概率值获取模块，用于将所述M帧图像的特征图通过归一化指数函数，获得与所述M帧图像中每一帧图像为关键帧的概率值；

网络参数调整模块，用于根据M个所述概率值以及应用端对所述M帧图像的评分，对所述3D卷积神经网络的网络参数进行调整。

11.一种图像处理装置，其特征在于，包括：

12.一种图像处理系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集待识别的图像信息；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至6或7至9中任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被运行时执行上述权利要求1至6或7至9任一项所述的方法的步骤。